為什么80%的碼農都做不了架構師?>>> ??
摘要:?如今,高性能計算已在不知不覺中滲透到人類生活的方方面面。從材料科學到石油勘探、金融市場、應急管理、醫學和互聯網等領域,高性能計算無一不大顯身手,幫助快速攻克各種疑難問題。
HPC(High Performance Computing,高性能計算)通常指將計算能力積聚,用并行計算方式解決更大規模的科學、工程和商業問題。如今,高性能計算已在不知不覺中滲透到人類生活的方方面面。從材料科學到石油勘探、金融市場、應急管理、醫學和互聯網等領域,高性能計算無一不大顯身手,幫助快速攻克各種疑難問題。
?
針對日益增長的?HPC?計算能力需求,阿里云在現有基礎設施之上推出了彈性高性能計算E-HPC產品,為用戶提供一站式的高性能計算服務的云平臺,即HPCaaS公有云服務。2017年10月12日,產品正式發布公測上線,截止到目前,已有三百多家來自國內外的高性能計算用戶在使用E-HPC公測資源,測試的應用主要集中在科學計算,AI/機器學習,設計/仿真/渲染等領域。
項目背景
由于高性能計算集群昂貴,緩慢的初期建設投資,包括集群的維護、升級,管理和一次性購買昂貴的軟件許可證的困難,如何“不用排隊,申請任意規模,有豐富可共享的計算軟件環境”成為高性能用戶普遍的訴求。另一方面,高性能計算用戶對計算性能,擴展性和并行效率的追求,使得他們無法快速擁抱云計算虛擬化的計算資源。
隨著云計算技術的逐漸成熟,高性能計算用戶對HPCaaS的需求變得越來越實際和迫切,HPCaaS包括使用集群服務器和存儲作為資源池的功能,用戶提交其作業請求的Web界面,以及可以在給定集群上并行調度大規模并行應用的能力,調度多個不同并行應用程序的智能調度機制,同時考慮到不同的應用程序性能特征以達到最大總體生產力。
為此,阿里云開發了自身IaaS云產品之上的高性能計算PaaS平臺,基于阿里云彈性計算ECS實例、異構計算EGS實例、超級計算集群SCC、虛擬專用網VPC、高可靠高可用的NAS存儲等組件,構建了一整套HPC用戶熟悉的并行計算軟件環境,用戶在阿里云公共云上申請集群資源,快速構建和安裝部署HPC需要的并行調度管理軟件、通訊庫、性能庫和一系列常用高性能計算應用,用戶通過熟悉的阿里云服務界面,不但得到了一個“獨享式”的云端超算中心資源,還同時繼承了阿里云產品的穩定,安全的品質和與其它阿里云產品打通的能力——這意味著用戶可以將HPC和阿里云大數據分析、數據可視化和AI產品結合使用,激發出更多的創新。
技術解析
阿里云彈性高性能計算E-HPC與傳統超算中心以及自建集群相比,提供了一種快捷、彈性、安全以及互通的公共云高性能計算服務。
?
- 快捷:快速創建基于阿里云ECS/EGS/SCC/VPC/NAS等資源的計算集群,根據用戶選擇快速構建運行時環境和豐富的支撐軟件棧;
- 彈性:根據計算負荷,時間和性能要求增減和釋放計算節點,存儲等資源,節約大量的CAPEX費用,包括但不限于硬件系統費用,永久軟件許可證費用,機房維護費用,運維人工費用等。由于使用的是阿里云彈性計算資源,可以是實現即買即用的任意規模組合和節點自動縮容擴容的功能;
- 安全:E-HPC是構建在阿里云IaaS產品之上的PaaS平臺,所以集成了阿里云產品的組合安全性,如VPC保證的網絡安全,ECS保證的計算安全和NAS保證的高可用高可靠存儲等;
- 互通:由于構建在阿里云IaaS資源之上,E-HPC和其它云產品可全面打通,例如通過云盤,共享存儲和VPC網絡安全交換數據,并可以和其它數據分析,可視化產品互通完成復雜的數值仿真和數據分析閉環。
?
此外在技術層面,阿里云彈性高性能計算E-HPC與傳統超算中心、自建物理?HPC集群、自建云服務器集群等相比較,可以分析得出其具有獨特的競爭優勢。
?
- E-HPC相比傳統超算中心:E-HPC按需要使用的規模購買,無需排期,即買即用;E-HPC機型種類多,可根據應用需求購置最適合的計算資源配比(如EGS實例);E-HPC充分復用阿里云產品,大大提高了數據安全性和高可用性。
- E-HPC相比自建物理HPC集群:E-HPC可節約巨量CAPEX投入,包括但不限于硬件系統費用/軟件許可證費用(多核,多節點)、服務器機房建設/電力和制冷費用、平日運作的維護支持費用;使用E-HPC無需顧慮硬件升級換代;E-HPC打通阿里云全系列產品,可擴展性極強。
- E-HPC相比自建云服務器集群:E-HPC提供方便的軟件管理服務,覆蓋HPC應用全部支撐軟件棧功能,并隨HPC共同體(OEM/OSV/ISV/用戶/開發者/開源社區)版本升級;E-HPC提供云端Elastic License的按需付費的軟件許可證調度機制,為用戶節約一次性購買成本,同時為ISV軟件廠商和個人軟件開發者提供了阿里云市場的新途徑,E-HPC還能夠提供集群節點根據負荷變化的自動伸縮服務。
?
阿里云彈性高性能計算E-HPC架構圖
場景應用
E-HPC是一個組合型產品,其計算節點有普通ECS實例、GPU加速EGS實例、超級計算集群SCC實例可供選擇。ECS實例地域覆蓋面廣,適合在全球各地域部署;EGS實例適合深度學習等支持并行加速應用的客戶使用;SCC實例提供RDMA網絡互聯,適合大規模集群,提高加速比。時下,有越來越多的中小企業和大企業需要普惠高性能計算來提供HPCaaS服務:
?
- 在季節性工作負載或對額外資源的彈性需求時;
- 在將IT業務云化,無需投資額外的基礎架構或增加等待工作隊列的時間時;
- 在希望通過統一平臺獲取行業應用軟件許可證資源時;
- 在需要支持多用戶隔離運行多個應用程序且快速獲得資源時。
?
阿里云的彈性高性能計算產品E-HPC構筑了HPCaaS的青藏高原。
市場解讀
阿里云E-HPC是建構于飛天系統上的原生云超級計算平臺,對底層計算,網絡和存儲的調用完全基于阿里云的飛天系統,采用OpenAPI接口,隨其它云產品功能和性能一起升級進化。
更為突出的是,E-HPC系統可以和阿里云神龍云服務器/SCC產品無縫對接,基于自研硬件的虛擬化2.0技術,同時具備物理機的性能和穩定性,并提供和ECS,EGS虛擬化異構資源的靈活對接,具備完全云特性,這一點是目前國內外云廠商都沒有的優勢,是真正的“云超算”。。
產品正在集成基于阿里云存儲的Lustre高性能并行文件系統, 接入更多主流高性能計算商業軟件彈性許可證管理,增強PaaS的云監控,性能優化和豐富的計費體系,正在對接各個細分領域的SaaS合作伙伴,真正打造普惠和專業的云上超算平臺。
彈性高性能計算E-HPC基于多年積累的阿里云飛天系統,其功能,性能和體感將隨各飛天產品的升級而普惠超算用戶,基于阿里云飛天架構開發的HPC軟件棧具有和云組間緊耦合,針對云平臺優化的特性,和在物理超算平臺上增加“云體驗”的所謂“超算云”相比,真正釋放了云計算的威力,可以說是毫無疑問地國內第一“云超算”產品。