云布道師
今天,能想到的或是想不到的領域,對容器和 Kubernetes 的需求都居高不減,使這項技術正在真正走向無處不在。
在 2023 云棲大會上,阿里云云原生產品線容器服務負責人易立關于容器服務 ACK 在本屆亞運會上應用的介紹,讓現場觀眾眼前一亮, “以杭州亞運會為例,作為云原生技術底座,為亞運一站通、亞運釘等眾多核心應用提供了高彈性、高可用、異地多中心的架構支持,確保了賽事系統萬無一失。”
阿里云容器服務 ACK 已經成長為企業的云原生應用操作系統,幫助越來越多的客戶實現智能化、數字化創新,包括自動駕駛、智能科研、金融科技等眾多新興領域。其覆蓋了從公共云、邊緣云、到本地數據中心的各個場景。讓所有需要云能力的地方,都有統一的容器基礎設施。
在過去一年,阿里云容器產品能力持續受到業界的廣泛認可。2023 年 9 月,在權威咨詢機構 Gartner 發布的容器管理魔力象限中,由于在公共云、專有云、混合云等環境完善的產品體系,阿里云成為全球領導者,亞洲唯一。在 2022 年 4 季度,Forrester 公共云開發與基礎設施平臺 Q4/22 評測中,阿里云是中國云原生開發者的最佳選擇。
智算時代已來,易立介紹了為助力企業構建現代化應用平臺,阿里云容器服務在高效云原生算力、高性能智算應用、智能化運維管理、可信基礎設施、分布式云架構 5 大核心方向帶來的產品能力全新升級。
新一代云原生算力,提升企業計算效能
更大規模:彈性算力池新突破
阿里云提供了豐富的彈性算力,包括 Intel/Amd/倚天 Arm 等多 CPU 架構,GPU/RDMA 等多種異構加速器,以及按量、Spot、節省計劃等多樣化的售賣形態。使用 ACK,客戶能夠最大化利用阿里云整體彈性算力池能力,根據自己的需求靈活選擇,增效降本。
ACK 集群支持托管節點池、虛擬節點兩種不同的數據面形態:
- 托管節點池,支持任何 ECS 裸金屬和虛擬機實例作為 K8s 工作節點,一個工作節點可以運行多個 Pod,全兼容 K8s語義,兼具靈活性與易用性。
- 虛擬節點,每個 Pod 運行在獨立的彈性容器實例 ECI 之中。每個 ECI 實例是一個獨立安全沙箱,具備高彈性、強隔離,免運維等特點。阿里云彈性計算基于 CIPU 可以統一生產 ECS 裸金屬實例、虛擬機實例和彈性容器實例。這意味這 ECI 支持彈性計算豐富的算力類型,具備充足的庫存保障。
今年 ACK 集群通過與彈性計算調度相互感知,可以更好調度 ECI 實例,支持將 K8s 對集群資源調度能力擴展到整個彈性算力池,確保了 ECS 節點池與虛擬節點的調度統一和能力一致,用戶無需修改現有 K8s 應用定義即可最大化使用云資源。
越來越多的客戶基于 ACK 集群,構建大規模微服務架構應用和大規模數據計算任務。同時為了滿足對集群規模增長的訴求,ACK 單集群最大支撐的節點從 10000 提升至 15000,ECI 實例從 20000 提升至 50000 實例。我們的控制面組件會根據數據面規模按需伸縮,保障穩定性。
更優性價比:倚天架構專屬優化
越來越多的 ACK 客戶選擇倚天芯片作為新算力選擇。客戶選擇倚天架構實例主要有如下三個原因:
- 高性價比:相比 G7 實例族,Web應用提升 50%,視頻編解碼提升 80%,Spark 任務提升 28%。
- 高吞吐:采用 Arm V9 架構,提供獨立物理核心,提供更確定性的性能;相比 G7 實例族,Web 應用吞吐提升 22%;Spark TPC-DS Benchmark 速度提升 15%。
- 專屬優化:容器鏡像服務 ACR 聯合基礎軟件團隊、龍蜥社區在制品中心,提供了面向倚天芯片專屬優化的基礎軟件及應用軟件鏡像。通過基于 AI 和專家知識庫的 KeenTune 為倚天架構提供專項參數調優。在主流場景中,優化后相比優化前性能提升 30%。
為了支持容器應用向倚天架構平滑切換,ACR 提供了多架構鏡像構建能力,支持一份源碼構建出包含 x86、Arm 架構的應用鏡像,同時 ACK 集群可以同時包含 Arm/x86 節點池或虛擬節點,讓客戶 K8s 應用在不同 CPU 架構下按需調度,逐步切換。
更高彈性:全新發布節點池即時彈性能力
最大化利用云的彈性能力是客戶對容器產品的重要訴求,易立也帶來了 ACK 的一項全新發布:“在阿里云上,容器服務每天有數百萬核的算力資源按需擴縮容,幫助客戶優化計算成本。今天,我們正式發布 ACK 節點池即時彈性能力”。
ACK 節點池即時彈性 Scaler 擁有以下特點:
- 更快的彈性速度:在 100 節點池的規模上,保持平均 45s 的端到端擴容速度,相比社區 Cluster Autoscaler 提升
60%。 - 支持用戶定義靈活的規格匹配策略:在社區的 Cluster Autoscaler 中,每個節點池中節點 CPU/Memory 規格是固定的,如需滿足不同需求需要創建多個節點池,會帶來配置管理復雜性、資源碎片引入的可能,并增加由于庫存不足導致彈性穩定性降低的風險。即時彈性 Scaler 支持用戶定義靈活的規格匹配策略,不同機型節點規格匹配條件下,系統會根據待調度的 Pending Pod 集合的資源請求和調度約束,及對 ECS 的庫存感知,生成優化的裝箱結果。這樣,只需一個節點池就可以完成對多規格、多可用區的節點彈性。在降低節點池配置復雜度的同時,減少了資源碎片,提升了彈性的成功率。
即時彈性完全兼容現有節點池能力和使用習慣,可以配合托管節點池實現節點的自動化運維。
更簡運維:ContainerOS 與全托管節點池結合
對于 K8s 集群,節點運維是保障系統穩定性與安全的重要日常工作,但是手工操作非常復雜繁瑣。
ACK 托管節點池支持節點的全生命周期自動運維,包括 CVE 高危漏洞自動修復、節點故障自愈、OS/ 節點組件自動升級,其中節點自愈成功率 98%;集群節點運維時間減少 90%。
ContainerOS 是龍蜥社區發布的面向容器優化的操作系統,采用不可變基礎設施理念構建,具備精簡、安全、可編程等特點。千節點彈性時間 P90 55s,相比 CentOS 等節點彈性時間降低 50%。
ContainerOS 與全托管節點池可以完美結合,進一步優化了節點池的彈性和可運維性,讓企業聚焦在自己的自身業務,而非 K8s 基礎設施維護。
更豐富場景:Serverless 容器為 AI 場景增效降本
對 Serverless Container 的支持是 K8s 演進的重要方向,基于 ECI 的 ACK Serverless 在客戶場景中得到了廣泛的應用。ACK、ECI 不但幫助微博熱搜,釘釘會議等在線應用的彈性伸縮,也在助力眾多 AI 和大數據客戶降本增效。
- 深勢科技基于基于 ACK 與 ECI 實現多地域部署AI科研平臺,免運維,按需創建實驗環境 ,支持大規模 AI 鏡像秒級拉取,資源利用率提升 30%。
- 米哈游基于 ACK 與 ECI,統一全球各區服大數據平臺架構,單日創建 200 萬 以上 ECI實例執行 Spark 計算任務。通過高效利用 ECI Spot 實例,整體資源成本下降 50%。
今年 ECI 彈性容器實例有四個重要發布:
- 普惠降本:新增「經濟型」規格,相比當前通用型價格下降 40%,面向成本敏感的Web應用、計算任務、開發測試等工作負載。此外現有通用型實例價格也將在近期下調,最高下降 15 %。
- 極致性能:計劃新增「性能增強型」規格,面對計算密集型業務場景,如科研、高性能計算、游戲,相比現有通用型實例,提供更高性能的算力、更具確定性的性能。
- 彈性加速:ECI 通過對用戶負載特征自學習和預測,實現底層資源的預調度,擴容速度提升至 7000 Pod/min,非常適于大規模數據任務處理場景。此外業界首家支持 GPU 驅動版本選擇,為 AI 應用提供更多靈活性的同時,冷啟動提速 60%。
- 靈活提效:ECI 今年發布了對倚天 Arm、AMD 架構的支持,ACK 也在近期上線了 Windows 容器支持,支持更加豐富的企業應用場景。并且發布對細粒度內存規格支持,幫助用戶精細化資源適配,消除空閑資源開銷。
云原生智算基礎設施,構筑高效現代應用平臺
全面支持靈駿集群,為大模型訓練提效
過去一年,AIGC/ 大語言模型無疑是 AI 領域最重要的進展。隨著大模型參數規模、訓練數據和上下文長度的增長,訓練大模型所消耗的計算量呈現指數級增長。
ACK 全面支持阿里云靈駿智算集群,為大規模分布式 AI 應用提供高性能、高效率的 Kubernetes 集群。ACK 提供了對靈駿高性能算力的全面支持,以及批量AI任務調度,數據集加速,GPU 可觀測與自愈等能力。
通過軟硬件協同設計與云原生架構優化,ACK 助力 PAI 靈駿智算方案高效利用強大的算力,為 AIGC、自動駕駛、金融、科研等眾多智算業務場景提效。
ACK 云原生 AI 套件增強,構筑企業專屬 AI 工程化平臺
ACK 去年推出云原生 AI 套件,幫助用戶基于 Kubernetes 充分利用阿里云上彈性算力,支持彈性訓練與推理等場景。在此之上既服務了阿里云 PAI、靈駿智算、通義千問等 AI 平臺與服務,也提供對開源 AI 框架和模型的容器化支持。
今年,針對大模型場景,AI套件新增了對開源大模型框架 DeepSpeed,Megatron-LM,TGI 的容器化支持與優化。通過云原生 AI 套件的調度優化與數據訪問加速,AI訓練速度提升 20%;大模型推理冷啟動速度提升 80%,數據訪問效率提升 30%。
ACK AI套件已被廣泛應用于眾多海內外企業,幫助客戶構建自己專屬的 AI 平臺,顯著提升 GPU 資源效率和 AI 工程效率。
- 國產 AI 繪畫工具「海藝 AI」:基于 Fluid 數據集加速和 AIACC 模型優化方案,推理性能提升 2 倍。
- 任意門 Soul:基于 ACK 構建近千卡規模 AI PaaS 平臺,開發迭代效率提升 2-5 倍。
ACK 集群調度器, 面向 AI /大數據負載優化擴展
ACK集群調度器基于 Koordinator 項目。它是基于阿里巴巴大規模混部實踐孵化出的開源 Kubernetes 調度器實現,可以統一、高效地支持微服務、大數據、AI 應用等多樣化的工作負載。其中我們針對 AI、大數據負載進行了如下優化和擴展:
-
在全面兼容 Kubernetes 現有調度能力基礎上提供批量任務的調度元語,如 Gang Scheduling,彈性配額、優先級調度等,可以與 Kubeflow,KubeDL 等社區項目無縫集成。
-
支持拓撲感知性能優化,根據 PCIe、NVSwitch,以及 RDMA 網卡等互聯鏈路的拓撲信息,自動選擇能夠提供最大通信帶寬的 GPU 卡組合,有效提升模型訓練效率。
-
支持對 GPU 的細粒度資源共享調度,有效提升模型推理場景 GPU 資源利用率。
近期我們與小紅書在社區合作,將發布 Hadoop Yarn 任務與 Kubernetes 負載混部的能力,進一步提升 Kubernetes 集群的資源效率。相關工作幫助小紅書 ACK 集群資源效率提升 10%。
我們也在推進 Koordinator 捐贈到 CNCF 基金會,保持項目長期健康的發展,也歡迎大家在社區共建。
智能自治體系,降低容器運維管理成本
ACK AIOps 智能產品助手,加速 K8s 問題定位與解決
Kubernetes 自身技術復雜性是阻礙企業客戶采用的一個重要因素。一旦 K8s 集群發生故障,對應用、集群、OS、云資源的問題排查,即使對經驗豐富的工程師也充滿挑戰。
ACK 全新升級容器 AIOps 套件,通過大模型結合專家系統的方式,讓管理員可以通過智能產品助手,使用自然語言與系統進行交互,加速 Kubernetes 問題定位與解決。
當問題發生時,AIOps 套件會采集上下文相關的 Kubernetes 對象與云資源的定義,狀態與拓撲信息。比如 Deployment,Pod 和關聯的節點等。以及相關的可觀測信息,如日志,監控,告警等。然后會基于大模型進行數據分析與歸集,給出當前問題的可能原因與修復方案。ACK 背后的大模型方案面對云原生開發和運維知識庫進行了調優,提升了問題分析的準確度。
用戶可以進一步利用智能診斷中的專家經驗系統,進行根因定位。現有 AIOps 套件包含 200+ 診斷項,覆蓋 Pod,節點,網絡等問題場景,可以對網絡抖動,內核死鎖、資源爭搶等問題進行深入排查。
除了用戶驅動的問題診斷,AIOps 套件也在加強對自動化巡檢和異常事件自動化實時處理,為集群穩定性、安全提供更加全面的防護,防患于未然。
ACK FinOps 套件全面升級,精細場景化分析與分攤策略
ACK 去年發布了 FinOps 成本管理套件,為企業管理員對 K8s 集群現了成本的“可見,可控,可優化”。在過去的一年中,FinOps 套件支持了不同行業的上百家客戶,其中:
- 乾象投資利用 FinOps 套件,優化應用配置,集群資源利用率提升 20% 成本節省超過 10 萬元/月。
- 極氪汽車通過 FinOps 套件實現混合云彈性降本,一年節省了數百萬 IT 成本。
今年,FinOps 套件全面升級,增加了更多場景化的分析與分攤策略,例如:在 AI 場景,可以基于 GPU 卡、顯存等維度進行成本可視化。此外,FinOps 套件還發布了一鍵資源浪費檢查功能,可以快速發現集群中空置的云盤、SLB 等未被使用的資源,讓集群的整體資源利用率進一步提升。
端容器安全,為構建可信 AI 應用護航
可信化應用交付增強,ACK 與 ACR 提供 DevSecOps 軟件供應鏈
軟件供應鏈安全是企業落地云原生技術的最大關切,Gartner 預計到 2025 年,全球 45% 的組織都會遭受過軟件供應鏈攻擊。
阿里云 ACK 和 ACR 服務提供 DevSecOps 最佳實踐,實現了從鏡像構建、分發到運行的自動化風險識別、阻斷與預防能力。幫助企業構建安全可信的軟件供應鏈。
DevSecOps 的實踐依賴研發、運維、安全團隊的深入協同,今年,我們推出了集群容器安全概覽,幫助企業安全管理員更好感知集群配置、應用鏡像、容器運行時的安全風險,讓供應鏈流程更加透明高效。
通過使用我們的 DevSecOps 供應鏈安全能力:著名的汽車制造商路特斯每月實現千次安全配置巡檢,預防高危風險配置上線;招聯金融基于供應鏈策略治理能力,在每日 CI/CD 流程中實現千次風險鏡的攔截阻斷,保障金融業務安全。
兩全其美:Sidecarless 與 Sidecar 模式融合的服務網格新形態
服務網格已經成為云原生應用的網絡基礎設施。阿里云服務網格 ASM 產品進行了全新的升級,成為業界首個發布托管式 Istio Ambient Mesh 的產品,提供對 Sidecarless 模式與 Sidecar 模式的融合支持。
經典服務網格架構采用 Sidecar 模式,需要為每個 Pod 注入 Envoy Proxy Sidecar,實現流量攔截與轉發。具備極高的靈活性,然而引入了額外的資源開源,增加了運維復雜性和與建聯時延。在 Sidecarless 模式下,L4 代理的能力被移到節點上 CNI 組件中,可選 L7 代理獨立于應用程序運行。應用程序無需重新部署即可享受服務網格帶來的安全加密,流量控制和可觀察性等功能。
在典型客戶場景中, 采用 Sidecarless 模型服務網格,可以減少資源開銷 60%,簡化運維成本 50%,降低時延 40%。
托管式 Istio Ambient Mesh 有效地降低服務網格技術復雜度,推動零信任網絡技術落地。
新推隱私增強型算力,護航可信 AI 應用構建
為解決企業對數據隱私日益關切,阿里云、達摩院操作系統實驗室與Intel和龍蜥社區一起,推出基于可信執行環境(TEE)的機密計算容器(Confidential Containers,簡稱CoCo)在云上的參考架構,結合可信軟件供應鏈、可信數據存儲,實現端到端安全可信容器運行環境,幫助企業抵御來自外部應用、云平臺,甚至企業內部的安全攻擊。
ACK 基于阿里云八代 Intel 實例所提供的 Trust Domain Extension TDX 技術,全新推出對機密容器以及機密虛擬機節點池支持。使用 TDX 技術,業務應用無需更改,即可部署到 TEE 之中,極大降低了技術門檻,為金融、醫療、大模型等數據應用,提供隱私增強型算力。
在AI時代,模型和數據成為企業核心業務資產。基于機密計算容器,阿里云基礎軟件、容器、以及英特爾團隊提供了可信AI應用一個演示方案。在這個示例架構中。應用、AI 模型和微調數據集都被加密存儲在云端服務中,在運行時由機密容器在 TEE 中對其進行解密后執行。
- 模型推理與微調過程安全可信,保障數據的機密性與完整性。
- 高性價比,基于 AMX 指令集優化,32 核 CPU 可以實現秒級 Stable Diffusion 出圖。
- 低損耗,TDX 帶來的性能給損耗可以控制在 3% 以內。
更簡單的跨云協同,讓業務管理更高效
ACK One Fleet 為不同地域的多個 K8s 集群提供了統一的控制平面,我們可以對公共云集群、邊緣云集群和本地數據中心集群,實現統一的集群管理,資源調度、應用交付以及備份恢復能力。
- 智聯招聘使用 ACK One 實現混合云負載感知彈性,使用 ECI 5 分鐘實現業務數萬核擴容。
- 極氪汽車使用 ACK One 統一管理數十個混合云 K8s 集群,提升安全水位和業務連續性,減少 25% 的資源用量,運維效率提高
80%。
在模擬仿真、科學計算等大規模數據計算工作流場景中,一個批次的計算可能需要數萬,甚至數十萬核算力,超出單地域的彈性供給能力,需要依賴跨地域的計算供給。在 IoT 以及醫療等場景中,海量數據分散在不同地域,需要具備就近計算能力。為此,ACK 推出全托管 Argo 工作流集群,具備事件驅動,大規模、免運維、低成本、跨地域等特點。 - Argo 工作流集群充分利用多 AZ、多地域的彈性算力,自動化利用 ECI Spot,有效降低資源成本。相比自建 Argo工作流系統,可實現 30% 的資源成本節省。
- 集群內建分布式數據緩存,提供更大的聚合讀取帶寬,數據吞吐相比直接訪問提高 15 倍。
- 集群提供優化 Argo 引擎,并行計算規模提升 10 倍。
泛生子使用全托管 Argo 工作流集群在 12 小時內完成處理數千例腫瘤基因樣本的處理,速度提升 50%,成本下降 30%。
阿里云容器服務 ACK,智算時代云原生基礎平臺
正如一個文明社會的科技水平取決于其對能源的利用能力,企業的智能化水平取決于其對算力的利用能力。云計算為智算時代帶來無限可能,阿里云容器服務以為企業構筑現代化應用平臺,最大化利用阿里云強大彈性算力為使命:
- 通過對多樣化算力的場景化高效利用,提升計算效能
- 通過彈性與調度,提升資源利用率;
- 通過智能自治,降低運維成本
- 通過最佳實踐與技術創新,提供端到端安全、可信運行環境