一直以來,龍蜥社區在 RISC-V 生態建設中持續投入,并積極貢獻上游社區。多位龍蜥社區成員在 RISC-V 國際基金會擔任主席/副主席角色,與來自阿里云、阿里達摩院、中興通訊、浪潮信息、中科院軟件所、字節跳動、Google、 MIT、Akeana 等企業的專家共同推動基金會 Datacenter SIG 的運作及相關標準的制定。
(圖/Datacenter SIG 6月月會分享)
近日,RISC-V 基金會 Datacenter SIG 月度會議于線上召開,來自阿里云、中興通訊、字節跳動等企業的郭任、賈云翔、宋卓、王子昂、朱友欣等 18 位委員及代表參會。在 Datacenter SIG 的 5 月[2]和 6 月[3]度會議中分別分享了阿里云在 X86 和 ARM 架構下 RAS、PMU 性能分析的實踐和經驗,提出了 4 個 Proposal 用于優化 RSIC-V 架構的 RAS 和 PMU,其中包括同步 RAS 錯誤處理,統一 uncore PMU 架構等,后續也將和基金會共同推進后續的工作開展。龍蜥社區還將與伙伴們持續推進 RISC-V 與云計算結合的場景,包括虛擬化、QoS、加速器等高性能軟硬件技術和生態的共同完善。
在 5 月月會上,RISC-V SIG 成員、阿里云技術專家薛帥分享了 X86 和 ARM 架構的云中 RAS(可靠性、可用性、可維護性)技術的經驗和實踐。他詳細介紹了全棧軟硬件協同技術解決方案(包括硬件、固件、內核和應用程序層)、RAS 工具的上游開源貢獻(包括開發工具和測試用例)、阿里云在故障預測方面的工作進展(參考 HPCA 2025 論文)以及與 NVIDIA 在與 GPU 相關的 RAS 優化方面的合作。針對 RISC-V?SSE 無法有效處理同步錯誤的問題,薛帥提出了兩項關于同步錯誤處理結合 RISC-V 的建議,并提議成立專項技術組(TG)。該建議是繼續促進 SIG 與各企業間的合作以提升 RISC-V RAS 技術能力,并進一步增強在規范、固件和內核層的支持。
在 6 月月會上,RISC-V SIG 成員、阿里云技術專家陳健康分享了 X86 和 ARM 架構的云中 PMU 技術的經驗和實踐。他詳細介紹了云計算場景下的性能分析挑戰和解決方案,包括處理復雜業務場景(如存儲、網絡、AI、電商等)的需求,以及在多架構硬件環境(X86/ARM/RISC-V)下的分析方法,并與參會嘉賓重點討論了 CPU 瓶頸分析和多架構支持,通過 Topdown 分析模型在不同架構上的應用,以及多平臺分析框架 PAS 的設計實現來解決性能分析問題。此外,陳健康還詳細介紹了先進的核心 PMU 特性,如 BRBE(用于優化數據庫服務前端性能)和 SPE(用于指令級精確采樣)等技術,并通過實際案例展示了這些技術在云環境中的應用,特別是在內存訪問延遲檢測和偽共享問題分析等方面的實踐。由于 RISC-V 對精確內存延遲采集的缺失以及 uncore PMU 統一架構缺失,會上,陳健康提出了兩項關于 RISC-V 架構下內存延遲采集以及統一 uncore PMU 的建議,并提議成立專項技術組(TG)。來自?Google 的 Snehasish Kumar?(RISC-V?Performance Analysis?SIG 副主席)認同訪存延遲 PMU 對云場景特別關鍵,建議后續 Datacenter SIG 和?Performance Analysis?SIG 共同合作推進。
近期,龍蜥社區在 RISC-V ?也有一些進展,包括?Anolis OS 23.3 RISC-V 預覽版的發布、 龍蜥社區多位專家參加?2025 RISC-V 中國峰會,分享龍蜥社區在 RISC-V 領域后續的規劃等。
本次會議內容已同步在 Datacener SIG:
[1]?https://github.com/riscv-admin/datacenter
[2]https://github.com/riscv-admin/datacenter/blob/main/minutes/2025-05-30-minutes.md
[3]https://github.com/riscv-admin/datacenter/blob/main/minutes/2025-06-27-minutes.md
—— 完 ——