AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模塊化部署,可在 AMD Instinct GPU 上實現可擴展 AI
現代 AI 工作負載的規模和復雜性不斷增長,而人們對性能和部署便捷性的期望也日益提升。對于在 AMD Instinct? GPU 上構建 AI 和 HPC 未來的企業而言,ROCm 6.4 是一次飛躍。隨著領先的 AI 框架、優化的容器和模塊化基礎架構工具的支持日益增強,ROCm 軟件持續獲得發展動力,助力客戶更快創新、更智能地運營,并掌控其 AI 基礎架構。
無論您是在多節點集群中部署推理、訓練數十億參數模型還是管理大型 GPU 集群,ROCm 6.4 軟件都能通過 AMD Instinct GPU 提供無縫實現高性能的途徑。
本博客重點介紹了ROCm 6.4 中的五項關鍵創新,這些創新直接解決了 AI 研究人員、模型開發人員和基礎設施團隊面臨的常見挑戰,使 AI 開發變得快速、簡單且可擴展。
1. 用于訓練和推理的 ROCm 容器:Instinct GPU 上的即插即用 AI
設置和維護優化的訓練和推理環境非常耗時、容易出錯,并且會減慢迭代周期。ROCm 6.4 軟件引入了一套功能強大的即用型、預先優化的訓練和推理容器,專為 AMD Instinct GPU 設計。
-
vLLM(推理容器) ——專為低延遲 LLM 推理而構建,為最新的 Gemma 3(day-0)、Llama、Mistral、Cohere 等開放模型提供即插即用支持。 點擊此處了解基于 Instinct GPU 的 Gemma 3。其他相關鏈接: Docker 容器、 用戶指南、 性能數據
-
SGLang(推理容器) ——針對 DeepSeek R1 和代理工作流進行了優化,通過 DeepGEMM、FP8 支持和并行多頭注意力機制,實現了卓越的吞吐量和效率。SGLang 關鍵資源: Docker 容器、 用戶指南
-
PyTorch(訓練容器) ——包含性能調優的 PyTorch 版本,支持高級注意力機制,有助于在 AMD Instinct MI300X GPU 上實現無縫 LLM 訓練。現已針對 Llama 3.1(8B、70B)、Llama 2(70B)和 FLUX.1-dev 進行了優化。訪問適用于 ROCm 的 Pytorch 訓練 Docker 及相關訓練資源,請訪問 Docker 容器、 用戶指南、 性能數據和 性能驗證。
-
Megatron-LM(訓練容器) ——基于 ROCm 調優的 Megatron-LM 定制分支,旨在高效訓練大規模語言模型,包括 Llama 3.1、Llama 2 和 DeepSeek-V2-Lite。訪問 Megatron-LM Docker 和訓練資源: Docker 容器、 用戶指南、 性能數據、 性能驗證
這些容器使 AI 研究人員能夠更快地訪問交鑰匙環境,以評估新模型并運行實驗。模型開發者可以利用對當今最先進的 LLM(包括 Llama 3.1、Gemma 3 和 DeepSeek)的預調支持,而無需花費時間進行復雜的配置。對于基礎設施團隊而言,這些容器可在開發、測試和生產環境中提供一致、可重復的部署,從而實現更順暢的擴展并簡化維護。
2. PyTorch for ROCm 獲得重大升級:更快的注意力,更快的訓練
訓練大型語言模型 (LLM) 不斷突破計算和內存的極限,而低效的注意力機制很快就會成為主要瓶頸,減慢迭代速度并增加基礎設施成本。ROCm 6.4 軟件在 PyTorch 框架內實現了重大性能增強,包括優化的 Flex Attention、TopK 和縮放點積注意力 (SDPA)。
Flex Attention:與 ROCm 6.3 相比,性能有了顯著飛躍,大大減少了訓練時間和內存開銷——尤其是在依賴高級注意力機制的 LLM 工作負載中。
TopK:TopK 運算速度現提升 3 倍,加快推理響應時間,同時保持輸出質量(來源)
SDPA:更平滑、長上下文推理。
這些改進意味著更快的訓練時間、更低的內存開銷以及更高效的硬件利用率。因此,AI 研究人員能夠在更短的時間內進行更多實驗,模型開發者能夠更高效地微調更大的模型,最終,Instinct GPU 客戶將受益于更短的訓練時間和更高的基礎設施投資回報率。
這些升級在ROCm PyTorch 容器中開箱即用。要了解有關 Pytorch 用于 ROCm 訓練的更多信息,請閱讀此處的博客 。
3. 使用 SGLang 和 vLLM 在 AMD Instinct GPU 上實現下一代推理性能
為大型語言模型提供低延遲、高吞吐量的推理是一項持續的挑戰——尤其是在新模型不斷涌現、部署速度預期不斷提高的情況下。ROCm 6.4 針對 AMD Instinct GPU 進行了專門調優,通過推理優化的 vLLM 和 SGLang 版本正面解決了這一問題。該版本對 Grok、DeepSeek R1、Gemma 3、Llama 3.1(8B、70B、405B)等領先模型提供強大的支持,使 AI 研究人員能夠在大規模基準測試中更快地獲得結果,而模型開發人員則可以通過極少的調整或返工來部署真實的推理流程。同時,基礎設施團隊受益于穩定、可立即投入生產的容器,并每周更新,從而有助于確保大規模性能、可靠性和一致性。
這些工具共同提供了一個全棧推理環境,穩定容器和開發容器分別每兩周和每周更新一次。
4. 使用 AMD GPU Operator 進行無縫 Instinct GPU 集群管理
在 Kubernetes 集群中擴展和管理 GPU 工作負載通常需要手動更新驅動程序、停機維護以及有限的 GPU 健康狀況可見性,所有這些都會影響性能和可靠性。借助 ROCm 6.4,AMD GPU Operator 實現了 GPU 調度、驅動程序生命周期管理和實時遙測的自動化,從而端到端地簡化了集群操作。這意味著基礎架構團隊可以以最小的中斷執行升級,AI 和 HPC 管理員可以放心地在隔離且安全的環境中部署 AMD Instinct GPU,并實現完全的可觀察性,而 Instinct 客戶則可以受益于更長的正常運行時間、更低的運營風險以及更具彈性的 AI 基礎架構。
新功能包括:
自動封鎖、排水、重啟以進行滾動更新。
擴展對 Red Hat OpenShift 4.16–4.17 和 Ubuntu 22.04/24.04 的支持,有助于確保與現代云和企業環境的兼容性。
基于 Prometheus 的設備指標導出器,用于實時健康跟蹤。
5. 全新 Instinct GPU 驅動程序的軟件模塊化
耦合的驅動程序堆棧會減慢升級周期,增加維護風險,并降低跨環境的兼容性。ROCm 6.4 軟件引入了Instinct GPU 驅動程序,這是一種模塊化驅動程序架構,將內核驅動程序與 ROCm 用戶空間分離。
主要優點,
基礎設施團隊現在可以獨立更新驅動程序或 ROCm 庫。
更長的 12 個月兼容期(之前版本為 6 個月)
跨裸機、容器和 ISV 應用程序更靈活地部署
這降低了發生重大變化的風險并簡化了整個機群的更新 - 尤其對于云提供商、政府組織和具有嚴格 SLA 的企業有用。