【AI科技】AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模塊化部署,可在 AMD Instinct GPU 上實現可擴展 AI

AMD ROCm 6.4 新功能:突破性推理、即插即用容器和模塊化部署,可在 AMD Instinct GPU 上實現可擴展 AI

現代 AI 工作負載的規模和復雜性不斷增長,而人們對性能和部署便捷性的期望也日益提升。對于在 AMD Instinct? GPU 上構建 AI 和 HPC 未來的企業而言,ROCm 6.4 是一次飛躍。隨著領先的 AI 框架、優化的容器和模塊化基礎架構工具的支持日益增強,ROCm 軟件持續獲得發展動力,助力客戶更快創新、更智能地運營,并掌控其 AI 基礎架構。

無論您是在多節點集群中部署推理、訓練數十億參數模型還是管理大型 GPU 集群,ROCm 6.4 軟件都能通過 AMD Instinct GPU 提供無縫實現高性能的途徑。

本博客重點介紹了ROCm 6.4 中的五項關鍵創新,這些創新直接解決了 AI 研究人員、模型開發人員和基礎設施團隊面臨的常見挑戰,使 AI 開發變得快速、簡單且可擴展。

1. 用于訓練和推理的 ROCm 容器:Instinct GPU 上的即插即用 AI

設置和維護優化的訓練和推理環境非常耗時、容易出錯,并且會減慢迭代周期。ROCm 6.4 軟件引入了一套功能強大的即用型、預先優化的訓練和推理容器,專為 AMD Instinct GPU 設計。

  • vLLM(推理容器) ——專為低延遲 LLM 推理而構建,為最新的 Gemma 3(day-0)、Llama、Mistral、Cohere 等開放模型提供即插即用支持。 點擊此處了解基于 Instinct GPU 的 Gemma 3。其他相關鏈接: Docker 容器、 用戶指南、 性能數據

  • SGLang(推理容器) ——針對 DeepSeek R1 和代理工作流進行了優化,通過 DeepGEMM、FP8 支持和并行多頭注意力機制,實現了卓越的吞吐量和效率。SGLang 關鍵資源: Docker 容器、 用戶指南

  • PyTorch(訓練容器) ——包含性能調優的 PyTorch 版本,支持高級注意力機制,有助于在 AMD Instinct MI300X GPU 上實現無縫 LLM 訓練。現已針對 Llama 3.1(8B、70B)、Llama 2(70B)和 FLUX.1-dev 進行了優化。訪問適用于 ROCm 的 Pytorch 訓練 Docker 及相關訓練資源,請訪問 Docker 容器、 用戶指南、 性能數據和 性能驗證。

  • Megatron-LM(訓練容器) ——基于 ROCm 調優的 Megatron-LM 定制分支,旨在高效訓練大規模語言模型,包括 Llama 3.1、Llama 2 和 DeepSeek-V2-Lite。訪問 Megatron-LM Docker 和訓練資源: Docker 容器、 用戶指南、 性能數據、 性能驗證

這些容器使 AI 研究人員能夠更快地訪問交鑰匙環境,以評估新模型并運行實驗。模型開發者可以利用對當今最先進的 LLM(包括 Llama 3.1、Gemma 3 和 DeepSeek)的預調支持,而無需花費時間進行復雜的配置。對于基礎設施團隊而言,這些容器可在開發、測試和生產環境中提供一致、可重復的部署,從而實現更順暢的擴展并簡化維護。

2. PyTorch for ROCm 獲得重大升級:更快的注意力,更快的訓練

訓練大型語言模型 (LLM) 不斷突破計算和內存的極限,而低效的注意力機制很快就會成為主要瓶頸,減慢迭代速度并增加基礎設施成本。ROCm 6.4 軟件在 PyTorch 框架內實現了重大性能增強,包括優化的 Flex Attention、TopK 和縮放點積注意力 (SDPA)。

Flex Attention:與 ROCm 6.3 相比,性能有了顯著飛躍,大大減少了訓練時間和內存開銷——尤其是在依賴高級注意力機制的 LLM 工作負載中。
TopK:TopK 運算速度現提升 3 倍,加快推理響應時間,同時保持輸出質量(來源)
SDPA:更平滑、長上下文推理。

這些改進意味著更快的訓練時間、更低的內存開銷以及更高效的硬件利用率。因此,AI 研究人員能夠在更短的時間內進行更多實驗,模型開發者能夠更高效地微調更大的模型,最終,Instinct GPU 客戶將受益于更短的訓練時間和更高的基礎設施投資回報率。

這些升級在ROCm PyTorch 容器中開箱即用。要了解有關 Pytorch 用于 ROCm 訓練的更多信息,請閱讀此處的博客 。

3. 使用 SGLang 和 vLLM 在 AMD Instinct GPU 上實現下一代推理性能

為大型語言模型提供低延遲、高吞吐量的推理是一項持續的挑戰——尤其是在新模型不斷涌現、部署速度預期不斷提高的情況下。ROCm 6.4 針對 AMD Instinct GPU 進行了專門調優,通過推理優化的 vLLM 和 SGLang 版本正面解決了這一問題。該版本對 Grok、DeepSeek R1、Gemma 3、Llama 3.1(8B、70B、405B)等領先模型提供強大的支持,使 AI 研究人員能夠在大規模基準測試中更快地獲得結果,而模型開發人員則可以通過極少的調整或返工來部署真實的推理流程。同時,基礎設施團隊受益于穩定、可立即投入生產的容器,并每周更新,從而有助于確保大規模性能、可靠性和一致性。

這些工具共同提供了一個全棧推理環境,穩定容器和開發容器分別每兩周和每周更新一次。

4. 使用 AMD GPU Operator 進行無縫 Instinct GPU 集群管理

在 Kubernetes 集群中擴展和管理 GPU 工作負載通常需要手動更新驅動程序、停機維護以及有限的 GPU 健康狀況可見性,所有這些都會影響性能和可靠性。借助 ROCm 6.4,AMD GPU Operator 實現了 GPU 調度、驅動程序生命周期管理和實時遙測的自動化,從而端到端地簡化了集群操作。這意味著基礎架構團隊可以以最小的中斷執行升級,AI 和 HPC 管理員可以放心地在隔離且安全的環境中部署 AMD Instinct GPU,并實現完全的可觀察性,而 Instinct 客戶則可以受益于更長的正常運行時間、更低的運營風險以及更具彈性的 AI 基礎架構。

新功能包括:

自動封鎖、排水、重啟以進行滾動更新。
擴展對 Red Hat OpenShift 4.16–4.17 和 Ubuntu 22.04/24.04 的支持,有助于確保與現代云和企業環境的兼容性。
基于 Prometheus 的設備指標導出器,用于實時健康跟蹤。

5. 全新 Instinct GPU 驅動程序的軟件模塊化

耦合的驅動程序堆棧會減慢升級周期,增加維護風險,并降低跨環境的兼容性。ROCm 6.4 軟件引入了Instinct GPU 驅動程序,這是一種模塊化驅動程序架構,將內核驅動程序與 ROCm 用戶空間分離。

主要優點,

基礎設施團隊現在可以獨立更新驅動程序或 ROCm 庫。
更長的 12 個月兼容期(之前版本為 6 個月)
跨裸機、容器和 ISV 應用程序更靈活地部署

這降低了發生重大變化的風險并簡化了整個機群的更新 - 尤其對于云提供商、政府組織和具有嚴格 SLA 的企業有用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/82102.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/82102.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/82102.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【含文檔+PPT+源碼】基于微信小程序連鎖藥店商城

項目介紹 本課程演示的是一款基于微信小程序連鎖藥店商城,主要針對計算機相關專業的正在做畢設的學生與需要項目實戰練習的 Java 學習者。 1.包含:項目源碼、項目文檔、數據庫腳本、軟件工具等所有資料 2.帶你從零開始部署運行本套系統 3.該項目附帶的…

node.js模塊化步驟(各標準區別)CommonJS規范、AMD規范、UMD規范、ES Modules (ESM)

前后端建議統一使用ESM 文章目錄 Node.js模塊化發展歷程與標準對比一、模塊化的意義1.1 解決的核心問題1.2 沒有模塊化的問題 二、CommonJS規范2.1 核心特征2.2 實現示例 三、AMD (Asynchronous Module Definition)3.1 特點3.2 代碼示例 四、UMD (Universal Module Definition)…

人工智能與智能合約:如何用AI優化區塊鏈技術中的合約執行?

引言:科技融合的新風口 區塊鏈和人工智能,是當前最受矚目的兩大前沿技術。一個以去中心化、可溯源的機制重構信任體系,另一個以智能學習與決策能力重塑數據的價值。當這兩項技術相遇,會碰撞出什么樣的火花? 智能合約作…

RabbitMQ-api開發

前言 MQ就是接收并轉發消息 核心概念 admin是用戶 每個虛擬機上都有多個交換機 快速入門 引入依賴 <dependency><groupId>com.rabbitmq</groupId><artifactId>amqp-client</artifactId><version>5.22.0</version></dependen…

PostgreSQL Patroni集群組件作用介紹:Patroni、etcd、HAProxy、Keepalived、Watchdog

1. Watchdog 簡介 1.1 核心作用 ? 主節點故障檢測 Watchdog 會定時檢測數據庫主節點&#xff08;或 Pgpool 主節點&#xff09;的運行狀態。 一旦主節點宕機&#xff0c;它會發起故障切換請求。 ? 協調主備切換 多個 Pgpool 節點時&#xff0c;Watchdog 保證只有一個 Pg…

【多種不同提交方式】通過springboot實現與前端網頁數據交互(非常簡潔快速)

【多種不同提交方式】通過springboot實現與前端網頁數據交互 提示&#xff1a;幫幫志會陸續更新非常多的IT技術知識&#xff0c;希望分享的內容對您有用。本章分享的是springboot的使用。前后每一小節的內容是存在的有&#xff1a;學習and理解的關聯性。【幫幫志系列文章】&am…

使用 AI 如何高效解析視頻內容?生成思維導圖或分時段概括總結

一、前言 AI 發展的如此迅速&#xff0c;有人想通過 AI 提效對視頻的解析&#xff0c;怎么做呢&#xff1f; 豆包里面有 AI 視頻總結的功能&#xff0c;可以解析bilibili網站上部分視頻&#xff0c;如下圖所示&#xff1a; 但有的視頻解析時提示&#xff1a; 所以呢&#x…

鞅與停時 - 一種特別的概率論問題

討論一個有趣的概率問題&#xff1a; [P3334 ZJOI2013] 拋硬幣 - 洛谷 實際上是一個猴子打字問題&#xff0c;考慮一直無規律隨即打字的猴子&#xff0c;鍵盤上只有A-Z一共26個字母&#xff0c;對于一個特定的字符串 S S S &#xff1a; ABCABCAB &#xff0c;能否在有限的打…

arcgis和ENVI中如何將數據輸出為tif

一、arcgis中轉換為tif 右鍵圖層&#xff1a; Data -> Export Data, 按照圖示進行選擇&#xff0c;選擇tiff格式導出即可&#xff0c;還可以選擇其他類型的格式&#xff0c;比如envi。 二、 ENVI中轉換為tif File -> Save As -> Save As (ENVI, NITF, TIFF, DTED) …

如何用命令行判斷一個exe是不是c#wpf開發的

在powershell下執行 $assembly [Reflection.Assembly]::ReflectionOnlyLoadFrom("你的exe全路徑") $references $assembly.GetReferencedAssemblies() echo $assembly $references | Where-Object { $_.Name -match "PresentationFramework|PresentationCore…

2025.05.07-華為機考第三題300分

?? 點擊直達筆試專欄 ??《大廠筆試突圍》 ?? 春秋招筆試突圍在線OJ ?? 筆試突圍OJ 03. 城市緊急救援隊伍協同規劃 問題描述 智慧城市建設中,盧小姐負責設計一套緊急救援隊伍協同系統。城市被規劃為一個 n n n \times n

深入理解Redis SDS:高性能字符串的終極設計指南

&#x1f4cd; 文章提示 10分鐘掌握Redis核心字符串設計 | 從底層結構到源碼實現&#xff0c;揭秘SDS如何解決C字符串七大缺陷&#xff0c;通過20手繪圖示與可運行的C代碼案例&#xff0c;助你徹底理解二進制安全、自動擴容等核心機制&#xff0c;文末附實戰優化技巧&#xff…

jupyter notebook漢化教程

本章教程記錄&#xff0c;jupyter notebook漢化步驟&#xff0c;如果對漢化有需求的小伙伴可以看看。 一、安裝jupyter 如果你是安裝的anaconda的那么默認是包含了Jupyter notebook的&#xff0c;如果是miniconda或者基礎python&#xff0c;默認是不包含的jupyter組件的&#x…

模擬設計中如何減小失配

Xx 芯片測試結果顯示&#xff0c;offset 指標偏高&#xff0c;不符合指標要求。所以查看了資料&#xff0c;溫習了減小的失配的方法。 注意點一&#xff1a; 將所有offet折算到輸入端&#xff0c;得到以下公式&#xff1a; 可以看到a&#xff09;閾值電壓失配直接折算成輸…

C++ 與 Lua 聯合編程

在軟件開發的廣闊天地里&#xff0c;不同編程語言各有所長。C 以其卓越的性能、強大的功能和對硬件的直接操控能力&#xff0c;在系統開發、游戲引擎、服務器等底層領域占據重要地位&#xff0c;但c編寫的程序需要編譯&#xff0c;這往往是一個耗時操作&#xff0c;特別對于大型…

烤箱面包烘焙狀態圖詳解:從UML設計到PlantUML實現

題目&#xff1a;假設你正著手設計一個烤箱。建立一個跟蹤烤箱中面包狀態的狀態圖。要包括必要的觸發器事件、動作和監視條件。 一、狀態圖概述 狀態圖是UML&#xff08;統一建模語言&#xff09;中的一種行為圖&#xff0c;它用于描述系統中對象的狀態變化以及觸發這些變化的…

三款實用工具推薦:配音軟件+Windows暫停更新+音視頻下載!

各位打工人請注意&#xff01;今天李師傅掏出的三件套&#xff0c;都是經過實戰檢驗的效率放大器。先收藏再劃走&#xff0c;說不定哪天就能救命&#xff01; 一.祈風TTS-配音大師 做短視頻的朋友肯定深有體會——配個音比寫腳本還費勁&#xff01;要么付費買聲音&#xff0c…

物流無人機結構與載貨設計分析!

一、物流無人機的結構與載貨設計模塊運行方式 1.結構設計特點 垂直起降與固定翼結合&#xff1a;針對復雜地形&#xff08;如山區、城市&#xff09;需求&#xff0c;采用垂直起降&#xff08;VTOL&#xff09;與固定翼結合的復合布局&#xff0c;例如“天馬”H型無人機&am…

Decode rpc invocation failed: null -> DecodeableRpcInvocation

DecodeableRpcInvocation 異常情況解決方法 錯誤警告官方FAQ 異常情況 記錄一下Dubbo調用異常 java.util.concurrent.ExecutionException: org.apache.dubbo.remoting.TimeoutException: Waiting server-side response timeout by scan timer. start time: 2025-05-07 22:09:5…

Excel VBA 詞頻統計宏

在Excel中&#xff0c;我們經常需要分析文本數據&#xff0c;例如統計某個單詞或短語在文檔中出現的次數。雖然Excel本身提供了一些文本處理功能&#xff08;如COUNTIF&#xff09;&#xff0c;但對于復雜的詞頻統計&#xff0c;手動操作可能效率低下。這時&#xff0c;VBA宏可…