英偉達推出了 Llama Nem)otron Nano 4B,這是一款專為在科學任務、編程、符號運算、函數調用和指令執行方面提供強大性能與效率而設計的開源推理模型,其緊湊程度足以支持邊緣部署。該模型僅包含 40 億參數,卻在內部基準測試中實現了比其他多達 80 億參數的同類開源模型更高的準確率,并且推理吞吐量高出 50%。
該模型被定位為在資源受限環境中部署基于語言的人工智能代理的實用基礎。通過專注于推理效率,Llama Nemotron Nano 4B 滿足了對輕量級模型日益增長的需求,這些模型能夠在傳統云端環境之外支持混合推理和指令執行任務。
模型架構與訓練棧
Nemotron Nano 4B 以 Llama 3.1 架構為基礎,與英偉達此前的 “Minitron” 系列一脈相承。其架構采用密集型、僅解碼器的變換器(transformer)設計。該模型針對推理密集型工作負載的性能進行了優化,同時保持了參數量的輕量化。
模型的訓練后處理棧包括在數學、編程、推理任務和函數調用等精選數據集上進行的多階段監督式微調。除了傳統的監督學習外,Nemotron Nano 4B 還通過獎勵感知偏好優化(Reward-aware Preference Optimization, RPO)方法進行了強化學習優化,旨在提升模型在基于聊天和指令執行環境中的實用性。
這種指令調優與獎勵建模相結合的方式有助于使模型的輸出更貼近用戶意圖,特別是在多輪推理場景中。這種訓練方法反映了英偉達在將小型模型與傳統上需要大幅增加參數量的實用任務對齊方面的重視。
性能基準測試
盡管其體積小巧,但 Nemotron Nano 4B 在單輪和多輪推理任務中均展現出強勁的性能。據英偉達介紹,與參數量在 80 億范圍內的同類開源模型相比,它的推理吞吐量高出 50%。該模型支持高達 128,000 個標記的上下文窗口,這對于涉及長文檔、嵌套函數調用或多跳推理鏈的任務尤其有用。
盡管英偉達尚未在 Hugging Face 文檔中披露完整的基準測試表格,但據報道,該模型在數學、代碼生成和函數調用精度等基準測試中均優于其他開源替代方案。其吞吐量優勢表明,對于目標為具有中等復雜度工作負載的高效推理管道的開發者而言,它可作為一種可行的默認選擇。
專為邊緣部署而優化
Nemotron Nano 4B 的核心差異化優勢之一是其對邊緣部署的關注。該模型已在英偉達 Jetson 平臺和英偉達 RTX GPU 上進行了專門測試和優化,從而能夠實現在低功耗嵌入式設備上的實時推理能力,包括機器人系統、自主邊緣代理或本地開發工作站。
對于關注隱私和部署控制的企業和研究團隊而言,在本地運行先進的推理模型而不依賴云端推理 API 的能力,既能節省成本,又能提供更大的靈活性。
許可與訪問方式
該模型依據英偉達開源模型許可協議發布,允許商業使用。它可通過 Hugging Face(網址為 huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-4B-v1.1) 獲取,所有相關的模型權重、配置文件和分詞器組件均公開可訪問。這種許可結構與英偉達在支持其開源模型周邊開發者生態系統方面的更廣泛戰略相一致。
結語
Nemotron Nano 4B 體現了英偉達在為更廣泛的開發受眾群體提供可擴展、實用的人工智能模型方面的持續投入,尤其是那些針對邊緣或成本敏感型部署場景的受眾群體。盡管超大型模型領域仍在不斷取得快速進展,但像 Nemotron Nano 4B 這樣的緊湊高效模型提供了平衡,使得在幾乎不犧牲性能的情況下實現部署靈活性成為可能。