上海人工智能實驗室：LLM無監督自訓練

在這里插入圖片描述

📖標題：Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
🌐來源：arXiv, 2504.08672

🌟摘要

🔸推進LLM推理技能引起了廣泛的興趣。然而，當前的訓練后技術嚴重依賴監督信號，例如結果監督或輔助獎勵模型，這面臨著可擴展性和高注釋成本的問題。這促使我們在不需要外部監督的情況下增強LLM推理。
🔸我們引入了一個名為 Genius 的 gen erli zable 和純 unsu perved 自訓練框架。在沒有外部輔助的情況下，Genius 需要逐步尋求最優響應序列并優化 LLM。為了探索潛在的步驟并利用最優步驟，Genius引入了一種逐步遠見重采樣策略，通過模擬未來的結果對步驟值進行采樣和估計。此外，我們認識到無監督設置不可避免地導致內在噪聲和不確定性。為了提供穩健的優化，我們提出了一種優勢校準優化 (ACO) 損失函數來減輕估計不一致。
🔸將這些技術結合在一起，Genius 為使用通用查詢和沒有監督的自我改進 LLM 推理提供了高級初始步驟，在給定通用查詢的大量可用性的情況下徹底改變了推理縮放定律。該代碼將發布在 https://github. com/xufangzhi/Genius.

🛎?文章簡介

🔸研究問題：如何在沒有外部監督的情況下，增強大語言模型（LLM）的推理能力？
🔸主要貢獻：論文提出了一種名為Genius的通用自我訓練框架，該框架僅依賴于無監督查詢來提升LLM的推理能力。

📝重點思路

🔸Genius框架僅依賴無監督自然語言查詢作為輸入，模型生成響應并選擇最佳響應進行自我優化。
🔸采用前瞻重采樣（foresight re-sampling）策略，通過模擬未來步驟來探索和利用響應序列。
🔸引入優勢校準優化（Advantage-Calibrated Optimization, ACO）損失函數，以增強自我獎勵機制，提升優化的魯棒性。
🔸在自訓練過程中，Genius通過收集高質量的偏好對來優化LLMs的性能。

🔎分析總結

🔸實驗結果顯示，Genius在使用25K無監督查詢后，平均提升了LLM在各種推理基準上的性能超過7%。
🔸Genius在復雜任務（如數學推理）中表現優異，顯著超過其他自我獎勵方法。
🔸與現有的監督微調方法相比，Genius展示了更好的穩定性和性能一致性，尤其是在一般性基準測試中。
🔸研究表明，Genius對不同基礎LLM的適應性強，能夠擴展到更復雜的場景。

💡個人觀點

論文的核心是在沒有任何外部監督的情況下，通過前瞻重采樣和優勢校準進行優化。

🧩附錄

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/77508.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/77508.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/77508.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！