📖標題:Genius: A Generalizable and Purely Unsupervised Self-Training Framework For Advanced Reasoning
🌐來源:arXiv, 2504.08672
🌟摘要
🔸推進LLM推理技能引起了廣泛的興趣。然而,當前的訓練后技術嚴重依賴監督信號,例如結果監督或輔助獎勵模型,這面臨著可擴展性和高注釋成本的問題。這促使我們在不需要外部監督的情況下增強LLM推理。
🔸我們引入了一個名為 Genius 的 gen erli zable 和純 unsu perved 自訓練框架。在沒有外部輔助的情況下,Genius 需要逐步尋求最優響應序列并優化 LLM。為了探索潛在的步驟并利用最優步驟,Genius引入了一種逐步遠見重采樣策略,通過模擬未來的結果對步驟值進行采樣和估計。此外,我們認識到無監督設置不可避免地導致內在噪聲和不確定性。為了提供穩健的優化,我們提出了一種優勢校準優化 (ACO) 損失函數來減輕估計不一致。
🔸將這些技術結合在一起,Genius 為使用通用查詢和沒有監督的自我改進 LLM 推理提供了高級初始步驟,在給定通用查詢的大量可用性的情況下徹底改變了推理縮放定律。該代碼將發布在 https://github. com/xufangzhi/Genius.
🛎?文章簡介
🔸研究問題:如何在沒有外部監督的情況下,增強大語言模型(LLM)的推理能力?
🔸主要貢獻:論文提出了一種名為Genius的通用自我訓練框架,該框架僅依賴于無監督查詢來提升LLM的推理能力。
📝重點思路
🔸Genius框架僅依賴無監督自然語言查詢作為輸入,模型生成響應并選擇最佳響應進行自我優化。
🔸采用前瞻重采樣(foresight re-sampling)策略,通過模擬未來步驟來探索和利用響應序列。
🔸引入優勢校準優化(Advantage-Calibrated Optimization, ACO)損失函數,以增強自我獎勵機制,提升優化的魯棒性。
🔸在自訓練過程中,Genius通過收集高質量的偏好對來優化LLMs的性能。
🔎分析總結
🔸實驗結果顯示,Genius在使用25K無監督查詢后,平均提升了LLM在各種推理基準上的性能超過7%。
🔸Genius在復雜任務(如數學推理)中表現優異,顯著超過其他自我獎勵方法。
🔸與現有的監督微調方法相比,Genius展示了更好的穩定性和性能一致性,尤其是在一般性基準測試中。
🔸研究表明,Genius對不同基礎LLM的適應性強,能夠擴展到更復雜的場景。
💡個人觀點
論文的核心是在沒有任何外部監督的情況下,通過前瞻重采樣和優勢校準進行優化。