Reinforcement Learning Heats Up 強化學習持續升溫
核心觀點:強化學習正成為構建具有高級推理能力大語言模型(LLMs)的重要途徑。
最新進展
-
模型示例:近期出現了如DeepSeek - R1及其變體(DeepSeek - R1 - Zero)、Kimi k1.5等高性能模型,它們借助強化學習提升生成的推理思路。OpenAI去年的GPT - 4率先采用此方法。這些模型的出現展示了強化學習在提升大語言模型推理能力方面的實際應用成果。
強化學習基礎
-
獎懲機制:強化學習通過對模型特定行為或目標達成情況給予獎勵或懲罰,以此引導模型行為。
-
與其他學習方式對比:與監督學習和無監督學習不同,它不直接告知模型應輸出什么。監督學習需將模型輸出與已知真實情況對比,無監督學習旨在發現數據中的模式,而強化學習讓模型從隨機行為開始,通過獲得獎勵來探索并發現期望行為。
-
應用場景:因其特性,強化學習在訓練用于游戲或機器人控制的機器學習模型方面備受青睞。在游戲中,模型可通過不斷嘗試不同策略,根據獎勵反饋優化行為;在機器人控制領域,可通過強化學習讓機器人學會在復雜環境中完成任務。
強化學習在提升大語言模型思維鏈方面的工作原理
-
改進目標:旨在改進大語言模型生成的思維鏈(CoT),使模型能針對數學、編程、科學等有已知解法的問題生成正確答案。
-
與傳統訓練區別:傳統大語言模型訓練逐詞生成輸出并逐個接收反饋,而此方法獎勵模型生成能導向準確結論的一系列推理步驟。即使這需要在提示與回復間生成眾多中間標記,如規劃大綱、檢查結論或反思方法,且無需對具體推理步驟進行明確訓練。例如,在解決數學問題時,模型可能會生成一系列中間推理過程,通過強化學習得到獎勵,即使這些推理步驟在訓練數據中未明確給出。
具體模型案例
-
DeepSeek - R1系列
-
訓練成果:DeepSeek團隊發現,僅靠強化學習微調(預訓練后),DeepSeek - R1 - Zero就能學習到如二次檢查答案的解題策略。
-
出現問題及解決方法:該模型出現如輸出中混合不同語言的奇怪行為。團隊通過在強化學習前,用少量長思維鏈示例進行監督微調,在DeepSeek - R1中解決此問題。
-
-
Kimi k1.5
-
訓練過程:團隊在強化學習前用長思維鏈對模型微調,使其能設計自己的解題策略。但生成的長回復雖準確,成本較高。
-
優化措施及效果:于是進行第二輪強化學習鼓勵生成簡短回復。在AIME 2024基準測試中,回復平均標記數減少約20%;在MATH - 500測試中,平均輸出標記數減少約10%。
-
-
OpenAI的GPT - 4:雖披露信息有限,但團隊成員表明使用強化學習改進模型思維鏈。
新聞背后
-
傳統應用局限:強化學習常用于訓練游戲和機器人控制模型,在大語言模型開發中,此前主要用于使模型與人類偏好一致,如通過RLHF(從人類反饋中強化學習)或RLAIF(從人工智能反饋中強化學習)方法。
-
方法演變:在直接偏好優化方法出現前,上述方法是促使大語言模型與人類偏好對齊的主要方式。
重要意義:強化學習在訓練大語言模型推理方面效用驚人。隨著模型承擔任務日益復雜,如數學、編程、動畫圖形等領域,強化學習成為推動技術進步的重要路徑。例如在復雜編程任務中,模型可通過強化學習更好地理解和生成代碼邏輯。
總結思考:短短不到三年,強化學習從看似繁瑣無用轉變為語言建模關鍵方向,凸顯機器學習領域發展充滿意外與變革。