1. QA問答(我的筆記)
Q1: DeepSeek如何處理可讀性問題?
通過構建冷啟動數據(數千條長CoT數據)微調基礎模型,結合多階段訓練流程(RL訓練、拒絕采樣生成SFT數據),并優化輸出格式(如特殊標記分隔),顯著提升可讀性。相比僅用RL的Zero版本,改進后的R1保持了推理能力且輸出更易讀。
Q2: DeepSeek-R1-Zero與R1的核心區別?
-R1-Zero:純RL訓練,無監督數據,輸出存在語言混雜、可讀性差
-R1:引入監督學習階段
冷啟動階段用高質量CoT數據微調
拒絕采樣生成600K過濾數據(移除混合語言/冗余內容)
二階段RL(推理任務用規則獎勵,通用任務用人類偏好獎勵)
Q3: 如何驗證推理能力蒸餾效果?
在標準評測網站(如LiveCodeBench/Codeforces)測試,經蒸餾的小模型性能超越直接用RL訓練的同規模模型。
Q4: 成本節約方法?
自進化RL減少監督數據需求
GRPO算法優化RL訓練效率
復用V3訓練集生成思維鏈
2. 論文核心貢獻(做了什么)
方法論創新:提出四階段訓練框架(冷啟動→推理RL→數據生成→通用能力RL)
性能突破:在數學(MATH-500 97.3%)知識任務(MMLU 90.8%)達到SOTA
工程實踐:解決純RL訓練的可讀性缺陷,構建首個支持人類友好CoT的RL優化模型
技術驗證:證明RL可通過自我進化提升推理能力,且該能力可蒸餾至小模型
3. 關鍵技術路徑
3.1 混合獎勵機制
任務類型 | 獎勵構成 | 目標特性 |
推理任務 | 準確性(70%)+過程合規性(30%) | 嚴謹性 |
通用任務 | 有用性(50%)+無害性(30%)+可讀性(20%) | 安全性 |
3.2 數據生產管線
?
4. 當前局限性
4.1 技術瓶頸
MCTS應用失敗:語言生成空間離散性導致搜索復雜度爆炸(相比圍棋增長10^3倍)
過程獎勵困境:
原子步驟定義模糊(如數學證明中間態)
需人工標注百萬級步驟數據(成本$380K+)
獎勵黑客問題頻發(模型學會偽造合規步驟)
4.2 實踐缺陷
5. 未來方向
短期重點
蒸餾優化:探索RL+蒸餾聯合框架(當前僅用SFT)
架構改進:
動態上下文窗口(當前固定4K)
混合專家系統(MoE)提升工程能力
長期愿景
自進化系統:構建完全閉環的RL訓練生態(人工標注量<1%)
多模態推理:擴展至視覺-語言聯合推理場景
安全增強:研發可解釋的獎勵模型(當前黑盒率>92%)