坐井說天闊---DeepSeek-R1

前言

DeepSeek-R1這么火，雖然網上很多介紹和解讀，但聽人家的總不如自己去看看原論文。于是花了大概一周的時間，下班后有進入了研究生的狀態---讀論文。

DeepSeek這次的目標是探索在沒有任何監督數據的情況下訓練具有推理能力的大模型，最初的方向是通過純強化學習過程進行自我進化來具備推理能力。當然這個目標并未完全實現，最終還是使用到的監督數據進行微調。

做的第一個嘗試就是使用大規模強化學習（RL）訓練，訓練出來的模型稱之為: DeepSeek-R1-Zero. 實驗結果顯示該模型的輸出可讀性差和語言混合等挑戰。

然后考慮是否可以使用少量高質量的數據進行少樣本監督訓練和強化學習相結合的方式，來提升推理能力，并且提升輸出結果質量。這一種思路訓練出來的模型便是DeepSeek-R1

順著這個思路，DeepSeek又進行了下一步的嘗試，上一步使用的數據在其他大模型（如阿里的QWen）上進行微調訓練，即蒸餾過程。實驗結果顯示該過程可以顯著提升其他沒有推理能力的模型也具有良好的推理能力。

詳情如下，水平有限，內容可能有誤，僅個人理解，個人記錄而已。

DeepSeek-R1-Zero

為了實現目標，首先做了開放研究嘗試，只用通過大規模強化學習（RL）訓練的模型，僅通過 RL 有效學習和泛化的能力，沒有監督微調（SFT），訓練出來的模型稱為：DeepSeek-R1-Zero，但實驗發現該模型它遇到了可讀性差和語言混合等挑戰。

雖然這個嘗試不盡人意，但其訓練過程還是具有一定參考意義。也是實驗過程中發現了兩件有意思的事情。

首先訓練過程中，發現隨著測試時間的增加，DeepSeek-R1-Zero出現了自我進化的現象，會進行自我進行更復雜的行為，如下圖所示，比如會主動重新評估先前的步驟，會自己探索解決方案的代替方法。這些行為是與強化學習環境交互自己出現的，并且顯著增強了模型的推理能力，從而使得訓練出來的模型可以更高效，更準確的處理更具有挑戰性的任務

另外一件事是“Aha Moment”，DeepSeek-R1-Zero 自己會分配更多的思考時間來重新評估其初始方法，從而思考是否有更有效，更準確的解決方案。下圖給了一個具體的例子。

“Aha Moment”說明了，對于大模型推理能力的訓練，不需要明確的教它如何解決問題，只需要簡單地為其提供正確的激勵措施，然后它就會自主進行思考從而找到更有效的解決策略。“Aha Moment”也在提醒我們，強化學習有可能在AI訓練中解鎖新的智能水平，為未來開發出更加自主和自適應的大模型鋪平道路。

DeepSeek-R1，使用冷啟動進行強化學習

DeepSeek-R1-Zero 遇到了可讀性差和語言混合等挑戰。為了解決DeepSeek-R1-Zero遇到的問題，從兩個方向進行了嘗試，

是不是可以使用少量高質量的數據作為冷啟動（cold start）來進一步提高推理性能或者減少訓練成本
對于DeepSeek-R1-Zero 遇到的可讀性差和語言混合等挑戰，如何訓練出一個模型。用戶友好，可以產生清晰連貫的思維鏈（CoT），也有強大的通用能力。

為了獲取高質量的數據，從以下三種方式進行了數據生產，論文中稱之為cold start data（冷啟動數據。

用具有長思維鏈（CoT）的少樣本（few-shot）提示詞，
直接讓模型來通過思考和驗證來生成詳細的答案
收集DeepSeek-R1-Zero的輸出，然后通過人工標注進行后處理來提煉結果

有了冷啟動數據之后便開始微調 DeepSeek-V3-Base 模型。結果顯示可讀性大大增強。而且相對于DeepSeek-R1-Zero，使用人類設計標注的冷啟動數據的訓練模式性能更好。

Reasoning-oriented Reinforcement Learning（面向推理的強化學習）

為了進一步增強它在推理密集型任務中推理能力。比如編程，邏輯推理等任務（這些任務有定義明確的問題和解決方案）。參考DeepSeek-R1-Zero訓練過程，對微調后的DeepSeek-V3-Base模型進行了大規模的強化學習訓練，

同樣，在實驗中發現，在CoT過程中已經出現了語言混合的問題，尤其是涉及到多種語言時更容易出錯。為了緩解語言混合問題，訓練期間引入了語言一致性獎勵（language consistency reward），其計算方式是目標語言單詞在 CoT 中的比例。雖然這種語言對齊會導致性能略有下降，但這種獎勵與人類的偏好一致，使其更具可讀性。

最后，將推理任務的準確性（the accuracy of reasoning tasks）和語言一致性的獎勵結合起來，直接相加形成最終的獎勵。然后，我們在微調模型上進行強化學習訓練，直到它在推理任務上實現收斂。

Rejection Sampling and Supervised Fine-Tuning （抑制采樣和監督微調）

在有了一定推理能力之后，為了增加其在寫作，角色扮演和其他通用任務的能力。利用結果檢查點（resulting checkpoint）來收集SFT（Supervised Fine-Tuning）數據來用于下一輪訓練以增強其通用能力。

為了增量通用能力，收集了兩類數據：Reasoning data -- 推理數據，Non-Reasoning data??非推理數據。

為了獲取Reasoning data -- 推理數據，我們通過在結果檢查點（resulting checkpoint）通過抑制采樣（rejection sampling）來獲取推理提示（reasoning prompts）和推理軌跡（reasoning trajectories）。其中一些數據通過使用生成獎勵模型，將真實數據和模型預測輸入到 DeepSeek-V3 中進行判斷是否合格。

經過濾之后。我們總共收集了大約 600k 個推理相關的訓練樣本。

對于非推理數據，如寫作、翻譯，我們采用 DeepSeek-V3 管道，并復用 DeepSeek-V3 的 SFT 數據集的一部分。我們總共收集了大約 200k 個與推理無關的訓練樣本。

我們使用上述約 800k 樣本的精選數據集對 DeepSeek-V3-Base 進行了兩個 epoch 的微調。

Reinforcement Learning for all Scenarios（適用于所有場景的強化學習）

為了進一步使模型與人類偏好保持一致，保證模型的有用性和無害性，進一步完善模型的推理能力。我們實現了一個二級強化學習階段。

使用獎勵信號（reward signal）和多種提示分布（Diverse Prompt Distributions）的組合來訓練模型。對于推理數據，跟DeepSeek-R1-Zero一樣，利用基于規則的獎勵來執行推理過程。

DeepSeek-R1 Evaluation（DeepSeek-R1 評估）

DeepSeek-R1 表現出優于 DeepSeek-V3 的性能。這種改進主要歸因于 STEM 相關問題的準確性提高，其中通過大規模強化學習實現了顯著的收益。

此外，DeepSeek-R1 在 FRAMES 方面表現出色，這是一項長期依賴上下文的 QA 任務，展示了其強大的文檔分析能力。這凸顯了推理模型在 AI 驅動的搜索和數據分析任務中的潛力。在factual benchmark SimpleQA，DeepSeek-R1 的性能優于 DeepSeek-V3，展示了其處理基于事實的查詢的能力。

在此基準上，OpenAI-o1 超過 GPT-4o 也觀察到類似的趨勢。然而，DeepSeek-R1 在Chinese SimpleQA 基準測試中的表現比 DeepSeek-V3 差，主要是因為它傾向于在安全 RL 之后拒絕回答某些查詢。在沒有安全 RL 的情況下，DeepSeek-R1 可以達到超過 70% 的準確率。

Distillation: Empower Small Models with Reasoning Capability（蒸餾：為小模型賦予推理能力）

此外也將收集到的800k 樣本直接對Qwen和Llama等模型進行了微調，這種簡答的蒸餾方式顯著增強了模型的推理能力。蒸餾模型評估結果如下，蒸餾法具有強大的潛力

在蒸餾過程了，只使用了SFT（Supervised Fine-Tuning）數據進行微調。為了驗證大規模 RL 訓練實現與蒸餾相當的性能，在這一節又進行了一步實驗，在Qwen-32B模型上進行大規模的0樣本強化訓練，結果顯示，不如使用SFT（Supervised Fine-Tuning）數據進行微調的結果。

總結和展望

作者在文中的結論有一定的余地，得出來兩個結論。

首先將更強大的模型蒸餾成更小的模型會產生極好的結果，但小模型進行依賴于本大規模 RL 訓練需要巨大的計算能力，甚至可能無法達到蒸餾的性能。

其次，雖然蒸餾策略既經濟又有效，但超越intelligence界限可能仍然需要更強大的基礎模型和更大規模的強化學習。

對未來有以下三點展望。

通用能力：目前，DeepSeek-R1 在函數調用、多輪次、復雜角色扮演和 JSON 輸出等任務方面的能力不如 DeepSeek-V3。展望未來，我們計劃探索可以利用 CoT 來增強這些領域的任務多長時間。
語言混合：DeepSeek-R1 目前針對中文和英文進行了優化，這可能會導致在處理其他語言的查詢時出現語言混合問題。例如，DeepSeek-R1 可能會使用英語進行推理和響應，即使查詢使用的是英語或中文以外的語言。我們的目標是在將來的更新中解決此限制。

提示工程：在評估 DeepSeek-R1 時，我們觀察到它對提示很敏感。Few-shot 提示始終會降低其性能。因此，我們建議用戶直接描述問題并使用zero-shot設置指定輸出格式以獲得最佳結果。

ps：

? ? 膜拜大佬。DeepSeek-R1雖然不是第一個推理大模型，但R1的出現第一次讓推理模型能被大多數人用上，而且是免費用上，并且進行了開源。此外，蒸餾小模型的嘗試，也提供了一種新的思路--通過少樣本在通用大模型基礎上進行微調，同樣可以實現具有推理能力的推理模型。這對于企業訓練微調自己的推理模型，提供了技術可行性和經濟可行性。