定位與目標
DeepSeek R1 的推出并非 DeepSeek V3 的簡單迭代,而是一次在訓練范式上的大膽探索。與傳統大模型主要依靠監督微調(SFT)后進行強化學習不同,R1 將重點放在推理能力和行為對齊上,嘗試通過大規模強化學習直接激發模型的推理潛力。其目標是利用強化學習的反饋機制,最大化模型在多步推理任務中的表現,從而提升答案的質量和可靠性。通過強化學習驅動的訓練,DeepSeek R1 希望讓模型在解決復雜問題時具備更深層次的邏輯鏈條和自洽思考能力。
R1-Zero實驗
在 DeepSeek R1 的開發過程中,團隊首先進行了名為“R1-Zero”的前瞻性實驗,完全跳過監督微調(SFT),直接從預訓練后進入強化學習階段。這種“冷啟動”訓練方式要求模型在面對推理問題時通過試錯和反饋自我優化。為了引導推理過程,實驗采用了基于規則的獎勵系統,其中主要包括:
- 準確性獎勵:評估模型答案的正確性。例如,在數學題或編程題中通過規則驗證結果是否正確,正確時給予正向獎勵,錯誤則不給分。
- 格式獎勵:規范輸出結構,要求模型按照預設標簽(如<think>…</think>和<answer&g