論文鏈接:
[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
實在太長,自行扔到 Model 里,去翻譯去提問吧。
工作原理:
主要技術,就是訓練出一些專有用途小模型,來幫助大模型訓練。? ?主要技術:
1. 強化學習 (RL)
核心是強化學習技術,像訓練小狗一樣,當模型做出正確的推理步驟或得到正確的結果時,就會獲得獎勵,給 <think> </think> 標記;否則受到懲罰。 通過不斷地學習和調整,模型的推理能力就越來越強。 強化學習過程分為多個階段,包括直接在基礎模型上進行強化學習 (DeepSeek-R1-Zero),以及在加入少量人工整理的數據后進行強化學習。
2.??冷啟動數據
為了讓模型更“聽話”,在 DeepSeek-R1-Zero 的基礎上加入了一些人工整理的數據,并進行多階段訓練。 這些數據可以幫助模型更好地理解人類的語言和思維方式,從而提高推理的準確性和可讀性。 ?
3.?多階段訓練
訓練過程分為多個階段,包括冷啟動階段、推理導向的強化學習階段、拒絕采樣和監督微調階段,以及針對所有場景的強化學習階段。 每個階段都有不同的目標和側重點,從而保證模型的推理能力和泛化能力都能得到提升。
4.?知識蒸餾
DeepSeek-R1 生成大量的訓練數據,然后用這些數據來訓練 smaller models。可以顯著提高 smaller models 的推理性能,降低計算成本。 ?