LLMs基礎學習(七)DeepSeek專題(4)

LLMs基礎學習(七)DeepSeek專題(4)

文章目錄

  • LLMs基礎學習(七)DeepSeek專題(4)
  • DeepSeek-R1 訓練過程的四個階段
    • 具體流程
    • 小結
  • “規則化獎勵”
    • 具體原因
    • 小結
  • “自我認知”(self-cognition)數據
    • 基本概念
    • 小結
  • RL 訓練中過度擬合
    • 避免方式
    • 小結
  • DeepSeek 中的蒸餾
    • 蒸餾基本流程
    • 性能表現
    • 小結
    • 為何在蒸餾過程中僅使用 SFT 而非 RL?
    • 蒸餾過程中是否存在知識損失?如何量化?
      • 知識損失的存在性
      • 量化方法
      • 知識損失的關鍵因素
      • 小結

圖片和視頻鏈接:https://www.bilibili.com/video/BV1gR9gYsEHY?spm_id_from=333.788.player.switch&vd_source=57e4865932ea6c6918a09b65d319a99a

DeepSeek-R1 訓練過程的四個階段

盡管 DeepSeek-R1-Zero 展示了強大的推理能力,并能夠自主發展出意想不到且強大的推理行為,但它也面臨一些問題。例如,DeepSeek-R1-Zero 存在可讀性差和語言混雜等問題。R1 旨在成為一個更易用的模型。因此,R1 并不像 R1-Zero 那樣完全依賴于強化學習過程,而是通過多個階段完成。

具體流程

訓練過程分成四個階段:

  • (SFT,Supervised Fine-Tuning(監督微調)) 冷啟動:為了避免 RL 訓練從基礎模型開始的早期不穩定冷啟動階段構建并收集少量長的 CoT(Chain of Thought,思維鏈)數據來微調 DeepSeek-V3-Base 作為 RL 的起點
  • (RL) 推理導向的強化學習
    • 在冷啟動數據上微調 DeepSeek-V3-Base 后,應用與 DeepSeek-R1-Zero 中相同的 RL 方法訓練。
    • 本階段側重于增強模型的推理能力,尤其是在編碼、數學、科學和邏輯推理等推理密集型任務中,這些任務涉及具有明確解決方案的明確定義的問題。
    • 當 RL 提示涉及多種語言時,CoT 經常表現出語言混合現象。為了減輕語言混合問題,在 RL 訓練過程中引入了一種語言一致性獎勵
    • 雙獎勵系統:設計了基于規則的獎勵機制,包括:
      • 準確性獎勵:評估答案正確性(如數學題答案驗證或代碼編譯測試)。
      • 格式獎勵:強制模型將推理過程置于特定標簽(如和)之間,提升可讀性。
  • (SFT) 拒絕采樣與監督微調
    • 當 RL 過程趨于收斂時,利用訓練出的臨時模型生產用于下一輪訓練的 SFT 數據(60W 推理數據)。
    • 與冷啟動數據區別在于,此階段既包含用于推理能力提升的 60W 數據,也包含 20W 推理無關的數據。使用這 80W 樣本的精選數據集對 DeepSeek-V3-Base 進行了兩個 epoch 的微調
  • (RL) 全場景強化學習
    • 在微調模型的基礎上,使用全場景的強化學習數據提升模型回復的有用性和無害性
    • 對于推理數據,遵循 DeepSeek-R1-Zero 的方法,利用基于規則的獎勵來指導數學、代碼和邏輯推理領域的學習過程
    • 對于通用數據,采用基于模型的獎勵來捕捉復雜和細微場景中的人類偏好

小結

在這里插入圖片描述

使用 (SFT) 冷啟動 -->(RL) 推理導向的強化學習 -->(SFT) 拒絕采樣與監督微調 -->(RL) 全場景強化學習四階段訓練,R1 模型達到 OpenAI-o1-1217 的水平。

“規則化獎勵”

  • 規則化獎勵就像 “客觀考試評分”—— 答案對錯一目了然。
  • 而神經獎勵模型類似 “老師主觀打分”,模型可能學會討好老師卻答錯題。
  • 用規則化獎勵更公平、更直接

具體原因

在推理任務中強調 “規則化獎勵” 而非神經獎勵模型的原因如下:

  1. 避免獎勵黑客(Reward Hacking)問題:原文指出:“神經獎勵模型在大規模強化學習過程中可能出現獎勵黑客”(“neural reward model may suffer from reward hacking in the large-scale reinforcement learning process”,章節 2.2.2)。神經獎勵模型可能被模型通過非預期方式(如利用模型漏洞)獲得高獎勵,而實際推理能力未真正提升。
  2. 降低訓練復雜性和資源消耗:使用神經獎勵模型需要額外訓練和維護,文檔提到 “重新訓練獎勵模型需要額外的訓練資源并復雜化整個流程”(“retraining the reward model needs additional training resources and it complicates the whole training pipeline”,章節 2.2.2)。而規則化獎勵(如準確性驗證、格式檢查)可直接通過預設規則計算獎勵,無需額外模型支持
  3. 獎勵信號更清晰可靠:規則化獎勵基于確定性邏輯(如數學答案驗證、代碼編譯測試),文檔提到 “對于數學問題,模型需以指定格式提供最終答案,從而通過規則可靠驗證正確性”(“for math problems with deterministic results, the model is required to provide the final answer in a specified format… enabling reliable rule-based verification”,章節 2.2.2)。這種獎勵機制直接關聯任務目標,避免了神經獎勵模型可能引入的評估偏差

Reward Modeling:獎勵是訓練信號的來源,決定了強化學習(RL)的優化方向。為訓練 DeepSeek-R1-Zero,采用基于規則的獎勵系統,主要由兩種獎勵組成:

  • Accuracy rewards(準確性獎勵):準確性獎勵模型評估響應是否正確。例如,對于有確定結果的數學問題,模型需以指定格式(如在框內)提供最終答案,以便基于規則可靠驗證正確性。類似地,對于 LeetCode 問題,可使用編譯器基于預定義測試用例生成反饋。
  • Format rewards(格式獎勵):除準確性獎勵模型外,采用格式獎勵模型,強制模型將其思考過程置于和標簽之間。

在開發 DeepSeek-R1-Zero 時不應用結果或過程神經獎勵模型,因為發現神經獎勵模型在大規模強化學習過程中可能出現獎勵黑客問題,且重新訓練獎勵模型需要額外訓練資源并使整個訓練流程復雜化。

小結

為何在推理任務中強調 “規則化獎勵” 而非神經獎勵模型?

  1. 避免獎勵黑客(Reward Hacking)問題
  2. 降低訓練復雜性和資源消耗
  3. 獎勵信號更清晰可靠

“自我認知”(self-cognition)數據

基本概念

根據文檔 2.3.3 章節 “Rejection Sampling and Supervised Fine-Tuning” 的描述:“自我認知”(self-cognition)數據具體指用于訓練模型理解并回答與自身屬性、能力邊界相關的查詢數據。例如:

  • 關于模型身份的問答(如 “你是什么類型的 AI?”)
  • 能力范圍的說明(如 “你能處理哪些類型的任務?”)
  • 訓練數據相關詢問(如 “你的知識截止到什么時候?”)
  • 倫理限制聲明(如 “為什么有些問題不能回答?”)

這類數據屬于非推理類數據(Non-Reasoning data),與寫作、事實問答、翻譯等任務并列,在監督微調階段用于塑造模型的自我認知能力。文檔特別指出,對于這類簡單查詢(如 “hello”),模型不需要生成思維鏈(CoT),直接給出簡潔回應即可。(“For simpler queries, such as ‘hello’ we do not provide a CoT in response.”,章節 2.3.3)

小結

“自我認知”(self-cognition)數據具體指用于訓練模型理解并回答與自身屬性、能力邊界相關的查詢數據

RL 訓練中過度擬合

防止模型成為 “考試機器”,除模擬考(評測任務)外,還需定期抽查其他科目(多樣化任務),確保全面發展。

避免方式

  • 采用多樣化的訓練數據分布
    • 混合推理與非推理數據。在監督微調(SFT)階段,收集涵蓋推理任務(如數學、編碼 )和通用任務(寫作、事實問答等)的多樣化數據,結合約 60 萬推理相關樣本和 20 萬非推理樣本,共約 80 萬訓練樣本。這種數據多樣性促使模型適應不同場景,降低對單一評測任務的依賴。
  • 多階段訓練流程
    • 采用 (SFT) 冷啟動→(RL) 推理導向的強化學習→(SFT) 拒絕采樣與監督微調→(RL) 全場景強化學習四階段訓練。在接近 RL 收斂時,通過拒絕采樣生成新 SFT 數據,結合通用數據重新微調模型,最后進行二次 RL 訓練 。分階段訓練逐步擴展模型能力,避免過早過擬合
  • 組合多類型獎勵信號
    • 將規則化獎勵與人類偏好獎勵結合
    • 在最終 RL 階段,對推理任務使用規則化獎勵(如答案準確性、格式要求),對通用任務引入人類偏好獎勵模型 。這種混合獎勵機制平衡了任務目標與泛化性。
  • 拒絕采樣篩選高質量響應
    • 過濾低質量與重復內容 。在生成 SFT 數據時,通過拒絕采樣排除語言混雜、冗長或重復的推理過程 ,確保訓練數據的多樣性和可讀性,減少模型對噪聲或特定模式的依賴。
  • 全場景提示分布訓練
    • 覆蓋廣泛用戶需求場景 。在最終 RL 階段,使用涵蓋數學、編碼、寫作、問答等多場景的提示分布 。通過多樣化數據優化模型,防止模型過度適配單一評測任務。

小結

避免模型在 RL 訓練中過度擬合評測任務的方法:

  1. 采用多樣化的訓練數據分布
  2. 多階段訓練流程
  3. 組合多類型獎勵信號
  4. 拒絕采樣篩選高質量響應
  5. 全場景提示分布訓練

DeepSeek 中的蒸餾

DeepSeek 團隊探索將 R1 的推理能力蒸餾到更小規模模型的潛力,利用 DeepSeek - R1 生成的 80W 數據對 Qwen 和 Llama 系列的多個小模型進行微調,發布了 DeepSeek - R1 - Distill 系列模型。

蒸餾基本流程

  • 數據準備:DeepSeek - R1 生成 80W 高質量訓練數據,包含豐富推理鏈(Chain of Thought, CoT)和多種任務類型。
  • 模型選擇:選擇 Qwen 和 Llama 系列多個小模型作為學生模型,參數規模分別為 1.5B、7B、8B、14B、32B 和 70B。
  • 蒸餾訓練:使用 DeepSeek - R1 生成的數據對小模型微調,優化蒸餾損失函數,使小模型輸出接近 DeepSeek - R1 的輸出。
  • 性能評估:對蒸餾后的小模型進行性能評估,驗證推理能力提升效果。

在這里插入圖片描述

性能表現

ModelAIME 2024MATH-500GPQA DiamondLiveCode BenchCodeForces
pass@1cons@64pass@1pass@1pass@1rating
GPT-4-05139.313.474.649.932.9759
Claude-3.5-Sonnet-102216.026.778.365.038.9717
OpenAI-o1-mini63.680.090.060.053.81820
QwQ-32B-Preview50.060.090.654.541.91316
DeepSeek-R1-Distill-Qwen-1.5B28.952.783.933.816.9954
DeepSeek-R1-Distill-Qwen-7B55.583.392.849.137.61189
DeepSeek-R1-Distill-Qwen-14B69.780.093.959.153.11481
DeepSeek-R1-Distill-Qwen-32B72.683.394.362.157.21691
DeepSeek-R1-Distill-Llama-8B50.480.089.149.039.61205
DeepSeek-R1-Distill-Llama-70B70.086.794.565.257.51633
  • AIME 2024:基于 2024 年美國數學邀請賽(高中競賽級別)題目集,評估大模型多步驟數學推理能力。
  • MATH-500:OpenAI 精選 500 道數學題評測集,覆蓋代數、幾何等領域,檢驗模型數學解題能力。
  • GPQA Diamond:專家設計 198 道高難度 STEM 領域問題集,測試模型專業學科深度推理和抗搜索作弊能力。
  • LiveCodeBench:聚焦真實世界代碼工程任務評測集,基于 GitHub 倉庫提煉 500 個 Python 問題,評估模型解決實際編程問題能力。
  • CodeForces:知名編程競賽平臺動態題庫,含算法與數據結構等高難度題目,衡量模型代碼生成和復雜邏輯推理水平,根據解題正確性、速度、代碼質量等計算用戶評分(Rating) 。

小結

為使小模型具備 DeepSeek - R1 的推理能力:

  • 首先通過 DeepSeek - R1 推理得到 800k 個樣本。
  • 然后對 6 個不同參數量的開源模型進行直接有監督微調,即直接的數據蒸餾。

為何在蒸餾過程中僅使用 SFT 而非 RL?

蒸餾像 “臨摹大師畫作”,直接復現效果;RL 像 “自己創作”,雖可能更好但費時費力,對小模型來說,先臨摹更劃算。

主要目標驗證蒸餾有效性。在蒸餾過程中僅使用監督微調(SFT)而非強化學習(RL)的原因如下:

  • 成本限制:小模型 RL 需大量計算資源,而 SFT 僅需單輪微調。
  • 知識保留:SFT 直接模仿大模型輸出,避免 RL 探索中的知識遺忘。

探索:結合 SFT 與輕量 RL(如離線 RL)是否可能進一步突破?

蒸餾過程中是否存在知識損失?如何量化?

知識損失像 “壓縮圖片”,大模型(高分辨率原圖)縮成小模型(小圖)后細節模糊,主體保留但清晰度下降。

知識損失的存在性

  • 蒸餾模型性能(如 32B 模型 AIME 72.6% )仍明顯低于原模型 DeepSeek - R1(AIME 79.8% ),說明存在知識損失。
  • 文檔指出蒸餾模型僅 “接近 o1 - mini” 而原模型 “匹配 o1 - 1217”,佐證性能差距。

量化方法

  • 標準基準測試分數對比
    • 數學推理:AIME 2024 pass@1(蒸餾 32B:72.6% vs 原模型:79.8%)
    • 代碼能力:Codeforces Rating(蒸餾 32B:1691 vs 原模型:2029)
    • 綜合知識:GPQA Diamond(蒸餾 32B:62.1% vs 原模型:71.5%)
  • 任務類型敏感性分析:需要長鏈推理的任務(如 LiveCodeBench)蒸餾模型性能下降更顯著(57.5% vs 原模型 65.9%) ,結構化任務(如 MATH - 500)損失較小(94.5% vs 97.3%) 。

知識損失的關鍵因素

  • 規模效應:蒸餾 1.5B 模型 AIME 僅 28.9%,32B 模型達 72.6%,小模型因容量限制損失更多知識。
  • 推理深度依賴:深層推理行為(如反思、驗證)難被小模型完全復現,導致 Codeforces 等復雜任務評分差距更大。

小結

蒸餾必然導致知識損失,其程度可通過標準基準分數差異量化,損失幅度與模型規模成反比、與任務復雜度成正比。文檔通過對比蒸餾模型與原模型的 pass@1、cons@64 評分等指標驗證了該現象。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/901822.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/901822.shtml
英文地址,請注明出處:http://en.pswp.cn/news/901822.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQL 速查手冊

前言:SQL(Structured Query Language)是用于管理關系型數據庫的標準語言,廣泛應用于數據查詢、更新、定義和管理等操作。本文將為你提供一份詳細的 SQL 速查手冊,涵蓋從基礎到高級的各種 SQL 操作,幫助你快…

IDEA 中 Scala 項目遠程連接虛擬機 Spark 環境

IDEA 中 Scala 項目遠程連接虛擬機 Spark 環境 1. 環境準備 確保虛擬機 Spark 環境正常運行 虛擬機中已安裝并啟動 Spark記錄虛擬機的 IP 地址和 Spark 端口(默認 7077)確保虛擬機防火墻允許相關端口訪問 本地 IDEA 環境配置 安裝 Scala 插件安裝 Spar…

.net core 項目快速接入Coze智能體-開箱即用-全局說明

目錄 一、Coze智能體的核心價值 二、開箱即用-效果如下 三 流程與交互設計 為什么要分析意圖,而不是全部交由AI處理。 四 接入前的準備工作 五:代碼實現----字節Coze 簽署 JWT和獲取Token .net core 項目快速接入Coze智能體-開箱即用 .net core快…

網店運營精細化突破新路徑

內容概要 電商戰場越來越卷,單純靠低價和流量轟炸已經玩不轉了。今天想要站穩腳跟,精細化運營才是破局密碼——從商品怎么選、用戶怎么留,到供應鏈怎么跑得更快,每個環節都得摳細節。比如用數據給選品“開天眼”,把用…

數據結構學習筆記 :線性表的鏈式存儲詳解

目錄 單鏈表 1.1 無頭單鏈表 1.2 有頭單鏈表單向循環鏈表雙鏈表 3.1 雙鏈表 3.2 雙向循環鏈表總結與對比 一、單鏈表 1. 無頭單鏈表(Headless Singly Linked List) 定義:鏈表無頭結點,直接由頭指針指向第一個數據節點。 特點&…

數據庫10(代碼相關語句)

while循環 declare avgprice numeric(10,2) set avgprice(select avg(price)from titles) //自定義參數 while avgprice<10 //循環條件 begin update titles set priceprice*1.1 end //循環語句操作&#xff0c;當avgprice<10,所有price都加0.1 case語句 查詢authors表…

Redis 下載與安裝(Windows版)

一、下載 1、redis官網&#xff1a; https://redis.io/downloads/ 2、Github下載地址&#xff1a; https://github.com/MicrosoftArchive/redis/releases 二、安裝 1、打開一個命令窗口&#xff0c;通過 cd 命令進入到你解壓的目錄 2、輸入命令 &#xff0c;啟動 Redis&…

在高數據速度下確保信號完整性的 10 個關鍵策略

隨著越來越多的傳感器連接到系統&#xff0c;需要快速、可靠和安全地傳輸更多數據&#xff0c;對帶寬和設計復雜性的需求也在增加。優先考慮的是確保從 A 發送到 B 的信號不會失真。 確保信號完整性 對于設計依賴于持續準確數據流的數據密集型應用程序的工程師來說&#xff0c…

NAT、代理服務、內網穿透

NAT、代理服務、內網穿透 1、NAT1.1、NAT過程1.2、NAPT2、內網穿透3、內網打洞3、代理服務器3.1、正向代理3.2、反向代理1、NAT 1.1、NAT過程 之前我們討論了IPv4協議中IP地址數量不充足的問題。NAT技術是當前解決IP地址不夠用的主要手段,是路由器的一個重要功能。 NAT能夠將…

利用互斥鎖或者利用邏輯過期解決緩存擊穿問題

緩存擊穿問題概述 緩存擊穿是指某個 熱點數據緩存過期 時&#xff0c;大量并發請求直接穿透緩存&#xff0c;同時訪問數據庫&#xff0c;導致數據庫壓力驟增甚至崩潰。以下是基于 互斥鎖 和 邏輯過期 的解決方案&#xff1a; 一、緩存擊穿的核心原因 熱點數據失效&#xff1a…

Vue3組合式API內核解析:從原子狀態到企業級架構

一、組合邏輯原子化設計 1.1 狀態管理層級拓撲 1.2 組合單元類型對照表 類型典型實現適用場景復用維度UI邏輯單元useForm/useTable表單/列表交互100%跨項目復用業務邏輯單元useOrderFlow訂單流程控制同項目跨模塊設備能力單元useGeolocation地理位置獲取跨技術棧復用狀態管理…

新生宿舍管理系統

收藏關注不迷路&#xff01;&#xff01; &#x1f31f;文末獲取源碼數據庫&#x1f31f; 感興趣的可以先收藏起來&#xff0c;還有大家在畢設選題&#xff08;免費咨詢指導選題&#xff09;&#xff0c;項目以及論文編寫等相關問題都可以給我留言咨詢&#xff0c;希望幫助更多…

從零上手GUI Guider學習LVGL——Button

視頻教程請關注我b站&#xff1a;同學_好好學習&#xff0c;這里只是做相應的筆記文稿 從零上手GUI Guider學習LVGL——Buttton 前言&#xff1a; 首先我們為什么要學習LVGL設計工具呢&#xff1f; 1 降低開發難度 2 提高開發效率 所以我們需要學習一款合適的設計工具 在b站很少…

【AAOS】【源碼分析】Car UX Restrictions

AAOS UX的核心理念:安全駕駛是駕駛員的首要責任。汽車制造商和應用程序開發人員的所有設計都必須反映這一優先事項。 AAOS平臺允許設備制造商(OEM)對不同駕駛狀態下的限制進行定制。 駕駛員分心指南 只有符合Driver Distraction Guidelines的應用才可以在駕駛過程中運行。…

jvm調優工具arthas(阿爾薩斯)安裝與使用---實踐

jvm調優工具arthas(阿爾薩斯)安裝與使用—實踐 Arthas 是Alibaba開源的Java診斷工具&#xff0c;深受開發者喜愛。 當你遇到以下類似問題而束手無策時&#xff0c;Arthas可以幫助你解決&#xff1a; 這個類從哪個 jar 包加載的&#xff1f;為什么會報各種類相關的 Exception…

機器學習期末

選擇題 以下哪項不是機器學習的類型&#xff1f; A. 監督學習 B.無監督學習 C.半監督學習 D.全監督學習 D 哪一個是機器學習的合理定義? A、機器學習是計算機編程的科學 B、機器學習從標記的數據中學習 C、機器學習是允許機器人智能行動的領域 D、機器學習能使計算機能夠在…

3DMAX粒子流樣條線生成器PFSpliner使用方法詳解

3DMAX粒子流樣條線生成器&#xff0c;是一款功能強大且富有創意的工具。它能夠為“粒子流源”的每一個粒子生成專屬的動畫樣條線&#xff0c;這些樣條線描繪出粒子在空間中的運動軌跡&#xff0c;就如同為粒子繪制出了一條條獨特的“運動地圖”。更為出色的是&#xff0c;這些樣…

Maven中clean、compil等操作介紹和Pom.xml中各個標簽介紹

文章目錄 前言Maven常用命令1.clean2.vaildate3.compile4.test5.package6.verify7.install8.site9.deploy pom.xml標簽詳解格式<?xml version"1.0" encoding"UTF-8"?>(xml版本和編碼)modelVersion&#xff08;xml版本&#xff09;groupId&#xff…

Centos7.6安裝JDK 1.8教程

前提&#xff1a;先把jdk1.8文件上傳到usr/local目錄下&#xff0c;文件名如&#xff1a;jdk-8u151-linux-x64.tar.gz 1. 解壓 JDK 壓縮包 假設 jdk-8u151-linux-x64.tar.gz 文件位于 /usr/local 目錄下。 進入 /usr/local 目錄&#xff1a; cd /usr/local 解壓文件&#…

EuroCropsML:首個面向少樣本時間序列作物分類的多國基準數據集

2025-04-15&#xff0c;由慕尼黑工業大學等機構創建的 EuroCropsML 數據集&#xff0c;這是一個結合了農民報告的作物數據與 Sentinel-2 衛星觀測的時間序列數據集&#xff0c;覆蓋了愛沙尼亞、拉脫維亞和葡萄牙。該數據集為解決遙感應用中作物類型數據空間不平衡問題提供了新的…