坐井說天闊---DeepSeek-R1

前言

DeepSeek-R1這么火,雖然網上很多介紹和解讀,但聽人家的總不如自己去看看原論文。于是花了大概一周的時間,下班后有進入了研究生的狀態---讀論文。

DeepSeek這次的目標是探索在沒有任何監督數據的情況下訓練具有推理能力的大模型,最初的方向是通過純強化學習過程進行自我進化來具備推理能力。當然這個目標并未完全實現,最終還是使用到的監督數據進行微調。

做的第一個嘗試就是使用大規模強化學習 (RL) 訓練,訓練出來的模型稱之為: DeepSeek-R1-Zero. 實驗結果顯示該模型的輸出可讀性差和語言混合等挑戰。

然后考慮是否可以使用少量高質量的數據進行少樣本監督訓練和強化學習相結合的方式,來提升推理能力,并且提升輸出結果質量。這一種思路訓練出來的模型便是DeepSeek-R1

順著這個思路,DeepSeek又進行了下一步的嘗試,上一步使用的數據在其他大模型(如阿里的QWen)上進行微調訓練,即蒸餾過程。實驗結果顯示該過程可以顯著提升其他沒有推理能力的模型也具有良好的推理能力。

詳情如下,水平有限,內容可能有誤,僅個人理解,個人記錄而已。

DeepSeek-R1-Zero

為了實現目標,首先做了開放研究嘗試,只用通過大規模強化學習 (RL) 訓練的模型,僅通過 RL 有效學習和泛化的能力,沒有監督微調 (SFT) ,訓練出來的模型稱為:DeepSeek-R1-Zero,但實驗發現該模型它遇到了可讀性差和語言混合等挑戰。

雖然這個嘗試不盡人意,但其訓練過程還是具有一定參考意義。也是實驗過程中發現了兩件有意思的事情。

首先訓練過程中,發現隨著測試時間的增加,DeepSeek-R1-Zero出現了自我進化的現象,會進行自我進行更復雜的行為,如下圖所示,比如會主動重新評估先前的步驟,會自己探索解決方案的代替方法。這些行為是與強化學習環境交互自己出現的,并且顯著增強了模型的推理能力,從而使得訓練出來的模型可以更高效,更準確的處理更具有挑戰性的任務

另外一件事是“Aha Moment”,DeepSeek-R1-Zero 自己會分配更多的思考時間來重新評估其初始方法,從而思考是否有更有效,更準確的解決方案。下圖給了一個具體的例子。

“Aha Moment”說明了,對于大模型推理能力的訓練,不需要明確的教它如何解決問題,只需要簡單地為其提供正確的激勵措施,然后它就會自主進行思考從而找到更有效的解決策略。“Aha Moment”也在提醒我們,強化學習有可能在AI訓練中解鎖新的智能水平,為未來開發出更加自主和自適應的大模型鋪平道路。

DeepSeek-R1,使用冷啟動進行強化學習

DeepSeek-R1-Zero 遇到了可讀性差和語言混合等挑戰。為了解決DeepSeek-R1-Zero遇到的問題,從兩個方向進行了嘗試,

  1. 是不是可以使用少量高質量的數據作為冷啟動(cold start)來進一步提高推理性能或者減少訓練成本

  2. 對于DeepSeek-R1-Zero 遇到的可讀性差和語言混合等挑戰,如何訓練出一個模型。用戶友好,可以產生清晰連貫的思維鏈(CoT),也有強大的通用能力。

為了獲取高質量的數據,從以下三種方式進行了數據生產,論文中稱之為cold start data(冷啟動數據。

  1. 用具有長思維鏈(CoT)的少樣本(few-shot)提示詞,

  2. 直接讓模型來通過思考和驗證來生成詳細的答案

  3. 收集DeepSeek-R1-Zero的輸出,然后通過人工標注進行后處理來提煉結果

有了冷啟動數據之后便開始微調 DeepSeek-V3-Base 模型。結果顯示可讀性大大增強。而且相對于DeepSeek-R1-Zero, 使用人類設計標注的冷啟動數據的訓練模式性能更好。

Reasoning-oriented Reinforcement Learning(面向推理的強化學習)

為了進一步增強它在推理密集型任務中推理能力。比如編程,邏輯推理等任務(這些任務有定義明確的問題和解決方案)。參考DeepSeek-R1-Zero訓練過程, 對微調后的DeepSeek-V3-Base模型進行了大規模的強化學習訓練,

同樣,在實驗中發現,在CoT過程中已經出現了語言混合的問題,尤其是涉及到多種語言時更容易出錯。為了緩解語言混合問題,訓練期間引入了語言一致性獎勵(language consistency reward),其計算方式是目標語言單詞在 CoT 中的比例。雖然這種語言對齊會導致性能略有下降,但這種獎勵與人類的偏好一致,使其更具可讀性。

最后,將推理任務的準確性(the accuracy of reasoning tasks)和語言一致性的獎勵結合起來,直接相加形成最終的獎勵。然后,我們在微調模型上進行強化學習訓練,直到它在推理任務上實現收斂。

Rejection Sampling and Supervised Fine-Tuning (抑制采樣和監督微調)

在有了一定推理能力之后,為了增加其在寫作,角色扮演和其他通用任務的能力。利用結果檢查點(resulting checkpoint)來收集SFT(Supervised Fine-Tuning)數據來用于下一輪訓練以增強其通用能力。

為了增量通用能力,收集了兩類數據:Reasoning data -- 推理數據,Non-Reasoning data??非推理數據。

為了獲取Reasoning data -- 推理數據,我們通過在結果檢查點(resulting checkpoint)通過抑制采樣(rejection sampling)來獲取推理提示(reasoning prompts)和推理軌跡(reasoning trajectories)。其中一些數據通過使用生成獎勵模型,將真實數據和模型預測輸入到 DeepSeek-V3 中進行判斷是否合格。

經過濾之后。我們總共收集了大約 600k 個推理相關的訓練樣本。

對于非推理數據,如寫作、翻譯,我們采用 DeepSeek-V3 管道,并復用 DeepSeek-V3 的 SFT 數據集的一部分。我們總共收集了大約 200k 個與推理無關的訓練樣本。

我們使用上述約 800k 樣本的精選數據集對 DeepSeek-V3-Base 進行了兩個 epoch 的微調。


Reinforcement Learning for all Scenarios(適用于所有場景的強化學習)

為了進一步使模型與人類偏好保持一致,保證模型的有用性和無害性,進一步完善模型的推理能力。我們實現了一個二級強化學習階段。

使用獎勵信號(reward signal)和多種提示分布(Diverse Prompt Distributions)的組合來訓練模型。對于推理數據,跟DeepSeek-R1-Zero一樣,利用基于規則的獎勵來執行推理過程。

DeepSeek-R1 Evaluation(DeepSeek-R1 評估)

DeepSeek-R1 表現出優于 DeepSeek-V3 的性能。這種改進主要歸因于 STEM 相關問題的準確性提高,其中通過大規模強化學習實現了顯著的收益。

此外,DeepSeek-R1 在 FRAMES 方面表現出色,這是一項長期依賴上下文的 QA 任務,展示了其強大的文檔分析能力。這凸顯了推理模型在 AI 驅動的搜索和數據分析任務中的潛力。在factual benchmark SimpleQA,DeepSeek-R1 的性能優于 DeepSeek-V3,展示了其處理基于事實的查詢的能力。

在此基準上,OpenAI-o1 超過 GPT-4o 也觀察到類似的趨勢。然而,DeepSeek-R1 在Chinese SimpleQA 基準測試中的表現比 DeepSeek-V3 差,主要是因為它傾向于在安全 RL 之后拒絕回答某些查詢。在沒有安全 RL 的情況下,DeepSeek-R1 可以達到超過 70% 的準確率。

Distillation: Empower Small Models with Reasoning Capability(蒸餾:為小模型賦予推理能力)

此外也將收集到的800k 樣本直接對Qwen和Llama等模型進行了微調,這種簡答的蒸餾方式顯著增強了模型的推理能力。蒸餾模型評估結果如下,蒸餾法具有強大的潛力

在蒸餾過程了,只使用了SFT(Supervised Fine-Tuning)數據進行微調。為了驗證大規模 RL 訓練實現與蒸餾相當的性能,在這一節又進行了一步實驗,在Qwen-32B模型上進行大規模的0樣本強化訓練,結果顯示,不如使用SFT(Supervised Fine-Tuning)數據進行微調的結果。

總結和展望

作者在文中的結論有一定的余地,得出來兩個結論。

首先將更強大的模型蒸餾成更小的模型會產生極好的結果,但小模型進行依賴于本大規模 RL 訓練需要巨大的計算能力,甚至可能無法達到蒸餾的性能。

其次,雖然蒸餾策略既經濟又有效,但超越intelligence界限可能仍然需要更強大的基礎模型和更大規模的強化學習。

對未來有以下三點展望。

  • 通用能力:目前,DeepSeek-R1 在函數調用、多輪次、復雜角色扮演和 JSON 輸出等任務方面的能力不如 DeepSeek-V3。展望未來,我們計劃探索可以利用 CoT 來增強這些領域的任務多長時間。

  • 語言混合:DeepSeek-R1 目前針對中文和英文進行了優化,這可能會導致在處理其他語言的查詢時出現語言混合問題。例如,DeepSeek-R1 可能會使用英語進行推理和響應,即使查詢使用的是英語或中文以外的語言。我們的目標是在將來的更新中解決此限制。

  • 提示工程:在評估 DeepSeek-R1 時,我們觀察到它對提示很敏感。Few-shot 提示始終會降低其性能。因此,我們建議用戶直接描述問題并使用zero-shot設置指定輸出格式以獲得最佳結果。

ps:

? ? 膜拜大佬。DeepSeek-R1雖然不是第一個推理大模型,但R1的出現第一次讓推理模型能被大多數人用上,而且是免費用上,并且進行了開源。此外,蒸餾小模型的嘗試,也提供了一種新的思路--通過少樣本在通用大模型基礎上進行微調,同樣可以實現具有推理能力的推理模型。這對于企業訓練微調自己的推理模型,提供了技術可行性和經濟可行性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895865.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895865.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895865.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MySQL(1)基礎篇

執行一條 select 語句,期間發生了什么? | 小林coding 目錄 1、連接MySQL服務器 2、查詢緩存 3、解析SQL語句 4、執行SQL語句 5、MySQL一行記錄的存儲結構 Server 層負責建立連接、分析和執行 SQL存儲引擎層負責數據的存儲和提取。支持InnoDB、MyIS…

IntelliJ IDEA 接入 AI 編程助手(Copilot、DeepSeek、GPT-4o Mini)

IntelliJ IDEA 接入 AI 編程助手(Copilot、DeepSeek、GPT-4o Mini) 📊 引言 近年來,AI 編程助手已成為開發者的高效工具,它們可以加速代碼編寫、優化代碼結構,并提供智能提示。本文介紹如何在 IntelliJ I…

2025.2.20總結

今晚評測試報告,評到一半,由于看板數據沒有分析完,最后讓我搞完再評. 盡管工作了多年的同事告訴我,活沒干完,差距比較大,沒資格評報告,但還是本著試試的態度,結果沒想到評審如此嚴苛…

ok113i——交叉編譯音視頻動態庫

提示:buildroot支持ffmpeg和SDL,但博主的ffmpeg是按下面方法編譯通過,SDL使用buildroot直接編譯也通過; 1. 下載ffmpeg源碼 下載鏈接:https://github.com/FFmpeg/FFmpeg/tags 根據版本需要自行下載壓縮包&#xff0c…

什么叫不可變數據結構?

不可變數據結構(Immutable Data Structures)是指一旦創建之后,其內容就不能被修改的數據結構。這意味著任何對不可變數據結構的“修改”操作實際上都會返回一個新的數據結構,而原始數據結構保持不變。 一、不可變數據結構的核心特點 不可變性:一旦創建后,數據結構的內容…

深度學習之圖像分類(一)

前言 圖像回歸主要是對全連接進行理解 而圖像分類任務主要是對卷積的過程進行理解 這一部分會介紹一些基礎的概念 卷積的過程(包括單通道和多通道) 理解一個卷積神經網絡工作的過程 以及常見的模型的類別和創新點 圖像分類是什么 定義 圖像分類是指將輸…

AutoDock CrankPep or ADCP進行蛋白質多肽對接

需求描述 使用AutoDock CrankPep or ADCP進行蛋白質多肽對接 硬件及系統配置 自用電腦型號如下: 電腦:Precision Tower 7810 (Dell Inc.) CPU : Intel Xeon CPU E5-2686 v4 2.30GHz GPU: NVIDIA GeForce GTX 1070 Linux版本&a…

Django 5實用指南(二)項目結構與管理

2.1 Django5項目結構概述 當你創建一個新的 Django 項目時,Django 會自動生成一個默認的項目結構。這個結構是根據 Django 的最佳實踐來設計的,以便開發者能夠清晰地管理和維護項目中的各種組件。理解并管理好這些文件和目錄結構是 Django 開發的基礎。…

LabVIEW利用CANopen的Batch SDO寫入

本示例展示了如何通過CANopen協議向設備寫入Batch SDO(批量服務數據對象)。Batch SDO允許用戶在一次操作中配置多個參數,適用于設備的批量配置和參數設置。此方法能夠簡化多個參數的寫入過程,提高設備管理效率。 主要步驟&#xf…

WPF9-數據綁定進階

目錄 1. 定義2. 背景3. Binding源3.1. 使用Data Context作為Binding的源3.2. 使用LINQ檢索結果作為Binding的源 4. Binding對數據的轉換和校驗4.1. 需求4.2. 實現步驟4.3. 值轉換和校驗的好處4.3.1. 數據轉換的好處 4.4. 數據校驗的好處4.5. 原理4.5.1. 值轉換器原理4.5.2. 數據…

大數據治理:數字時代的關鍵密碼

大數據治理:數字時代的關鍵密碼 在信息技術飛速發展的今天,數字化浪潮席卷全球,深刻地改變著我們的生活和工作方式。數據,作為數字化時代的核心資產,正以前所未有的速度增長和積累。據國際數據公司(IDC&am…

LeetCode 1299.將每個元素替換為右側最大元素:倒序遍歷,維護最大值,原地修改

【LetMeFly】1299.將每個元素替換為右側最大元素:倒序遍歷,維護最大值,原地修改 力扣題目鏈接:https://leetcode.cn/problems/replace-elements-with-greatest-element-on-right-side/ 給你一個數組 arr ,請你將每個…

機器學習面試題匯總

1. 基礎知識 什么是監督學習和無監督學習? 監督學習是基于已標注的訓練數據來學習預測模型;無監督學習則是在沒有標簽的數據上進行學習,尋找數據的結構或模式。什么是過擬合和欠擬合? 過擬合是指模型在訓練數據上表現很好,但在測試數據上表現差。欠擬合是指模型在訓練數據…

【SQL教程|07】sql中條件查詢where用法示例

SQL WHERE 條件查詢教程 在SQL中,WHERE 條件用于在 SELECT 語句后過濾結果集,只返回符合條件的記錄。它幫助我們從大量數據中提取所需的信息。以下是使用 WHERE 條件的逐步指南。 1. 基本語法 SELECT [字段] FROM [表] WHERE [條件];SELECT&#xff1a…

力扣 跳躍游戲 II

貪心算法,存下每一步的最遠,去達到全局的最小跳躍次數。 題目 從題中要達到最少次數,肯定是每一步盡可能走遠一點。但注意j被限制了范圍,這種不用想每一步遍歷時肯定選最大的num[i],但要注意,題中是可以到…

如何查看 Linux 服務器的 MAC 地址:深入解析與實踐指南

💝💝💝歡迎來到我的博客,很高興能夠在這里和您見面!希望您在這里可以感受到一份輕松愉快的氛圍,不僅可以獲得有趣的內容和知識,也可以暢所欲言、分享您的想法和見解。 推薦:kwan 的首頁,持續學…

Linux驅動學習(二)--字符設備

設備分類 字符設備塊設備網絡設備 內核結構圖&#xff1a; 字符設備號 字符設備號是32位的無符號整型值 高12位&#xff1a;主設備號低20位&#xff1a;次設備號 查看設備號 cat /proc/devices 設備號構造 直接使用宏MKDEV #define MKDEV(ma,mi) (((ma) << MINORBITS…

開發小技巧分享 02:xml解析工具

1.百度詞條 可擴展標記語言 (Extensible Markup Language, XML) &#xff0c;標準通用標記語言的子集&#xff0c;可以用來標記數據、定義數據類型&#xff0c;是一種允許用戶對自己的標記語言進行定義的源語言。 XML是標準通用標記語言 可擴展性良好,內容與形式分離,遵循嚴格的…

ffmpeg configure 研究1-命令行參數的分析

author: hjjdebug date: 2025年 02月 14日 星期五 17:16:12 CST description: ffmpeg configure 研究1 ./configure 命令行參數的分析 文章目錄 1 configure 對命令行參數的分析,在4019行1.1 函數名稱: is_in1.2. 函數名稱: enable1.3. 函數名稱: set_all 2 執行退出判斷的關鍵…

Linux操作系統:從分布式計算到容器化的實踐

Linux集群與高可用性技術&#xff1a;從分布式計算到容器化的實踐 摘要 隨著云計算和大數據技術的飛速發展&#xff0c;Linux集群和高可用性技術已成為現代IT架構的核心組成部分。本文以幽默風趣的方式&#xff0c;深入探討了Linux集群技術&#xff08;如Hadoop、Spark等分布…