【AI學習】李宏毅新課《DeepSeek-R1 這類大語言模型是如何進行「深度思考」(Reasoning)的?》的部分紀要

針對推理模型,主要講了四種方法,兩種不需要訓練模型,兩種需要。

在這里插入圖片描述

在這里插入圖片描述
對于reason和inference,這兩個詞有不同的含義!

在這里插入圖片描述
推理時計算不是新鮮事,AlphaGo就是如此。

在這里插入圖片描述
這張圖片說明了將訓練和推理時計算綜合考慮的關系,-1500到-250這些數值表示模型的準確度。

在這里插入圖片描述
這張圖片有關MCTS用于推理模型的幾篇主要論文。

下面是兩種需要微調模型的方法。
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

在這里插入圖片描述
在這里插入圖片描述

但是,實際上,并不需要模型每一步推理都是對的,最后結果對就可以。
在這里插入圖片描述

關鍵是要教會模型知錯能改!!那如何教?
在這里插入圖片描述
SoS這篇論文的意思,就是把錯誤的推理過程也加入訓練數據,形成帶有錯誤推理步驟的訓練數據。

在這里插入圖片描述
這篇論文也類似,在推理過程中包含錯誤的步驟。

在這里插入圖片描述
這就是知識蒸餾,如Sky-T1、s1等

在這里插入圖片描述
可以看到通過Deepseek-R1蒸餾基礎模型后的性能提升。

在這里插入圖片描述
最后一種方法,只看結果的RL方法,就是DeepSeek的方法

在這里插入圖片描述

在這里插入圖片描述
這張圖展現了R1推理16次后再通過投票的性能增益,這也說明,深度思考的幾種方法,是可以結合的,這里就是把RL和前面的Best of N進行了結合。

在這里插入圖片描述
Aha時刻
在這里插入圖片描述
但是R1-zero并沒有拿出來用,只看重結果,導致輸出的推理過程可讀性差
在這里插入圖片描述
在R1訓練中的幾個重點:
1、前面的幾種方法都有用到,而不是單純的RL
2、R1-Zero生成推理數據,用于訓練下一個模型,但是R1-zero輸出的數據可讀性差,所以需要大量的人力矯正,而這個過程R1技術報告說得并不清楚
3、另外還需要通過few shot方式的提示和讓模型生成帶有反思和驗證的提示,來由另一個模型產生數據,這個過程的具體情況也不清楚
4、最后模型訓練,在準確性的基礎上增加了語言一致性的目標,這樣會導致性能略微下降,但是增強可讀性,所以還是用了這種方式。
在這里插入圖片描述
然后這個Model B還是用來生成數據,同時這個數據需要V3作為驗證器,評估正確性,以及過濾數據
最后Model C再經過RL獲得最終的R1,但是這個RL的過程在技術報告描述的不詳細。
在這里插入圖片描述
R1推理過程中有一些奇怪的輸出,例如缺了括號、語言混亂,說明推理過程并沒有人的監督

在這里插入圖片描述
這張圖是說,小的模型上使用RL的方法行不通
背后的原因可能性:RL只是強化基礎模型的能力,就是說,基礎模型作對了,獎勵,做錯了,懲罰,來強化作對的能力,但是前提是基礎模型需要有作對的能力!!
在這里插入圖片描述
所以,相關論文就發現,V3本身就是有Aha能力,R1只是強化這種能力

在這里插入圖片描述

接下來探討推理模型的問題。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/903925.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/903925.shtml
英文地址,請注明出處:http://en.pswp.cn/news/903925.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Kotlin Flow流

一 Kotlin Flow 中的 stateIn 和 shareIn 一、簡單比喻理解 想象一個水龍頭(數據源)和幾個水杯(數據接收者): 普通 Flow(冷流):每個水杯來接水時,都要重新打開水龍頭從…

【嵌入式Linux】基于ARM-Linux的zero2平臺的智慧樓宇管理系統項目

目錄 1. 需求及項目準備(此項目對于虛擬機和香橙派的配置基于上一個垃圾分類項目,如初次開發,兩個平臺的環境變量,阿里云接入,攝像頭配置可參考垃圾分類項目)1.1 系統框圖1.2 硬件接線1.3 語音模塊配置1.4 …

Linux運維中常用的磁盤監控方式

在Linux運維中,磁盤監控是一項關鍵任務,因為它能幫助我們預防磁盤空間不足或性能問題導致的服務中斷或數據丟失。讓我們來看看有哪些常用的磁盤監控方法吧! 1. 查看磁盤使用情況(df命令) df命令用于顯示文件系統的…

OpenCV第6課 圖像處理之幾何變換(縮放)

1.簡述 圖像幾何變換又稱為圖像空間變換,它將一幅圖像中的坐標位置映射到另一幅圖像中的新坐標位置。幾何變換并不改變圖像的像素值,只是在圖像平面上進行像素的重新安排。 根據OpenCV函數的不同,本節課將映射關系劃分為縮放、翻轉、仿射變換、透視等。 2.縮放 2.1 函數…

(35)VTK C++開發示例 ---將圖片映射到平面2

文章目錄 1. 概述2. CMake鏈接VTK3. main.cpp文件4. 演示效果 更多精彩內容👉內容導航 👈👉VTK開發 👈 1. 概述 與上一個示例不同的是,使用vtkImageReader2Factory根據文件擴展名或內容自動創建對應的圖像文件讀取器&a…

【模型量化】量化基礎

目錄 一、認識量化 二、量化基礎原理 2.1 對稱量化和非對稱量化 2.1.1 對稱量化 2.1.2 非對稱量化 2.1.3 量化后的矩陣乘 2.2 神經網絡量化 2.2.1 動態量化 2.2.2 靜態量化 2.3 量化感知訓練 一、認識量化 量化的主要目的是節約顯存、提高計算效率以及加快通信 dee…

【零基礎入門】一篇掌握Python中的字典(創建、訪問、修改、字典方法)【詳細版】

?? 個人主頁:十二月的貓-CSDN博客 ?? 系列專欄: ??《PyTorch科研加速指南:即插即用式模塊開發》-CSDN博客 ???? 十二月的寒冬阻擋不了春天的腳步,十二點的黑夜遮蔽不住黎明的曙光 目錄 1. 前言 2. 字典 2.1 字典的創建 2.1.1 大括號+直接賦值 2.1.2 大括號…

PHP-session

PHP中,session(會話)是一種在服務器上存儲用戶數據的方法,這些數據可以在多個頁面請求或訪問之間保持。Session提供了一種方式來跟蹤用戶狀態,比如登錄信息、購物車內容等。當用戶首次訪問網站時,服務器會創…

第 5 篇:紅黑樹:工程實踐中的平衡大師

上一篇我們探討了為何有序表需要“平衡”機制來保證 O(log N) 的穩定性能。現在,我們要認識一位在實際工程中應用最廣泛、久經考驗的“平衡大師”——紅黑樹 (Red-Black Tree)。 如果你用過 Java 的 TreeMap? 或 TreeSet?,或者 C STL 中的 map? 或 s…

第十六屆藍橋杯 2025 C/C++組 客流量上限

目錄 題目: 題目描述: 題目鏈接: 思路: 打表找規律: 核心思路: 思路詳解: 得到答案的方式: 按計算器: 暴力求解代碼: 快速冪代碼: 位運…

一天學完JDBC!!(萬字總結)

文章目錄 JDBC是什么 1、環境搭建 && 入門案例2、核心API理解①、注冊驅動(Driver類)②、Connection③、statement(sql注入)④、PreparedStatement⑤、ResultSet 3、jdbc擴展(ORM、批量操作)①、實體類和ORM②、批量操作 4. 連接池①、常用連接池②、Durid連接池③、Hi…

從原理到實戰講解回歸算法!!!

哈嘍,大家好,我是我不是小upper, 今天系統梳理了線性回歸的核心知識,從模型的基本原理、參數估計方法,到模型評估指標與實際應用場景,幫助大家深入理解這一經典的機器學習算法,助力數據分析與預測工作。 …

【dify—10】工作流實戰——文生圖工具

目錄 一、創建工作流 應用 二、安裝硅基流動 三、配置硅基流動 四、API測試 (1)進入API文檔 (2)復制curl代碼 (3)Postman測試API 五、 建立文生圖工作流 (1)建立http請求 &…

Rust將結構導出到json如何處理小數點問題

簡述 標準的 serde_json 序列化器不支持直接對浮點數進行格式化限制。如果將浮點數轉換成字符串,又太low逼。這里重點推薦rust_decimal。 #[derive(Serialize)] pub struct StockTickRow {datetime: NaiveDateTime,code: String,name: String,#[serde(serialize_w…

openEuler 22.03 安裝 Redis 6.2.9,支持離線安裝

目錄 一、環境檢查1.1 必要環境檢查1.2 在線安裝(有網絡)1.3 離線安裝(無網絡) 二、下載Redis2.1 在線下載2.2 離線下載 三、安裝Redis四、配置Redis服務五、開機自啟服務六、開放防火墻端口七、常用命令 一、環境檢查 1.1 必要環…

MySQL基本查詢(二)

文章目錄 UpdateDelete插入查詢結果(select insert)聚合函數分組聚合統計 Update 1. 語法: set后面加列屬性或者表達式 UPDATE table_name SET column expr [, column expr …][WHERE …] [ORDER BY …] [LIMIT …] 案例 將孫悟空同學的…

Android Framework學習二:Activity創建及View繪制流程

文章目錄 Window繪制流程Window Manager Service(WMS)SurfaceSurfaceFlinger 安卓View層次結構ActivityPhoneWindowActivity與PhoneWindow兩者之間的關系ViewRootImplDecorViewDecorView 的作用DecorView 的結構總結 Activity創建流程View invalidate調用…

基于ssm的智慧養老平臺(全套)

一、系統架構 前端:jsp | js | jquery | css 后端:spring | springmvc | mybatis 環境:jdk1.8 | mysql | maven | tomcat 二、代碼及數據庫 三、功能介紹 01. 登錄 02. 管理員-主頁 03. 管理員-個人中心 04. 管理員-…

計算機視覺技術的發展歷程

計算機視覺技術的發展歷程可以分為以下幾個階段: 早期探索階段(1960s-1980s) 1960年代:計算機視覺的概念開始形成,研究者嘗試讓計算機識別和理解圖像,主要集中在基礎的圖像處理,如邊緣檢測和特…

2025五一杯B題五一杯數學建模思路代碼文章教學: 礦山數據處理問題

完整內容請看文章最下面的推廣群 問題1. 根據附件1中的數據和,建立數學模型,對數據A進行某種變換,使得變換后的結果與數據盡可能接近。計算變換后的結果與數據的誤差,并分析誤差的來源(如數據噪聲、模型偏差等&#xf…