《論文閱讀》傳統CoT方法和提出的CoT Prompting的區分

論文:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作者對傳統CoT方法和本文提出的CoT Prompting的區分。


1. 傳統方法的局限性

(1) 基于微調的CoT(Rationale-Augmented Training)
  • 實現方式:需人工標注大量〈輸入,推理鏈,輸出〉三元組,然后微調模型
    # 訓練數據示例(需人工編寫)
    {"input": "小明有5個蘋果,吃了2個,還剩幾個?","rationale": "初始5個 - 吃掉2個 = 剩余3個",  # 人工撰寫成本高"output": "3"
    }
    
  • 限制
    • 標注成本:撰寫高質量推理鏈比單純標注答案昂貴10-20倍(論文數據)
    • 泛化性差:每個新任務都需要重新微調
(2) 傳統Few-Shot Prompting
  • 典型結構(Brown et al., 2020):
    輸入: "3個蘋果每個2元,總價多少?"  
    輸出: "6元"輸入: "火車2小時行駛240公里,時速多少?"  
    輸出: "120公里/小時"輸入: "問題..."  # 測試樣本
    
  • 缺陷
    • 僅展示輸入-輸出對,缺乏推理過程示范
    • 在GSM8K數學題測試中,540B參數模型準確率僅17%(對比CoT Prompting的56%)

2. 本文創新:Chain-of-Thought Prompting

核心突破

通過提示工程而非微調,直接激發模型的推理能力:

輸入: "小明有5個蘋果,吃了2個,還剩幾個?"
思考: 初始5個 - 吃掉2個 = 剩余3個  
輸出: "3"輸入: "一個書包原價80元打7折,現價多少?"
思考: 80元 × 0.7 = 56元  
輸出: "56元"輸入: "問題..."  # 測試樣本
技術差異
維度傳統微調CoT本文CoT Prompting
是否需要訓練數據需大量標注三元組僅需3-5個示范樣例
模型修改需任務特定微調同一模型參數處理所有任務
推理鏈來源依賴標注數據模型自動生成
計算成本高(每次任務需微調)零(僅推理)

3. 為什么Prompting版CoT更優?

(1) 數據效率
  • 傳統方法:需5000+標注樣本才能微調出可用模型(Cobbe et al., 2021)
  • 本文方法:僅需8個示范樣例即可達到SOTA(GSM8K上56%準確率)
(2) 涌現能力
  • 參數規模效應:當模型 > 100B參數時,CoT Prompting效果突然提升(見論文中的圖2,如下)
    在這里插入圖片描述

  • 傳統Few-Shot:模型增大后性能提升平緩

(3) 任務泛化
  • 統一框架:同一組提示模板可處理算術/常識/符號推理
  • 傳統方法:每類任務需獨立微調

4. 案例驗證

GSM8K數學題測試

  • 標準Prompting
    輸入: "農場有15只雞和8頭牛,共有多少條腿?"  
    輸出: "46"  # 錯誤(未展示計算過程)
    
  • CoT Prompting
    輸入: "農場有15只雞和8頭牛,共有多少條腿?"  
    思考: 雞腿=15×2=30,牛腿=8×4=32,總腿數=30+32=62  
    輸出: "62"  # 正確
    

結果:準確率從17% → 56%(540B參數模型)


5. 本質創新點

作者并非發明CoT概念,而是發現了:

  1. 無需微調:通過精心設計的提示模板即可激發模型固有推理能力
  2. 規模效應:超大模型(>100B)在少量示范下能自主生成高質量推理鏈
  3. 通用接口:〈輸入,思考鏈,輸出〉三元組作為跨任務統一范式

這種方法的革命性在于:將推理能力從模型訓練階段解耦,轉變為提示工程問題,使單個預訓練模型能零樣本處理復雜推理任務。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/92479.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/92479.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/92479.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Minio 高性能分布式對象存儲

1、什么是對象存儲? 描述: 對象存儲(Object Storage)是一種存儲數據的計算機體系結構,它以對象的形式存儲和管理數據。與傳統的文件系統和塊存儲不同,對象存儲將數據作為對象存儲在分布式的存儲集群中,每個對象都有一…

[深度學習] 大模型學習4-RAG技術全景解析

在大語言模型基礎知識一文中,檢索增強生成(Retrieval-Augmented Generation,簡稱 RAG)技術作為構建大語言模型(Large Language Model,簡稱 LLM)應用的一種方式已被簡要提及,本文將詳…

4G/5G無線電單元系統

4G/5G無線電單元系統 ADI公司的核心技術和領域專業知識幫助客戶在全球范圍內規劃、設計、打造更出色的高性能通信系統。 我們的無線電單元(RU)設計平臺利用新一代技術來提供高性能解決方案,幫助客戶消除設計障礙、縮短產品開發周期,加快產品上市時間。 價…

HarvardX TinyML小筆記1(番外2:神經網絡)

1 介紹 圖片來自:https://zh.wikipedia.org/zh-cn/%E4%BA%BA%E5%B7%A5%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C 神經網絡一直感覺挺神奇的,江湖也說可解釋性很差,無論如何還是學學吧。借這次學習哈佛的TinyML,也就順帶弄了。 這里…

計算機網絡 第2章通信基礎(竟成)

第 2 章 物理層【考綱內容】1.通信基礎 (1) 信道、信號、帶寬、碼元、波特、速率、信源與信宿等基本概念 (2) 奈奎斯特定理與香農定理 (3) 編碼與調制 (4) 電路交換、報文交換與分組交換 (5) 數據報與虛電路2.傳輸介質 (1) 雙絞線、同軸電纜、光纖與無線傳輸介質;(2…

2025-08-09通過授權碼的方式給exe程序充值

2025-08-09通過授權碼的方式給exe程序充值主要點: 一次性授權機制: 新增 .used_licenses 文件記錄所有已使用的授權碼 每次激活前檢查授權碼是否在已使用列表中 激活成功后立即將授權碼標記為已使用 時效性驗證: 授權碼包含過期時間戳&#x…

工具類-高效集合差異計算工具DiffWrapper

集合差異工具類-DiffWrapper 原因 在編輯過程中,肯定會存在對于子表的更新操作,這種更新分為三種: 要加的, 要刪的,要更新的,并且傳參只有一個modifyVO的, 每一個都寫有點過于冗余,故考慮提取一…

SimBA算法實現過程

文章目錄添加噪聲衡量擾動示例數值總結高級索引變量名代碼總體代碼添加噪聲 操作:將頻率擾動通過trans( )轉為像素域擾動加到原始圖像上(trans返回頻率域轉換為像素域的結果) expanded (images_batch[remaining_indices] # 原始圖像&…

【面試題】cookie和session 的區別

文章目錄一、核心定義與存儲位置二、關鍵區別對比三、典型使用場景四、關聯與依賴總結在Web開發中, Cookie和 Session是兩種常用的狀態管理機制,用于在無狀態的HTTP協議中保存用戶信息(如登錄狀態、偏好設置等)。二者的核心區別體…

【機器學習】算法調參的兩種方式:網格搜索(枚舉)、隨機搜索

文章目錄一、網格搜索:窮舉式的最優解尋找1、數學推導過程1. 搜索空間的數學結構2. 優化問題的數學性質3. 收斂性分析4. 誤差分析2、為什么網格搜索有效?1. 全局最優性保證2. 可重現性與穩定性3. 參數敏感性分析3、適用場景與局限性二、隨機搜索&#xf…

免費PDF翻譯 離線自建

https://github.com/Byaidu/PDFMathTranslate/blob/main/docs/README_zh-CN.md https://github.com/Byaidu/PDFMathTranslate/releases 方法 針對不同的使用案例&#xff0c;我們提供不同的方法來使用我們的程序&#xff1a;1. UV 安裝 安裝 Python (3.10 < 版本 < 3.12)…

DeepSeek智能考試系統智能體

一、deepseek-app-1.0 1、系統要求 CentOS 7.9Python 3.8Node.js 16MySQL 8.0 2、部署步驟 運行初始化腳本&#xff1a;./scripts/setup.sh初始化數據庫&#xff1a;mysql -u root -p < scripts/init_db.sql啟動服務&#xff1a;./scripts/start.sh 3、訪問地址 前端&…

4深度學習Pytorch-神經網絡--損失函數(sigmoid、Tanh、ReLU、LReLu、softmax)

目錄 激活函數 1. Sigmoid 2. Tanh 函數&#xff08;雙曲正切&#xff09; 3. ReLU 函數 4. Leaky ReLU (LReLU) 5. Softmax 總結對比表 損失函數選擇 激活函數 激活函數是神經網絡中每個神經元&#xff08;節點&#xff09;的核心組成部分。它接收上一層所有輸入的加權…

探索Trae:使用Trae CN爬取 Gitbook 電子書

在以前使用過Cursor&#xff0c;但是后期由于試用資源很少&#xff0c;免費資源用完我就卸載掉啦&#xff0c;最近又需要開展相關工作&#xff0c;因此下載了最新版的Trae。Trae 2.0最近很火&#xff0c;我正好想要爬取某一個Gitbook 電子書&#xff0c;因此嘗試使用Trae和Pyth…

嵌入式知識日常問題記錄及用法總結(一)

文章目錄摘要問題一、內核啟動流程1.1 ARM內核上電復位與BootROM執行?啟動代碼&#xff08;Startup Code&#xff09;執行跳轉到用戶程序1.2 內存管理問題二、C語言基礎2.1 常量指針和指針常量區別2.2.函數指針和指針函數區別2.3 關鍵字Volatile2.4 隊列結構體數據摘要 嵌入式…

使用Navicat備份數據庫MySQL、PostGreSQL等

Navicat 支持多種數據庫系統&#xff0c;可通過手動或自動方式進行數據備份&#xff0c;整個過程還是相對簡單且直觀&#xff0c;比自己敲命令行方便多了。一、備份步驟1.1、手動備份1、打開Navicat并連接數據庫&#xff1a;首先&#xff0c;啟動Navicat并連接到您的MySQL數據庫…

Web3: 用ERC-1400革新公司股權激勵

大家好&#xff01;今天&#xff0c;我們來聊一個非常酷的話PEG話題&#xff1a;如何利用Web3技術&#xff0c;特別是ERC-1400證券型代幣標準&#xff0c;來革新傳統的公司股權激勵模式。 大家是否想過&#xff0c;派發給員工的期權或限制性股票&#xff08;RSU&#xff09;可以…

【Python 高頻 API 速學 ④】

一、為什么是這 4 個&#xff1f; 列表&#xff08;list&#xff09;是 Python 最常用的可變序列&#xff0c; 90 % 的操作可以濃縮成 「增、并、刪、排」 四個字&#xff0c; 而這四個字正好對應 append / extend / pop / sort。二、四劍客一覽方法作用原地&#xff1f;返回值…

K8S的POD數量限制

#k8s-v1.11.11.查詢當前節點的最大pod數kubectl describe nodes | grep pods2.編輯配置文件把單臺的pod數量調到150個vim /etc/systemd/system/kubelet.service #添加最大數量--maxPods: 1503.加載配置重啟服務systemctl daemon-reload systemctl restart kubelet#k8s-v1.21.41…

OpenAI開源大模型 GPT-OSS 開放權重語言模型解析:技術特性、部署應用及產業影響

注&#xff1a;此文章內容均節選自充電了么創始人&#xff0c;CEO兼CTO陳敬雷老師的新書《GPT多模態大模型與AI Agent智能體》&#xff08;跟我一起學人工智能&#xff09;【陳敬雷編著】【清華大學出版社】 清華《GPT多模態大模型與AI Agent智能體》書籍配套視頻課程【陳敬雷…