大模型思維鏈COT:Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

一、TL;DR

  1. 探索了COT(chain-of-thought prompting)通過一系列的中間推理步驟來顯著的提升了LLM的復雜推理能力
  2. 在三個大型語言模型上的實驗表明,思維鏈提示能夠提升模型在一系列算術、常識和符號推理任務上的表現
  3. 解釋了一下為什么COT有效,見3.3節:老實說我覺得全是猜測
  4. 給出了一些局限性:比如模型參數超過1000億才work,cot并不是真正的模仿人類在推理等等;

二、方法介紹

本研究探討了一種簡單方法,基于兩個想法,如何解鎖大型語言模型的推理能力

  1. 算術推理技術可以從生成自然語言推理依據中受益,這些依據最終導向答案
  2. 大型語言模型通過提示實現上下文中的少樣本學習

但上述兩種方法都存在局限性

  1. 對于推理依據增強的訓練和微調方法來說,創建大量高質量的推理依據成本高昂
  2. 傳統few-shot提示方法,它在需要推理能力的任務上表現不佳

本文如何做?

  1. 探索了語言模型在推理任務中進行few-shot提示的能力,提示內容由三元組組成:[輸入,思維鏈,輸出]。思維鏈是一系列導向最終輸出的中間自然語言推理步驟,我們稱這種方法為chain-of-thought prompting

示例如下:

圖1展示了一個模型生成思維鏈來解決一個它原本會答錯的數學文字題的例子。在這種情況下,思維鏈類似于一個解決方案,以更好地捕捉它模仿逐步思考過程以得出答案的想法

本文做到的benchmark(COT效果最佳,比finetune后的模型還要好):

三、COT

3.1 具體怎么做舉例

在解決復雜的推理任務時,例如多步驟的數學文字題時的思考過程,通常會將問題分解為中間步驟,并在給出最終答案之前先解決每個步驟,并在給出最終答案之前先解決每個步驟:

  1. 簡在送給媽媽2朵花之后還剩下10朵……
  2. 然后在送給爸爸3朵之后,她將剩下7朵……
  3. 所以答案是7

3.2 COT的目標

  1. 賦予語言模型生成類似思維鏈的能力——一系列連貫的中間推理步驟,最終導向問題的答案
  2. 如果在少樣本提示的示例中提供思維鏈推理的演示,足夠大的語言模型可以生成思維鏈。

3.3 COT的優越性

  1. 首先,COT允許模型將多步驟問題分解為中間步驟,這意味著可以為需要更多推理步驟的問題分配額外的計算資源

  2. 其次,思維鏈為模型的行為提供了一個可解釋的窗口,暗示了它可能是如何得出特定答案的,并為調試推理路徑出錯的地方提供了機會(盡管完全描述支持答案的模型計算仍然是一個開放性問題)。

  3. 第三,思維鏈推理可以用于解決數學文字題、常識推理和符號操作等任務,并且原則上可以應用于任何人類可以通過語言解決的任務

  4. 最后,通過在少樣本提示的示例中加入思維鏈序列的示例,足夠大的現成語言模型可以輕松地引發思維鏈推理

在實證實驗中,我們將觀察到思維鏈提示在算術推理、常識推理和符號推理中的漲點作用(本文的核心消融實驗)。

四、?算術推理

我們首先考慮圖1中形式的數學文字題,這些題目衡量了語言模型的算術推理能力。當使用5400億參數的語言模型時,思維鏈提示在多個任務上的表現與針對特定任務進行微調的模型相當,甚至在具有挑戰性的GSM8K基準測試上達到了新的最佳水平。

4.1 實驗設置

基準測試:五個數學文字題基準測試:

  1. 數學文字題的GSM8K基準測試。

  2. 具有不同的結構的數學文字題的SVAMP數據集。

  3. 多樣化的數學文字題的ASDiv數據集。

  4. 代數文字題的AQuA數據集。

  5. MAWPS基準測試(Koncel-Kedziorski等人,2016年)。?

標準的prompt:作為基線,我們考慮了由Brown等人提出的few-shot prompt。在這種方法中,語言模型在輸出測試樣本的預測之前,會先給出上下文中的輸入 - 輸出對示例。示例以問題和答案的形式呈現。模型直接給出答案,如圖1(左側)所示。

COT prrompt:我們提出的方法是在few-shot prompt的每個示例中加入與答案相關的思維鏈,如圖1(右側)所示。由于大多數數據集只有評估部分,我們手動編寫了一組包含八個少樣本示例的思維鏈用于提示——圖1(右側)展示了一個思維鏈示例,完整的示例集在附錄表20中給出。

語言模型:評估了五種大型語言模型。

  1. GPT-3,使用了text-ada-001-3.5億、text-babbage-001-13億、text-curie-001-67億和text-davinci-002-1750億

  2. LaMDA,參數分別為4.22億、20億、80億、680億和1370億參數。

  3. PaLM,參數分別為80億、620億和5400億參數。

  4. UL2 200億參數。

  5. Codex。

通過貪婪解碼從模型中采樣。對于LaMDA,我們在五個隨機種子上報告平均結果,每個種子的示例順序都不同。由于LaMDA實驗在不同種子之間沒有顯示出很大的差異,為了節省計算資源,我們對所有其他模型報告了一個示例順序的結果。

4.2 實驗結果

思維鏈提示的最強結果總結在圖4中,每種模型集合、模型大小和基準測試的所有實驗輸出都顯示在附錄的表2中。

有三個關鍵要點:

  1. 模型規模的新興能力圖4顯示,思維鏈提示是模型規模的一種新興能力。對于小模型,思維鏈提示并沒有積極影響性能,只有在與約1000億參數的模型一起使用時才帶來性能提升。我們定性地發現,較小規模的模型生成的思維鏈雖然流暢,但缺乏邏輯性,導致其性能低于標準提示

  2. 復雜問題的性能提升更大:例如,在GSM8K(基線性能最低的數據集)上,對于最大的GPT和PaLM模型,性能提升了一倍以上。另一方面,對于SingleOp(MAWPS中最簡單的子集,只需要一個步驟來解決),性能提升要么是負的,要么非常小(見附錄表3)。

  3. 與先前最佳水平的比較:通過GPT-3(1750億參數)和PaLM 5400億參數的思維鏈提示,與通常在標記訓練數據集上對特定任務進行微調的先前最佳水平相比,表現良好

4.3 消融實驗

思維鏈提示帶來的性能提升引發了這樣一個自然的問題:是否可以通過其他類型的提示獲得相同的性能提升。圖5展示了一個消融研究,其中包含以下三種思維鏈的變體。

僅方程:思維鏈提示可能有幫助的一個原因是它生成了需要求解的數學方程,因此我們測試了一個變體,即模型在給出答案之前僅被提示輸出一個數學方程。圖5顯示,對于GSM8K,僅方程提示并沒有太大幫助,這意味著GSM8K中的問題語義過于復雜,無法直接翻譯成方程,而無需思維鏈中的自然語言推理步驟。然而,對于只需要一步或兩步解決的問題的數據集,我們發現僅方程提示確實提高了性能,因為方程可以從問題中輕松推導出來(見附錄表6)。

僅變量計算:思維鏈允許模型在更復雜的問題上花費更多的計算。為了將變量計算的效果與思維鏈推理分開,我們測試了一個配置,即模型被提示輸出一個點序列(...),其字符數等于解決該問題所需的方程的字符數。這種變體的表現與基線大致相同,這表明僅變量計算本身并不是思維鏈提示成功的原因,而且通過自然語言表達中間步驟似乎確實有其價值。

答案后的思維鏈:思維鏈提示的另一個潛在好處可能僅僅是這種提示使模型能夠更好地調用預訓練期間獲得的相關知識。因此,我們測試了一種替代配置,即思維鏈提示僅在答案之后給出,以確定模型是否實際上依賴生成的思維鏈來給出最終答案。這種變體的表現與基線大致相同,這表明思維鏈中體現的順序推理之所以有用,不僅僅是因為它激活了知識

第二,對于更復雜的問題,思維鏈提示的性能提升更大。例如,在GSM8K(基線性能最低的數據集)上,對于最大的GPT和PaLM模型,性能提升了一倍以上。另一方面,對于SingleOp(MAWPS中最簡單的子集,只需要一個步驟來解決),性能提升要么是負的,要么非常小(見附錄表3)。

第三,通過GPT-3(1750億參數)和PaLM 5400億參數的思維鏈提示,與通常在標記訓練數據集上對特定任務進行微調的先前最佳水平相比,表現良好。圖4展示了PaLM 5400億參數如何通過思維鏈提示在GSM8K、SVAMP和MAWPS上達到新的最佳水平(盡管需要注意的是,標準提示已經超過了SVAMP的先前最佳水平)。在其他兩個數據集AQuA和ASDiv上,帶有思維鏈提示的PaLM達到了與最佳水平相差2%以內的水平(附錄表2)。

五、常識推理

在一些亂七八糟的各個領域數據集上COT也是work的

流行的CSQA關于世界的常識性問題。StrategyQA要求模型推斷出一個多跳策略來回答問題。BIG-bench項目(BIG-bench合作,2021年)中選擇了兩個專門的評估集:日期理解(從給定上下文中推斷日期)和體育理解(判斷與體育相關的句子是否合理或不合理)。最后,SayCan數據集自然語言指令映射到離散集合中的機器人動作序列

五、符號推理

符號推理,這種任務對人類來說很簡單,但對語言模型來說可能具有挑戰性。COT不僅使語言模型能夠在標準提示設置中執行具有挑戰性的符號推理任務,還促進了對推理時輸入長度的泛化能力,使其能夠處理比少樣本示例中更長的輸入。

五、討論

探索了COT prompt作為一種簡單機制,用于激發大型語言模型中的多步驟推理行為。

  1. 首先發現,思維鏈提示在算術推理方面大幅提升了性能,其改進幅度遠強于消融研究,
  2. 常識推理的實驗強調了思維鏈推理的語言特性使其具有廣泛的適用性。
  3. 最后,我們展示了對于符號推理,思維鏈提示能夠促進對領域外(OOD)更長序列長度的泛化能力

局限性:

  1. 盡管思維鏈模仿了人類推理者的思維過程,但這并不回答神經網絡是否真正“在推理”
  2. 盡管在少樣本設置中,手動為示例添加思維鏈的成本極小,但這種標注成本在微調中可能會變得難以承受
  3. 無法保證推理路徑的正確性,這可能導致正確和錯誤的答案
  4. 思維鏈推理僅在大型模型中出現,這使得其在現實世界應用中的部署成本較高;進一步的研究可以探索如何在較小的模型中誘導推理能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/73384.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/73384.shtml
英文地址,請注明出處:http://en.pswp.cn/web/73384.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

systemd-networkd的配置文件的優先級 筆記250325

systemd-networkd的配置文件的優先級 systemd-networkd的配置文件優先級規則如下: 1. 目錄優先級 配置文件按以下目錄順序加載(優先級從高到低): /etc/systemd/network(用戶自定義配置,最高優先級&#x…

詳細說明windows系統函數::SetUnhandledExceptionFilter(ExceptionFilter)

::SetUnhandledExceptionFilter(ExceptionFilter); 是 Windows 編程中用于設置頂層未處理異常過濾器的關鍵 API 調用。它屬于 Windows 結構化異常處理(SEH, Structured Exception Handling)機制的一部分,主要用于捕獲那些未被程序內部處理的異…

決策樹算法詳解:從西瓜分類到實戰應用

目錄 0. 引言 1. 決策樹是什么? 1.1 生活中的決策樹 1.2 專業版決策樹 2. 如何構建決策樹? 2.1 關鍵問題:選哪個特征先判斷? 2.1.1 信息熵(數據混亂度) 2.1.2 信息增益(劃分后的整潔度提…

超融合服務器是什么

超融合服務器的定義與背景 超融合服務器(Hyperconverged Infrastructure, HCI)是一種通過軟件定義技術,將計算、存儲、網絡和虛擬化功能整合到單一硬件平臺中的IT基礎設施解決方案。其核心目標是通過資源的高度集成和統一管理,簡…

【網絡層協議】NAT技術內網穿透

IP地址數量限制 我們知道,IP地址(IPv4)是一個4字節32位的整數,那么一共只有2^32也就是接近43億個IP地址,而TCP/IP協議棧規定,每臺主機只能有一個IP地址,這就意味著,一共只有不到43億…

時隔多年,終于給它換了皮膚,并正式起了名字

時隔多年,終于更新了直播推流軟件UI,并正式命名為FlashEncoder。軟件仍使用MFC框架,重繪了所有用到的控件,可以有效保證軟件性能,也便于后續進一步優化。 下載地址:https://download.csdn.net/download/Xi…

代碼隨想錄第六十二天| Floyd 算法精講 A * 算法精講 (A star算法) 最短路算法總結篇

Floyd 算法精講 題目描述 小明希望在公園散步時找到從一個景點到另一個景點的最短路徑。給定公園的景點圖,包含 N 個景點和 M 條雙向道路,每條道路有已知的長度。小明有 Q 個觀景計劃,每個計劃包含一個起點和終點,求每個計劃的最…

如何避免測試環境不穩定導致的誤報

避免測試環境不穩定導致誤報的核心方法包括搭建獨立穩定的測試環境、使用環境監控工具、建立環境變更管理機制、定期維護更新測試環境以及提升團隊的環境管理意識。 其中,搭建獨立穩定的測試環境尤為關鍵。獨立的測試環境能有效隔離其他環境的干擾,保證測…

初級:I/O與NIO面試題深度剖析

一、引言 在Java開發中,I/O(輸入/輸出)操作是程序與外部設備(如磁盤、網絡等)進行數據交互的重要方式。傳統的I/O模型在處理大規模數據和高并發場景時存在一定的局限性,而NIO(New I/O&#xff…

Axure RP9教程 :輪播圖(動態面板) | 頭部鎖定

文章目錄 引言I 輪播圖操作步驟在畫布中添加一個動態面板設置面板狀態II 頭部鎖定將頭部區域選中,右鍵組合或用Ctrl+G快捷鍵;將組合的頭部區域,右鍵創建動態面板;引言 動態面板的功能十分強大,比如:擁有獨立的內部坐標系,有多個狀態; Banner的案例中會用到動態面板多個…

超微服務器主板重置ipmi登錄密碼

超微服務器主板重置ipmi登錄密碼 超微服務器的ipmi登錄密碼不對,需要重置但是bios內并沒有找到可以設置的選項。 以下是解決辦法: 安裝IPMITOOL apt install ipmitool -y執行以下命令加載模塊: modprobe ipmi_watchdog modprobe ipmi_po…

藍橋杯第十屆 數的分解

題目描述 本題為填空題,只需要算出結果后,在代碼中使用輸出語句將所填結果輸出即可。 把 2019 分解成 3 個各不相同的正整數之和,并且要求每個正整數都不包含數字 2 和 4,一共有多少種不同的分解方法? 注意交換 3 個…

Docker入門篇4:查看容器資源、查看容器詳細信息、查看容器日志、查看容器內運行的進程

大家好我是木木,在當今快速發展的云計算與云原生時代,容器化技術蓬勃興起,Docker 作為實現容器化的主流工具之一,為開發者和運維人員帶來了極大的便捷 。下面我們一起開始入門第四篇:查看容器資源、查看容器詳細信息、…

基于數據挖掘的網絡入侵檢測關鍵技術研究

標題:基于數據挖掘的網絡入侵檢測關鍵技術研究 內容:1.摘要 隨著互聯網的迅速發展,網絡安全問題日益嚴峻,網絡入侵行為對個人、企業和國家的信息安全構成了巨大威脅。本文的目的是研究基于數據挖掘的網絡入侵檢測關鍵技術,以提高網絡入侵檢測…

中學數學幾百年重大錯誤:將無窮多各異假R誤為R——兩數集相等的必要條件

中學數學幾百年重大錯誤:將無窮多各異假R誤為R——兩數集相等的必要條件 黃小寧 設集A{x}表A各元均由x代表,相應變量x的變域是A。其余類推。本人多年前公開發表的論文中有定理: h定理(兩數集相等的必要條…

react-activation 實現頁面保活記錄

這里寫目錄標題 一、安裝插件(可選)1、react-activation (推薦)2、umi-plugin-keep-alive 二、AliveScope的兩種配置方式1、在src/app.ts 中配置2、在src/layout/index.tsx中配置 三、umi中的配置四、使用問題記錄1、drop使用不生…

STM32使用紅外避障傳感器

1.1 介紹: 該傳感器模塊對環境光適應能力強,其具有一對紅外線發射與接收管,發射管發射出一定頻率的紅外線,當檢測方向遇到障礙物(反射面)時,紅外線反射回來被接收管接收,經過比較器…

python tkinter 開發蓍草占卜系統

1. 項目概述 1.1 簡介 蓍草占卜是中國傳統的占卜方法,用于演算六十四卦。本系統通過現代編程技術,將傳統的蓍草占卜方法數字化,提供一個準確、便捷的占卜工具。 蓍草占卜,作為中國古代的一種傳統占卜方法,承載著深厚…

Linux搭建本地時間服務器及時間同步

搭建一個本地時間服務器,使得局域網內主機時間保持一致。 設置正確時間 # 設置系統時間 date -s "2025-03-25 17:31:00" # 將系統時間寫入硬件時鐘 hwclock --systohc時間服務器設置 系統應該預先安裝chronyd 要允許 所有客戶端 通過你的 chronyd 服務器…

2025-3-25算法打卡

一,走迷宮 1.題目描述: 給定一個 NMNM 的網格迷宮 GG。GG 的每個格子要么是道路,要么是障礙物(道路用 11 表示,障礙物用 00 表示)。 已知迷宮的入口位置為 (x1,y1)(x1?,y1?),出口位置為 (x…