Chain-of-Thought Prompting Elicits Reasoning in Large Language Models論文閱讀筆記

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

摘要

本文探索了思維鏈(chain of thought),即一系列中間推理過程,可以有效地增強大語言模型的復雜推理能力。

在三個大型語言模型上的實驗表明,思維鏈提示提高了一系列算術、常識和符號推理任務的性能。

在這里插入圖片描述

引言

這項工作探討了如何通過一個簡單的方法來解鎖大型語言模型的推理能力,這個方法由兩個想法驅動:首先,算術推理技術可以從生成導致最終答案的自然語言基本原理中受益。其次,大型語言模型提供了令人興奮的前景,即通過提示在上下文中進行少量的學習。

困難:

  • 對于基本原理增強訓練和微調方法,創建大量高質量的基本原理集是昂貴的,這比普通機器學習中使用的簡單輸入輸出對要復雜得多
  • 對于傳統的幾次提示方法,它在需要推理能力的任務上表現不佳,并且通常不會隨著語言模型規模的增加而得到實質性的改善

在本文中,作者以一種避免其局限性的方式結合了這兩種理念的優勢。具體來說,我們探索了語言模型在給定由三元組組成的提示符的情況下為推理任務執行少量提示的能力:<輸入,思維鏈,輸出>。思維鏈是一系列導致最終輸出的中間自然語言推理步驟,我們將這種方法稱為思維鏈提示

思維鏈

賦予語言模型產生類似思維鏈的能力,即一系列連貫的中間推理步驟,并推導出問題的最終答案。思維鏈提示作為一種促進語言模型推理的方法有幾個吸引人的特性:

  • 首先,思維鏈原則上允許模型將多步驟問題分解為中間步驟,這意味著可以將額外的計算分配給需要更多推理步驟的問題
  • 其次,思想鏈為模型的行為提供了一個可解釋的窗口,提示它是如何得出特定答案的,并提供了調試推理路徑出錯的機會(盡管完全描述支持答案的模型計算仍然是一個開放的問題)
  • 第三,思維鏈推理可以用于數學單詞問題、常識推理和符號操作等任務,并且可能(至少在原則上)適用于人類可以通過語言解決的任何任務
  • 最后,思維鏈推理可以很容易地在足夠大的現成語言模型中引出,只需將思維鏈序列的示例包含到少數提示的示例中

計算推理

我們首先考慮圖1中形式的數學單詞問題,它衡量語言模型的算術推理能力。雖然對人類來說很簡單,但算術推理是語言模型經常難以完成的任務。引人注目的是,當與540B540B540B參數語言模型一起使用時,思維鏈提示在一些任務上的表現與特定于任務的微調模型相當,甚至在具有挑戰性的任務上達到了新的技術水平GSM8KGSM8KGSM8K基準

實驗步驟

在多個基準測試中探索各種語言模型的思維鏈提示

基準:我們考慮以下五個數學單詞問題基準:

  • 數學單詞問題的GSM8KGSM8KGSM8K基準
  • 具有不同結構的數學單詞問題的SVAMPSVAMPSVAMP數據集
  • 各種數學單詞問題的ASDivASDivASDiv數據集
  • 代數字題的AQuAAQuAAQuA數據集
  • MAWPSMAWPSMAWPS基準

標準提示:對于基線,我們考慮標準的幾次提示,其中語言模型在輸出測試時間示例的預測之前給出輸入輸出對的上下文示例

思維鏈提示:我們建議的方法是在幾次提示中增加每個示例,并使用相關答案的思維鏈,如圖1(右)所示。由于大多數數據集只有一個評估分割,我們手動組成了一組8個帶有思維鏈的小樣本——圖1(右)顯示了一個思維鏈樣本

語言模型:五個語言模型:

  • GPT-3
  • LaMDA
  • PaLM
  • UL2 20B
  • Codex

在這里插入圖片描述

結果

在這里插入圖片描述

消融實驗

觀察到使用思維鏈提示的好處后,自然會提出一個問題,即是否可以通過其他類型的提示來獲得同樣的性能改進。圖5顯示了一項消融研究,其中包含如下所述的三種思維鏈變化:

  • 僅限方程:思維鏈提示可能有幫助的一個原因是,它產生了要評估的數學方程,因此我們測試了一個變量,其中模型在給出答案之前被提示只輸出一個數學方程

在這里插入圖片描述

  • 僅限變量計算:另一種直覺是,思維鏈允許模型在更難的問題上花費更多的計算(即中間令牌)。為了將變量計算的影響與思維鏈推理隔離開來,我們測試了一個配置,其中提示模型只輸出與解決問題所需的方程中的字符數相等的點(…)

  • 回答后的思維鏈:思維鏈提示的另一個潛在好處是,這樣的提示可以讓模型更好地訪問在預訓練期間獲得的相關知識。因此,我們測試了另一種配置,其中思想鏈提示僅在答案之后給出,從而隔離模型是否實際上依賴于生成的思想鏈來給出最終答案

思維鏈的魯棒性

對樣本的敏感性是提示方法的關鍵考慮因素,例如,改變少量樣本的排列可能會導致GPT-3的準確性SST-2的范圍從接近偶然(54.3%)到接近最新技術(93.4%)

在這里插入圖片描述

常識推理

雖然思維鏈特別適用于數學單詞問題,但思維鏈基于語言的性質實際上使其適用于廣泛的常識推理問題,這些問題涉及在一般背景知識的假設下對物理和人類互動進行推理。常識推理是與世界互動的關鍵,目前的自然語言理解系統仍然無法做到

基準:CSQA、StrategyQA、Date、Sports、SayCan

提示:遵循與前一節相同的實驗設置

結果: 圖7突出顯示了PaLM的這些結果(LaMDA、GPT-3和不同模型尺度的完整結果見表4)。

在這里插入圖片描述

符號推理

我們最后的實驗評估考慮了符號推理,這對人類來說很簡單,但對語言模型來說可能具有挑戰性。我們表明,思維鏈提示不僅使語言模型能夠執行在標準提示設置中具有挑戰性的符號推理任務,而且還有助于長度泛化到比在少數示例中看到的更長的推理時間輸入

Task

  • Last letter concatenation。這個任務要求模型將名字中單詞的最后一個字母連接起來(例如:“Amy Brown”→\rightarrow“yn”)
  • Coin flip。這個任務要求模型回答在人們拋硬幣或不拋硬幣后,硬幣是否仍然是正面朝上的(例如,“硬幣是正面朝上的。Phoebe拋硬幣。Osvaldo不會拋硬幣。硬幣還是正面朝上嗎?”→\rightarrow“不”)

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/91543.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/91543.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/91543.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

華為核心交換機S7700的內存OID

華為S7700系列交換機 SNMP內存相關OID說明 以下列出了華為S7700核心交換機在SNMP v2c下可用的內存相關OID,包括CPU內存利用率、物理內存總量、已用內存和空閑內存,并給出每個OID的功能描述、數據類型、單位、使用說明等信息。 1. CPU內存利用率(處理器內存占用百分比) OID名…

中州養老Day02:服務管理護理計劃模塊

本日任務:服務管理的后端開發 1.學習:護理項目 (1)評估開發工期的思路和注意事項 全面熟悉項目,了解項目重點,設置開發優先級 比如,在下面圖片的接口文檔中版本有1.0,2.0,3.0也就是功能的初代,二代,三代,所以我們在大致瀏覽所有功能后,要優先關注初代功能的實現 開發計劃 …

JavaScript:Ajax(異步通信技術)

一、Ajax 核心概念Ajax&#xff08;Asynchronous JavaScript and XML&#xff09;是一種異步通信技術&#xff0c;核心特點&#xff1a;無刷新更新&#xff1a;無需重新加載整個頁面異步處理&#xff1a;后臺發送/接收數據不阻塞用戶數據格式&#xff1a;支持 XML/JSON/HTML/純…

leetcode 118. 楊輝三角 簡單

給定一個非負整數 numRows&#xff0c;生成「楊輝三角」的前 numRows 行。在「楊輝三角」中&#xff0c;每個數是它左上方和右上方的數的和。示例 1:輸入: numRows 5 輸出: [[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1]]示例 2:輸入: numRows 1 輸出: [[1]]提示:1 < numRows…

jmeter--While控制器--循環直到接口響應符合條件

場景描述業務場景&#xff1a;單據計算接口情況&#xff1a;單據計算&#xff0c;調用接口1發起計算&#xff0c;接口2查詢計算執行結果jmeter腳本&#xff1a;把接口1和接口2&#xff08;接口2循環調用&#xff0c;直到返回執行完成狀態&#xff09;添加到一個事務&#xff0c…

組播 | 不同 VLAN 間數據轉發實現邏輯 / 實驗

注&#xff1a;本文為 “不同 vlan 間組播數據轉發” 相關合輯。 圖片清晰度受引文原圖所限。 略作重排&#xff0c;如有內容異常&#xff0c;請看原文。 組播 VLAN&#xff1a;解決路由器為不同 VLAN 用戶復制多份流量問題 aiaiai010101 于 2018-11-16 22:42:06 發布 一、組…

滲透測試常用指令

互聯網設備的開放信息查詢網站&#xff1a; https://fofa.info/ https://www.zoomeye.org/ https://quake.360.net/quake/#/index https://x.threatbook.com/v5/mapping https://hunter.qianxin.com/ 目錄 一、網絡探測與掃描 traceroute whatweb ping fping nc n…

51單片機串行通信的設計原理有哪些?

51單片機是指由美國INTEL公司生產的一系列單片機的總稱&#xff0c;這一系列單片機包括了許多品種&#xff0c;如8031&#xff0c;8051&#xff0c;8751&#xff0c;8032&#xff0c;8052&#xff0c;8752等&#xff0c;其中8051是最早最典型的產品&#xff0c;該系列其它單片機…

設計模式十四:適配器模式(Adapter Pattern)

適配器模式&#xff08;Adapter Pattern&#xff09;是一種結構型設計模式&#xff0c;用于將一個類的接口轉換成客戶端期望的另一個接口&#xff0c;使原本不兼容的類可以一起工作。適配器模式的類型類適配器&#xff08;通過多重繼承實現&#xff09;對象適配器&#xff08;通…

力扣經典算法篇-38-組合(回溯算法)

1、題干 給定兩個整數 n 和 k&#xff0c;返回范圍 [1, n] 中所有可能的 k 個數的組合。 你可以按 任何順序 返回答案。 示例 1&#xff1a; 輸入&#xff1a;n 4, k 2 輸出&#xff1a; [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4], ] 示例 2&#xff1a; 輸入&#xff1a;…

多人命題系統

目 錄 摘 要 Abstract 1 系統概述 1.1 概述 1.2課題意義 1.3 主要內容 2 系統開發環境 2. 1 JAVA簡介 2. .2 B/S架構 2.3 SSM三大框架 2.4訪問數據庫實現方法 2.5 系統對MySQL數據庫的兩種連接方式 3 需求分析 3.1技術可行性&#xff1a;技術背景…

UDP_千兆光通信(四)Tri Mode Ethernet MAC ip核

Tri Mode Ethernet MAC ip核使用與例程分析 一、 Tri Mode Ethernet MAC ip核功能 二、 Tri Mode Ethernet MAC ip核配置 數據傳輸速率 主要設置接口 幀濾波功能選擇,以及流控選擇 三、 Tri Mode Ethernet MAC ip核使用 3.1 ip核接口 3.2 ip核接口說明 3.2.1 tx_ifg_delay 3.2…

Linux網絡:多路轉接 epoll

Linux網絡&#xff1a;多路轉接 epoll一、epoll三個接口函數1、epoll_create2、epoll_ctl3、epoll_wait二、epoll的工作原理三、epoll的echo_server1、EpollServer類2、構造函數3、事件循環4、事件派發5、事件處理6、測試四、LT和ET模式1、LT2、ET五、項目代碼一、epoll三個接口…

uniapp 微信小程序 列表點擊分享 不同的信息

<button open-type"share" plain class"item share" click.stop"shareFn(item)"><text>分享</text> </button>import {onShareAppMessage} from dcloudio/uni-applet shareObj ref({})// 將點擊后的分享設置信息 關鍵…

C# 匿名方法詳解

C# 匿名方法詳解 引言 在C#編程語言中,匿名方法是使用Lambda表達式創建的沒有名稱的方法。它們在LINQ查詢、事件處理和其他場合中非常有用。本文將詳細介紹C#匿名方法的基本概念、語法、使用場景以及優勢。 匿名方法的概念 匿名方法是一種無需顯式定義名稱的方法。在C#中,…

SD卡簡介與驅動開發

基本概念 存儲卡有很多種類&#xff0c;CF卡、記憶棒、SD卡、XD卡、MMC卡、MS卡、TF卡、MicroSD卡等。平時最常見的有SD卡和MicroSD卡兩種&#xff0c; SD卡和MicroSD只是兩張卡的大小不同&#xff0c;規格版本是完全相同的&#xff0c;均由SD卡協會推出。 SD卡有不少規范&…

大數據平臺數倉數湖hive之拉鏈表高效實現

對于緩慢變化的維度表&#xff0c;如客戶表&#xff0c;員工表&#xff0c;為了不丟失歷史數據&#xff0c;又不至于太浪費存儲空間&#xff0c;我們采用拉鏈表實現。 實現過程如下&#xff1a; 1、采集初始數據&#xff1a; 1.1 從mysql導出數據到hdfs /data/dolphinschedu…

【VSCode】常用插件推薦(持續更新~)

以下的這些插件都有使用過&#xff0c;可取對自己編碼有用的選擇安裝。&#x1f9e0; 智能補全 / 提示類插件 1. Auto Import在編碼時選擇有對應導入包的選項&#xff0c;自動為 JS/TS 文件中的使用項補全并添加 import 聲明&#xff0c;極大提高開發效率。2. Iconify IntelliS…

ICML 2025 | 深度剖析時序 Transformer:為何有效,瓶頸何在?

本文介紹帝國理工學院等機構在 ICML 2025 發表的最新研究成果。該研究并未提出新模型&#xff0c;而是對現有時間序列 Transformer 模型進行了一次深刻的拷問——為何結構更簡單的 Transformer&#xff08; PatchTST, iTransformer&#xff09;在各大基準測試中&#xff0c;反而…

AIBOX內置5G天線設計

AIBOX內置5G天線設計AIBOX的天線種類天線種類及數量&#xff1a;運營商5G天線*4&#xff0c;1.4G天線*2、wifi天線*1天線形式&#xff1a;內置PCB天線。天線安裝方式&#xff1a;卡扣固定&#xff0c;安裝至設備外殼內壁。RG-178同軸線或UFL1.37mm同軸線連接至主板&#xff0c;…