(論文總結)思維鏈激發LLM推理能力

研究背景&動機

背景:擴大模型規模已被證實具有提升模型性能和模型效率的功效,但是LLM對于完成推理、算術任務仍有較大不足。

動機:從之前的應用和研究中得知,可以用生成自然語言解釋、使用神經符號等形式語言的方法來提高大模型的算術推理能力,當時采用了從頭預訓練和微調模型的方法,耗費的成本較多;而且大模型具有根據少量文本提示進行上下文少樣本學習的能力,使用少量輸入輸出示例即可提高LLM的推理性能,而不必對單獨的檢查點進行微調

主要貢獻

貢獻了一種通過上下文提示提升LLM推理能力的方法,并進行了不同大小模型在算數推理、常識推理和符號推理上的能力,以及其他相關研究。

研究細節

思維鏈

結合上述兩種方式,用形式化自然語言撰寫少量輸入輸出示例作為上下文提示,啟發LLM進行泛化,從而提高LLM推理性能。

思維鏈(Chain of Thought,CoT)的最初形式是(輸入,思維鏈,輸出)。思維鏈可以被解釋成一種解決方案,類似于人類在思考問題時逐步思考問題的過程,也就是鏈式思維。

CoT有諸多特性:

  1. CoT推理原則上適用于所有用人類語言完成的任務。
  2. CoT允許LLM把多步驟問題分解為中間步驟,這意味著可以讓LLM把額外的計算分配給需要更多推理步驟的問題。(為什么?LLM本身并不能知道要分配額外的計算,會不會只是因為CoT的出現增大了問題的文本量,所以LLM自動分配了更多算力?)
  3. 只要在少樣本實例中包含CoT,就可以在較大的模型中把它激發出來。

對比實驗

對比:

標準提示vs思維鏈提示

標準提示:標準少樣本提示方法

思維鏈提示:為標準少樣本提示中的每個實例都添加一個思維鏈進行增強。對每一個測試數據集,都手動編寫了一組八個思維鏈增強示例用于提示。每次輸入時,隨機選擇八個中的一個作為示例。

算術推理

對五種大小不一的模型進行了測試,且隨機種子造成的結果方差不大。

大致結論:

  1. CoT對LLM推理能力的增強是跟模型的參數大小有關的。參數較小的模型沒有積極影響,只有在100B以上參數的LLM中使用CoT時才有明顯效果。(為什么?)
  2. 在對多個數據集進行測試的時候,CoT提示下的LLM都表現出了明顯的性能提升。對于參數量足夠大的LLM而言,問題越復雜,模型的性能提升就越好。(這是否因為,問題復雜導致CoT需要足夠長,而大參數的LLM恰好可以很好的學習這種更長的CoT?)
  3. 在GPT3 175B模型和PaLM 540B模型上,CoT的提升比在具體任務上微調相應模型還要大。(對于參數足夠大的模型,CoT甚至比微調還有用?可能原因是對于較大的模型而言,如果進行微調,微調后的LLM相比用CoT少樣本學習的LLM更難以對相關問題進行精準泛化,會使用微調前學習到的其他數據中的思考方式污染新學習到的CoT。LLM嘗試進行過往知識的重新整合,但是并不總是成功。)
  4. CoT訓練后的模型也經常出現錯誤,有的是諸如計算上的小失誤,有的則是語義理解錯誤等大錯誤。這種錯誤可以通過增大模型參數量修正一部分。

消融研究:

分別進行了"CoT中只有數學方程"、“CoT中只有自然語言”、“先給答案后給思路”,最終結果都與基礎提示相差不大。
消融研究結果

魯棒性:

分別使用了不同標注人員撰寫的不同風格的CoT提示,結果差別不大。

其他推理

常識推理:CoT對進行常識推理也有一定幫助。

符號推理:CoT可以幫助100B以上參數的大模型進行符號推理,并且可以進行一定的長度泛化。(需要指出的是,這里并沒能給出LLM是否能生成更細致CoT的能力。例如,如果我的示例CoT中沒有提到,LLM是否能給出特殊情況的考慮?是否能給出注意事項?對于某個較為含糊不清/語義模糊/籠統的步驟,能否給出更細致的推理,從而將其細化為多個步驟?)

靈感

多模態的CoT是否有可行性?或者說,給定一些工具和在一個任務中一串工具的操作描述,將他們構建成一種類似CoT的形式化自然語言,能否讓LLM推理出新任務的解法?

LLM在提示下的思考粒度是否完全取決于CoT的粒度?提升LLM的思考推理能力除了1. 提升模型參數量 2. 選用思考過程更詳細的訓練集3. 用思維鏈進行提示 還有什么方法?像Deepseek-R1那樣的自我否定的能力是否也是通過這三種方式實現的?是否跟Deepseek是混合專家模型(MoE)有關系?

LLM之所以能夠進行分步驟的思考,是否是因為訓練集中有著分步驟思考的案例?如果訓練集中只有單純的(輸入、輸出),少樣本實例中也只有單純的(輸入、輸出),LLM能否涌現出分步驟的能力?還是說實際上它不可能有這種創造性?現在所謂的LLM的創造性只是它基于預訓練集和不斷地微調實現的根據人類過往歷史的組合爆炸?

是否可以通過對于小參數模型在這里插入圖片描述
的預訓練使用質量更高,邏輯性更強的訓練集進行訓練,從而提高小模型的性能?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/74264.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/74264.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/74264.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

前后端開發概述:架構、技術棧與未來趨勢

一、前后端開發的基本概念 1.1 什么是前后端開發? 前后端開發是 Web 開發的兩個核心部分,各自承擔不同的職責: 前端(Frontend) 負責網頁的用戶界面(UI)和用戶體驗(UX)…

anythingLLM結合searXNG實現聯網搜索

1、docker-compose 部署searXNG GitHub - searxng/searxng-docker: The docker-compose files for setting up a SearXNG instance with docker. cd /usr/local git clone https://github.com/searxng/searxng-docker.git cd searxng-docker 2、修改 .env文件 # By default…

人形機器人科普

人形機器人(Humanoid Robot)是一種模仿人類外形和行為的機器人,通常具有頭部、軀干、雙臂和雙腿等結構。它們的設計目標是與人類環境無縫交互,執行復雜的任務,甚至在某些領域替代人類工作。 1. 人形機器人的定義與特點…

【CICD】Ansible知識庫

一、主機清單配置 1. 配置文件路徑 默認路徑 /etc/ansible/hosts 這是 Ansible 的全局默認庫存文件路徑,但許多用戶可能不會直接使用它。項目目錄或自定義路徑 用戶通常會為不同項目創建獨立的庫存文件,例如: 當前目錄下的 hosts、inventor…

ArkUI-List組件

列表是一個復雜的容器,當列表項達到一定數量,使得列表內容超出其范圍的時候,就會自動變為可以滾動。列表適合用來展現同類數據類型。 List的基本使用方法 List組件的構建聲明是這個樣子的 List(value?: {space?:number | string, initial…

Ubuntu實時讀取音樂軟件的音頻流

文章目錄 一. 前言二. 開發環境三. 具體操作四. 實際效果 一. 前言 起因是這樣的,我需要在Ubuntu中,實時讀取正在播放音樂的音頻流,然后對音頻進行相關的處理。本來打算使用的PipewireHelvum的方式實現,好處是可以直接利用Helvum…

【yolo】YOLO訓練參數輸入之模型輸入尺寸

模型輸入尺寸是YOLO訓練和推理過程中非常重要的參數之一。YOLO要求輸入圖像的尺寸是固定的,通常為正方形(如416416、640640等)。這個尺寸直接影響模型的性能和速度。以下是對模型輸入尺寸的詳細介紹: 1. 模型輸入尺寸的作用 統一…

【TI MSPM0】Timer學習

一、計數器 加法計數器:每進入一個脈沖,就加一減法計算器:每進入一個脈沖,就減一 當計數器減到0,觸發中斷 1.最短計時時間 當時鐘周期為1khz時,最短計時時間為1ms,最長計時時間為65535ms 當時…

從WebRTC到嵌入式:EasyRTC如何借助大模型提升音視頻通信體驗

隨著人工智能技術的快速發展,WebRTC與大模型的結合正在為音視頻通信領域帶來革命性的變革。WebRTC作為一種開源實時通信技術,以其低延遲、跨平臺兼容性和強大的音視頻處理能力,成為智能硬件和物聯網設備的重要技術支撐。 而EasyRTC作為基于W…

使用brower use AI 代理自動控制瀏覽器完成任務

第一步:終端運行命令下載 brower use pip install browser-use 第二步: 終端運行命令下載playwright playwright install 第三步:新建test.py代碼,粘貼復制以下代碼 import asyncio import osfrom dotenv import load_doten…

自由學習記錄(45)

頂點片元著色器(important) 1.需要在Pass渲染通道中編寫著色器邏輯 2.可以使用cG或HLSL兩種shader語言去編寫Shader邏輯 3.代碼量較多,靈活性較強,性能消耗更可控,可以實現更多渲染細節 4.適用于光照處理較少&#xf…

Quartus + VScode 實現模塊化流水燈

文章目錄 一、通過VScode編寫Verilog代碼二、模塊化編程三、代碼示例 一、通過VScode編寫Verilog代碼 1、下載Vscode 2、下載相關插件 搜索Verilog就會彈出有如圖所示的插件,下載并安裝 3、創建Quartus項目 4、創建完成后點擊Tools,選擇Options 然后在…

tryhackme——The Lay of the Land

文章目錄 一、網絡基礎設施1.1 內網1.2 DMZ區1.3 網絡枚舉(Network Enumeration) 二、域環境三、用戶和組管理四、安全解決方案4.1 基于主機的安全解決方案4.1.1 防病毒軟件4.1.2 Microsoft Windows Defender4.1.3 主機防火墻4.1.4 安全事件記錄與監控4.…

STM32---FreeRTOS消息隊列

一、簡介 1、隊列簡介: 隊列:是任務到任務,任務到中斷、中斷到任務數據交流的一種機制(消息傳遞)。 FreeRTOS基于隊列,實現了多種功能,其中包括隊列集、互斥信號量、計數型信號量、二值信號量…

2025年了,5G還有三個新變化

最近輿論開始討論5G為什么不火了?5G是不是停滯發展了。 實際上,5G不僅在發展,還迎來了它的升級版5G-A。 在今年西班牙舉行的世界移動通信大會上,5G-A就是焦點之一。 被譽為全球通信領域風向標的MWC,匯聚了華為、中興通…

SQLMesh SCD-2 時間維度實戰:餐飲菜單價格演化追蹤

場景背景:動態菜單價格管理 考慮某連鎖餐廳的菜單管理系統,需要記錄食品價格的歷史變更軌跡。業務需求包括: 記錄每次價格調整的時間點支持歷史價格查詢(如"2020年1月2日漢堡多少錢")維護當前有效價格清單…

失物招領|校園失物招領系統|基于Springboot的校園失物招領系統設計與實現(源碼+數據庫+文檔)

校園失物招領系統目錄 目錄 基于Springboot的校園失物招領系統設計與實現 一、前言 二、系統功能設計 三、系統實現 1、 管理員功能實現 (1) 失物招領管理 (2) 尋物啟事管理 (3) 公告管理 (4) 公告類型管理 2、用戶功能實現 (1) 失物招領 (2) 尋物啟事 (3) 公告 …

基于BClinux8部署Ceph 19.2(squid)集群

#作者&#xff1a;閆乾苓 文章目錄 1.版本選擇Ceph版本發布歷史目前官方在維護的版本 2.部署方法3.服務器規劃4.前置配置4.1系統更新4.2配置hosts cat >> /etc/hosts << EOFssh-keygenssh-copy-id ceph01ssh-copy-id ceph02ssh-copy-id ceph034.5 Python34.6 Syst…

安裝React開發者工具

我們在說組件之前&#xff0c;需要先安裝一下React官方推出的開發者工具&#xff0c;首先我們分享在線安裝方式 首先打開谷歌網上應用商店(針對谷歌瀏覽器)&#xff0c;在輸入框內搜索react&#xff0c;安裝如下插件&#xff1a; 注意安裝提供方為Facebook的插件&#xff0c;這…

linux中如何修改文件的權限和擁有者所屬組

目錄標題 chmod指令八進制形式權限修改文件擁有者所屬組的修改umask有關內容 chmod指令 chmod指令可以用來修改人員的權限其形式如下&#xff1a; u代表的是擁有者&#xff0c;g代表的是所屬組&#xff0c;o代表的是其他人&#xff0c;a表示所有人&#xff0c;如果你想增加權…