論文淺嘗 | 面向多步推理任務專業化較小語言模型

ee6c7f3b31c1e2d2eddfe6212eb1885e.png

筆記整理:張沈昱,東南大學碩士,研究方向為自然語言處理

鏈接:https://github.com/FranxYao/FlanT5-CoT-Specialization

動機

本文的動機是探索如何在多步推理任務中通過大型語言模型提升較小的語言模型的性能。作者認為,大型語言模型模型(如GPT-3.5系列模型)雖然具有強大的建模能力,但是它們通常需要大量的計算資源和時間來訓練和部署。相比之下,小規模語言模型雖然容量有限,但它們可以更快地訓練和部署,并且在某些任務上有更優異的表現。因此,作者希望通過專業化較小的語言模型來解決多步推理任務,以獲得更好的性能。作者提出了一種從大型教師模型中提取思維鏈(Chain-of-Thought, CoT)路徑來微調指令微調模型(Instruction-Tuned?Model,本文使用Flan-T5),以將其能力集中在目標任務上的方法。通過這種做法,作者證明了小型語言模型可以在多步推理任務中獲得不錯的性能提升,且這種性能提升隨著模型體量的提升穩定增長。

貢獻

本文的主要貢獻包括:

1)提出了一種專業化較小語言模型的方法,將其能力集中在目標任務上,從而獲得更好的性能和更快的訓練和部署速度。

2)通過從大型教師模型中提取思維鏈路徑,并用其來微調指令微調模型,在多步推理任務中,小型語言模型可以獲得不錯的性能提升,并且可以在特定任務上表現出與大型語言模型相當的性能。

3)通過實驗證明隨著模型規模的增大,小型語言模型可以呈現出穩定的性能提升。

4)通過實驗證明使用指令微調的模型(Flan-T5)作為基礎模型比使用原始的預訓練模型(T5)具有更好的泛化性能。

方法

給定一個訓練問題,作者使用code-davinci-002(Codex)來生成40個針對該問題的CoT解決方案,然后選擇其中正確解答了問題的回答作為訓練語料。解決方案包括答案和解釋答案的中間步驟的思維鏈。除了將問題作為輸入并將[CoT, answer]對作為輸出的標準微調設置(圖1?B4)外,作者還考慮了三種額外的數據格式:1) in-context answer-only(圖1?B1),不使用CoT數據,并在問題前添加4個in-context樣本,采用這種設置的原因是先前的工作表明用in-context樣本進行微調可以提高模型的上下文學習能力;2)in-context chain-of-thought(圖1 B2),在輸入和輸出中都添加了CoT;3)zero-shot?and?answer-only(圖1?B3),直接輸入問題并輸出答案,使用僅包含答案的數據是因為以前的工作表明它們能提高模型性能。在本文實驗中,作者表明,in-context樣本能引發模型zero-shot的能力,而zero-shot的數據則會犧牲模型上下文學習的能力。

就訓練目標而言,本文采用了基于分布匹配的蒸餾方法,即最小化學生模型與老師模型輸出的概率分布之間的KL散度(在本文中為模型自回歸解碼過程中每步的輸出分布)。

18e48036ae63af40be7f02b21ba1d9e6.png

圖1?A.?專業模型的總體流程 B.?本文所使用的4種數據格式

實驗

本文針對模型的數學推理能力和通用能力進行了實驗。對于數學推理能力,作者使用code-davinci-002增強的GSM8K數據集作為訓練數據集。GSM8K有7個訓練問題,對于每個問題,作者要求大型模型生成40個不同的解決方案,從生成的解決方案中提取正確的解決方案,共計獲得了有13萬條訓練數據。作者在MultiArith、ASDiv和SVAMP(合稱M-A-S)數據集上測試了模型的分布外性能。M-A-S和GSM8K的區別在于它們都是小學水平的算術推理問題,但是數據集中涉及的實體是不同的。例如,GSM8K可以考慮對食物進行算術推理(例如,5個蘋果+8個香蕉=13個水果),而MultiArith可以考慮動物(例如,2只狗+3只貓=5只動物)。這種類型的分布外泛化通常被稱為詞法級組合泛化(即兩者都是加法,但詞法不同)。對于通用能力,作者使用BigBench Hard(BBH)測試套件,這是一個由26個具有挑戰性的數據集組成的列表,從多個維度測試模型的推理能力(例如日期理解、因果判斷、參考游戲等)。由于其難度和廣泛的覆蓋面,BBH是測試模型通用能力的理想基準。

對于基線模型,作者考慮了通用的大型模型和蒸餾過的小型模型,具體包括:1) 通用的大型模型,根據模型規模排序為:code-davinci-002,LaMDA 137B和PaLM 60B(兩者都是強大的CoT推理的通用模型),UL2(一個具有良好CoT能力的20B模型);2)同期的知識蒸餾模型。實驗表明,本文模型表現明顯優于其他對比方法,主要是因為本文使用了經過指令微調的Flan-T5作為基礎模型,而不是原始預訓練模型(T5),實驗結果如表1。

表1?總體實驗結果

bf7e06144bcf9c6b36f662496cff47c0.png

總結

在這項工作中,作者研究了利用思維鏈提示學習使較小的語言模型在多步驟推理任務上專業化。實驗表明,本文方法能將小模型的能力從通用方向集中到目標數學推理任務。在進行專業化之后,模型性能隨著模型規模的增加而平滑增加。同時,本文實驗顯示了使用指令微調過的模型作為基礎模型的重要性,因為它們的泛化性能比原始預訓練過的檢查點更好。在模型專業化過程中需要做出多種權衡,包括模型泛化性能的損失,分布內和分布外泛化的平衡,以及上下文學習和zero-shot泛化能力的平衡。本文方法是在當下基于大模型的新研究范式中,專業化小模型的重要嘗試。


OpenKG

OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。

fbad9655474ac2b2abacf36afb4a4d5c.png

點擊閱讀原文,進入 OpenKG 網站。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/35126.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/35126.shtml
英文地址,請注明出處:http://en.pswp.cn/news/35126.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

云開發超多功能工具箱組合微信小程序源碼/附帶流量主

介紹: 這是一款云開發超多功能工具箱組合微信小程序源碼附帶流量主功能,小程序內包含了40余個功能,堪稱全能工具箱了,大致功能如下: 證件照制作 | 垃圾分類查詢 | 個性簽名制作 二維碼生成丨文字九宮格 | 手持彈幕丨…

總結synchronized

一.synchronized的特性 synchronized 是 Java 語言中內置的關鍵字,用于實現線程同步,以確保多線程環境下共享資源的安全訪問。 互斥性:synchronized保證了同一時刻只有一個線程可以執行被synchronized修飾的代碼塊或方法。當一個線程進入sync…

使用GraphQL在Postman中進行API測試

GraphQL 是一種用于API的開源數據查詢和操作語言,用于API的查詢語言和運行時。它使客戶端能夠精確地指定其數據需求,并獲得預測性地結果。GraphQL旨在提高API的效率、靈活性和可靠性。 Postman 是一款用于API開發的強大工具,它支持REST和Gra…

LVS簡介及LVS-DR搭建

目錄 一. LVS簡介: 1.簡介 2. LVS工作模式: 3. LVS調度算法: 4. LVS-DR集群介紹: 二.LVS-DR搭建 1.RS配置 1)兩臺RS,需要下載好httpd軟件并準備好配置文件 2)添加虛擬IP(vip&…

Python爬蟲——requests_cookie登陸古詩文網

尋找登陸需要的參數 __VIEWSTATE:aiMG0UXAfCzak10C7436ZC/RXoZbM2lDlX1iU/4wjjdUNsW8QUs6W2/3M6XIKagQZrC7ooD8Upj8uCnpQMXjDAp6fS/NM2nGhnKO0KOSXfT3jGHhJAOBouMI3QnlpJCQKPXfVDJPYwh169MGLFC6trY __VIEWSTATEGENERATOR: C93BE1AE from: http://so.gushiwen.cn/user/collect.…

linux 命令--查看網絡端口命令

使用 netstat 檢查端口 netstat 是一個命令行工具,可以提供有關網絡連接的信息。 netstat - atulnp會顯示所有端口和所有對應的程序,用grep管道可以過濾出想要的字段 -a :all,表示列出所有的連接,服務監聽&#xff…

Android JNI開發從0到1,java調C,C調Java,保姆級教程詳解

前些天發現了一個蠻有意思的人工智能學習網站,8個字形容一下"通俗易懂,風趣幽默",感覺非常有意思,忍不住分享一下給大家。 👉點擊跳轉到教程 第一步首先配置Android studio的NDK開發環境,首先在Android studio中下載NDK…

如何防止CSRF攻擊

背景 隨著互聯網的高速發展,信息安全問題已經成為企業最為關注的焦點之一,而前端又是引發企業安全問題的高危據點。在移動互聯網時代,前端人員除了傳統的 XSS、CSRF 等安全問題之外,又時常遭遇網絡劫持、非法調用 Hybrid API 等新…

Java超級瑪麗小游戲制作過程講解 第六天 創建背景類

package com.sxt;import java.awt.image.BufferedImage;public class BackGround {//當前場景要顯示的圖像 private BufferedImage bgImagenull;//記錄當前是第幾個場景 private int sort;//判斷是否是最后一個場景 private boolean flag;public BackGround(){}public BackGrou…

【CGroupAndroid實踐篇】四、Native Service進程啟動及控制組遷移

寫在前面 承接上一篇,在cgroup子系統初始化完成后,init會繼續執行開機流程,且通過代哦用ExecuteCommand()函數。 /system/core/init/init.cppint SecondStageMain(int argc, char** argv) {......ActionManager& am = ActionManager::GetInstance();am.ExecuteOneCo…

ASIC芯片設計全流程項目實戰課重磅上線 ,支持 65nm制程流片 !

全流程項目實戰課學什么? 此次推出【 ASIC芯片設計全流程項目實戰課】,基于IPA圖像處理加速器,以企業級真實ASIC項目為案例,學員可參與全流程項目實踐,以及65nm真實流片! 眾所周知,放眼整個IC碩…

【Linux】【驅動】驅動框架以及掛載驅動

【Linux】【驅動】驅動框架以及掛載驅動 緒論1.配置開發環境2. 編寫驅動文件3. 編譯Makefile文件4.編譯5. 掛載驅動注意:有些開發板打開了或者禁止了printk信息,導致你看到的實驗現象可能不一樣,此時已經將文件移動到了開發板中,開發板查看文…

Flink CEP(Complex Event Processing)庫

復雜事件處理(Complex Event Processing,CEP)是一種用于在流式數據中識別和處理復雜事件模式的技術。Apache Flink 作為一個流式處理框架,也可以用于實現復雜事件處理。下面是 Flink 中實現復雜事件處理的一般原理: 事…

WebRTC音視頻通話-新增或修改SDP中的碼率Bitrate限制

WebRTC音視頻通話-新增或修改SDP中的碼率Bitrate限制參數 之前搭建ossrs服務,可以查看:https://blog.csdn.net/gloryFlow/article/details/132257196 之前實現iOS端調用ossrs音視頻通話,可以查看:https://blog.csdn.net/gloryFlo…

連接不上手機,adb devices為空:

首先說明一下,我是已經安裝了android studio,也配置了環境變量,但是還是連接不上手機 解決方案: 1.打開開發者模式 https://product.pconline.com.cn/itbk/sjtx/sjwt/1424/14246015.html 2.開啟usb調試 https://baiyunju.cc/10770 最后成功…

Nginx:Web基礎與HTTP協議

目錄 1、dns域名 1.1 dns解析方式: 1.2 域名解析服務器: 2、html 2.1 網頁、網站和主頁、域名 2.2 URL和URI 3、Web(全球廣域網,也稱萬維網) 3.1 靜態頁面 3.1.1 靜態頁面特點 3.2 動態頁面 3.2.1 動態頁面…

什么是CSS的box-sizing屬性?它有哪些取值,各有什么不同?

聚沙成塔每天進步一點點 ? 專欄簡介? CSS的box-sizing屬性? 取值? 不同之處? 寫在最后 ? 專欄簡介 前端入門之旅:探索Web開發的奇妙世界 記得點擊上方或者右側鏈接訂閱本專欄哦 幾何帶你啟航前端之旅 歡迎來到前端入門之旅!這個專欄是為那些對Web…

關于Vue構建低代碼平臺的思考

一、前言 在項目實戰開發中,尤其是大平臺系統的搭建,針對不同業務場景,需要為用戶多次編寫用于錄入、修改、展示操作的相應表單頁面。一旦表單需求過多,對于開發人員來說,算是一種重復開發,甚至是繁雜的工作…

【C++起飛之路】初級—— auto、范圍for循環、宏函數和內聯函數

auto、范圍for、內聯函數、宏函數和nullptr 一、auto — 類型推導的魔法(C 11)1、auto 是什么?2、工作原理3、優勢4、限制和注意事項 二、范圍for (C11)1、基本語法2、優勢3、工作原理4、注意事項5、C11: 范圍 for 循環的擴展: 三…

軟件測試基礎篇——LAMP環境搭建

LAMP 1、Linux系統的其他命令 find命令:在目錄下查找文件 ? 格式一:find 路徑 參數 文件名 ? 路徑:如果沒有指定路徑,默認是在當前目錄下 ? 參數:-name 根據文件名來查找,區分大小寫; -…