FLAN-T5:規模化指令微調的語言模型

摘要

在將數據集表述為指令的形式上進行語言模型微調,已被證明能夠提升模型性能及其對未見任務的泛化能力。本文探討了指令微調,特別關注以下三個方面:(1) 任務數量的擴展,(2) 模型規模的擴展,以及 (3) 基于鏈式思維(chain-of-thought)數據的微調。我們發現,結合上述方面的指令微調顯著提升了多種模型類別(如PaLM、T5、U-PaLM)、提示設置(如零樣本、少樣本、鏈式思維)以及評估基準(如MMLU、BBH、TyDiQA、MGSM、開放式生成、RealToxicityPrompts)的性能。例如,在1.8K個任務上進行指令微調的Flan-PaLM 540B模型,其性能大幅超越了原始PaLM 540B模型(平均提升+9.4%)。Flan-PaLM 540B在多個基準測試中達到了最先進的性能,例如在五樣本MMLU測試中達到了75.2%的準確率。我們還公開發布了Flan-T5的檢查點,這些檢查點即使與更大的模型(如PaLM 62B)相比,也表現出強大的少樣本性能。總體而言,指令微調是一種提升預訓練語言模型性能和可用性的通用方法。
在這里插入圖片描述

1 引言

人工智能的一個重要目標是開發能夠泛化到未見任務的模型。在自然語言處理(NLP)領域,預訓練語言模型在這一目標上取得了顯著進展,因為它們能夠根據自然語言描述執行任務(Brown 等,2020,及其他)。通過在以指令形式表述的任務集合上對語言模型進行微調,進一步推動了這一進展,這使得模型能夠更好地響應指令,并減少對少樣本示例的需求(Ouyang 等,2022;Wei 等,2021;Sanh 等,2021,及其他)。

本文從多個方面推進了指令微調的研究。首先,我們研究了擴展對指令微調的影響。實驗表明,指令微調在任務數量和模型規模方面具有良好的擴展性。它們的擴展行為表明,未來的研究應進一步擴大任務數量和模型規模。其次,我們研究了微調對模型執行推理任務能力的影響。實驗表明,雖然之前的指令微調方法未包含鏈式思維(CoT;Wei 等,2022b)會嚴重降低在CoT評估中的性能,但在微調混合數據中僅加入九個CoT數據集即可在所有評估中實現更好的性能。

基于這些發現,我們訓練了Flan-PaLM模型,使用了一個5400億參數的模型,將微調任務數量增加到1.8K,并包含CoT數據。Flan-PaLM在多個基準測試中超越了PaLM,達到了新的最先進水平。例如,Flan-PaLM改進的推理能力使其能夠利用CoT和自一致性(Wang 等,2022c)在Massive Multi-task Language Understanding(MMLU;Hendrycks 等,2020)上達到75.2%的準確率。與PaLM相比,Flan-PaLM還提升了多語言能力,例如在單樣本TyDiQA(Clark 等,2020)上絕對提升了14.9%,在低資源語言的算術推理(Shi 等,2022)上提升了8.1%。在人類評估中,Flan-PaLM在一組具有挑戰性的開放式生成問題上顯著優于PaLM,表明其可用性得到了提升。此外,我們還發現指令微調在多個負責任的人工智能評估基準上也能提升性能。

此外,我們還對Flan-T5模型(80M到11B)進行了指令微調。這些檢查點具有強大的零樣本、少樣本和CoT能力,優于之前的公開檢查點,如T5(Raffel 等,2020)。例如,Flan-T5 11B在某些具有挑戰性的BIG-Bench任務(Srivastava 等,2022)上相比T5 11B實現了兩位數的性能提升,甚至超越了PaLM 62B。總體而言,我們的結果強調了指令微調如何在一系列模型、提示設置和評估任務中提升性能。

在這里插入圖片描述
在這里插入圖片描述

2 Flan微調

我們在多種數據源(圖2)上使用多種指令模板類型(圖3)進行指令微調。我們將這種微調過程稱為Flan(Finetuning language models;Wei 等,2021),并在微調后的模型名稱前加上“Flan”(例如,Flan-PaLM)。我們展示了Flan在多種模型規模和架構上的有效性(表2)。

2.1 微調數據

任務混合。先前的研究表明,增加指令微調中的任務數量可以提高對未見任務的泛化能力(Wei 等,2021;Sanh 等,2021,及其他)。在本文中,我們通過結合來自先前工作的四個任務混合集(Muffin、T0-SF、NIV2和CoT)將微調任務數量擴展到1,836個,如圖2所示。Muffin(80個任務)包括來自Wei等(2021)的62個任務以及我們在本工作中新增的26個任務,涵蓋對話數據(Byrne 等,2019;Anantha 等,2021;Dai 等,2022)和程序合成數據(Yasunaga 和 Liang,2020;Li 等,2022)。T0-SF(193個任務)包括來自T0(Sanh 等,2021)的任務,這些任務與Muffin中使用的數據不重疊(SF表示“sans Flan”)。NIV2(1554個任務)包括來自Wang等(2022c)的任務。

在這里插入圖片描述

鏈式思維(CoT)微調混合數據。第四種微調數據混合集(推理)涉及CoT注釋,我們用它來探索在CoT注釋上進行微調是否能提高對未見推理任務的性能。我們從先前的工作中創建了一個包含九個數據集的新混合集,這些數據集的訓練語料庫由人工評分者手動編寫了CoT注釋。這九個數據集包括算術推理(Cobbe 等,2021)、多跳推理(Geva 等,2021)和自然語言推理(Camburu 等,2020)等任務。我們為每個任務手動編寫了十個指令模板。數據卡片見附錄F。

模板和格式化。對于Muffin、T0-SF和NIV2,我們使用任務創建者提供的指令模板。對于CoT,我們為九個數據集中的每一個手動編寫了大約十個指令模板。為了創建少樣本模板,我們編寫了多種示例分隔符(例如,“Q:”/“A:”),并在示例級別隨機應用它們。圖3展示了帶有和不帶有示例、以及帶有和不帶有CoT的格式化示例。

2.2 微調過程

在本文中,我們在多種模型系列上應用指令微調,包括T5(Raffel 等,2020)、PaLM(Chowdhery 等,2022)和U-PaLM(Tay 等,2022b)。這些模型系列涵蓋了從Flan-T5-small(8000萬參數)到PaLM和U-PaLM(5400億參數)的不同規模。對于每個模型,我們采用相同的訓練過程,除了少數超參數:學習率、批量大小、dropout和微調步數。我們使用恒定學習率調度,并使用Adafactor優化器(Shazeer 和 Stern,2018)進行微調。我們使用打包(Raffel 等,2020)將多個訓練示例組合成一個序列,使用序列結束標記將輸入與目標分開。應用掩碼以防止標記跨越打包示例邊界相互關注。每個模型的微調步數、學習率、批量大小和dropout值見附錄E。對于每個模型,我們使用單個檢查點進行所有評估;最佳步數是基于對保留任務的定期評估(每2k到10k步,取決于模型規模)選擇的,并且在給定模型的所有消融運行中使用相同的檢查點步數。值得注意的是,微調使用的計算量相對于訓練計算量僅占很小一部分,如表2所示。例如,我們僅使用0.2%的預訓練計算量來對Flan-PaLM 540B進行指令微調(約512個v4 TPU芯片運行37小時)。我們使用基于JAX的T5X框架(Bradbury 等,2018;Roberts 等,2022)。

在這里插入圖片描述

2.3 評估協議

評估基準。我們重點關注未包含在微調數據中的保留任務的性能。我們對Flan-PaLM在世界知識和推理任務上的整體能力感興趣。因此,我們在多種不同的基準上評估模型,包括多語言基準。我們沒有使用Brown等(2020)的評估集,因為幾乎所有那些任務的訓練集都包含在我們的微調混合數據中。相反,我們使用以下具有挑戰性的基準,當前的語言模型在這些基準上的表現仍遠低于人類專家評分者。(1)MMLU(Hendrycks等,2020)包括來自57個任務的考試問題,如數學、歷史、法律和醫學。(2)BBH包括來自BIG-Bench(Srivastava等,2022)的23個具有挑戰性的任務,PaLM在這些任務上的表現低于人類評分者的平均水平(Suzgun等,2022)。(3)TyDiQA(Clark等,2020)是一個涵蓋8種類型多樣語言的問答基準。(4)MGSM(Shi等,2022)是一個多語言數學應用題基準,數據來自Cobbe等(2021)并手動翻譯成10種語言。這些基準也在PaLM論文(Chowdhery等,2022)中使用,該論文未發現與預訓練數據存在任何有意義的數據污染,這與之前工作中的數據污染分析一致(Brown等,2020;Wei等,2021;Du等,2022)。負責任的人工智能評估在附錄C中討論。

評估方法和指標。對于MMLU和BBH,我們評估了通過直接提示(模型直接給出答案;Brown等,2020;Srivastava等,2022)和鏈式思維(CoT)提示(模型在給出最終答案前必須提供推理鏈;Wei等,2022b)的能力。對于TyDiQA,我們僅測量直接提示的精確匹配分數,因為突出顯示包含正確答案的段落部分可能不需要復雜的推理。對于MGSM,我們僅測量CoT提示的準確性,因為直接提示的性能非常低。對于所有基準,我們使用給定的少樣本示例,示例數量遵循先前的工作:MMLU為五樣本,BBH為三樣本,TyDiQA為單樣本,MGSM為八樣本。對于給定模型,我們還報告了一個“歸一化平均值”指標,遵循BIG-Bench中的“歸一化優選指標”(Srivastava等,2022)。我們的歸一化平均值指標是六個歸一化分數的宏觀平均值:MMLU-直接、MMLU-CoT、BBH-直接、BBH-CoT、TyDiQA-直接和MGSM-CoT。每個基準中所有任務的結果見附錄D。一些負責任的人工智能基準使用附錄C中描述的生成任務的額外方法。

3 擴展到5400億參數和1.8K任務

我們首先研究了在(1)模型規模和(2)微調任務數量方面的擴展對保留任務性能的影響。我們通過在三種PaLM模型規模(8B、62B和540B)上進行實驗來擴展模型規模。為了擴展任務數量,我們依次添加任務混合集,從任務最少的混合集開始,逐步增加到任務最多的混合集:CoT、Muffin、T0-SF和NIV2。

圖4展示了這兩個變量的擴展對保留基準歸一化平均值的聯合影響。各個基準的結果見表3。首先,我們可以看到,對于所有三種模型規模,多任務指令微調相比未微調的模型顯著提升了性能,性能提升范圍在9.4%到15.5%之間。

其次,增加微調任務數量可以提高性能,盡管大部分改進來自于使用最多282個任務。對于超過282個任務后性能提升較小的現象,有兩種可能的解釋。一種解釋是額外的任務多樣性不足,因此未能為模型提供新的知識。另一種解釋是,多任務指令微調的大部分收益來自于模型學習更好地表達其從預訓練中已經掌握的知識,而超過282個任務并沒有帶來太多幫助。第二種解釋可能更合理,因為預訓練數據包含7800億個token,而指令微調僅使用了14億個token(占預訓練token的0.2%)。

最后,我們發現,將模型規模擴大一個數量級(即從8B到62B,或從62B到540B)顯著提升了微調和未微調模型的性能。需要注意的是,確定指令微調對小模型還是大模型的改進更大(與未微調的基線相比)可能較為復雜。例如,盡管8B模型的絕對增益大于540B模型(8B為15.5%,540B為9.4%),但540B模型的錯誤率相對減少幅度更大(540B為18.4%,8B為16.6%)。

繪制這些擴展曲線為我們提供了關于進一步擴展模型規模和任務數量如何提升性能的洞察。將模型規模再擴大一個數量級(盡管具有挑戰性)預計會帶來顯著的性能提升。擴展微調任務數量也應能提高性能,盡管可能只是逐步的改進。總體而言,繪制的擴展曲線表明,未來的工作應繼續擴展指令微調。

在這里插入圖片描述
在這里插入圖片描述

4 使用鏈式思維注釋進行微調

Flan微調的目標是生成一個在多種評估中表現更好的檢查點,這包括多步推理能力以及傳統的NLP任務。在本節中,我們探討了在指令微調混合數據中包含鏈式思維(CoT)數據的效果。首先,我們展示了Flan-PaLM在多個基準測試中超越先前模型的改進推理能力。然后,我們通過消融實驗分析了CoT微調數據,結果表明,沒有CoT的指令微調實際上會降低推理能力,而僅包含九個CoT數據集即可在所有評估中提升性能。最后,我們展示了CoT微調通過在具有挑戰性的BIG-Bench任務中使用“讓我們逐步思考”來實現零樣本推理的能力。

4.1 使用鏈式思維微調提高了對保留任務的推理能力

我們首先展示了在微調混合數據中包含九個帶有鏈式思維(CoT)注釋的數據集可以提高推理能力。表4顯示,Flan-PaLM在四個保留評估基準上的CoT提示能力優于PaLM。對于BBH,我們遵循Suzgun等(2022)的協議,將任務分為NLP任務和算法任務。

表4還展示了如何將CoT提示與自一致性(SC;Wang等,2022b)結合,以在多個基準測試中實現新的最先進性能。例如,在MMLU基準測試(Hendrycks等,2020)中,Flan-PaLM 540B達到了75.2%。這顯著優于之前的模型(PaLM = 69.3%,code-davinci-002 = 68.3%,Chinchilla = 67.6%)。在多語言數學問題基準MGSM上,使用CoT + SC的Flan-PaLM顯著提升了SOTA性能,即使在低資源語言上也表現出色,例如在孟加拉語上達到69.6%。相比之下,使用CoT + SC的PaLM在法語和德語等高資源語言上僅分別達到63.6%和61.2%。最后,在GSM8K(Cobbe等,2021,表中未顯示)上,使用CoT + SC的Flan-PaLM實現了新的SOTA,達到83.9%,但需要注意的是,GSM8K的訓練數據集包含在指令微調混合數據中。

在這里插入圖片描述

我們還注意到,Flan-PaLM在某些專門模型上并未達到SOTA(最先進水平)。例如,在BBH-algo(包含僅需要符號操作的任務,例如保持一組亂序對象的順序、按字母順序對單詞列表進行排序)上,即使使用CoT + SC,Flan-PaLM也未能超越code-davinci-002。此外,盡管Flan-PaLM在單樣本TyDiQA上比PaLM提升了14.9%,但仍未達到在TyDiQA訓練集上微調的ByT5的水平(Xue等,2022)。

4.2 需要一些鏈式思維數據以保持推理能力

接下來,我們通過消融實驗分析了在指令微調中僅包含九個CoT數據集的效果。我們將評估分為保留的CoT基準(MMLU、BBH和MGSM)和保留的非CoT基準(MMLU、BBH和TyDiQA),并分別計算CoT和非CoT的歸一化平均值。在圖5-左中,結合非CoT和CoT微調在保留的CoT基準上的性能優于僅使用CoT微調。圖5-右證實,正如預期的那樣,與非CoT微調相比,結合CoT和非CoT微調不會影響非CoT任務的性能。
在這里插入圖片描述

一個重要的問題是,圖5-左還表明,為了保持這種推理能力,微調一些CoT示例是至關重要的,因為僅對非CoT數據進行微調會顯著降低CoT任務的性能,如綠線所示。這種性能下降可能令人驚訝,因為之前的多項研究發現,指令微調可以提高對未見任務的性能(Wei等,2021;Sanh等,2021;Wang等,2019a;Min等,2022,及其他)。然而,之前的工作僅評估了保留的NLP任務(例如,微調除情感分析之外的所有任務,然后在情感分析基準上進行評估),而且之前的模型通常規模較小,無法成功進行CoT推理。綜合來看,這一消融實驗可以解釋為:當未見任務與微調任務處于相同的提示范式(即非CoT或CoT)時,指令微調可以提高對未見任務的性能。因此,需要同時包含非CoT和CoT數據,以提升模型在所有評估中的能力。

4.3 解鎖零樣本推理

在CoT數據上進行指令微調的另一個最終好處是,無論是否使用示例,生成的模型都能夠在零樣本設置中執行CoT推理。這種零樣本設置很重要,因為它測試了模型在沒有少樣本CoT示例的情況下生成自身推理技能的能力,而這通常需要大量的提示工程來正確構建。

圖6顯示,在包含23個未見挑戰性BIG-Bench任務的BBH基準測試中,Flan-PaLM模型通過利用“讓我們逐步思考”這一短語激活的CoT推理(Kojima等,2022),能夠實現性能提升。相比之下,未經微調的PaLM無法生成能夠解決這些問題的CoT。圖7展示了PaLM和Flan-PaLM在零樣本CoT中的三個示例。

盡管PaLM在零樣本CoT上的負面結果可能與Kojima等(2022)的研究結果看似矛盾,但仔細比較后發現它們并不矛盾。該論文中大多數成功的零樣本CoT實驗實際上利用了InstructGPT(Ouyang等,2022),而InstructGPT經過了指令微調(我們假設這種指令微調包含了一些類似CoT的數據)。在未經微調的PaLM上成功進行的零樣本CoT實驗僅針對數學應用題,這與BBH中的問題類型有顯著不同。

在這里插入圖片描述
在這里插入圖片描述

溫馨提示:
閱讀全文請訪問"AI深語解構" FLAN-T5:規模化指令微調的語言模型

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/913500.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/913500.shtml
英文地址,請注明出處:http://en.pswp.cn/news/913500.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

設計模式文章

1. 工廠模式 | 菜鳥教程

Xilinx Vivado開發環境快速導出hdf文件(bat批處理)

Xilinx FPGA使用Vivado開發環境創建MicroBlaze軟核或ZYNQ PS側SDK邏輯工程時,需要FPGA側搭建的硬件平臺文件,即hdf文件,常規方式是編譯完成生成bit流文件后,通過File->Export->Export Hardware菜單來導出,在彈出…

UniApp 中實現智能吸頂 Tab 標簽導航效果

前言在移動端應用開發中,Tab 標簽導航是一種常見的交互模式。本文將詳細介紹如何在 UniApp 中實現一個功能完善的智能吸頂 Tab 導航組件,該組件具有以下特性:🎯 智能顯示:根據滾動位置動態顯示/隱藏📌 吸頂…

ElasticSearch快速入門-1

文章目錄Elasticsearch簡介ES概念ES和關系型數據庫的對比正序索引和倒序索引安裝es、kibana、IK分詞器ES操作_cat操作Mapping映射屬性索引庫操作索引庫CRUD文檔CRUD文檔批處理操作Java客戶端操作ESElasticsearch簡介 就是一個搜索引擎數據庫 以下都簡稱ES ES概念 ES和關系型…

【論文撰寫】如何把AI生成的文本公式復制在word中,完整的復制公式,拷貝豆包生成的公式

1、問題描述 AI生成的內容 在對于含有公式的生成內容,直接拷貝到Word 會呈現類Markdown的格式,除了格式上,公式也不是標準格式。 如下列兩個圖片對比 2、工具 這時,就需要用另一個工具進行轉換 Home - Snip Web Mathpix Acc…

【機器學習筆記 Ⅱ】5 矩陣乘法

矩陣乘法是神經網絡、圖形學、科學計算等領域的核心運算,用于高效處理線性變換和批量數據計算。以下是其數學定義、計算規則及實際應用的系統解析。1. 數學定義2. 計算步驟(示例)3. 代碼實現 (1) Python(NumPy) import…

【數字后端】- 衡量design的congestion情況

基礎概念 通常在RP的placement之后,就要去去查看設計的Density和Congestion情況。 而congestion的衡量指標有以下兩點: (1)Overflow Congestion 分析基于一個基本『單元』稱為GCELL: Routing Grid cell. Gcell 是工具自己定義…

Oracle面試題-體系結構

📌1.如何查看 Oracle 數據庫的版本信息? 1. 標準 SQL 查詢(推薦) 方法 1:查詢 v$version 視圖(最常用) SELECT * FROM v$version;輸出示例: BANNER -------------------------------…

Flex布局原理

1.布局原理 flex 是 flexible Box 的縮寫,意為"彈性布局",用來為盒狀模型提供最大的靈活性,任何一個容器都可以 指定為 flex 布局。 當我們為父盒子設為 flex 布局以后,子元素的 float、clear 和 vertical-align 屬性將…

JavaScript 模塊系統二十年:混亂、分裂與出路

JavaScript 模塊系統:一場至今未醒的歷史夢魘 一、引言:我們真的解決了“模塊化”嗎? 你可能以為,JavaScript 模塊系統早已標準化,import/export 就是答案。 但現實卻是另一番景象:構建報錯、依賴沖突、加…

人工智能-基礎篇-23-智能體Agent到底是什么?怎么理解?(智能體=看+想+做)

1、智能體是什么? 想象你有一個超級聰明的小助手,它能: 自己看環境(比如看到天氣、聽到聲音、讀到數據);自己做決定(比如下雨了要關窗,電量低要去充電);自己…

Java實現項目1——彈射球游戲

項目:彈射球游戲 項目描述: 類似于乒乓球的游戲,游戲可以播放背景音樂,可以更換背景圖,當小球碰到下面的擋板后會反彈,當小球碰到方塊后會增加分數,當小球掉落會導致游戲失敗,按下…

(十八)深入了解 AVFoundation-編輯:添加背景音樂與音量控制(下)——實戰篇

一、功能目標回顧在理論篇中,我們系統地介紹了如何使用 AVFoundation 添加背景音樂音軌,并通過 AVMutableAudioMix 與 AVMutableAudioMixInputParameters 實現多音軌混音與音量控制。我們了解了諸如淡入淡出、靜音控制、動態音量曲線等核心技術細節。本篇…

如何在新機器上設置github完成內容git push

如果你在一臺新的機器上git pull 倉庫,完成修改,然后git push,會發現下面錯誤: Username for https://github.com: xiaomaolv Password for https://xiaomaolvgithub.com: remote: Support for password authentication was rem…

Rust 注釋

Rust 注釋 引言 Rust 編程語言以其內存安全、并發支持和高性能等特點在軟件開發領域獲得了廣泛的關注。在Rust編程中,注釋是一種非常重要的元素,它不僅可以幫助程序員理解代碼,還可以提高代碼的可維護性和可讀性。本文將詳細介紹Rust中的注釋…

Flink Oracle CDC 環境配置與驗證

一、Oracle 數據庫核心配置詳解 1. 啟用歸檔日志(Archiving Log) Oracle CDC 依賴歸檔日志獲取增量變更數據,需按以下步驟啟用: 非CDB數據庫配置: -- 以DBA身份連接數據庫 CONNECT sys/password AS SYSDBA; -- …

ssh: Could not resolve hostname d: Temporary failure in name resolution

關于不能本機上傳文件夾到服務器上的一個問題的記錄。 scp -r "D:\***\datasets" usernamexxxxxx:接收文件夾名 一直報錯:ssh: Could not resolve hostname d: Temporary failure in name resolution 反復嘗試發現無果之后想起來,在傳輸的時候…

2025年的前后端一體化CMS框架優選方案

以下是結合技術生態、開發效率和商業落地驗證,整理的2025年前后端一體化CMS框架優選方案:一、?主流成熟框架組合?1. ?React Node.js (Express/Next.js)??前端?:React生態成熟,配合Redux狀態管理,適合復雜后臺界…

《聲音的變形記:Web Audio API的實時特效法則》

用戶期待更豐富、更具沉浸感的聽覺體驗時,基于Web Audio API實現的實時音頻特效,就像是為這片森林注入了靈動的精靈,讓簡單的聲音蛻變為震撼人心的聽覺盛宴。回聲特效帶來空間的深邃回響,變聲效果賦予聲音全新的個性面貌。接下來&…

LLM場景下的強化學習【PPO】

適合本身對強化學習有基本了解 一、什么是強化學習 一句話:在當前狀態(State)下,智能體(Agent)與環境(Environment)交互,并采取動作(Action)進入下一狀態,過程中獲得獎勵(Reward,有正向有負向),從而實現從…