以少學習:通過無標簽數據從大型語言模型進行知識蒸餾

Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data

發表:NNACL-Findings 2025
機構:密歇根州立大學

Abstract

在實際的自然語言處理(NLP)應用中,大型語言模型(LLMs)由于在海量數據上進行過廣泛訓練,展現出極具前景的解決方案。然而,LLMs龐大的模型規模和高計算需求限制了它們在許多實際應用中的可行性,尤其是在需要進一步微調的場景下。為了解決這些限制,實際部署時通常更傾向于使用較小的模型。但這些小模型的訓練常受到標注數據稀缺的制約。相比之下,無標簽數據通常較為豐富,可以通過利用LLMs生成偽標簽(pseudo-labels),用于訓練小模型,從而使得這些小模型(學生模型)能夠從LLMs(教師模型)中學習知識,同時降低計算成本。

這一過程也帶來了一些挑戰,例如偽標簽可能存在噪聲。因此,選擇高質量且信息豐富的數據對于提升模型性能和提高數據利用效率至關重要。為了解決這一問題,我們提出了 LLKD(Learning with Less for Knowledge Distillation),一種能夠以更少計算資源和更少數據完成從LLMs進行知識蒸餾的方法。

LLKD 是一種自適應樣本選擇方法,融合了來自教師模型和學生模型的信號。具體來說,它優先選擇那些教師模型在標注上表現出高度置信度的樣本(意味著標簽更可靠),以及學生模型在這些樣本上表現出高信息需求的樣本(表明這些樣本具有挑戰性,需要進一步學習)。

我們的大量實驗證明,LLKD 在多個數據集上都實現了更高的數據效率和更優的性能表現。

1 Introduction

大型語言模型(LLMs),如 LLaMA(Touvron 等,2023)和 GPT-4(Achiam 等,2023),由于在大規模語料上進行了預訓練,獲得了廣泛的知識,因此在許多實際的自然語言處理(NLP)應用中展現出卓越的語言理解能力(Schopf 等,2022;Thirunavukarasu 等,2023;Zhao 等,2023)。然而,LLMs 的部署需要大量資源,包括高內存需求、較高的計算成本以及推理時更高的延遲,尤其是在需要為特定任務進一步微調時(Shoeybi 等,2019)。為了應對這些限制,研究者和開發者往往更傾向于使用資源需求更低的小型模型(Liu,2019;Devlin,2018;Wang 等,2024)。然而,小模型在能力上不如LLMs(Kaplan 等,2020),通常需要使用帶標簽的數據進行進一步訓練,因為它們通常缺乏捕捉廣泛知識的能力。

在缺乏標注數據的指導下,對小模型進行自監督訓練可能導致性能欠佳,因為這類模型在泛化到多樣化任務方面存在困難,且常常無法有效地學習特定任務所需的特征(Goyal 等,2019)。這一挑戰因獲取任務相關的標注數據代價高昂而進一步加劇。盡管無標簽數據通常更加豐富,但若缺乏適當的標注,便無法直接用于訓練模型,從而成為模型訓練中的一大挑戰。

一種有前景的解決方案是利用LLMs為無標簽數據生成偽標簽(pseudo-labels),進而用于訓練小模型。這種策略使得小模型能夠從LLMs中蘊含的廣泛知識中獲益,同時降低了計算成本。該過程可以被視為一種知識蒸餾方法(Mishra 與 Sundaram,2021;Zhou 等,2023;Kontonis 等,2024;Iliopoulos 等,2022)。然而,這一方法也存在挑戰——由LLMs生成的偽標簽可能存在噪聲或不可靠性,從而可能削弱學生模型的性能。

因此,提高數據效率至關重要——這不僅有助于減輕噪聲偽標簽的影響,還能確保選取具有代表性的數據樣本以實現最優訓練效果。一種潛在的解決思路是選擇那些不僅偽標簽質量高,而且對學生模型而言具有信息價值的數據樣本。然而,由于學生模型在訓練過程中會不斷更新,持續識別對其具有學習價值的知識仍然是一項挑戰。

已有一些研究提出了在知識蒸餾過程中進行數據選擇的方法(Mishra 與 Sundaram,2021;Zhou 等,2023;Li 等,2021)。但多數方法(如 Zhou 等,2023;Li 等,2021)依賴于真實標簽的數據集,并未考慮偽標簽樣本可能存在噪聲的問題,從而導致訓練效果不佳。而部分方法雖然針對無標簽數據(如 Kontonis 等,2024;Iliopoulos 等,2022),卻往往忽視了學生模型的學習進度,或者未能兼顧數據利用效率。

因此,我們提出一種方法,旨在讓學生模型從最有價值的數據中學習,并通過減少所需訓練數據量來提升數據效率。為了解決上述挑戰,我們提出了 LLKD,即“以更少計算資源和更少數據從LLMs進行知識蒸餾的學習方法”(Learning with Less for Knowledge Distillation)。這是一種在每個訓練步驟中根據學生模型動態學習狀態進行自適應樣本選擇的方法。

具體而言,我們優先選擇以下兩類樣本:(1)教師模型在標注時表現出高度置信度的樣本,代表偽標簽具有較高可靠性(Mishra 與 Sundaram,2021);(2)學生模型在這些樣本上表現出高度不確定性的樣本,表明這些是其仍需進一步學習的難點樣本(Zhou 等,2023)。我們在每個訓練步驟中基于教師模型置信度和學生模型不確定性設計了兩種閾值,并從兩種視角出發選取符合標準的重疊樣本。該樣本選擇策略促進了從LLM向小模型的高效知識轉移,確保用于訓練的都是最具信息量的樣本,同時減少所需數據量,從而提升數據利用效率。

我們將 LLKD 應用于一個基礎的NLP任務——文本分類,并在多個數據集上進行了全面評估。實驗結果表明,LLKD 顯著提升了模型性能,在數據利用效率方面也取得了更優表現。

我們的貢獻總結如下:
1)我們提出了一種基于無標簽數據的知識蒸餾方法,該方法所需計算資源更少;
2)我們提出了一個動態的數據選擇方法 LLKD,能夠識別高質量樣本,從而提高數據利用效率;
3)大量實驗證明,LLKD 在文本分類任務中能實現更優性能和更高數據效率。

2 Related Work

Knowledge Distillation(知識蒸餾)

知識蒸餾(Mishra 和 Sundaram, 2021;Zhou 等, 2023;Xu 等, 2023;Li 等, 2021;Kontonis 等, 2024)被廣泛用于將知識從一個龐大的教師模型傳遞給一個輕量級的學生模型。大多數傳統方法集中于帶有真實標簽的數據集,并且一些方法在此過程中探索了數據選擇策略。例如,Mishra 和 Sundaram(2021)提出了一種基于訓練輪次的閾值方法,用于為學生模型選擇困難樣本。類似地,Li 等(2021)和 Xu 等(2023)通過設置固定的采樣比例,選擇那些學生模型不確定性較高的樣本。Zhou 等(2023)引入了一種基于強化學習的選擇器,以不同方式衡量學生模型的不確定性。然而,這些方法大多依賴真實標簽,且未能解決教師模型所生成的偽標簽可能存在噪聲的問題。雖然部分方法關注于無標簽數據(Lang 等, 2022;Dehghani 等, 2018),但它們通常忽視了數據效率,或未考慮學生模型的動態變化以識別對學生有價值的樣本。例如,Kontonis 等(2024)通過將學生模型的軟標簽與去噪后的教師標簽結合來生成新的軟標簽;而 Iliopoulos 等(2022)則通過對學生模型的損失函數重新加權來模擬無噪聲偽標簽下的訓練損失。

Thresholding Methods(閾值方法)

在面對大量無標簽和噪聲數據的分類任務中,已有多種基于置信度的閾值方法被提出(Zhang 等, 2021;Sohn 等, 2020;Wang 等, 2023;Chen 等, 2023),以優先選擇置信度高的樣本。例如,FlexMatch(Zhang 等, 2021)采用課程學習策略,依據已學習樣本的數量為每個類別靈活調整閾值;FreeMatch(Wang 等, 2023)和 SoftMatch(Chen 等, 2023)使用基于置信度的閾值,其中 FreeMatch 同時考慮全局和類別層面的學習狀態,而 SoftMatch 則使用高斯函數對損失函數進行加權。然而,這些方法通常依賴于有限的有標簽數據,因此在自訓練場景下可能表現不佳。

Unsupervised Text Classification(無監督文本分類)

無監督文本分類的目標是在沒有標簽數據的情況下對文本進行分類。一種常見的方法是基于相似度的技術(Abdullahi 等, 2024;Schopf 等, 2022;Yin 等, 2019),這些方法為輸入文本和標簽生成嵌入向量,然后基于相似度將文本與標簽進行匹配。這類方法無需訓練數據或訓練過程。例如,Abdullahi 等(2024)建議用 Wikipedia 數據增強輸入文本;而 Schopf 等(2022)使用 lbl2TransformerVec 來生成嵌入表示。然而,如果缺乏特定任務的領域知識,這些方法通常表現較差。雖然一些方法(如 Gretz 等, 2023)提出先在其他領域的數據集上進行預訓練,再將模型應用于當前任務進行預測,但這些預訓練模型通常因法律或隱私問題而無法公開獲取。

3 Method

3.1 Notations

3.2 Teacher Model

3.3 Student Model

3.4 Data Selection

4 Experiment

在本節中,我們將進行全面的實驗以驗證 LLKD 的性能。我們首先介紹實驗設置,隨后呈現結果及其分析。

4.1 experimental settings

數據集。我們使用了來自不同領域的五個數據集:

  • PubMed-RCT-20k(Dernoncourt 和 Lee,2017),提取自醫學論文;

  • Yahoo! Answers(Zhang 等,2015),來自 Yahoo! Answers 平臺的問題與回答對集合;

  • Emotions(Saravia 等,2018),包含被分類為六種基本情感的推特消息;

  • Arxiv-10(Farhangi 等,2022),由 ArXiv 論文構建;

  • BiosBias(De-Arteaga 等,2019),一個文本傳記數據集,旨在預測職業身份。
    更多細節見附錄 A.3 節。

基線方法。我們將方法與四組基線方法進行比較:

  1. 閾值方法,如 FreeMatch(Wang 等,2023),使用自適應閾值選擇學生模型高置信度樣本;SoftMatch(Chen 等,2023),對學生置信度更高的樣本賦予更大權重。

  2. 知識蒸餾方法,重點在于基于教師模型過濾噪聲偽標簽,或基于學生模型選擇信息量大的樣本。第一類中,我們評估 CCKD_L(Mishra 和 Sundaram,2021),根據教師概率加權樣本;Entropy Score(Lang 等,2022),選擇教師熵最低(即教師置信度最高)的樣本。第二類中,包含 CCKD_T+Reg(Mishra 和 Sundaram,2021),使用閾值選擇對學生具有挑戰性的樣本;UNIXKD(Xu 等,2023),選擇學生不確定性最高的樣本。

  3. 無監督文本分類方法:Lbl2TransformerVec(Schopf 等,2022),基于輸入文本與標簽詞的嵌入相似度進行標簽預測。

  4. 基礎基線方法:Random,從每個批次隨機選擇樣本子集;Teacher,使用教師模型結合少量示例直接生成預測;Teacher-ZS,使用教師模型不帶示例(零樣本)生成預測;No_DS,學生模型在無數據選擇的情況下訓練。

實現細節。教師模型采用 LLaMA(Touvron 等,2023),一款在多種應用中表現出色的開源大語言模型。學生模型采用 RoBERTa(Liu,2019)。為確保公平比較,所有基線模型均使用與我們模型相同的偽標簽,且除 Lbl2TransformerVec 外,基線模型均以 RoBERTa 作為骨干模型。文本分類任務的模型性能使用準確率(ACC)和宏觀 F1 分數進行評估,數據效率則根據總訓練樣本數進行衡量。參數分析見第 4.7 節。更多細節請參見附錄 A.1 和 A.4 節。

4.2?Classification Performance Comparison

我們在表1中展示了分類性能對比結果,其中"LLKD_w"表示采用公式(9)加權損失函數的版本。同時,我們計算了各方法在所有數據集和評估指標上的平均排名,并以"Improv."標注最優方法相對于最佳基線的相對提升幅度。由于Lbl2TransformerVec是基于相似度的無訓練方法,其性能無標準差。

主要發現如下:

  1. 如表1所示,我們的模型在所有基線方法中表現最優,在PubMed-RCT-20k數據集上的F1分數相對提升達5.82%。加權版本普遍表現更優,說明通過教師置信度和學生不確定性對選定樣本進行加權能進一步提升模型性能。

  2. 直接使用教師模型(Teacher)的表現通常遜于我們的方法及其他基于偽標簽微調學生模型的基線(Lbl2TransformerVec除外)。這表明學生模型不僅能有效從教師處學習,還能取得更優結果。這些發現證明:經過適當調整,學生模型可以在保持更低計算成本的同時實現更優性能。

  3. 采用少樣本示例的教師模型(Teacher)普遍優于零樣本版本(Teacher-ZS),驗證了融入少樣本示例的有效性。

  4. 基于相似度的方法Lbl2TransformerVec表現最弱,說明僅依賴文本-標簽相似度難以實現有效的分類。

4.3 Ablation Study

在本小節中,我們進行了消融實驗,以評估我們方法中各個組件的有效性,包括數據選擇、教師置信度和學生不確定性。結果如圖 3 所示。我們使用 “w/o TC” 表示未使用教師置信度進行樣本選擇的模型,此時僅依賴學生不確定性閾值進行篩選;類似地,“w/o SU” 表示未使用學生不確定性閾值的模型;“w/o TC+SU” 表示完全不進行數據選擇的模型。需要注意的是,“w/o TC+SU” 與表 1 中的 No_DS 模型是相同的。圖中清晰地表明,我們的模型在所有數據集上均明顯優于各個去除組件的版本,突顯了各個組件的重要性。尤其值得注意的是,在完全不進行數據選擇的情況下,模型表現最差,進一步驗證了我們數據選擇策略在提升模型性能方面的關鍵作用。

此外,為評估在標注數據有限的情況下使用未標注數據的必要性,我們進行了進一步分析,詳見附錄 A.5。表 6 的結果表明,僅使用少量真實標簽訓練的模型,其性能遠不如使用未標注數據訓練的 LLKD 模型。這一發現強調了在標注數據有限時,利用未標注數據的重要性。

4.4 Data Efficiency

在本小節中,我們通過展示每輪訓練中模型所看到的樣本總數及其占原始總樣本數的百分比,來評估數據效率。例如,Arxiv-10 的原始訓練集大小為 79,790,我們將訓練輪數設置為 6,因此在不進行任何數據選擇的情況下,學生模型總共會看到 79,790 × 6 = 479,820 個樣本。所有方法在原始樣本總數上是一致的。

各種數據選擇方法的結果如表 2 所示。我們還包含了各個消融版本的結果,以更深入地分析我們的方法。對于采用固定選擇比例的 UNIXKD 和 Entropy Score,我們在比例 {10%, 30%, 50%, 70%, 90%} 上進行了實驗,并選擇驗證集性能最好的比例。由于 SoftMatch 和 CCKD_L 是對樣本進行加權而非篩選,它們使用了全部的原始樣本集合。

總體而言,結果表明我們的方法在效果和數據效率上始終優于其他方法。在大多數情況下,我們的方法只需要選擇不到 25% 的訓練樣本。值得注意的是,在 PubMed-RCT-20k 數據集上,我們僅使用了 3.7% 的訓練樣本,便實現了相對提升 5.82% 的顯著性能改進,如表 1 所示。盡管在 Arxiv-10 數據集上,UNIXKD 使用了更少的數據進行訓練,但我們的方法在性能上仍有較大提升,說明 UNIXKD 未能選擇到足夠有信息量的樣本。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/84690.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/84690.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/84690.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

EasyExcel使用

EasyExcel 簡介 EasyExcel 是阿里巴巴開源的一個基于 Java 的簡單、省內存的讀寫 Excel 工具。在處理大量數據時,它能極大地減少內存占用,提高性能。下面從依賴配置、模板使用到代碼調用,進行詳細介紹。 添加依賴 若要在項目里使用 EasyEx…

文件類型匯總

一、文檔類文件 Microsoft Office 文檔:.doc、.docx(Word 文檔)、.xls、.xlsx(Excel 表格)、.ppt、.pptx(PowerPoint 演示文稿) OpenOffice/LibreOffice 文檔:.odt(文字…

OpenCV CUDA模塊圖像處理------顏色空間處理之拜耳模式去馬賽克函數demosaicing()

操作系統:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 編程語言:C11 算法描述 該函數用于在 GPU 上執行拜耳圖像(Bayer Pattern)的去馬賽克操作(Demosaicing),將單通…

Linux: 守護進程

Linux: 守護進程 (一)前臺進程和后臺進程前臺進程后臺進程 (二)會話、進程組、進程的關系(三)守護進程創建守護進程 (一)前臺進程和后臺進程 前臺進程 前臺進程是指當前…

6.4.5_關鍵路徑

AOE網: 用EEdge表示活動,AOV網是用Vertex頂點表示活動 僅有一個入度0的頂點叫開始頂點(源點),出度0的頂點叫結束頂點(匯點) 各條邊表示活動,邊上的權值表示完成該活動的開銷,各頂點表示事件,事件是就發生…

Oracle 的 TX、TM、UL 鎖對比

Oracle 的 TX、TM、UL 鎖對比 Oracle 數據庫中的這三種鎖機制在并發控制中扮演著不同角色,以下是它們的對比分析: 一、基本特性對比 特性TX (事務鎖)TM (DML鎖)UL (用戶鎖)鎖類型行級鎖表級鎖應用級自定義鎖作用范圍保護數據行變更保護表結構不被修改…

Kruskal-Wallis檢驗 vs. 多次Wilcoxon檢驗:多重比較-spss

在補充圖6中,對喉鏡形態分類、病理類型和病程使用 Wilcoxon秩和檢驗(Mann-Whitney U檢驗) 結合 Bonferroni校正,而非 Kruskal-Wallis檢驗加Dunn’s檢驗,原因如下: 1. 方法選擇的依據 (1) 變量類型與比較組…

vue3+element-plus el-date-picker日期、年份篩選設置本周、本月、近3年等快捷篩選

一、頁面代碼&#xff1a; <template> <!-- 日期范圍篩選框 --> <el-date-picker v-model"dateRange" value-format"YYYY-MM-DD" type"daterange" range-separator"至" start-placeholder"開始日期" end-…

MySQL 關于用戶的權限信息查看

1: 先連接mysql : [rootxx ~]# mysql -u admin -p -h 8.8.8.8 -P 3306 Enter password: Welcome to the MySQL monitor. Commands end with ; or \g. Your MySQL connection id is 38 Server version: 8.0.41 Source distribution Copyright (c) 2000, 2025, Oracle and/or …

C++ STL stack容器使用詳解

一、stack容器概述 stack容器適配器是C標準模板庫(STL)中實現后進先出(LIFO)數據結構的重要組件&#xff0c;它通過封裝底層容器&#xff08;如deque/vector/list&#xff09;提供棧操作接口。 二、stack核心操作詳解 1. 容器構造方式 // 默認使用deque存儲元素 stack<i…

科技趨勢分析系統 BBC (Big Bang of Computing)

科技趨勢分析系統 BBC (Big Bang of Computing) 技術文檔 1. 項目概述 BBC (Big Bang of Computing) 是一個基于 arXiv 論文數據的科技趨勢分析系統&#xff0c;旨在通過分析海量的學術文獻&#xff0c;結合大語言模型&#xff08;LLM&#xff09;進行增強分析&#xff0c;提…

尚硅谷redis7 55-57 redis主從復制之理論簡介

55 redis主從復制之理論簡介 定義 Redis 主從復制&#xff08;Master-Slave Replication&#xff09;是 Redis 提供的一種數據冗余和高可用機制&#xff0c;可以讓一個 Redis 主節點的數據復制到一個或多個從節點&#xff0c;實現讀寫分離、容災備份等功能。 主節點&#xff…

CarPropertyService 介紹

目錄 1. CarPropertyService 基本介紹 1.1 CarPropertyService 結構圖 1.2 CarPropertyService 的定義與實現 1.3 CarPropertyManager 與 CarPropertyService 2. PropertyHalService 與 CarPropertyService 3. CarPropertyService 的重要接口介紹 3.1 CarPropertyServi…

JavaScript 性能優化按層次逐步分析

JavaScript 性能優化實戰 &#x1f4a1; 本文數據基于Chrome 136實測驗證&#xff0c;涵蓋12項核心優化指標&#xff0c;通過20代碼案例演示性能提升300%的實戰技巧。 一、代碼層深度優化 1. 高效數據操作&#xff08;百萬級數據處理&#xff09; // 不良實踐&#xff1a;頻繁…

【東楓科技】基于Docker,Nodejs,GitSite構建一個KB站點

Docker 安裝桌面版本&#xff0c;安裝Node鏡像 運行node鏡像 需求 和外部的某個文件夾地址可以綁定端口可以綁定&#xff0c;方便server的訪問 docker run -itd --name node-test -v C:/Users/fs/Documents/GitHub:/home/node -p 3000:3000 node進入終端 docker exec -it …

【小白AI教程】大模型知識掃盲通識

目錄 一、究竟什么是大模型 二、大模型的兩大分支 2.1 在線大模型 2.2 開源大模型 2.3 大模型的應用 利用行業知識重新訓練AI大模型 利用行業知識對AI大模型進行微調 利用行業知識建立知識庫 三、Reasoning 大模型 3.1 基本概述 3.2 核心概念 3.3 技術實現 3.4 應…

測試 Gemini Pro 2.5

好的&#xff0c;我已經明白了您的需求。您希望&#xff1a; 增大概覽消息&#xff08;Toast&#xff09;的尺寸&#xff1a;使其更加醒目。消息持久性&#xff1a;當在用戶中心內部切換不同標簽頁&#xff08;例如從“個人信息”切換到“安全設置”&#xff09;時&#xff0c…

大模型——MCP 深度解析

MCP 深度解析 套用一句關于幺半群的名言:"MCP 是一種開放協議,用于標準化應用程序向 LLM 提供上下文的方式,問題何在?"但即使花數小時閱讀 MCP 的定義并實操示例,仍難以清晰把握其具體運作流程:LLM 負責什么?MCP 服務器做什么?MCP 客戶端的角色是什么?數據…

使用 scikit-learn 庫對烏克蘭沖突事件數據集進行多維度分類分析

使用scikit-learn庫對烏克蘭沖突事件數據集進行多維度分類分析 背景 在現代沖突研究中&#xff0c;對沖突事件進行多維度分析和可視化可以幫助我們更好地理解沖突的模式、趨勢和影響因素。本次作業將使用開源沖突數據&#xff0c;構建一個完整的機器學習分類流程&#xff0c;…

工作流 x 深度學習:揭秘藍耘元生代如何用 ComfyUI 玩轉 AI 開發

目錄 一、從 “代碼噩夢” 到 “積木游戲”&#xff1a;我與工作流的初次碰撞 二、深度學習&#xff1a;復雜而迷人的 “數字迷宮” &#xff08;一&#xff09;深度學習的神秘面紗 &#xff08;二&#xff09;深度學習的發展歷程 &#xff08;三&#xff09;深度學習面臨…