文章目錄
- A 論文出處
- B 背景
- B.1 背景介紹
- B.2 問題提出
- B.3 創新點
- C 模型結構
- D 實驗設計
- E 個人總結
A 論文出處
- 論文題目:FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models
- 發表情況:2023-EMNLP
- 作者單位:浙江大學、網易
B 背景
B.1 背景介紹
傳統的主動學習,降低了第一步的標注成本,通過迭代標注小部分數據,然后通過模型的Uncertainty(或Feature-based Diversity)進行校驗,篩選剩余有價值的樣本進行再標注。但仍存在兩個問題,首先是少量標注其實很難訓練很好的模型,影響后續篩選的步驟,其次傳統AL還是需要大量的人力成本,目前的AL論文大部分都需要標注10%~50%以上的數據才能達到較好的性能。
B.2 問題提出
(1)大模型:可以用Zero/few-shot ICL解決下游任務,人力標注幾乎為0,但光靠大模型部署成本較高,效果不總是盡如人意;
(2)小模型:直接用小模型需要收集很多標注數據,人力成本更高。但可以使用半監督、主動學習緩解一下標注成本,但總是需要一定的人力成本。
B.3 創新點
(1)在沒有任何人為監督的情況下,提高大模型的泛化能力;
(2)大模型+小模型的協同學習方法FreeAL,大模型用來主動標注,小模型用來過濾和反饋。
C 模型結構
(1)LLM通過自生成的虛擬樣本對未標注的數據進行打標,形成初始的標注數據集;
(2)SLM對于LLM的標注結果進行篩選過濾,得到clean set用于LLM進行ICL;
- 訓練預熱(Warm-up Training)
SLM使用LLM生成的初始偽標簽進行少量周期的標準訓練(如交叉熵損失),目的是讓模型初步學習數據中的簡單模式,避免過早陷入噪聲樣本的過擬合。 - 損失計算與排序(Loss Calculation and Ranking)
對每個訓練樣本計算交叉熵損失值 l i l_i li?,并按類別對損失值進行升序排序。損失值較低的樣本表明SLM對其預測置信度較高,可能對應LLM生成的更準確的偽標簽。 - 類別內篩選(Class-wise Selection)
對每個類別 j j j 的樣本集合 D t r a i n j \mathcal{D}_{train}^j Dtrainj?,選擇損失值最小的前 R % R\% R%(如論文中設 R = 20 R=20 R=20 )的樣本,構成初步的干凈子集 D c l e a n j \mathcal{D}_{clean}^j Dcleanj?,確保每個類別都有一定比例的“高置信度”樣本被保留。 - 聚類去冗余(Clustering for Diversity)
使用k-medoids算法對 D c l e a n j \mathcal{D}_{clean}^j Dcleanj? 中樣本的嵌入表示(如SLM的隱藏層輸出)進行聚類,選擇每個簇的中心樣本(medoids)作為最終演示池 D d e m o j \mathcal{D}_{{demo}}^j Ddemoj? 。這保證了演示樣本的多樣性和代表性,避免冗余。 - 合并與反饋(Aggregation and Feedback)
將所有類別的演示池合并為 D d e m o = ∪ D d e m o j \mathcal{D}_{{demo}}=\cup\mathcal{D}_{{demo}}^j Ddemo?=∪Ddemoj? ,并反饋給LLM用于后續的標簽優化。未被選中的樣本則交由 D n o i s y \mathcal{D}_{{noisy}} Dnoisy? LLM通過上下文學習重新標注。
D 實驗設計
(1)多次迭代性能提升
(2)相較于ICL的性能提升
E 個人總結
(1)數據標注依然重要,完全監督、弱監督的小模型在很多場景下比(未精調)大模型強;
(2)利用LLM進行標注是完全可行的,小模型可以協同進行過濾、精煉大模型的標簽;
(3) 該方法的核心在于用LLM完全替代人類進行樣本選擇,但LLM固有的不確定性、偏見和“幻覺”問題可能導致其選擇的樣本質量不穩定,甚至引入錯誤或次優的標注,反而損害最終模型性能;
(4)論文中展示的有效性可能高度依賴于特定的數據集、任務或使用的LLM,其提出的“完全無人”流程在更復雜、動態或領域外(OOD)的真實世界場景中的魯棒性和泛化能力尚未得到充分驗證。