【自然語言處理】大模型時代的數據標注(主動學習)

文章目錄

      • A 論文出處
      • B 背景
        • B.1 背景介紹
        • B.2 問題提出
        • B.3 創新點
      • C 模型結構
      • D 實驗設計
      • E 個人總結

A 論文出處

  • 論文題目:FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models
  • 發表情況:2023-EMNLP
  • 作者單位:浙江大學、網易

B 背景

B.1 背景介紹

傳統的主動學習,降低了第一步的標注成本,通過迭代標注小部分數據,然后通過模型的Uncertainty(或Feature-based Diversity)進行校驗,篩選剩余有價值的樣本進行再標注。但仍存在兩個問題,首先是少量標注其實很難訓練很好的模型,影響后續篩選的步驟,其次傳統AL還是需要大量的人力成本,目前的AL論文大部分都需要標注10%~50%以上的數據才能達到較好的性能。

B.2 問題提出

(1)大模型:可以用Zero/few-shot ICL解決下游任務,人力標注幾乎為0,但光靠大模型部署成本較高,效果不總是盡如人意;

(2)小模型:直接用小模型需要收集很多標注數據,人力成本更高。但可以使用半監督、主動學習緩解一下標注成本,但總是需要一定的人力成本。

B.3 創新點

(1)在沒有任何人為監督的情況下,提高大模型的泛化能力;

(2)大模型+小模型的協同學習方法FreeAL,大模型用來主動標注,小模型用來過濾和反饋。

C 模型結構

(1)LLM通過自生成的虛擬樣本對未標注的數據進行打標,形成初始的標注數據集;

(2)SLM對于LLM的標注結果進行篩選過濾,得到clean set用于LLM進行ICL;

  1. 訓練預熱(Warm-up Training)
    SLM使用LLM生成的初始偽標簽進行少量周期的標準訓練(如交叉熵損失),目的是讓模型初步學習數據中的簡單模式,避免過早陷入噪聲樣本的過擬合。
  2. 損失計算與排序(Loss Calculation and Ranking)
    對每個訓練樣本計算交叉熵損失值 l i l_i li?,并按類別對損失值進行升序排序。損失值較低的樣本表明SLM對其預測置信度較高,可能對應LLM生成的更準確的偽標簽。
  3. 類別內篩選(Class-wise Selection)
    對每個類別 j j j 的樣本集合 D t r a i n j \mathcal{D}_{train}^j Dtrainj?,選擇損失值最小的前 R % R\% R%(如論文中設 R = 20 R=20 R=20 )的樣本,構成初步的干凈子集 D c l e a n j \mathcal{D}_{clean}^j Dcleanj?,確保每個類別都有一定比例的“高置信度”樣本被保留。
  4. 聚類去冗余(Clustering for Diversity)
    使用k-medoids算法 D c l e a n j \mathcal{D}_{clean}^j Dcleanj? 中樣本的嵌入表示(如SLM的隱藏層輸出)進行聚類,選擇每個簇的中心樣本(medoids)作為最終演示池 D d e m o j \mathcal{D}_{{demo}}^j Ddemoj? 。這保證了演示樣本的多樣性和代表性,避免冗余。
  5. 合并與反饋(Aggregation and Feedback)
    將所有類別的演示池合并為 D d e m o = ∪ D d e m o j \mathcal{D}_{{demo}}=\cup\mathcal{D}_{{demo}}^j Ddemo?=Ddemoj? ,并反饋給LLM用于后續的標簽優化。未被選中的樣本則交由 D n o i s y \mathcal{D}_{{noisy}} Dnoisy? LLM通過上下文學習重新標注。

D 實驗設計

(1)多次迭代性能提升

(2)相較于ICL的性能提升

E 個人總結

(1)數據標注依然重要,完全監督、弱監督的小模型在很多場景下比(未精調)大模型強;

(2)利用LLM進行標注是完全可行的,小模型可以協同進行過濾、精煉大模型的標簽;

(3) 該方法的核心在于用LLM完全替代人類進行樣本選擇,但LLM固有的不確定性、偏見和“幻覺”問題可能導致其選擇的樣本質量不穩定,甚至引入錯誤或次優的標注,反而損害最終模型性能;

(4)論文中展示的有效性可能高度依賴于特定的數據集、任務或使用的LLM,其提出的“完全無人”流程在更復雜、動態或領域外(OOD)的真實世界場景中的魯棒性和泛化能力尚未得到充分驗證。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908522.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908522.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908522.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【論文解讀】DeepSeek-R1

文章目錄 概覽一、DeepSeek-R1-Zero:在 Base Model 上直接進行 RL(一)強化學習算法(二)獎勵模型(三)數據構造(四)DeepSeek-R1-Zero 的性能、自我進化過程和 Aha Moment1.…

巴西醫療巨頭尤邁Kafka數據泄露事件的全過程分析與AI安防策略分析

一、事件背景與主體信息 涉事主體:Unimed,全球最大醫療合作社,巴西醫療行業龍頭企業,擁有約1500萬客戶。技術背景:泄露源于其未保護的Kafka實例(開源實時數據傳輸平臺),用于客戶與聊天機器人“Sara”及醫生的實時通信。二、時間線梳理 時間節點關鍵事件描述2025年3月24…

軟信天成:數據驅動型背后的人工智能,基于機器學習的數據管理

在數字化轉型浪潮中,當代企業如同逆水行舟,不進則退。無數企業希望通過數字化轉型捕獲全新的市場機遇,改善財政狀況,在未來市場競爭中占據一席之地。要想獲得成功的數字化轉型,關鍵因素在于具備可靠、及時的數據用以支…

如何理解 IP 數據報中的 TTL?

目錄 前言理解 前言 面試靈魂一問:說說對 IP 數據報中 TTL 的理解?我們都知道,IP 數據報由首部和數據兩部分組成,首部又分為兩部分:固定部分和可變部分,共占 20 字節,而即將討論的 TTL 就位于首…

【Java學習筆記】StringBuilder類(重點)

StringBuilder(重點) 1. 基本介紹 是一個可變的字符串序列。該類提供一個與 StringBuffer 兼容的 API,但不保證同步(StringBuilder 不是線程安全的) 該類被設計用作 StringBuffer 的一個簡易替換,用在字符…

計算機網絡 | 1.2 計算機網絡體系結構與參考模型

計算機網絡體系結構與參考模型 目錄 計算機網絡體系結構與參考模型 【思維導圖】 1、計算機的分層結構 1、為什么要分層? 2、什么是計算機網絡體系結構 2、計算機網絡協議、接口和服務 1)協議: 2)接口: 3…

微軟的新系統Windows12未來有哪些新特性

在今年即將到來的重大設計升級中,蘋果計劃對其全線操作系統統一按年份命名,作為另一巨頭微軟的win12還遠嗎?win11和win10是微軟現在正在用的主流版本,win11系統發布于2021年6月24日,win10系統發布于2015年7月29日。預計win12嘗鮮版可能在2025年下半年或明年。 盡管win12還…

制造業數智化卡在知識斷層?R2AIN SUITE AI知識管理打通關鍵經絡

在一家工廠里,工程師正面臨棘手難題——某機器異常振動的處理方案。他的筆記本記錄著三年前類似案例的解決方案,但翻查半小時仍未找到關鍵參數。與此同時,工廠的碳排放監控系統顯示,因設備停機導致的額外能源損耗已使產線碳強度有…

構造數列中的常見變形總結

前情概要 針對高考中構造數列的常見變形做一總結,便于梳理思路,提升思維。 類型Ⅰ: 形如 a n + 1 = p ? a n + q a_{n+1}=p\cdot a_n+q an+1?=p?an?+q, p , q p,q p,q為常數,即 a n + 1 = f ( a n ) a_{n+1}=f(a_n) an+1?=f(an?),構造變形方向: 其一: a n…

全國縣域統計年鑒PDF-Excel電子版-2022年

全國縣域統計年鑒PDF-Excel電子版-2022年.ziphttps://download.csdn.net/download/2401_84585615/89784662 https://download.csdn.net/download/2401_84585615/89784662 《中國縣域統計年鑒》是一部全面反映中國縣域社會經濟發展狀況的資料性年鑒。自2014年起,該年…

81 實戰一:給root目錄擴容

添加一塊100G硬盤 vgextend centos /dev/sdb1 /dev/sdc lvextend -L +120G /dev/centos/root xfs_growfs /dev/centos/root df -h 看是否擴容成功 82 實戰二:給swap空間擴容 添加一塊20G硬盤 fdisk -l 可以看到新添加的硬盤 vgextend centos /dev/sdd …

實現購物車微信小程序

實現一個微信小程序購物車頁面,包含以下功能: 需求說明: 商品列表:顯示商品名稱、價格、數量加減按鈕,支持修改商品數量(數量≥1)。 全選 / 反選功能:頂部 “全選” 復選框&#…

R語言使用隨機過采樣(Random Oversampling)平衡數據集

隨機過采樣(Random Oversampling)是一種用于平衡數據集的技術,常用于機器學習中處理類別不平衡問題。當某個類別的樣本數量遠少于其他類別時(例如二分類中的正負樣本比例懸殊),模型可能會偏向多數類&#x…

【力扣】2434.使用機器人打印字典序最小的字符串

1、題目描述: 2、測試用例: 3、解題思路 每次刪除字符串s的第一個字符,可以將s看做隊列,每次從頭部出。在t的尾端插入或刪除,可以將t看做棧棧頂元素出棧條件:①比即將入棧的元素小并且比s中剩下的還沒有入…

業務材料——半導體行業MES系統核心功能工業協議AI賦能

一、前置概念 半導體行業 半導體行業主要生產基于半導體材料(如硅、鍺、化合物半導體等)的電子元器件及相關產品,廣泛應用于計算、通信、能源、醫療等領域。 MES系統 MES系統(Manufacturing Execution System,制造…

視頻的分片上傳,斷點上傳

? 上傳功能的實現,點擊上傳按鈕,判斷添加的文件是否符合要求,如果符合把他放入文件列表中,并把他的狀態設置為等待中,對于每個文件,把他們切分為chunksize大小的文件片段,再檢查他的狀態是否為…

指針的定義與使用

1.指針的定義和使用 int point1(){//定義指針int a 10;//指針定義語法&#xff1a; 數據類型 * 指針變量名int * p;cout << "sizeof (int(*)) --> " << sizeof(p) << endl;//讓指針記錄變量a的地址 & 取址符p &a ;cout << &qu…

Git開發實戰

本文對開發中git的常用概念和操作做一個總結。參考綠毛鴨子的部分內容。 git分布式的體現 1.本地完整的版本庫&#xff1a; 每個克隆下來的 Git 倉庫都包含了項目的所有歷史記錄、提交、分支等信息。這意味著每個開發者的本地倉庫是一個完整的版本控制系統&#xff0c;包括…

ingress-nginx 開啟 Prometheus 監控 + Grafana 查看指標

環境已經部署了 ingress-nginx&#xff08;DaemonSet 方式&#xff09;&#xff0c;并且 Prometheus Grafana 也已經運行。但之前 /metrics 端點沒有暴露 Nginx 核心指標&#xff08;如 nginx_ingress_controller_requests_total&#xff09;&#xff0c;經過調整后現在可以正…

ThinkPHP 5.1 中的 error 和 success 方法詳解

1、success() 方法 public function someAction() {// 操作成功邏輯...return $this->success(操作成功, 跳轉地址, 額外數據); } 參數說明 參數類型說明默認值msgstring成功提示信息空字符串urlstring跳轉URLnull (不跳轉)datamixed返回的額外數據nullwaitinteger跳轉等…