51c大模型~合集121

我自己的原文哦~?? ??https://blog.51cto.com/whaosoft/13869815

#大模型何以擅長小樣本學習?

這項研究給出詳細分析

近年來,大語言模型(LLM)在人工智能領域取得了突破性進展,成為推動自然語言處理技術發展與通用人工智能實現的核心力量。上下文學習能力(In-Context Learning, ICL)是 LLM 最顯著且重要的能力之一,它允許 LLM 在給定包含輸入輸出示例的提示(prompt)后,直接生成新輸入的輸出,這一過程僅通過前向傳播而無需調整模型權重。這種能力使得 LLM 能夠基于上下文中的示例快速理解并適應新任務,展現出強大的小樣本學習和泛化能力。理解 LLM 是如何實現 ICL 的,對于提高模型性能與效率、提升模型可解釋性與 AI 安全、推廣大模型應用與改進小樣本學習算法具有重要意義,也是近來機器學習研究熱點之一。有以下關鍵問題需要回答:

1.LLM 能夠學到哪些學習算法,例如梯度下降、比較近鄰等?

2. 在具體問題的 ICL 過程中在執行哪一種學習算法?

3. 如何進一步提升 LLM 的 ICL 能力?

ICL 通常建模為將多個已知樣例與預測目標輸入一起,拼接成序列輸入 LLM 中的 transformer 模型,輸出對目標的預測(圖 1 左)。現有工作已證明 ICL 在不同模型和數據分布條件下,能夠分別實現如線性回歸和梯度下降等具體的學習算法,從已知樣例中學習到任務對應輸入輸出映射,并作用于目標輸入上產生預測輸出。而這種學習算法是 transformer 模型通過預訓練過程得到的,現實中 LLM 的預訓練涉及海量的文本數據,含有復雜的語義信息,難以用單一的數學分布建模。現有工作對 ICL 實現小樣本學習算法的解釋難以泛化到真實世界場景或實際 LLM。為了對 ICL 的小樣本學習能力有更直觀的認識,在近期發表于 ICLR2025 的工作 “Why In-Context Learning Models are Good Few-Shot Learners?” 中我們對 ICL 模型作為元學習器的本質進行了建模與研究,以對上面三個問題進行了回答。

  • 論文鏈接:https://openreview.net/pdf?id=iLUcsecZJp?
  • 代碼鏈接:https://github.com/ovo67/Uni_ICL

1. 將 LLM 建模為元學習器覆蓋學習算法空間

ICL 模型可以學到所有傳統元學習器學到的算法。元學習(Meta-Learning)是一種 “學習如何學習” 的方法,可通過設計模型使其能夠快速適應新任務應用于小樣本學習。它通過在多個相關任務上進行訓練,學習到一種通用的學習策略或算法,從而在面對新任務時能夠快速調整自身參數或結構,實現快速優化和泛化。借助元學習領域成熟的理論基礎與方法經驗,理論證明了作為實現學習算法的模型,基于 transformer 的 ICL 模型與傳統的元學習器相比具有更強的表達能力(圖 1 右)。

圖片

圖 1 大語言模型的上下文學習示例,以及上下文學習模型在學習算法空間中與傳統元學習模型的關系。

2. ICL 模型學到并執行在預訓練分布上最優的算法

ICL 算法的學習是通過對預訓練數據分布的擬合。在預訓練充足的情況下,ICL 模型能夠學習到在預訓練任務集上最優(在與訓練數據分布上最小化損失)的學習算法,從而在僅有少量樣本的情況下實現快速適應。我們構建三類已知最優算法(Pair-wise metric-based/Class-prototype metric-based/Amortization-based 三種任務的最優算法分別可由元學習器 MatchNet/ProtoNet/CNPs 學習得到,圖 3a)的任務。首先分別在單一種類任務集上訓練,測試表明 ICL 性能與該預訓練數據下能學到的最優算法表現相當(圖 2 上)。然后再混合三種任務集上訓練,三種傳統元學習器的性能都有所下降,而 ICL 的性能依然與單一種類任務訓練得到的最優性能一致(圖 2 下)。以上結果說明 ICL 模型能夠學習到預訓練任務集上最優的學習算法,并且與傳統的元學習器相比 ICL 模型具有更強的表達能力,因為它們不僅能夠學習到已知的最優學習算法,還能夠根據數據的分布特性表達出傳統視野之外的學習算法,這使得 ICL 模型在處理多樣化任務時具有顯著優勢。

圖片

圖片

圖 2(上)分別在三種任務集上訓練并對應測試的測試表現;(下)在混合任務集上訓練并分別測試三種任務的性能表現。

我們還對 ICL 模型學習到的算法的泛化性進行了實驗研究。展示出了其作為深度神經網絡受數據分布影響的特性:其預訓練過程本質上是在擬合以特定結構輸入的訓練任務集的數據分布,而無法保證學習到顯式的基于規則的學習算法,這一發現糾正了現有工作將 ICL 解釋為算法選擇(Algorithm Selection)的過程。這將導致 ICL 模型在預訓練數據受限或測試數據分布有偏移時性能表現不及預期(圖 3)。

圖片

圖片

圖 3 ICL 與 “算法選擇” 行為的比較(a)兩種模型在三類已知最優算法的任務上訓練,在未知最優算法任務上測試;(b)對于測試任務 ICL 可以處理而 “算法選擇” 無法處理;(b)ICL 對測試數據分布敏感而 “算法選擇” 不敏感。

3. 將傳統深度網絡的相關方法遷移到元學習層面以提升 ICL 性能

基于上述對 ICL 模型作為學習算法強表達、難泛化的認識,可以將 ICL 模型對特性與傳統深度神經網絡的特性進行類比。我們提出通過 “樣本 - 任務” 的概念映射將傳統深度學習技巧遷移到元學習層面以優化 ICL 模型。例如實現了基于任務難度的元課程學習提升 ICL 模型預訓練過程的收斂速度:圖 4 展示了對于線性回歸任務以遞增非零維度數量作為課程的效果,元 - 課程學習能有效加速 ICL 模型的收斂,但不一定提升其最終性能。

圖片

圖 4 元 - 課程學習(左)訓練過程 loss 變化;(中)200000 episodes 時的測試結果;(右)500000 episodes 時的測試結果。

又例如實現了基于領域劃分的元 - 元學習,即將訓練數據劃分為多個領域,每個領域含有一個訓練任務集和驗證任務集,即可將以單個任務為輸入的 ICL 模型作為待適應網絡,構建元 - 元學習器在每個領域上利用訓練任務集進行適應。實驗效果如圖 5 所示,提升了 ICL 模型的有限垂域數據高效適應能力。

圖片

圖 5 采用元 - 元學習的 ICL 模型分別在給定每領域 64/256/1024 個任務時的適應表現。

4. 總結

本文通過將 ICL 模型建模為元學習器,證明了 ICL 模型具有超過已有元學習器的表達學習算法的能力;ICL 執行在預訓練數據分布上最優的算法,而不一定具有可泛化的規則;可以將傳統深度網絡有關技術遷移到元學習層面用以提升 ICL,如元 - 課程學習加速預訓練收斂,元 - 元學習提升少數據領域微調快速適應能力。

作者介紹

吳世光,清華大學電子工程系博士研究生,本科畢業于清華大學電子工程系。當前主要研究方向包括元學習與大語言模型。

王雅晴,現任北京雁棲湖應用數學研究院(BIMSA)副研究員,長期從事機器學習、人工智能和科學智能的研究,致力于構建高效、低成本的智能算法,以精準匹配海量數據的科學解釋并解決現實問題。她在 NeurIPS、ICML、ICLR、KDD、WWW、SIGIR、TPAMI、JMLR、TIP 等國際頂級會議和期刊上發表 27 篇論文,總被引用 4500 次。2024 年,她入選全球前 2% 頂尖科學家榜單。

姚權銘,現任清華大學電子工程系助理教授,研究方向為機器學習和深度學習。共發表文章 100 + 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI 和頂級會議 ICML、NeurIPS、ICLR 等,累計引用超 1.2 萬余次。擔任 ICML、NeurIPS、ICLR 等會議領域主席,NN、TMLR、MLJ 等期刊(資深)編委。獲首屆螞蟻 In Tech 科技獎、國際人工智能學會(AAAI)學術新星、國際神經網絡學會(INNS)青年研究員獎、吳文俊人工智能學會優秀青年獎,同時入選全球 Top 50 華人 AI 青年學者榜和福布斯 30under30 精英榜。

#TinyLLaVA-Video-R1

北航推出全開源TinyLLaVA-Video-R1,小尺寸模型在通用視頻問答數據上也能復現Aha Moment!

當前,基于強化學習提升多模態模型的推理能力已經取得一定的進展。但大多研究者們選擇 7B+ 的模型作為基座,這對于許多資源有限的科研人員而言仍存在顯著的門檻。

同時,在視頻推理領域,由于高質量強推理性數據較為稀少,通用問答數據較難激發模型的深層次邏輯推理能力,因此先前一些初步嘗試的效果大多不盡如人意。

近日,北京航空航天大學的研究團隊推出小尺寸視頻推理模型?TinyLLaVA-Video-R1,其模型權重、代碼以及訓練數據全部開源!

該工作驗證了小尺寸模型在通用問答數據集上進行強化學習也能有不錯的效果,與使用相同數據進行監督微調的模型相比,TinyLLaVA-Video-R1 在多個 benchmark 上都有性能提升。同時,模型還能在訓練與測試的過程中多次展現自我反思與回溯行為!

  • 論文標題:TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
  • 論文地址:https://arxiv.org/abs/2504.09641
  • Github:https://github.com/ZhangXJ199/TinyLLaVA-Video-R1

在推特上,HuggingFace AK 也連續兩次轉發推薦了這篇文章:

圖片

為什么選擇 TinyLLaVA-Video 作為 Base Model?

圖片

圖表 1 TinyLLaVA-Video 整體框架

雖然現有的開源視頻理解模型基座具有強大的理解與感知能力,但由于其訓練數據不透明,使用開源視頻數據進行后訓練可能會引入不可控的變量,從而影響實驗結果和結論的可靠性。

因此,北航團隊選擇訓練過程完全可溯源的 TinyLLaVA-Video 作為 Base Model,該模型采用 Qwen2.5-3B 作為語言模型,SigLIP 作為視覺編碼器。雖然 TinyLLaVA-Video 僅有 3.6B 的參數,且在預訓練階段為了控制訓練時長并未使用大量數據,但其仍能在多個 Benchmark 上能夠優于現有的多個 7B+ 模型。

TinyLLaVA-Video-R1 主要做了什么?

引入少量人工標注的高質量冷啟動數據

該工作發現,受限于小尺寸模型的能力,當直接使用 TinyLLaVA-Video 作為基礎模型,隨著訓練的進行,模型有一定的概率學會「偷懶」,所有的響應雖然符合格式要求,但并不給出思考過程,響應均為<think> </think> <answer> option?</answer>,同時在 Qwen2-VL-2B 上進行實驗也得到相似的實驗現象。

而當使用人工標注的 16 條 CoT 數據為模型進行冷啟動后,在實驗的過程中就不再出現這樣的現象,同時,模型也將更快學會遵守格式要求。因此該工作認為,冷啟動對于小尺寸模型推理是必要的,即使是極少量的冷啟動數據,對于穩定模型訓練也是很有幫助的。

引入長度獎勵與答案錯誤懲罰

現有的許多推理工作僅僅設置格式獎勵而沒有添加長度獎勵,但受限于小尺寸語言模型的能力,在這種設置下進行訓練并不會使模型的響應長度增加,甚至出現一點下降。

在引入連續長度獎勵后,模型的響應長度在訓練過程中顯著增加,如圖所示。然而在這種設置下,模型為了增加響應長度而進行了一些無意義的推理,這不僅沒有提高性能,反而導致訓練時間顯著增加。

圖片

因此,TinyLLaVA-Video-R1 進一步將答案錯誤懲罰納入總獎勵,觀察到模型響應的質量有所提升,并且在整個訓練過程中輸出長度和獎勵也能夠保持增長。

為 GRPO 的優勢計算引入微小噪聲

同時,TinyLLaVA-Video-R1 在實驗中也觀察到了優勢消失的問題:當集合中的所有響應都是正確的,并且給予相同的獎勵時,它們計算出的優勢會消失到零。這一現象影響了策略更新,降低了樣本效率。為了最大化對每個樣本的利用,TinyLLaVA-Video-R1 在優勢計算時引入了額外的高斯噪聲

圖片

,盡管這種噪聲僅引起輕微的擾動,但它能夠確保組內響應優勢的多樣性。

實驗結果

圖片

首先,TinyLLaVA-Video-R1 驗證了使用強化學習能夠明顯提升模型性能,與使用相同數據進行監督微調的 TinyLLaVA-Video-SFT 相比,TinyLLaVA-Video-R1 在多個 benchmark 中均有更佳的表現。

圖片

同時,TinyLLaVA-Video-R1 能夠理解和分析視頻內容,逐步評估每個選項,并最終給出答案。與僅輸出最終答案的模型相比,該模型能夠生成有意義的思考過程,使其回答更加可解釋且有價值。這也是視頻推理模型相對于傳統視頻理解模型的重要提升與優勢。

圖片

與其他使用強化學習提升模型推理能力的工作相似,北航團隊也在 TinyLLaVA-Video-R1 上復現了「Aha Moment」,即模型在思考的過程中引發緊急驗證等行為。實驗結果也驗證了,即使使用弱推理的通用視頻數據對小尺寸模型進行訓練,也能夠引發模型的回溯與自我反思。

后續,北航團隊也將進一步研究小尺寸視頻推理模型,未來工作將包括引入高質量視頻推理數據與強化學習算法改進。

同時,TinyLLaVA 系列項目也始終致力于在有限計算資源下研究小尺寸模型的訓練與設計空間,堅持完全開源原則,完整公開模型權重、源代碼及訓練數據,為資源有限的研究者們理解與探索多模態模型提供平臺。

#xxx

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/78239.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/78239.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/78239.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Babylon.js 材質統一轉換指南:將 AssetContainer 中的所有材質轉換為 PBRMetallicRoughnessMaterial

在現代 3D 開發中&#xff0c;基于物理的渲染(PBR)已成為行業標準。本文將詳細介紹如何在 Babylon.js 中將 AssetContainer 加載的各種材質統一轉換為 PBRMetallicRoughnessMaterial&#xff0c;實現項目材質的標準化。 為什么需要材質轉換&#xff1f; PBRMetallicRoughness…

Go slice切片使用教程,一次通關!

簡介 Go 中的 切片&#xff08;slice&#xff09; 是 Go 最強大、最常用的數據結構之一。它是對數組的輕量封裝&#xff0c;比數組更靈活&#xff0c;幾乎所有的集合處理都用切片來完成。 什么是切片&#xff08;slice&#xff09; 切片是一個擁有 長度&#xff08;len&…

nodejs的包管理工具介紹,npm的介紹和安裝,npm的初始化包 ,搜索包,下載安裝包

nodejs的包管理工具介紹&#xff0c;npm的介紹和安裝&#xff0c;npm的初始化包 &#xff0c;搜索包&#xff0c;下載安裝包 &#x1f9f0; 一、Node.js 的包管理工具有哪些&#xff1f; 工具簡介是否默認特點npmNode.js 官方的包管理工具&#xff08;Node Package Manager&am…

FPGA設計 時空變換

1、時空變換基本概念 1.1、時空概念簡介 時鐘速度決定完成任務需要的時間&#xff0c;規模的大小決定完成任務所需要的空間&#xff08;資源&#xff09;&#xff0c;因此速度和規模就是FPGA中時間和空間的體現。 如果要提高FPGA的時鐘&#xff0c;每個clk內組合邏輯所能做的事…

增加首屏圖片

增加首屏圖片&#xff08;bg.jpg&#xff09; web-mobile類型打包 //index.html腳本 <div id"myDiv_1111"style"background: url(./bg.jpg) 50% 50%/ 100% auto no-repeat ; width:100%;height:100%;position:absolute;"></div> //游戲內腳本…

貪心算法~~

目錄 一、理論基礎 二、題目練習 &#xff08;1&#xff09;455. 分發餅干 &#xff08;2&#xff09;53. 最大子數組和 - 力扣 &#xff08;3&#xff09;122. 買賣股票的最佳時機 II - 力扣&#xff08;LeetCode&#xff09; &#xff08;4&#xff09;860. 檸檬水找零…

形象解釋 HTTP 的四種常見請求方式及其中的區別聯系

HTTP 的常見請求方式常見的有四種&#xff1a;GET、POST、PUT、DELETE&#xff0c;它們各自的功能不一樣。 &#x1f35c; 場景比喻&#xff1a;HTTP 請求像“去餐廳點菜” 請求方式行為餐廳比喻說明GET獲取數據看菜單/問服務員&#xff1a;你們有什么菜&#xff1f;不帶食材、…

string的基本使用

string的模擬實現 string的基本用法string的遍歷&#xff08;三種方式&#xff09;&#xff1a;關于auto&#xff08;自動推導&#xff09;:范圍for: 迭代器普通迭代器(可讀可改&#xff09;const迭代器&#xff08;可讀不可改&#xff09; string細小知識點string的常見接口引…

kubernetes》》k8s》》證書有效期

cd /etc/kubernetes/pki openssl x509 -in apiserver.crt -text -noount通常&#xff0c;Kubernetes的證書是由kubeadm生成的&#xff0c;所以可能需要修改kubeadm的源碼或者配置 登錄Master節點 》》》默認延續1年 # 查看證書 檢查證書有效期 # 該命令顯示 /etc/kubernetes…

LangChain LCEL表達式語言簡介

LangChain表達式語言&#xff08;LCEL&#xff09;是專為構建AI應用鏈設計的聲明式編程框架&#xff0c;通過管道符|實現組件無縫銜接&#xff0c;支持流式處理、異步調用等生產級特性。其核心優勢在于零代碼改動實現原型到生產的過渡&#xff0c;同時保持代碼簡潔性和可維護性…

【計算機視覺】CV實踐項目- 基于PaddleSeg的遙感建筑變化檢測全解析:從U-Net 3+原理到工程實踐

基于PaddleSeg的遙感建筑變化檢測全解析&#xff1a;從U-Net 3原理到工程實踐 技術背景與項目意義傳統方法的局限性深度學習的優勢 核心技術與算法原理U-Net 3架構創新全尺度跳躍連接深度監督機制 變化檢測技術路線 實戰指南&#xff1a;從環境搭建到模型部署環境配置數據準備與…

萬字長文 | Apache SeaTunnel 分離集群模式部署 K8s 集群實踐

文章作者&#xff1a;雷寶鑫 整理排版&#xff1a;白鯨開源 曾輝 Apache SeaTunnel官網鏈接: https://seatunnel.apache.org/ Apache SeaTunnel(以下簡稱SeaTunnel&#xff09;是一款新一代高性能、分布式的數據集成同步工具&#xff0c;正受到業界廣泛關注和應用。SeaTunnel支…

深入解析YOLO v1:實時目標檢測的開山之作

目錄 YOLO v1 算法詳解? ?1. 核心思想? ?2. 算法優勢? ?3. 網絡結構&#xff08;Unified Detection&#xff09;?? ?4. 關鍵創新? ?5. 結構示意圖&#xff08;Fig1&#xff09;? Confidence Score 的計算? 類別概率與 Bounding Box 的關系? 后處理&…

信令與流程分析

WebRTC是h5支持的重要特征之一&#xff0c;有了它&#xff0c;不再需要借助音視頻相關的客戶端&#xff0c;直接通過瀏覽器的Web頁面就可以實現音視頻聊天功能。 WebRTC項目是開源的&#xff0c;我們可以借助WebRTC&#xff0c;構建自己的音視頻聊緹娜功能。無論是前端JS的Web…

BIOS主板(非UEFI)安裝fedora42的方法

BIOS主板(非UEFI)安裝fedora42的方法 現實困難&#xff1a;將Fedora-Workstation-Live-42-1.1.x86_64.iso寫入U盤制作成可啟動U盤啟動fedora42&#xff0c;按照向導將fedora42安裝到真機的sda7分區中得到報錯如下內容&#xff1a; /boot/efi 必需的 /boot/efi必須位于格式化為e…

安卓 Compose 相對傳統 View 的優勢

安卓 Compose 相對傳統 View 的優勢 文章目錄 安卓 Compose 相對傳統 View 的優勢1. 引言2. 核心概念&#xff1a;Compose的革新性設計2.1 Jetpack Compose2.2 傳統安卓View系統 3. 開發體驗&#xff1a;Compose大幅提升效率3.1 使用Jetpack Compose構建UI3.2 使用傳統View系統…

SIEMENS PLC 程序 GRAPH 程序解讀 車型入庫

1、程序載圖1 2、程序截圖2 3、程序解釋 這是一個基于西門子 GRAPH 編程的車型 1 入庫順序控制流程圖&#xff0c;通過狀態機結構&#xff08;狀態框 S 與轉移條件 T&#xff09;描述完整工作流程&#xff0c;具體如下&#xff1a; 整體流程概述 初始化&#xff1a;從 S1&am…

VuePress可以做什么?

VuePress 可以做什么 VuePress 是一個基于 Vue.js 的靜態站點生成器,專注于文檔和內容展示。它結合了 Markdown 的簡潔性和 Vue 的靈活性,適合多種場景的開發需求。以下是 VuePress 的主要用途和功能: 1. 技術文檔網站 VuePress 最初是為編寫 Vue.js 官方文檔而設計的,因…

架構-系統可靠性分析與設計

一、可靠性相關基本概念 1. 可靠性與可用性 可靠性&#xff1a;軟件系統在遇到錯誤、意外操作或系統故障時&#xff0c;仍能維持自身功能特性的能力。 舉例&#xff1a;手機銀行APP在用戶誤操作&#xff08;如快速點擊多次轉賬&#xff09;時&#xff0c;仍能正確處理交易并避…

再談String

1、字符串常量池 1.1 創建對象的思考 下面是兩種創建字符串對象的代碼 public static void main1(String[] args) {String s1 "hello";String s2 "hello";System.out.println(s1 s2);//trueString s3 new String("hello");String s4 new …