51c大模型~合集121

我自己的原文哦~?? ??https://blog.51cto.com/whaosoft/13869815

#大模型何以擅長小樣本學習？

這項研究給出詳細分析

近年來，大語言模型（LLM）在人工智能領域取得了突破性進展，成為推動自然語言處理技術發展與通用人工智能實現的核心力量。上下文學習能力（In-Context Learning, ICL）是 LLM 最顯著且重要的能力之一，它允許 LLM 在給定包含輸入輸出示例的提示（prompt）后，直接生成新輸入的輸出，這一過程僅通過前向傳播而無需調整模型權重。這種能力使得 LLM 能夠基于上下文中的示例快速理解并適應新任務，展現出強大的小樣本學習和泛化能力。理解 LLM 是如何實現 ICL 的，對于提高模型性能與效率、提升模型可解釋性與 AI 安全、推廣大模型應用與改進小樣本學習算法具有重要意義，也是近來機器學習研究熱點之一。有以下關鍵問題需要回答：

1.LLM 能夠學到哪些學習算法，例如梯度下降、比較近鄰等？

2. 在具體問題的 ICL 過程中在執行哪一種學習算法？

3. 如何進一步提升 LLM 的 ICL 能力？

ICL 通常建模為將多個已知樣例與預測目標輸入一起，拼接成序列輸入 LLM 中的 transformer 模型，輸出對目標的預測（圖 1 左）。現有工作已證明 ICL 在不同模型和數據分布條件下，能夠分別實現如線性回歸和梯度下降等具體的學習算法，從已知樣例中學習到任務對應輸入輸出映射，并作用于目標輸入上產生預測輸出。而這種學習算法是 transformer 模型通過預訓練過程得到的，現實中 LLM 的預訓練涉及海量的文本數據，含有復雜的語義信息，難以用單一的數學分布建模。現有工作對 ICL 實現小樣本學習算法的解釋難以泛化到真實世界場景或實際 LLM。為了對 ICL 的小樣本學習能力有更直觀的認識，在近期發表于 ICLR2025 的工作 “Why In-Context Learning Models are Good Few-Shot Learners?” 中我們對 ICL 模型作為元學習器的本質進行了建模與研究，以對上面三個問題進行了回答。

論文鏈接：https://openreview.net/pdf?id=iLUcsecZJp?
代碼鏈接：https://github.com/ovo67/Uni_ICL

1. 將 LLM 建模為元學習器覆蓋學習算法空間

ICL 模型可以學到所有傳統元學習器學到的算法。元學習（Meta-Learning）是一種 “學習如何學習” 的方法，可通過設計模型使其能夠快速適應新任務應用于小樣本學習。它通過在多個相關任務上進行訓練，學習到一種通用的學習策略或算法，從而在面對新任務時能夠快速調整自身參數或結構，實現快速優化和泛化。借助元學習領域成熟的理論基礎與方法經驗，理論證明了作為實現學習算法的模型，基于 transformer 的 ICL 模型與傳統的元學習器相比具有更強的表達能力（圖 1 右）。

圖 1 大語言模型的上下文學習示例，以及上下文學習模型在學習算法空間中與傳統元學習模型的關系。

2. ICL 模型學到并執行在預訓練分布上最優的算法

ICL 算法的學習是通過對預訓練數據分布的擬合。在預訓練充足的情況下，ICL 模型能夠學習到在預訓練任務集上最優（在與訓練數據分布上最小化損失）的學習算法，從而在僅有少量樣本的情況下實現快速適應。我們構建三類已知最優算法（Pair-wise metric-based/Class-prototype metric-based/Amortization-based 三種任務的最優算法分別可由元學習器 MatchNet/ProtoNet/CNPs 學習得到，圖 3a）的任務。首先分別在單一種類任務集上訓練，測試表明 ICL 性能與該預訓練數據下能學到的最優算法表現相當（圖 2 上）。然后再混合三種任務集上訓練，三種傳統元學習器的性能都有所下降，而 ICL 的性能依然與單一種類任務訓練得到的最優性能一致（圖 2 下）。以上結果說明 ICL 模型能夠學習到預訓練任務集上最優的學習算法，并且與傳統的元學習器相比 ICL 模型具有更強的表達能力，因為它們不僅能夠學習到已知的最優學習算法，還能夠根據數據的分布特性表達出傳統視野之外的學習算法，這使得 ICL 模型在處理多樣化任務時具有顯著優勢。

圖 2（上）分別在三種任務集上訓練并對應測試的測試表現；（下）在混合任務集上訓練并分別測試三種任務的性能表現。

我們還對 ICL 模型學習到的算法的泛化性進行了實驗研究。展示出了其作為深度神經網絡受數據分布影響的特性：其預訓練過程本質上是在擬合以特定結構輸入的訓練任務集的數據分布，而無法保證學習到顯式的基于規則的學習算法，這一發現糾正了現有工作將 ICL 解釋為算法選擇（Algorithm Selection）的過程。這將導致 ICL 模型在預訓練數據受限或測試數據分布有偏移時性能表現不及預期（圖 3）。

圖 3 ICL 與 “算法選擇” 行為的比較（a）兩種模型在三類已知最優算法的任務上訓練，在未知最優算法任務上測試；（b）對于測試任務 ICL 可以處理而 “算法選擇” 無法處理；（b）ICL 對測試數據分布敏感而 “算法選擇” 不敏感。

3. 將傳統深度網絡的相關方法遷移到元學習層面以提升 ICL 性能

基于上述對 ICL 模型作為學習算法強表達、難泛化的認識，可以將 ICL 模型對特性與傳統深度神經網絡的特性進行類比。我們提出通過 “樣本 - 任務” 的概念映射將傳統深度學習技巧遷移到元學習層面以優化 ICL 模型。例如實現了基于任務難度的元課程學習提升 ICL 模型預訓練過程的收斂速度：圖 4 展示了對于線性回歸任務以遞增非零維度數量作為課程的效果，元 - 課程學習能有效加速 ICL 模型的收斂，但不一定提升其最終性能。

圖 4 元 - 課程學習（左）訓練過程 loss 變化；（中）200000 episodes 時的測試結果；（右）500000 episodes 時的測試結果。

又例如實現了基于領域劃分的元 - 元學習，即將訓練數據劃分為多個領域，每個領域含有一個訓練任務集和驗證任務集，即可將以單個任務為輸入的 ICL 模型作為待適應網絡，構建元 - 元學習器在每個領域上利用訓練任務集進行適應。實驗效果如圖 5 所示，提升了 ICL 模型的有限垂域數據高效適應能力。

圖 5 采用元 - 元學習的 ICL 模型分別在給定每領域 64/256/1024 個任務時的適應表現。

4. 總結

本文通過將 ICL 模型建模為元學習器，證明了 ICL 模型具有超過已有元學習器的表達學習算法的能力；ICL 執行在預訓練數據分布上最優的算法，而不一定具有可泛化的規則；可以將傳統深度網絡有關技術遷移到元學習層面用以提升 ICL，如元 - 課程學習加速預訓練收斂，元 - 元學習提升少數據領域微調快速適應能力。

作者介紹

吳世光，清華大學電子工程系博士研究生，本科畢業于清華大學電子工程系。當前主要研究方向包括元學習與大語言模型。

王雅晴，現任北京雁棲湖應用數學研究院（BIMSA）副研究員，長期從事機器學習、人工智能和科學智能的研究，致力于構建高效、低成本的智能算法，以精準匹配海量數據的科學解釋并解決現實問題。她在 NeurIPS、ICML、ICLR、KDD、WWW、SIGIR、TPAMI、JMLR、TIP 等國際頂級會議和期刊上發表 27 篇論文，總被引用 4500 次。2024 年，她入選全球前 2% 頂尖科學家榜單。

姚權銘，現任清華大學電子工程系助理教授，研究方向為機器學習和深度學習。共發表文章 100 + 篇，涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI 和頂級會議 ICML、NeurIPS、ICLR 等，累計引用超 1.2 萬余次。擔任 ICML、NeurIPS、ICLR 等會議領域主席，NN、TMLR、MLJ 等期刊（資深）編委。獲首屆螞蟻 In Tech 科技獎、國際人工智能學會（AAAI）學術新星、國際神經網絡學會（INNS）青年研究員獎、吳文俊人工智能學會優秀青年獎，同時入選全球 Top 50 華人 AI 青年學者榜和福布斯 30under30 精英榜。

#TinyLLaVA-Video-R1

北航推出全開源TinyLLaVA-Video-R1，小尺寸模型在通用視頻問答數據上也能復現Aha Moment！

當前，基于強化學習提升多模態模型的推理能力已經取得一定的進展。但大多研究者們選擇 7B+ 的模型作為基座，這對于許多資源有限的科研人員而言仍存在顯著的門檻。

同時，在視頻推理領域，由于高質量強推理性數據較為稀少，通用問答數據較難激發模型的深層次邏輯推理能力，因此先前一些初步嘗試的效果大多不盡如人意。

近日，北京航空航天大學的研究團隊推出小尺寸視頻推理模型?TinyLLaVA-Video-R1，其模型權重、代碼以及訓練數據全部開源！

該工作驗證了小尺寸模型在通用問答數據集上進行強化學習也能有不錯的效果，與使用相同數據進行監督微調的模型相比，TinyLLaVA-Video-R1 在多個 benchmark 上都有性能提升。同時，模型還能在訓練與測試的過程中多次展現自我反思與回溯行為！

論文標題：TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
論文地址：https://arxiv.org/abs/2504.09641
Github：https://github.com/ZhangXJ199/TinyLLaVA-Video-R1

在推特上，HuggingFace AK 也連續兩次轉發推薦了這篇文章：

為什么選擇 TinyLLaVA-Video 作為 Base Model?

圖表 1 TinyLLaVA-Video 整體框架

雖然現有的開源視頻理解模型基座具有強大的理解與感知能力，但由于其訓練數據不透明，使用開源視頻數據進行后訓練可能會引入不可控的變量，從而影響實驗結果和結論的可靠性。

因此，北航團隊選擇訓練過程完全可溯源的 TinyLLaVA-Video 作為 Base Model，該模型采用 Qwen2.5-3B 作為語言模型，SigLIP 作為視覺編碼器。雖然 TinyLLaVA-Video 僅有 3.6B 的參數，且在預訓練階段為了控制訓練時長并未使用大量數據，但其仍能在多個 Benchmark 上能夠優于現有的多個 7B+ 模型。

TinyLLaVA-Video-R1 主要做了什么？

引入少量人工標注的高質量冷啟動數據

該工作發現，受限于小尺寸模型的能力，當直接使用 TinyLLaVA-Video 作為基礎模型，隨著訓練的進行，模型有一定的概率學會「偷懶」，所有的響應雖然符合格式要求，但并不給出思考過程，響應均為<think> </think> <answer> option?</answer>，同時在 Qwen2-VL-2B 上進行實驗也得到相似的實驗現象。

而當使用人工標注的 16 條 CoT 數據為模型進行冷啟動后，在實驗的過程中就不再出現這樣的現象，同時，模型也將更快學會遵守格式要求。因此該工作認為，冷啟動對于小尺寸模型推理是必要的，即使是極少量的冷啟動數據，對于穩定模型訓練也是很有幫助的。

引入長度獎勵與答案錯誤懲罰

現有的許多推理工作僅僅設置格式獎勵而沒有添加長度獎勵，但受限于小尺寸語言模型的能力，在這種設置下進行訓練并不會使模型的響應長度增加，甚至出現一點下降。

在引入連續長度獎勵后，模型的響應長度在訓練過程中顯著增加，如圖所示。然而在這種設置下，模型為了增加響應長度而進行了一些無意義的推理，這不僅沒有提高性能，反而導致訓練時間顯著增加。