本周大模型新動向：KV緩存混合精度量化、個體時空行為生成、個性化問答

點擊藍字

關注我們

AI TIME歡迎每一位AI愛好者的加入！

KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

大型語言模型（LLMs）在推理過程中，鍵值（KV）緩存的高內存需求嚴重限制了其在資源受限平臺上的部署。量化可以有效緩解KV緩存帶來的內存壓力。然而，現有方法要么依賴于靜態的“一刀切”精度分配，要么無法在長文本任務中動態優先處理關鍵KV，導致內存、準確性和吞吐量之間的次優權衡。本文提出了一種名為KVmix的新型KV緩存混合精度量化方法。KVmix利用基于梯度的重要性分析來評估各個鍵和值投影矩陣對模型損失的影響，從而實現針對不同層的混合精度量化。它動態地為重要層分配更高精度，同時積極量化影響力較小的層，實現了準確性和效率之間的可調平衡。此外，KVmix還引入了一種動態長文本優化策略，自適應地為最近的關鍵標記保留全精度KV對，同時壓縮較舊的KV對，以低內存使用量實現高質量的序列生成。此外，KVmix還提供了高效的低比特量化和CUDA內核，以優化計算開銷。在Llama和Mistral等LLMs上，KVmix在極低的量化配置（鍵2.19位，值2.38位）下實現了近乎無損的推理性能，同時將內存壓縮率提高到4.9倍，并將推理吞吐量提高了5.3倍。

文章鏈接：

https://arxiv.org/pdf/2506.08018

Reinforcement Learning Teachers of Test Time Scaling

訓練推理語言模型（LMs）以強化學習（RL）的方式實現單熱正確性，本質上依賴于LM在初始化時能夠探索并有一定機會解決任務。此外，推理LM的一個關鍵用例是作為教師，用于蒸餾新的學生模型和啟動未來的RL迭代，而不是直接部署。基于這些考慮，本文引入了一個新框架，通過訓練一類新的強化學習教師（RLTs），專注于產生最有效的下游蒸餾效果，從而避免了RL的探索挑戰。RLTs在提示中既包含問題又包含解決方案，任務是簡單地“連接點”，為學生提供詳細的解釋。通過將每個解釋輸入學生模型并測試其對問題解決方案的理解，獲得密集獎勵，從而訓練RLTs。在實踐中，一個7B參數的RLT的原始輸出在競賽和研究生級別的任務上提供了比現有蒸餾和冷啟動管道更高的最終性能，而現有管道收集和后處理的推理痕跡比RLT大幾個數量級。此外，RLTs在訓練更大規模的學生模型時保持其有效性，并且在零樣本情況下應用于分布外任務時，解鎖了RL推理框架的新效率和可重用性水平。

文章鏈接：

https://arxiv.org/pdf/2506.08388

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

零樣本生成模型適應（ZSGM）的目標是僅使用文本指導而不依賴目標域的任何樣本，將預訓練的生成器適應到目標域。最近的 ZSGM 方法的核心是方向損失，它通過在視覺 - 語言模型（如 CLIP）的嵌入空間中對齊圖像偏移量與文本偏移量來實現。然而，現有 ZSGM 方法的一個主要限制是，學習目標假設圖像偏移量和文本偏移量在 CLIP 嵌入空間中完全對齊，這導致生成圖像質量下降。本文做出了兩項主要貢獻。首先，受 NLP 中偏移量錯位研究的啟發，本文對多個大型公開可用數據集進行了實證研究，分析了 CLIP 嵌入空間中文本偏移量和圖像偏移量之間的錯位。研究發現，CLIP 嵌入空間中的偏移量錯位與概念距離相關，即概念越接近，偏移量錯位越小。其次，為了解決當前方法的局限性，本文提出了適應性迭代細化（AIR），這是首個基于對偏移量錯位的新見解來提高目標域圖像質量的 ZSGM 方法。通過定性、定量和用戶研究，在 26 種實驗設置中，AIR 方法一致地實現了 SOTA 性能。

文章鏈接：

https://arxiv.org/pdf/2506.10895

A Study on Individual Spatiotemporal Activity Generation Method Using MCP-Enhanced Chain-of-Thought Large Language Models

人類時空行為模擬對于城市規劃及相關領域的研究至關重要，然而傳統的基于規則和統計的方法面臨著計算成本高、泛化能力有限和可擴展性差等顯著限制。盡管大語言模型（LLMs）作為“世界模擬器”展現出巨大潛力，但在時空推理方面仍面臨諸多挑戰，包括空間認知能力有限、缺乏對物理約束的理解以及群體同質化傾向等。本文提出了一個將鏈式思維（CoT）推理與模型上下文協議（MCP）相結合的框架，以增強LLMs在模擬和生成與驗證數據模式相符的時空行為方面的能力。該方法結合了通過五階段認知框架進行類似人類的逐步推理以及通過六個專業MCP工具類別進行全面數據處理能力：時間管理、空間導航、環境感知、個人記憶、社會協作和經驗評估。通過在上海陸家嘴地區的實驗驗證了該框架的有效性，涵蓋了1000個生成樣本。結果表明，該方法生成的樣本與真實移動信號數據相符，不同基礎模型在受控實驗條件下生成質量得分范圍為7.86到8.36。并行處理實驗表明，在測試配置下，從2個進程擴展到12個進程時，每個樣本的生成時間從1.30分鐘降低到0.17分鐘，從而證明了該框架大規模部署的潛力。本研究為將CoT推理與MCP相結合用于城市行為建模做出了貢獻，推動了LLMs在城市計算中的應用，并為在數據受限環境中生成合成移動數據提供了實用方法。該框架為探索智能城市規劃、交通預測、參與式城市設計等相關領域的潛在應用提供了基礎。

文章鏈接：

https://arxiv.org/abs/2506.10853

LLM-Driven Personalized Answer Generation and Evaluation

在線學習因其靈活性和可及性而經歷了快速增長。個性化，即適應個體學習者的需求，對于增強學習體驗至關重要，尤其是在在線環境中。個性化的一個關鍵方面是為學習者提供針對其具體問題的定制化答案。因此，本文探索了大語言模型（LLMs）在為學習者的問題生成個性化答案方面的潛力，從而增強參與度并減輕教育工作者的工作負擔。為了評估LLMs在此背景下的有效性，作者在StackExchange平臺上進行了全面的研究，涵蓋語言學習和編程兩個不同領域。作者開發了一個框架和數據集，用于驗證自動生成的個性化答案。隨后，作者使用不同的策略（包括0-shot、1-shot和few-shot場景）生成個性化答案，并通過三種方法進行評估：1. BERTScore，2. LLM評估，3. 人類評估。研究結果表明，為LLMs提供來自學習者或類似學習者的期望答案示例，可以顯著增強其為個體學習者定制回答的能力。

文章鏈接：

https://arxiv.org/pdf/2506.10829

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

長視頻理解（LVU）對于當前的多模態大語言模型（MLLMs）來說是一個重大挑戰，因為該任務本身復雜且受到上下文窗口的限制。人們普遍認為，解決LVU任務需要基礎MLLMs具備擴展的上下文窗口、強大的視覺感知能力和熟練的領域專業知識。然而，本文通過引入VideoDeepResearch這一新穎的代理框架來挑戰這一普遍觀點。該方法僅依賴于一個純文本的大推理模型（LRM），結合一個模塊化的多模態工具包，包括多模態檢索器和視覺感知器，這些工具在實踐中都是現成可用的。對于每個LVU任務，系統通過推理制定問題解決策略，同時通過工具使用有選擇地訪問和利用必要的視頻內容。作者在流行的LVU基準測試（包括MLVU、Video-MME和LVBench）上進行了廣泛的實驗。結果表明，VideoDeepResearch在現有MLLM基線上取得了顯著改進，分別在MLVU（測試集）、LVBench和LongVideoBench上超過了之前的最佳水平9.6%、6.6%和3.9%。這些發現突出了代理系統在克服LVU問題關鍵挑戰方面的潛力。

文章鏈接：

https://arxiv.org/pdf/2506.10821

OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems

大型語言模型（LLMs）在解決多樣化任務中表現出色，但在通過學習以往反饋迭代優化復雜解決方案方面的能力尚未得到充分探索。為此，本文提出了OPT-BENCH，這是一個用于評估LLM代理在大規模搜索空間優化問題上的綜合基準測試。OPT-BENCH包含20個來自Kaggle的真實世界機器學習任務和10個經典的NP問題，為評估LLM代理在迭代推理和解決方案改進方面的能力提供了多樣化且具有挑戰性的環境。為了實現嚴謹的評估，本文還引入了OPT-Agent，這是一個端到端的優化框架，通過生成、驗證并利用歷史反饋迭代改進解決方案，模擬人類在解決復雜問題時的推理過程。通過對來自6個模型家族的9個最先進的LLMs進行廣泛的實驗，本文分析了優化迭代次數、溫度設置和模型架構對解決方案質量和收斂的影響。結果表明，整合歷史上下文能夠顯著提升在機器學習和NP任務上的優化性能。所有數據集、代碼和評估工具均已開源，以促進對LLM驅動優化和迭代推理的進一步研究。