本周大模型新動向:KV緩存混合精度量化、個體時空行為生成、個性化問答

點擊藍字

關注我們

AI TIME歡迎每一位AI愛好者的加入!

01

KVmix: Gradient-Based Layer Importance-Aware Mixed-Precision Quantization for KV Cache

大型語言模型(LLMs)在推理過程中,鍵值(KV)緩存的高內存需求嚴重限制了其在資源受限平臺上的部署。量化可以有效緩解KV緩存帶來的內存壓力。然而,現有方法要么依賴于靜態的“一刀切”精度分配,要么無法在長文本任務中動態優先處理關鍵KV,導致內存、準確性和吞吐量之間的次優權衡。本文提出了一種名為KVmix的新型KV緩存混合精度量化方法。KVmix利用基于梯度的重要性分析來評估各個鍵和值投影矩陣對模型損失的影響,從而實現針對不同層的混合精度量化。它動態地為重要層分配更高精度,同時積極量化影響力較小的層,實現了準確性和效率之間的可調平衡。此外,KVmix還引入了一種動態長文本優化策略,自適應地為最近的關鍵標記保留全精度KV對,同時壓縮較舊的KV對,以低內存使用量實現高質量的序列生成。此外,KVmix還提供了高效的低比特量化和CUDA內核,以優化計算開銷。在Llama和Mistral等LLMs上,KVmix在極低的量化配置(鍵2.19位,值2.38位)下實現了近乎無損的推理性能,同時將內存壓縮率提高到4.9倍,并將推理吞吐量提高了5.3倍。

文章鏈接:

https://arxiv.org/pdf/2506.08018

02

Reinforcement Learning Teachers of Test Time Scaling

訓練推理語言模型(LMs)以強化學習(RL)的方式實現單熱正確性,本質上依賴于LM在初始化時能夠探索并有一定機會解決任務。此外,推理LM的一個關鍵用例是作為教師,用于蒸餾新的學生模型和啟動未來的RL迭代,而不是直接部署。基于這些考慮,本文引入了一個新框架,通過訓練一類新的強化學習教師(RLTs),專注于產生最有效的下游蒸餾效果,從而避免了RL的探索挑戰。RLTs在提示中既包含問題又包含解決方案,任務是簡單地“連接點”,為學生提供詳細的解釋。通過將每個解釋輸入學生模型并測試其對問題解決方案的理解,獲得密集獎勵,從而訓練RLTs。在實踐中,一個7B參數的RLT的原始輸出在競賽和研究生級別的任務上提供了比現有蒸餾和冷啟動管道更高的最終性能,而現有管道收集和后處理的推理痕跡比RLT大幾個數量級。此外,RLTs在訓練更大規模的學生模型時保持其有效性,并且在零樣本情況下應用于分布外任務時,解鎖了RL推理框架的新效率和可重用性水平。

文章鏈接:

https://arxiv.org/pdf/2506.08388

03

AIR: Zero-shot Generative Model Adaptation with Iterative Refinement

零樣本生成模型適應(ZSGM)的目標是僅使用文本指導而不依賴目標域的任何樣本,將預訓練的生成器適應到目標域。最近的 ZSGM 方法的核心是方向損失,它通過在視覺 - 語言模型(如 CLIP)的嵌入空間中對齊圖像偏移量與文本偏移量來實現。然而,現有 ZSGM 方法的一個主要限制是,學習目標假設圖像偏移量和文本偏移量在 CLIP 嵌入空間中完全對齊,這導致生成圖像質量下降。本文做出了兩項主要貢獻。首先,受 NLP 中偏移量錯位研究的啟發,本文對多個大型公開可用數據集進行了實證研究,分析了 CLIP 嵌入空間中文本偏移量和圖像偏移量之間的錯位。研究發現,CLIP 嵌入空間中的偏移量錯位與概念距離相關,即概念越接近,偏移量錯位越小。其次,為了解決當前方法的局限性,本文提出了適應性迭代細化(AIR),這是首個基于對偏移量錯位的新見解來提高目標域圖像質量的 ZSGM 方法。通過定性、定量和用戶研究,在 26 種實驗設置中,AIR 方法一致地實現了 SOTA 性能。

文章鏈接:

https://arxiv.org/pdf/2506.10895

04

A Study on Individual Spatiotemporal Activity Generation Method Using MCP-Enhanced Chain-of-Thought Large Language Models

人類時空行為模擬對于城市規劃及相關領域的研究至關重要,然而傳統的基于規則和統計的方法面臨著計算成本高、泛化能力有限和可擴展性差等顯著限制。盡管大語言模型(LLMs)作為“世界模擬器”展現出巨大潛力,但在時空推理方面仍面臨諸多挑戰,包括空間認知能力有限、缺乏對物理約束的理解以及群體同質化傾向等。本文提出了一個將鏈式思維(CoT)推理與模型上下文協議(MCP)相結合的框架,以增強LLMs在模擬和生成與驗證數據模式相符的時空行為方面的能力。該方法結合了通過五階段認知框架進行類似人類的逐步推理以及通過六個專業MCP工具類別進行全面數據處理能力:時間管理、空間導航、環境感知、個人記憶、社會協作和經驗評估。通過在上海陸家嘴地區的實驗驗證了該框架的有效性,涵蓋了1000個生成樣本。結果表明,該方法生成的樣本與真實移動信號數據相符,不同基礎模型在受控實驗條件下生成質量得分范圍為7.86到8.36。并行處理實驗表明,在測試配置下,從2個進程擴展到12個進程時,每個樣本的生成時間從1.30分鐘降低到0.17分鐘,從而證明了該框架大規模部署的潛力。本研究為將CoT推理與MCP相結合用于城市行為建模做出了貢獻,推動了LLMs在城市計算中的應用,并為在數據受限環境中生成合成移動數據提供了實用方法。該框架為探索智能城市規劃、交通預測、參與式城市設計等相關領域的潛在應用提供了基礎。

文章鏈接:

https://arxiv.org/abs/2506.10853

05

LLM-Driven Personalized Answer Generation and Evaluation

在線學習因其靈活性和可及性而經歷了快速增長。個性化,即適應個體學習者的需求,對于增強學習體驗至關重要,尤其是在在線環境中。個性化的一個關鍵方面是為學習者提供針對其具體問題的定制化答案。因此,本文探索了大語言模型(LLMs)在為學習者的問題生成個性化答案方面的潛力,從而增強參與度并減輕教育工作者的工作負擔。為了評估LLMs在此背景下的有效性,作者在StackExchange平臺上進行了全面的研究,涵蓋語言學習和編程兩個不同領域。作者開發了一個框架和數據集,用于驗證自動生成的個性化答案。隨后,作者使用不同的策略(包括0-shot、1-shot和few-shot場景)生成個性化答案,并通過三種方法進行評估:1. BERTScore,2. LLM評估,3. 人類評估。研究結果表明,為LLMs提供來自學習者或類似學習者的期望答案示例,可以顯著增強其為個體學習者定制回答的能力。

文章鏈接:

https://arxiv.org/pdf/2506.10829

06

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

長視頻理解(LVU)對于當前的多模態大語言模型(MLLMs)來說是一個重大挑戰,因為該任務本身復雜且受到上下文窗口的限制。人們普遍認為,解決LVU任務需要基礎MLLMs具備擴展的上下文窗口、強大的視覺感知能力和熟練的領域專業知識。然而,本文通過引入VideoDeepResearch這一新穎的代理框架來挑戰這一普遍觀點。該方法僅依賴于一個純文本的大推理模型(LRM),結合一個模塊化的多模態工具包,包括多模態檢索器和視覺感知器,這些工具在實踐中都是現成可用的。對于每個LVU任務,系統通過推理制定問題解決策略,同時通過工具使用有選擇地訪問和利用必要的視頻內容。作者在流行的LVU基準測試(包括MLVU、Video-MME和LVBench)上進行了廣泛的實驗。結果表明,VideoDeepResearch在現有MLLM基線上取得了顯著改進,分別在MLVU(測試集)、LVBench和LongVideoBench上超過了之前的最佳水平9.6%、6.6%和3.9%。這些發現突出了代理系統在克服LVU問題關鍵挑戰方面的潛力。

文章鏈接:

https://arxiv.org/pdf/2506.10821

07

OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems

大型語言模型(LLMs)在解決多樣化任務中表現出色,但在通過學習以往反饋迭代優化復雜解決方案方面的能力尚未得到充分探索。為此,本文提出了OPT-BENCH,這是一個用于評估LLM代理在大規模搜索空間優化問題上的綜合基準測試。OPT-BENCH包含20個來自Kaggle的真實世界機器學習任務和10個經典的NP問題,為評估LLM代理在迭代推理和解決方案改進方面的能力提供了多樣化且具有挑戰性的環境。為了實現嚴謹的評估,本文還引入了OPT-Agent,這是一個端到端的優化框架,通過生成、驗證并利用歷史反饋迭代改進解決方案,模擬人類在解決復雜問題時的推理過程。通過對來自6個模型家族的9個最先進的LLMs進行廣泛的實驗,本文分析了優化迭代次數、溫度設置和模型架構對解決方案質量和收斂的影響。結果表明,整合歷史上下文能夠顯著提升在機器學習和NP任務上的優化性能。所有數據集、代碼和評估工具均已開源,以促進對LLM驅動優化和迭代推理的進一步研究。

文章鏈接:

https://arxiv.org/pdf/2506.10764

本期文章由陳研整理

近期活動分享


ICML 2025預講會45位講者相聚|7大主題方向

?關于AI TIME?

AI TIME源起于2019年,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法和場景應用的本質問題進行探索,加強思想碰撞,鏈接全球AI學者、行業專家和愛好者,希望以辯論的形式,探討人工智能和人類未來之間的矛盾,探索人工智能領域的未來。

迄今為止,AI TIME已經邀請了2000多位海內外講者,舉辦了逾800場活動,超1000萬人次觀看。

我知道你?

在看

提出觀點,表達想法,歡迎?

留言

點擊?閱讀原文?查看更多!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/87244.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/87244.shtml
英文地址,請注明出處:http://en.pswp.cn/web/87244.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

在 Spring Boot 中使用 WebMvcConfigurer

WebMvcConfigurer 是 Spring MVC 提供的一個擴展接口,用于配置 Spring MVC 的各種功能。在 Spring Boot 應用中,通過實現 WebMvcConfigurer 接口,可以定制和擴展默認的 Spring MVC 配置。以下是對 WebMvcConfigurer 的詳細解析及其常見用法。…

w-筆記:uni-app的H5平臺和非H5平臺的拍照識別功能:

uni-app的H5平臺和非H5平臺的拍照識別功能&#xff1a; <template><view class"humanVehicleBinding"><view v-if"warn" class"shadow"></view><view class"header"><uni-nav-bar left-icon"l…

TCP 半連接隊列和全連接隊列(結合 Linux 2.6.32 內核源碼分析)

文章目錄 一、什么是 TCP 半連接隊列和全連接隊列二、TCP 全連接隊列1、如何查看進程的 TCP 全連接隊列大小&#xff1f;注意 2、TCP 全連接隊列溢出問題注意 3、TCP 全連接隊列最大長度 三、TCP 半連接隊列1、TCP 半連接隊列溢出問題2、TCP 半連接隊列最大長度3、引申問題 一、…

linux下fabric環境搭建

參考教程&#xff1a; https://devpress.csdn.net/cloudnative/66d58e702045de334a569db3.html?dp_tokeneyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJpZCI6MjA2MzY4NywiZXhwIjoxNzQwMzY4MDc0LCJpYXQiOjE3Mzk3NjMyNzQsInVzZXJuYW1lIjoiaHVhbmd0dXBpIn0.oh8e4F6Sw_A4SV2ODQ5W0pYK0…

Redis Pipeline介紹:提高操作Redis數據庫的執行效率

Redis Pipeline是一種用于提高Redis執行效率的技術&#xff0c;通過減少客戶端與服務器之間的通信開銷&#xff0c;顯著提升批量操作的性能。本文將詳細介紹Redis Pipeline的概念、使用場景、實現方式及其優勢。 一、Redis Pipeline的概念 Redis Pipeline是一種批處理機制&am…

linux長時間鎖屏無法喚醒

是的&#xff0c;您這么理解很直接&#xff0c;抓住了要點。 簡單來說&#xff0c;就是這樣&#xff1a; 電腦睡覺有兩種方式&#xff1a; 打個盹&#xff08;掛起/Suspend&#xff09;&#xff1a; 把工作狀態保存在內存里。這個一般和 Swap 分區沒關系。睡死過去&#xff…

STM32F103_Bootloader程序開發11 - 實現 App 安全跳轉至 Bootloader

導言 想象一下&#xff0c;我們的單片機 App 正在穩定地運行著&#xff0c;突然我們想給它升級一下&#xff0c;添加個新功能。我們該如何安全地通知它&#xff1a;“嘿&#xff0c;準備好接收新固件了” ? 這就需要 App 和 Bootloader 之間建立一個可靠的"秘密握手"…

Explain解釋

參考官方文檔&#xff1a;https://dev.mysql.com/doc/refman/5.7/en/explain-output.html explain關鍵字可以分析你的查詢語句的結構和性能。 explain select查詢&#xff0c; 執行會返回執行計劃的信息。 注意&#xff1a;如果from中有子查詢&#xff0c;仍然會執行該子查詢…

選擇 PDF 轉 HTML 轉換器的 5 個關鍵特性

市面上有很多 PDF 轉 HTML 的轉換器&#xff0c;每一款產品都有不同的功能組合。要理清并理解每個功能可能會讓人感到困惑。那么&#xff0c;真正重要的是什么呢&#xff1f; 這篇文章將介紹我們認為在選擇最佳 PDF 轉 HTML 轉換器時最重要的 5 個關鍵特性&#xff1a; 1. 轉換…

使用堡塔在服務器上部署寶塔面板-linux版

使用堡塔在服務器上部署寶塔面板-linux版 使用堡塔多機管理登錄服務器 進入寶塔官網&#xff0c;獲取安裝腳本 wget -O install_panel.sh https://download.bt.cn/install/install_panel.sh && sudo bash install_panel.sh ed8484bec3. 在堡塔多機管理中&#xff0c;…

【Unity高級】Unity多界面游戲場景管理方案詳解

引言&#xff1a;游戲界面管理的挑戰 在Unity游戲開發中&#xff0c;尤其是包含多個功能界面&#xff08;如主菜單、關卡選擇、游戲頁面、設置和商城&#xff09;的游戲&#xff0c;如何高效管理場景與界面是架構設計的核心挑戰。本文將深入探討三種主流實現方案&#xff1a;單…

WINDOWS最快布署WEB服務器:apache2

安裝JDK下載 https://tomcat.apache.org/ Index of /dist/tomcat/tomcat-9 安裝測試 http://localhost:8080/ 替換自己的文件 把自己的文件復制到&#xff1a; C:\Program Files\Apache Software Foundation\Tomcat 9.0\webapps\ROOT

Microsoft Edge 打開無反應、打開后顯示兼容性問題、卸載重裝 解決方案。一鍵卸載Microsoft Edge 。

背景&#xff1a;網絡上的瀏覽器修復、重裝、恢復默認應用測試后無用&#xff0c;以下卸載重裝方案經實測可以正常使用Microsoft Edg。 卸載軟件在資源里&#xff0c;請自取。 一、卸載軟件&#xff1a;Remove-Edge_GUI.exe 雙擊卸載等待即可。 二、在微軟商店重新安裝Micro…

Spring Boot - 參數校驗:分組校驗、自定義注解、嵌套對象全解析

01 依賴配置 在構建高效的校驗體系前&#xff0c;需先完善項目依賴配置。 以下是優化后的依賴示例&#xff1a; <dependencies><!-- Web 依賴&#xff0c;提供 RESTful 接口支持 --><dependency><groupId>org.springframework.boot</groupId>…

深入淺出多模態》(十一)之多模態經典模型:Flamingo系列

&#x1f389;AI學習星球推薦&#xff1a; GoAI的學習社區 知識星球是一個致力于提供《機器學習 | 深度學習 | CV | NLP | 大模型 | 多模態 | AIGC 》各個最新AI方向綜述、論文等成體系的學習資料&#xff0c;配有全面而有深度的專欄內容&#xff0c;包括不限于 前沿論文解讀、…

基于Pandas和FineBI的昆明職位數據分析與可視化實現(三)- 職位數據統計分析

文章目錄 一、職位數據分析1. 一級分類職位數量統計分析2. 職位二級分類分布分析3. 職位分布分析4. 工作經驗需求分布分析5. 學歷要求職位分布分析6. 企業職位供給前507. 不同規模公司的職位數量統計8. 區域職位分布分析9. 各區域平均薪資范圍分布分析10. 不同工作經驗平均薪資…

大數據Hadoop之——安裝部署hadoop

目錄 前期準備 一、JDK的安裝 1、安裝jdk 2、配置Java環境變量 3、加載環境變量 4、進行校驗 二、hadoop的環境搭建 1、hadoop的下載安裝 2、配置文件設置 2.1. 配置 hadoop-env.sh 2.2. 配置 core-site.xml 2.3. 配置 hdfs-site.xml 2.4. 配置 yarn-site.xml 2.…

Spring IoC DI介紹

文章目錄 IoC & DI 介紹IoC介紹DI 介紹 組件注冊Bean 命名約定方法注解 Bean總結 掃描路徑DI 詳解屬性注入構造方法注入Setter 注入三種注入優缺點分析 當同一類型存在多個Bean時,直接使用Autowired會存在問題使用Primary注解使用Qualifier注解使用Bean的名稱使用Resource注…

【Flutter】解決 flutter_inappwebview在 Windows 上使用導致應用閃退問題

問題背景 在 Windows 11 上運行 Flutter 桌面應用時&#xff0c;應用出現閃退現象。通過系統事件日志分析&#xff0c;發現是 MSVCP140.dll 模塊的訪問沖突異常&#xff08;錯誤代碼 c0000005&#xff09;導致的崩潰。 問題分析 1. 錯誤現象 應用啟動后立即閃退Windows 事件…

使用 JavaScript、Mastra 和 Elasticsearch 構建一個具備代理能力的 RAG 助手

作者&#xff1a;來自 Elastic JD Armada 了解如何在 JavaScript 生態系統中構建 AI 代理。 Elasticsearch 與業界領先的生成式 AI 工具和服務商有原生集成。查看我們的網絡研討會&#xff0c;了解如何超越 RAG 基礎&#xff0c;或使用 Elastic 向量數據庫構建可投入生產的應用…