本周大模型新動向:KV緩存壓縮、低成本高性能推理框架、多智能體協作

點擊藍字

關注我們

AI TIME歡迎每一位AI愛好者的加入!

01

Compress Any Segment Anything Model (SAM)

受SAM在零樣本分割任務上卓越表現的驅動,其各類變體已被廣泛應用于醫療、智能制造等場景。然而,SAM系列模型體量巨大,嚴重限制了在資源受限環境中的部署效率。本文提出了一種名為Birkhoff的新型無數據壓縮算法,旨在對SAM及其變體進行高效壓縮。與傳統剪枝、量化、蒸餾等方法不同,Birkhoff具備跨模型通用、部署迅捷、忠實原模型、體積緊湊四大優勢。其核心創新是引入“超壓縮”機制:通過尋找稠密軌跡,將高維參數向量映射為低維標量。此外,本文設計了專用線性算子HyperLinear,將解壓縮與矩陣乘法融合,顯著提升壓縮模型的推理速度。在COCO、LVIS、SA-1B三大數據集上對18個SAM變體的實驗表明,Birkhoff在壓縮時間、壓縮率、壓縮后性能及推理速度上均表現優異。例如,在SAM2-B上實現5.17倍壓縮率,性能下降不足1%,且無需任何微調數據,壓縮全程在60秒內完成。

文章鏈接:

https://arxiv.org/pdf/2507.08765

02

Compactor: Calibrated Query-Agnostic KV Cache Compression with Approximate Leverage Scores

現代大語言模型(LLM)已能支持極長上下文,但在實際部署中,KV 緩存隨序列長度線性增長的內存開銷成為主要瓶頸。本文提出 Compactor——一種無需查詢信息、完全無參數的 KV 緩存壓縮策略。該方法利用近似統計杠桿分數衡量 token 重要性,并結合非因果注意力分數,共同決定保留哪些 token。實驗表明,Compactor 在 27 項合成與真實長文本任務(RULER、Longbench)上,僅用 50% 的 KV 緩存即可達到與完整緩存相當的性能,且計算開銷極低。此外,本研究引入“上下文校準壓縮”機制,可在推理階段為任意文本動態估計最大可壓縮比例,在 Longbench 上平均減少 63% 的 KV 內存,同時保持與全緩存一致的性能。作者在 Qwen2.5 與 Llama3.1 系列模型上驗證了方法的通用性與有效性。

文章鏈接:

https://arxiv.org/pdf/2507.08143

03

Integrating External Tools with Large Language Models (LLM) to Improve Accuracy

大語言模型(LLM)在缺乏相關上下文時容易產生幻覺或給出低質量回答。為緩解這一問題,本文提出Athena框架,通過調用外部API及計算工具(如計算器、日歷、Wolfram Alpha、ArXiv、搜索引擎等)為模型提供實時、精確的信息與計算能力。Athena采用Schema化工具注冊機制,使模型可自動識別何時調用何種工具,并解析參數、整合結果。在MMLU數學與科學推理數據集上的評估顯示,Athena在數學任務上達到83%準確率,在科學任務上達到88%,顯著優于GPT-4o、LLaMA-Large、Mistral-Large、Phi-Large及GPT-3.5等基線(最佳基線分別為67%與79%)。實驗表明,工具整合帶來的增益可彌補模型規模擴張的不足,為構建圍繞LLM的復雜計算生態系統提供了可行路徑。

文章鏈接:

https://arxiv.org/pdf/2507.08034

04

Unveiling Effective In-Context Configurations for Image Captioning: An External & Internal Analysis

隨著大模型的發展,上下文學習(ICL)已被成功從自然語言處理推廣到視覺-語言多模態任務。然而,如何為多模態ICL設計合適的示例配置仍缺乏系統研究,且模型內部機制亦未得到充分解釋。本文以圖像描述任務為切入點,從“外部配置”與“內部機理”兩個維度開展全面探究。外部方面,作者系統探索了示例數量、圖像檢索策略及文本描述質量三個因素,利用多種評價指標總結其影響規律;內部方面,作者深入分析大視覺-語言模型的注意力分布,提出錨定標記、涌現注意力窗口和描述捷徑三種典型模式,并設計對應注意力指標進行量化。實驗表明,隨著示例數量增加,語言連貫性提高,但視覺-文本對齊可能下降;低質量描述會在多示例場景下放大噪聲,而相似圖像檢索易誘發“描述抄襲”捷徑行為。此外,作者發現即使架構相同,預訓練數據差異也會導致模型行為顯著不同,并據此提出基于錨定標記的輕量化推理加速方法,可在幾乎不損失性能的前提下降低50% KV緩存。

文章鏈接:

https://arxiv.org/pdf/2507.08021

05

Introspection of Thought Helps AI Agents

大語言模型(LLM)與多模態大模型(MLLM)已成為 AI Agent 的核心推理引擎,但僅依靠提示工程或外部迭代框架仍受限于模型自身的語言理解局限,且多輪交互帶來高昂 token 成本。為此,本文提出 Introspection of Thought(INoT)框架,通過在提示中嵌入“PromptCode”——一種融合 Python 與自然語言的可讀代碼,使模型在單次調用內部即可完成多輪辯論、自我否定與反思。INoT 將傳統外部多 Agent 的迭代過程壓縮進 LLM 內部,顯著減少 token 開銷。在數學、代碼、問答 6 個基準及 3 個圖像問答數據集上的實驗表明,INoT 平均提升 7.95% 性能,token 成本較最佳基線降低 58.3%,并展現了良好的跨模型通用性與多模態適應性。

文章鏈接:

https://arxiv.org/pdf/2507.08664

06

DatasetAgent: A Novel Multi-Agent System for Auto-Constructing Datasets from Real-World Images

傳統圖像數據集的構建高度依賴人工收集與標注,耗時低效;而純合成數據又難以覆蓋真實世界的多樣性。針對這一矛盾,本文提出 DatasetAgent——一個由四個專業化智能體(需求分析、圖像處理、數據標注、監督協調)協同工作的多模態系統。該系統僅需用戶提供高層需求或現有數據集,即可自動完成圖像檢索、質量優化、清洗與多任務標注(分類、檢測、分割),全程使用真實世界圖像,避免合成數據的缺陷。在擴展 CIFAR-10、STL-10、PASCAL VOC 與 CamVid 以及從零構建新數據集的實驗中,DatasetAgent 輸出的數據集在類別平衡、視覺質量、標注可靠性等六項指標上均達到或超越人工基準,且下游模型在分類、檢測、分割任務上平均準確率提升 0.4–3.9 個百分點。

文章鏈接:

https://arxiv.org/pdf/2507.08648

07

From Language to Logic: A Bi-Level Framework for Structured Reasoning

當前大語言模型在結構化推理任務中仍依賴非結構化的鏈式思考,易出現冗長、不可解釋且易錯的問題。本文提出 Lang2Logic——一種雙層推理框架,將自然語言問題先抽象為包含變量、約束與目標的結構化模型,再生成可執行的 Python 邏輯程序并運行以得到最終答案。該框架采用“優化引導形式化”與“邏輯生成”兩級 LLM 協作,并通過雙層強化學習算法聯合優化,實現跨領域(因果、邏輯、數學、時空推理等)的模塊化、可解釋推理。在 9 個挑戰性基準上的實驗表明,Lang2Logic 相比最佳基線平均提升 10% 以上,在復雜任務中最高提升 40%,同時顯著降低推理鏈長度與幻覺風險。

文章鏈接:

https://arxiv.org/pdf/2507.08501

本期文章由陳研整理

近期活動分享

?關于AI TIME?

AI TIME源起于2019年,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法和場景應用的本質問題進行探索,加強思想碰撞,鏈接全球AI學者、行業專家和愛好者,希望以辯論的形式,探討人工智能和人類未來之間的矛盾,探索人工智能領域的未來。

迄今為止,AI TIME已經邀請了2000多位海內外講者,舉辦了逾800場活動,超1000萬人次觀看。

我知道你?

在看

提出觀點,表達想法,歡迎?

留言

點擊?閱讀原文?查看更多!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/90826.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/90826.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/90826.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

利用frp實現內網穿透功能(服務器)Linux、(內網)Windows

適用于: 本地電腦(windows)或者Linux(本篇未介紹) 工具:FRP(fast reverse proxy) 系統:Linux、Windows 架構:x86、amd Frp版本:frp_0.62.1_windows_amd64準備…

結合二八定律安排整塊時間

你是不是常常感覺一天到晚忙忙碌碌,卻總覺得沒干成幾件“要緊事”?時間仿佛從指縫間溜走,成就感卻遲遲不來?其實,高效能人士的秘訣往往藏在最簡單的原則里。今天,我們就來聊聊如何巧妙運用“二八定律”&…

波形發生器AWG硬件設計方案

目錄 簡介 設計需求 設計方案 核心原理圖展示 簡介 波形發生器是一種數據信號發生器,在調試硬件時,常常需要加入一些信號,以觀察電路工作是否正常。用一般的信號發生器,不但笨重,而且只發一些簡單的波形&#xff…

11.Dockerfile簡介

1.是什么? dockerfile是用來構建鏡像的文本文件,是由一條條構建鏡像所需的指令和參數構成的腳本。 構建三步驟 編寫dockerfile文件docker build命令構建鏡像docker run依鏡像運行的容器實列 2.dockerfile構建過程解析 1)dockerfile內容的基礎知識 …

C# 接口(interface 定義接口的關鍵字)

目錄 使用接口案例 接口繼承 練習 定義一個接口,在語法中與定義一個抽象類是沒有區別的,但是不允許提供接口中任意成員的實現方式,一般接口只會包含方法 、索引器和事件的聲明, 不允許聲明成員的修飾符, public都不…

5190 - 提高:DFS序和歐拉序:樹上操作(區域修改1)

題目傳送門 時間限制 : 2 秒 內存限制 : 256 MB 有一棵點數為 N 的樹,以點 1 為根,且樹點有邊權。然后有 M 個 操作,分為三種: 操作 1 :把某個節點 x 的點權增加 a 。 操作 2 :把某個節點 x 為根的子樹中…

【Oracle】數據泵

ORACLE數據庫 數據泵 核心參數全解析 ORACLE expdp 命令使用詳解 1.ATTACH[schema_name.]job_name Schema_name 用于指定方案名,job_name 用于指定導出作業名.注意,如果使用 ATTACH 選項,在命令行除了連接字符串和 ATTACH 選項外,不能指定任何其他選項,示例如下: expdp hr/hr A…

機器學習的算法有哪些?

🌟 歡迎來到AI奇妙世界! 🌟 親愛的開發者朋友們,大家好!👋 我是人工智能領域的探索者與分享者,很高興在CSDN與你們相遇!🎉 在這里,我將持續輸出AI前沿技術、實…

【計算機網絡】OSI七層模型

OSI七層模型為什么需要OSI七層模型?OSI七層模型具體是什么?Layer7:應用層(Application Layer)Layer6:表示層(Presentation Layer)Layer5:會話層(Session Laye…

RS485轉Profinet網關配置指南:高效啟動JRT激光測距傳感器測量模式

RS485轉Profinet網關配置指南:高效啟動JRT激光測距傳感器測量模式RS485轉Profinet網關:讓JRT激光測距傳感器高效開啟測量模式在工業自動化場景中,設備間的高效通信是實現精準控制的關鍵。RS485轉Profinet網關作為連接傳統RS485設備與現代Prof…

「日拱一碼」040 機器學習-不同模型可解釋方法

目錄 K最近鄰(KNN) - 基于距離的模型 決策邊界可視化 查看特定樣本的最近鄰 ?隨機森林(RF) - 樹模型 feature_importances_ SHAP值分析 可視化單棵樹 多層感知器(MLP) - 神經網絡 部分依賴圖 LIME解釋器 權重可視化 支持向量回歸(SVR) - 核方法 支持向量可視化 部…

編程與數學 03-002 計算機網絡 09_傳輸層功能

編程與數學 03-002 計算機網絡 09_傳輸層功能一、傳輸層的作用(一)進程間通信(二)提供可靠傳輸(三)復用與分用二、TCP協議(一)TCP的連接建立與釋放(二)TCP的可…

14. Web服務器-Nginx-工作原理

文章目錄前言一、簡介二、工作原理1. 多進程架構2. 事件驅動模型3. 模塊化設計三、工作流程1. 啟動階段2. 等待連接3. 請求處理階段4. 響應構造與輸出5. 連接關閉前言 Nginx? Nginx(發音為“Engine-X”)是一款高性能的開源Web服務器軟件,同…

AP-0316:集 USB 即插即用、智能降噪于一體的多功能 AI 聲卡,重新定義清晰語音交互

AP-0316突發噪音和抗風噪測試還在為語音設備的噪音刺耳、連接復雜、功放適配麻煩而頭疼?AP-0316 多功能 AI 降噪消回音 USB 聲卡來了 —— 以 “USB 即插即用 自帶功放 智能降噪 場景適配” 四大核心優勢,將專業級語音處理技術變得簡單易用&#xff0…

Baumer工業相機堡盟工業相機如何通過YoloV8深度學習模型實現衛星圖像識別(C#代碼,UI界面版)

Baumer工業相機堡盟工業相機如何通過YoloV8深度學習模型實現衛星圖像識別(C#代碼,UI界面版)工業相機使用YoloV8模型實現水下魚類識別工業相機通過YoloV8模型實現衛星圖像識別的技術背景在相機SDK中獲取圖像轉換圖像的代碼分析工業相機圖像轉換…

某d的評論爬蟲學習

本教程僅用于技術研究,請確保遵守目標網站的服務條款。實際使用前應獲得官方授權,避免高頻請求影響服務器,否則可能承擔法律責任。此腳本僅攔截公開評論接口,不涉及用戶私密數據。請勿修改代碼監聽其他請求。分享一下爬某抖評論的…

SQLite 注入:理解與防御

SQLite 注入:理解與防御 引言 隨著互聯網技術的飛速發展,數據庫已成為各類應用程序的核心組成部分。SQLite 作為一款輕量級的關系型數據庫,廣泛應用于移動應用、桌面應用及嵌入式系統。然而,SQLite 數據庫也面臨著安全挑戰&#x…

Java中List集合對象去重及按屬性去重

請直接移步原文Java中List集合對象去重及按屬性去重的8種方法 只記錄自己喜歡的幾種方法 對象元素整體去重的2種方法按照對象屬性去重的4種方法 預備數據 public class ListRmDuplicate {private List<String> list;private List<Player> playerList;BeforeEac…

ADAS測試:如何用自動化手段提升VV效率

當前&#xff0c;ADAS 技術正在快速發展&#xff0c;從智能巡航控制到自動緊急制動等功能已逐漸成為汽車的標配。在不斷提升駕駛輔助能力的同時&#xff0c;系統的可靠性也受到前所未有的重視。為了確保這些關鍵系統在各種工況下都能正常運行&#xff0c;驗證與確認&#xff08…

互信息:理論框架、跨學科應用與前沿進展

1. 起源與核心定義 互信息&#xff08;Mutual Information, MI&#xff09;由克勞德香農&#xff08;Claude Shannon&#xff09; 在1948年開創性論文《A Mathematical Theory of Communication》中首次提出&#xff0c;該論文奠定了現代信息論的基礎。互信息用于量化兩個隨機…