多模態大模型研究每日簡報【2025-08-05】

訓練數據相關

  • EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation (https://arxiv.org/abs/2508.03497):提出了一種自動化的流程,用于構建服裝編輯數據集EditGarment,該數據集包含高質量的指令-圖像對,旨在提升服裝編輯任務中模型對服裝語義和屬性依賴的理解能力。使用 Fashion Edit Score,一個語義感知的評估指標,來保證數據質量。
  • Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery (https://arxiv.org/abs/2508.03127):為了促進衛星圖像的自然語言交互,構建了Landsat30-AU數據集,該數據集包含澳大利亞30米分辨率的Landsat衛星圖像,跨越36年。該數據集包括圖像描述對和視覺問答樣本,通過迭代優化和人工驗證來確保數據質量。
  • ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems (https://arxiv.org/abs/2503.20756):為了提升大模型在自動駕駛系統中的應用,提出了一個多模態知識編輯數據集ADS-Edit,包含了真實場景、多種數據類型和全面的評估指標,旨在提高模型對交通知識、復雜路況和車輛狀態的理解能力。
  • ChartCap: Mitigating Hallucination of Dense Chart Captioning (https://arxiv.org/abs/2508.03164):提出ChartCap,一個大規模的圖表數據集,包含565K真實世界的圖表圖像以及詳細的描述。提出了一種新的評價指標,Visual Consistency Score,通過比較從描述中生成的圖表和原始圖表之間的相似性來評估描述的質量。【注:截止發稿日并未公布數據集】
  • OpenLifelogQA: An Open-Ended Multi-Modal Lifelog Question-Answering Dataset (https://arxiv.org/abs/2508.03583):為了支持對個人生活數據的問答研究,提出了一個新的lifelog QA數據集OpenLifelogQA,該數據集基于一個為期18個月的lifelog數據集構建,專注于開放式和實用的QA,在日常lifelog使用中具有實際應用。
  • VLJailbreakBench (https://arxiv.org/abs/2411.00827):構建了一個安全基準測試VLJailbreakBench,包含3,654個多模態越獄樣本,通過評估在各個已發布的 VLM 模型上的漏洞揭示了當前安全對齊的重大差距。
  • WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image (https://arxiv.org/abs/2412.02141):構建了一個大規模形態感知基準 WSI-Bench,包含來自 30 種癌癥類型的 9,850 個 WSI 的 18 萬個 VQA 對,旨在評估 MLLM 對病理診斷的關鍵形態特征的理解,并針對其病理環境開發了兩個專業的 WSI 指標:WSI-Precision 和 WSI-Relevance。
  • Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI (https://arxiv.org/abs/2505.05895):引入了一個視覺語言框架,以促進對汽車 UI 的理解和交互,并促進在不同 UI 設計之間的無縫適應,并發布了包含 4,208 個注釋的 998 張圖像的開源數據集 AutomotiveUI-Bench-4K。

訓練策略

  • VRPRM: Process Reward Modeling via Visual Reasoning (https://arxiv.org/abs/2508.03556):提出VRPRM,一個通過視覺推理的過程獎勵模型,并設計了一個有效的兩階段訓練策略。通過少量CoT-PRM數據和非CoT PRM數據,VRPRM可以超越非思考PRM,并在BoN實驗中實現高達118%的相對性能提升。
  • VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation (https://arxiv.org/abs/2508.03351):針對視覺語言模型(VLM)的模態差異問題,提出了一種新穎的重要性感知量化后訓練框架VLMQ,通過優化重要性感知的目標函數,增強Hessian矩陣,并進行高效的token級擾動計算,從而提升量化性能。
  • Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models (https://arxiv.org/abs/2411.18375):介紹了一種新的視頻擴散模型壓縮方法,采用保留個體內容和運動動力學的剪枝和一致性損失,通過移除淺層中的冗余塊同時保留更多深層,并提出個體內容和運動動力學(ICMD)一致性損失來實現可比擬的生成性能。
  • V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models (https://arxiv.org/abs/2508.03254):針對文本到視頻(T2V)模型部署在資源受限環境中的需求,提出了一種有效的蒸餾方法ReDPO,結合了DPO和SFT,同時提出了一個新穎的V.I.P.框架,用于過濾和管理高質量的配對數據集,以及用于校準訓練的逐步在線方法。
  • Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning (https://arxiv.org/abs/2508.03102):提出了Causal CLIP Adapter (CCA),該框架使用無監督獨立成分分析 (ICA) 顯式地解開從 CLIP 提取的視覺特征,并增強 CLIP 的跨模態對齊,從而改進少樣本學習。
  • Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback (https://arxiv.org/abs/2507.20766):通過“推理-渲染-視覺反饋”(RRVF)框架,使 MLLM 僅從原始圖像中學習復雜的視覺推理,該框架基于“驗證不對稱性”原則,減少了對圖像文本監督的依賴。

大模型的行業應用

  • Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired (https://arxiv.org/abs/2508.03651):通過與視障人士的探索性研究,評估了ChatGPT在實時視頻場景中為視障人士提供幫助的能力,發現當前系統在動態場景中存在不足,并討論了輔助視頻AI代理的未來發展方向。
  • Guided Reality: Generating Visually-Enriched AR Task Guidance with LLMs and Vision Models (https://arxiv.org/abs/2508.03547):提出了一個完全自動化的AR系統Guided Reality,該系統基于逐步指令生成嵌入式和動態視覺指導。集成了LLM和視覺模型,以從用戶查詢生成多步驟指令,識別適當類型的視覺指導,提取關于現實世界中關鍵交互點的空間信息,并在物理空間中嵌入視覺指導以支持任務執行。
  • R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation (https://arxiv.org/abs/2508.03426):構建了一個大規模的多模態醫學知識圖譜M3KG,并提出了一個基于知識圖譜和LLM的X光報告生成框架,以提高報告質量并減少幻覺。
  • When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365):介紹了一種新的對抗性音頻攻擊框架WhisperInject,該框架可以通過在音頻輸入中嵌入難以察覺的擾動來操縱音頻語言模型生成有害內容,揭示了一種可行的、隱蔽的操縱AI行為的方法。
  • CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment (https://arxiv.org/abs/2508.03360):提出了CogBench,旨在評估大型語言模型(LLM)在基于語音的認知障礙評估中的跨語言和跨站點泛化能力,為構建臨床實用且具有語言魯棒性的語音認知評估工具提供關鍵步驟。
  • A Closed-Loop Multi-Agent Framework for Aerodynamics-Aware Automotive Styling Design (https://arxiv.org/abs/2508.03370):提出了一個由LLM驅動的多智能體框架,可以自動執行從模糊需求到3D概念模型性能驗證的端到端工作流程,旨在在汽車外觀設計中平衡主觀美學和客觀空氣動力學性能。
  • ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems (https://arxiv.org/abs/2503.20756):針對 LMM 直接應用于 ADS 的挑戰,提出了 ADS-Edit,一個專為 ADS 設計的多模態知識編輯數據集,其中包含各種真實世界的場景、多種數據類型和全面的評估指標。
  • CAMEF: Causal-Augmented Multi-Modality Event-Driven Financial Forecasting by Integrating Time Series Patterns and Salient Macroeconomic Announcements (https://arxiv.org/abs/2502.04592):提出了 CAMEF(因果增強多模態事件驅動金融預測),這是一個多模態框架,通過因果學習機制和基于 LLM 的反事實事件增強技術,有效地整合了文本和時間序列數據,用于因果增強金融預測。

文生圖/文生視頻

  • LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation (https://arxiv.org/abs/2508.03694):提出了LongVie,一個用于可控長視頻生成的端到端自回歸框架。LongVie引入了統一的噪聲初始化策略和全局控制信號歸一化,以確保時間一致性,并采用多模態控制框架和降級感知訓練策略,以減輕視覺退化。
  • READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation (https://arxiv.org/abs/2508.03457):提出了READ,第一個基于實時擴散-transformer的說話頭生成框架。通過時間VAE學習時空高度壓縮的視頻潛在空間,并通過異步噪聲調度器(ANS)確保生成視頻片段的時間一致性。
  • Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation (https://arxiv.org/abs/2508.03320):提出了Skywork UniPic,一個15億參數的自回歸模型,它在一個單一架構中統一了圖像理解、文本到圖像生成和圖像編輯,而不需要特定于任務的適配器或模塊間連接器。
  • AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation (https://arxiv.org/abs/2508.00733):提出了AudioGen-Omni,一個基于多模態擴散轉換器(MMDit)的統一方法,能夠生成與輸入視頻連貫同步的高保真音頻、語音和歌曲。采用了一種新的聯合訓練模式,無縫地整合了大規模的視頻-文本-音頻語料庫。
  • TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes (https://arxiv.org/abs/2503.23461):提出了一種新的多視覺文本渲染方法 TextCrafter,該方法采用漸進式策略將復雜的視覺文本分解為不同的組成部分,同時確保文本內容與其視覺載體之間具有強大的對齊。

底層模型架構

  • MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention (https://arxiv.org/abs/2507.22805):設計了一種新型視覺框架 MoCHA,集成了四個視覺骨干網絡(CLIP、SigLIP、DINOv2 和 ConvNeXt)以提取互補的視覺特征,并配備了一個稀疏的混合專家連接器 (MoEC) 模塊,以及一個分層分組注意力 (HGA) 機制,用于編碼的視覺特征。
  • UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying (https://arxiv.org/abs/2508.03142):介紹了一種新穎的免訓練框架 UniEdit-I,通過三個迭代步驟使統一的 VLM 具備圖像編輯能力:理解、編輯和驗證。

其他

  • Can Large Vision-Language Models Understand Multimodal Sarcasm? (https://arxiv.org/abs/2508.03654):評估了大型視覺語言模型(LVLMs)在多模態諷刺分析(MSA)任務中的表現,發現其在視覺理解和概念知識方面存在局限性,并提出了一個無訓練框架,整合了深入的對象提取和外部概念知識,以提高模型在多模態上下文中解釋和解釋諷刺的能力。
  • Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? (https://arxiv.org/abs/2508.03644):提出了Double-Bench,一個新的大規模、多語言、多模態評估系統,能夠對文檔RAG系統中的每個組件進行細粒度的評估。該系統包含3,276份文檔(72,880頁)和5,168個跨6種語言和4種文檔類型的單跳和多跳查詢。
  • LaTCoder: Converting Webpage Design to Code with Layout-as-Thought (https://arxiv.org/abs/2508.03560):提出LaTCoder,一種新穎的方法,通過Layout-as-Thought (LaT)增強代碼生成過程中網頁設計的布局保持。首先將網頁設計劃分為圖像塊,然后使用CoT方法提示MLLM為每個塊生成代碼,最后應用兩種組裝策略來確定最佳輸出。
  • Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection (https://arxiv.org/abs/2508.03539):提出ARAS,一種語言條件下的自回歸異常合成方法,通過token錨定的潛在編輯將本地的、文本指定的缺陷精確地注入到正常圖像中。此外,還提出了QARAD框架,采用動態加權策略,通過計算圖像-文本相似度得分來強調高質量的合成樣本。
  • UniME (https://arxiv.org/abs/2504.17432):提出 UniME(通用多模態嵌入),一種新穎的兩階段框架,該框架利用 MLLM 來學習各種下游任務的區分性表示,并設計了“硬負例增強指令微調”,從而提高判別能力。
  • What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study (https://arxiv.org/abs/2506.12537):系統地研究了語音分詞器設計在以 LLM 為中心的 SLM 中的作用,并引入多令牌預測 (MTP) 到 SLM 中,從而使每個隱藏狀態能夠解碼多個語音令牌。

編輯精選

  1. Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? (https://arxiv.org/abs/2508.03644):該論文提出了一個更全面的文檔RAG評估基準,解決了當前評估方法在真實性和完整性方面的不足,對于推動文檔RAG系統的發展具有重要意義。
  2. Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired (https://arxiv.org/abs/2508.03651):這項工作通過實際用戶測試,揭示了現有視覺模型在輔助視障人士方面的局限性,對于改進相關應用具有指導意義。
  3. When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365):該論文提出了一種新穎的對抗性攻擊方法,能夠通過音頻輸入操縱AI模型生成有害內容,突顯了音頻安全的重要性,并為防御此類攻擊提供了新的視角。
  4. ChartCap: Mitigating Hallucination of Dense Chart Captioning (https://arxiv.org/abs/2508.03164):該論文針對圖表描述中的幻覺問題,提出了一個高質量的數據集和評估指標,有助于推動更準確的圖表理解和生成。
  5. VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation (https://arxiv.org/abs/2508.03351):在資源受限情況下,有效地量化和部署大型視覺-語言模型仍然是一項具有挑戰性的任務,該論文通過利用 Hessian 譜信息來識別和減輕不同模態對量化敏感的影響,實現有效的視覺-語言模型量化。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/94513.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/94513.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/94513.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

4、docker數據卷管理命令 | docker volume

1、命令總覽命令作用出現頻率備注★ docker volume create新建卷高-d 指定驅動,-o 指定驅動選項★ docker volume ls列出卷高--filter danglingtrue 查孤兒卷★ docker volume inspect查看卷詳情高輸出 JSON,可加 --format★ docker volume rm刪除卷高只…

計數組合學7.14(對偶 RSK 算法)

7.14 對偶 RSK 算法 存在 RSK 算法的一種變體,其與乘積 ∏i,j(1xiyj)\prod_{i,j}(1 x_{i}y_{j})∏i,j?(1xi?yj?) 的關系類似于 RSK 算法本身與 ∏i,j(1?xiyj)?1\prod_{i,j}(1 - x_{i}y_{j})^{-1}∏i,j?(1?xi?yj?)?1 的關系。我們稱此變體為對偶 RSK 算法…

C語言中的進程、線程與進程間通信詳解

目錄 引言 基本概念 1. 進程(Process) 2. 線程(Thread) 線程編程實戰 1. 常見線程庫 2. 合理設置線程數 3. pthread 創建線程 線程同步機制 1. 互斥鎖 pthread_mutex_t 2. 條件變量 pthread_cond_t 3. 讀寫鎖 pthread…

[假面騎士] 555淺談

假面騎士555(faiz)是我最先接觸的一部平成系列的假面騎士,同時也是我個人最喜歡的一部假面騎士。一、大綱簡介震驚,人類最新的進化形態——奧菲一諾,橫空出世!日本的頂級財團,Smart Brain,的前任社長&#…

Vue Router 路由的創建和基本使用(超詳細)

一、路由的基本概念 你是否好奇單頁應用(SPA)是如何在不刷新頁面的情況下實現頁面切換的?這就離不開路由的功勞。 路由:本質是一組 key-value 的對應關系,在前端領域中,key 通常是路徑,value …

深入理解設計模式:策略模式的藝術與實踐

在軟件開發中,我們經常會遇到需要根據不同情況選擇不同算法或行為的場景。傳統的做法可能是使用大量的條件語句(if-else或switch-case),但隨著需求的增加和變化,這種硬編碼的方式會導致代碼難以維護和擴展。策略模式&a…

概率/期望 DP llya and Escalator

題目鏈接:Problem - D - Codeforces 看了這篇文章來的:【算法學習筆記】概率與期望DP - RioTian - 博客園 這篇博客寫得挺好的,講了一些常見方法,概率 / 期望的題多練練就上手了。 題目大意: n 個人排隊上電梯&…

大陸電子MBDS開發平臺轉到其他國產控制器平臺產生的問題記錄

u8_StComLowSpdGearSwt變量為例,之前用的時候只有輸入,沒什么實際意義,導致新環境下編譯報錯,缺少聲明,解決辦法:注釋掉輸入模塊。今天解決的另一個比較大的問題,不同模型函數公用函數模塊生成代…

機器學習模型調優實戰指南

文章目錄模型選擇與調優:從理論到實戰1. 引言2. 模型評估:為選擇提供依據2.1 偏差-方差權衡2.2 數據集劃分與分層抽樣2.3 交叉驗證(Cross-Validation)2.4 信息準則(AIC / BIC)3. 超參數調優:讓模…

【教程】Unity CI/CD流程

測試機:紅帽 Linux8 源碼倉庫:Gitee - MrRiver/Unity Example ? 系統環境準備 1)yum 源 sudo curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/Centos-8.repo sudo sed -i s/\$releasever/8/g /etc/yum.repos…

文獻閱讀 | Briefings in Bioinformatics | Hiplot:全面且易于使用的生物醫學可視化分析平臺

文獻介紹文獻題目: Hiplot:一個綜合且易于使用的 Web 服務,用于增強出版物準備的生物醫學數據可視化 研究團隊: Openbiox/Hiplot 社區 發表時間: 2022-07-05 發表期刊: Briefings in Bioinformatics 影響因…

【數字圖像處理系列筆記】Ch04:灰度變換與空間域圖像增強(2)

目錄 一、空域濾波基礎 一、空域濾波的基本概念 二、空域濾波的數學原理 三、空域濾波器的分類與典型示例 (一)線性濾波器(Linear Filter) (二)非線性濾波器(Non-linear Filter&#xff0…

AI浪潮下,FPGA如何實現自我重塑與行業變革

引言:AI 與 FPGA,新時代的碰撞 2025 年,人工智能技術迎來爆發式增長,大模型、生成式 AI 和多模態技術持續突破,人形機器人量產元年正式開啟,自動駕駛商業化進程加速,工業數字化轉型全面鋪開(1)…

系統集成項目管理工程師【第十一章 規劃過程組】定義范圍、創建WBS、規劃進度管理和定義活動篇

系統集成項目管理工程師【第十一章 規劃過程組】定義范圍、創建WBS、規劃進度管理和定義活動篇 一、定義范圍:給項目畫好"邊界線" 定義范圍是明確項目和產品"做什么、不做什么"的過程,直接影響后續所有工作的方向。 1. 核心概念與作…

Spring Boot 參數校驗全指南

Spring Boot 參數校驗全指南 在 Web 開發中,參數校驗是保障接口安全性和數據合法性的關鍵環節。手動編寫校驗邏輯不僅繁瑣,還容易遺漏邊界情況。Spring Boot 整合了 validation 工具,提供了一套簡潔高效的參數校驗方案,可快速實現…

常用技術資料鏈接

1.team技術 https://zhuanlan.zhihu.com/p/11389323664 https://blog.csdn.net/Lucky_Lu0/article/details/121697151 2.bond切換主備 https://www.xgss.net/3306.html 3.ssh詳解: https://cloud.tencent.com/developer/news/105165 https://blog.huochengrm.c…

【Spring Cloud】-- 注冊中心

文章目錄1. 什么是注冊中心2. CPA理論1. 什么是注冊中心 注冊中心有三種角色: 服務提供者(Server) :提供接口給其他微服務的程序。服務消費者(Client):調用其他微服務提供的接口。**服務注冊中…

go-zero 詳解

go-zero 詳解 go-zero 是一個基于 Go 語言的微服務框架,由字節跳動團隊開發并開源,旨在幫助開發者快速構建高可用、高性能的微服務架構。它集成了豐富的組件,簡化了微服務開發中的常見問題(如服務注冊發現、配置管理、限流熔斷等&…

接口自動化框架封裝之統一請求封裝及通過文件實現接口關聯

接口自動化測試框架封裝目的:簡化自動化框架的落地,提高投入和產出比,只要一個人封裝好框架,另外的測試通過寫yaml測試用例即可實現接口自動化1.統一請求的封裝去除多余重復的代碼可跨py文件實現通過一個session來自動關聯有cookie的接口設置統一公共參數,統一文件處理,統一異常…

Vue 最佳實踐:如何利用唯一 key 值保證 el-table 動態渲染的穩定性

📋 問題描述 在Vue 2.0 ElementUI項目的偏置條件管理頁面中,每次切換到"內規拉偏"菜單時,表格樣式會發生崩潰,導致表格布局異常、列寬錯亂、固定列顯示不正確等問題。 🔍 問題分析 通過深入分析代碼&#x…