多模態大模型研究每日簡報【2025-08-05】

訓練數據相關

EditGarment: An Instruction-Based Garment Editing Dataset Constructed with Automated MLLM Synthesis and Semantic-Aware Evaluation (https://arxiv.org/abs/2508.03497)：提出了一種自動化的流程，用于構建服裝編輯數據集EditGarment，該數據集包含高質量的指令-圖像對，旨在提升服裝編輯任務中模型對服裝語義和屬性依賴的理解能力。使用 Fashion Edit Score，一個語義感知的評估指標，來保證數據質量。
Landsat30-AU: A Vision-Language Dataset for Australian Landsat Imagery (https://arxiv.org/abs/2508.03127)：為了促進衛星圖像的自然語言交互，構建了Landsat30-AU數據集，該數據集包含澳大利亞30米分辨率的Landsat衛星圖像，跨越36年。該數據集包括圖像描述對和視覺問答樣本，通過迭代優化和人工驗證來確保數據質量。
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems (https://arxiv.org/abs/2503.20756)：為了提升大模型在自動駕駛系統中的應用，提出了一個多模態知識編輯數據集ADS-Edit，包含了真實場景、多種數據類型和全面的評估指標，旨在提高模型對交通知識、復雜路況和車輛狀態的理解能力。
ChartCap: Mitigating Hallucination of Dense Chart Captioning (https://arxiv.org/abs/2508.03164)：提出ChartCap，一個大規模的圖表數據集，包含565K真實世界的圖表圖像以及詳細的描述。提出了一種新的評價指標，Visual Consistency Score，通過比較從描述中生成的圖表和原始圖表之間的相似性來評估描述的質量。【注：截止發稿日并未公布數據集】
OpenLifelogQA: An Open-Ended Multi-Modal Lifelog Question-Answering Dataset (https://arxiv.org/abs/2508.03583)：為了支持對個人生活數據的問答研究，提出了一個新的lifelog QA數據集OpenLifelogQA，該數據集基于一個為期18個月的lifelog數據集構建，專注于開放式和實用的QA，在日常lifelog使用中具有實際應用。
VLJailbreakBench (https://arxiv.org/abs/2411.00827)：構建了一個安全基準測試VLJailbreakBench，包含3,654個多模態越獄樣本，通過評估在各個已發布的 VLM 模型上的漏洞揭示了當前安全對齊的重大差距。
WSI-LLaVA: A Multimodal Large Language Model for Whole Slide Image (https://arxiv.org/abs/2412.02141)：構建了一個大規模形態感知基準 WSI-Bench，包含來自 30 種癌癥類型的 9,850 個 WSI 的 18 萬個 VQA 對，旨在評估 MLLM 對病理診斷的關鍵形態特征的理解，并針對其病理環境開發了兩個專業的 WSI 指標：WSI-Precision 和 WSI-Relevance。
Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI (https://arxiv.org/abs/2505.05895)：引入了一個視覺語言框架，以促進對汽車 UI 的理解和交互，并促進在不同 UI 設計之間的無縫適應，并發布了包含 4,208 個注釋的 998 張圖像的開源數據集 AutomotiveUI-Bench-4K。

訓練策略

VRPRM: Process Reward Modeling via Visual Reasoning (https://arxiv.org/abs/2508.03556)：提出VRPRM，一個通過視覺推理的過程獎勵模型，并設計了一個有效的兩階段訓練策略。通過少量CoT-PRM數據和非CoT PRM數據，VRPRM可以超越非思考PRM，并在BoN實驗中實現高達118%的相對性能提升。
VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation (https://arxiv.org/abs/2508.03351)：針對視覺語言模型（VLM）的模態差異問題，提出了一種新穎的重要性感知量化后訓練框架VLMQ，通過優化重要性感知的目標函數，增強Hessian矩陣，并進行高效的token級擾動計算，從而提升量化性能。
Individual Content and Motion Dynamics Preserved Pruning for Video Diffusion Models (https://arxiv.org/abs/2411.18375)：介紹了一種新的視頻擴散模型壓縮方法，采用保留個體內容和運動動力學的剪枝和一致性損失，通過移除淺層中的冗余塊同時保留更多深層，并提出個體內容和運動動力學（ICMD）一致性損失來實現可比擬的生成性能。
V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models (https://arxiv.org/abs/2508.03254)：針對文本到視頻（T2V）模型部署在資源受限環境中的需求，提出了一種有效的蒸餾方法ReDPO，結合了DPO和SFT，同時提出了一個新穎的V.I.P.框架，用于過濾和管理高質量的配對數據集，以及用于校準訓練的逐步在線方法。
Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning (https://arxiv.org/abs/2508.03102)：提出了Causal CLIP Adapter (CCA)，該框架使用無監督獨立成分分析 (ICA) 顯式地解開從 CLIP 提取的視覺特征，并增強 CLIP 的跨模態對齊，從而改進少樣本學習。
Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback (https://arxiv.org/abs/2507.20766)：通過“推理-渲染-視覺反饋”（RRVF）框架，使 MLLM 僅從原始圖像中學習復雜的視覺推理，該框架基于“驗證不對稱性”原則，減少了對圖像文本監督的依賴。

大模型的行業應用

Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired (https://arxiv.org/abs/2508.03651)：通過與視障人士的探索性研究，評估了ChatGPT在實時視頻場景中為視障人士提供幫助的能力，發現當前系統在動態場景中存在不足，并討論了輔助視頻AI代理的未來發展方向。
Guided Reality: Generating Visually-Enriched AR Task Guidance with LLMs and Vision Models (https://arxiv.org/abs/2508.03547)：提出了一個完全自動化的AR系統Guided Reality，該系統基于逐步指令生成嵌入式和動態視覺指導。集成了LLM和視覺模型，以從用戶查詢生成多步驟指令，識別適當類型的視覺指導，提取關于現實世界中關鍵交互點的空間信息，并在物理空間中嵌入視覺指導以支持任務執行。
R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation (https://arxiv.org/abs/2508.03426)：構建了一個大規模的多模態醫學知識圖譜M3KG，并提出了一個基于知識圖譜和LLM的X光報告生成框架，以提高報告質量并減少幻覺。
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365)：介紹了一種新的對抗性音頻攻擊框架WhisperInject，該框架可以通過在音頻輸入中嵌入難以察覺的擾動來操縱音頻語言模型生成有害內容，揭示了一種可行的、隱蔽的操縱AI行為的方法。
CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment (https://arxiv.org/abs/2508.03360)：提出了CogBench，旨在評估大型語言模型（LLM）在基于語音的認知障礙評估中的跨語言和跨站點泛化能力，為構建臨床實用且具有語言魯棒性的語音認知評估工具提供關鍵步驟。
A Closed-Loop Multi-Agent Framework for Aerodynamics-Aware Automotive Styling Design (https://arxiv.org/abs/2508.03370)：提出了一個由LLM驅動的多智能體框架，可以自動執行從模糊需求到3D概念模型性能驗證的端到端工作流程，旨在在汽車外觀設計中平衡主觀美學和客觀空氣動力學性能。
ADS-Edit: A Multimodal Knowledge Editing Dataset for Autonomous Driving Systems (https://arxiv.org/abs/2503.20756)：針對 LMM 直接應用于 ADS 的挑戰，提出了 ADS-Edit，一個專為 ADS 設計的多模態知識編輯數據集，其中包含各種真實世界的場景、多種數據類型和全面的評估指標。
CAMEF: Causal-Augmented Multi-Modality Event-Driven Financial Forecasting by Integrating Time Series Patterns and Salient Macroeconomic Announcements (https://arxiv.org/abs/2502.04592)：提出了 CAMEF（因果增強多模態事件驅動金融預測），這是一個多模態框架，通過因果學習機制和基于 LLM 的反事實事件增強技術，有效地整合了文本和時間序列數據，用于因果增強金融預測。

文生圖/文生視頻

LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation (https://arxiv.org/abs/2508.03694)：提出了LongVie，一個用于可控長視頻生成的端到端自回歸框架。LongVie引入了統一的噪聲初始化策略和全局控制信號歸一化，以確保時間一致性，并采用多模態控制框架和降級感知訓練策略，以減輕視覺退化。
READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation (https://arxiv.org/abs/2508.03457)：提出了READ，第一個基于實時擴散-transformer的說話頭生成框架。通過時間VAE學習時空高度壓縮的視頻潛在空間，并通過異步噪聲調度器（ANS）確保生成視頻片段的時間一致性。
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation (https://arxiv.org/abs/2508.03320)：提出了Skywork UniPic，一個15億參數的自回歸模型，它在一個單一架構中統一了圖像理解、文本到圖像生成和圖像編輯，而不需要特定于任務的適配器或模塊間連接器。
AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation (https://arxiv.org/abs/2508.00733)：提出了AudioGen-Omni，一個基于多模態擴散轉換器（MMDit）的統一方法，能夠生成與輸入視頻連貫同步的高保真音頻、語音和歌曲。采用了一種新的聯合訓練模式，無縫地整合了大規模的視頻-文本-音頻語料庫。
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes (https://arxiv.org/abs/2503.23461)：提出了一種新的多視覺文本渲染方法 TextCrafter，該方法采用漸進式策略將復雜的視覺文本分解為不同的組成部分，同時確保文本內容與其視覺載體之間具有強大的對齊。

底層模型架構

MoCHA: Advanced Vision-Language Reasoning with MoE Connector and Hierarchical Group Attention (https://arxiv.org/abs/2507.22805)：設計了一種新型視覺框架 MoCHA，集成了四個視覺骨干網絡（CLIP、SigLIP、DINOv2 和 ConvNeXt）以提取互補的視覺特征，并配備了一個稀疏的混合專家連接器 (MoEC) 模塊，以及一個分層分組注意力 (HGA) 機制，用于編碼的視覺特征。
UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying (https://arxiv.org/abs/2508.03142)：介紹了一種新穎的免訓練框架 UniEdit-I，通過三個迭代步驟使統一的 VLM 具備圖像編輯能力：理解、編輯和驗證。

其他

Can Large Vision-Language Models Understand Multimodal Sarcasm? (https://arxiv.org/abs/2508.03654)：評估了大型視覺語言模型(LVLMs)在多模態諷刺分析(MSA)任務中的表現，發現其在視覺理解和概念知識方面存在局限性，并提出了一個無訓練框架，整合了深入的對象提取和外部概念知識，以提高模型在多模態上下文中解釋和解釋諷刺的能力。
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? (https://arxiv.org/abs/2508.03644)：提出了Double-Bench，一個新的大規模、多語言、多模態評估系統，能夠對文檔RAG系統中的每個組件進行細粒度的評估。該系統包含3,276份文檔（72,880頁）和5,168個跨6種語言和4種文檔類型的單跳和多跳查詢。
LaTCoder: Converting Webpage Design to Code with Layout-as-Thought (https://arxiv.org/abs/2508.03560)：提出LaTCoder，一種新穎的方法，通過Layout-as-Thought (LaT)增強代碼生成過程中網頁設計的布局保持。首先將網頁設計劃分為圖像塊，然后使用CoT方法提示MLLM為每個塊生成代碼，最后應用兩種組裝策略來確定最佳輸出。
Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection (https://arxiv.org/abs/2508.03539)：提出ARAS，一種語言條件下的自回歸異常合成方法，通過token錨定的潛在編輯將本地的、文本指定的缺陷精確地注入到正常圖像中。此外，還提出了QARAD框架，采用動態加權策略，通過計算圖像-文本相似度得分來強調高質量的合成樣本。
UniME (https://arxiv.org/abs/2504.17432)：提出 UniME（通用多模態嵌入），一種新穎的兩階段框架，該框架利用 MLLM 來學習各種下游任務的區分性表示，并設計了“硬負例增強指令微調”，從而提高判別能力。
What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study (https://arxiv.org/abs/2506.12537)：系統地研究了語音分詞器設計在以 LLM 為中心的 SLM 中的作用，并引入多令牌預測 (MTP) 到 SLM 中，從而使每個隱藏狀態能夠解碼多個語音令牌。

編輯精選

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation? (https://arxiv.org/abs/2508.03644)：該論文提出了一個更全面的文檔RAG評估基準，解決了當前評估方法在真實性和完整性方面的不足，對于推動文檔RAG系統的發展具有重要意義。
Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired (https://arxiv.org/abs/2508.03651)：這項工作通過實際用戶測試，揭示了現有視覺模型在輔助視障人士方面的局限性，對于改進相關應用具有指導意義。
When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs (https://arxiv.org/abs/2508.03365)：該論文提出了一種新穎的對抗性攻擊方法，能夠通過音頻輸入操縱AI模型生成有害內容，突顯了音頻安全的重要性，并為防御此類攻擊提供了新的視角。
ChartCap: Mitigating Hallucination of Dense Chart Captioning (https://arxiv.org/abs/2508.03164)：該論文針對圖表描述中的幻覺問題，提出了一個高質量的數據集和評估指標，有助于推動更準確的圖表理解和生成。
VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation (https://arxiv.org/abs/2508.03351)：在資源受限情況下，有效地量化和部署大型視覺-語言模型仍然是一項具有挑戰性的任務，該論文通過利用 Hessian 譜信息來識別和減輕不同模態對量化敏感的影響，實現有效的視覺-語言模型量化。