多模態大語言模型arxiv論文略讀（七十八）

在這里插入圖片描述

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

?? 論文標題：AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
?? 論文作者：Zhen Xing, Qi Dai, Zejia Weng, Zuxuan Wu, Yu-Gang Jiang
?? 研究機構: Fudan University、Microsoft Research Asia
?? 問題背景：文本引導的視頻預測（TVP）任務涉及根據初始幀和指令預測未來的視頻幀，具有廣泛的應用，如虛擬現實、機器人技術和內容創作。然而，現有的TVP方法在幀一致性和時間穩定性方面存在挑戰，主要原因是視頻數據集的規模有限。研究團隊觀察到，預訓練的圖像到視頻擴散模型（Image2Video diffusion models）具有良好的視頻動態先驗，但缺乏文本控制。因此，將這些模型轉移到特定領域應用，并注入指令控制以生成可控視頻，是一個有意義且具有挑戰性的任務。
?? 研究動機：現有的TVP方法雖然在創意生成方面表現出色，但由于視頻數據集規模有限，導致生成的視頻在一致性和穩定性方面表現不佳。研究團隊旨在通過將預訓練的圖像到視頻擴散模型轉移到特定領域應用，并注入文本控制，來提高視頻生成的質量和可控性。
?? 方法簡介：研究團隊提出了一種多模態大語言模型（MLLM）來預測未來視頻的狀態，并設計了雙查詢變壓器（DQFormer）架構，將文本和視覺條件整合為多條件（MCondition），以指導視頻預測。此外，還開發了長期和短期時間適配器以及空間適配器，以快速將通用視頻擴散模型轉移到特定場景，同時保持較低的訓練成本。
?? 實驗設計：研究團隊在四個主流TVP數據集上進行了實驗，包括Something Something V2、Epic Kitchen-100、Bridge Data和UCF-101。實驗設計了不同的條件（如初始幀、文本指令）和適配器（如時間適配器、空間適配器），以評估模型在不同條件下的表現。實驗結果表明，該方法在多個數據集上的表現顯著優于現有技術，特別是在Fréchet Video Distance (FVD)指標上，相比之前的最先進方法提高了超過50%。

Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems

?? 論文標題：Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems
?? 論文作者：Mohammed Elhenawy, Ahmed Abdelhay, Taqwa I. Alhadidi, Huthaifa I Ashqar, Shadi Jaradat, Ahmed Jaber, Sebastien Glaser, Andry Rakotonirainy
?? 研究機構: Queensland University of Technology, Minia University, Al-Ahliyya Amman University, Arab American University, Columbia University, Budapest University of Technology and Economics
?? 問題背景：多模態大型語言模型（Multimodal Large Language Models, MLLMs）在處理多種模態數據（如文本、圖像和音頻）方面表現出色。這些模型利用了廣泛的知識，能夠在幾乎沒有特定訓練樣本的情況下解決復雜問題，這在少樣本和零樣本學習場景中得到了驗證。本文探討了MLLMs通過分析二維平面上點分布的圖像來“直觀”解決旅行商問題（TSP）的能力。
?? 研究動機：盡管大型語言模型（LLMs）在文本任務中表現出色，但在理解和處理其他類型的數據時往往遇到困難。MLLMs通過結合多種模態數據，克服了純文本模型的局限性，為處理多樣化數據類型提供了可能。本研究旨在探索MLLMs在解決組合優化問題，特別是TSP中的視覺推理能力，以及不同上下文學習技術對其性能的影響。
?? 方法簡介：研究團隊設計了一系列實驗，包括零樣本、少樣本、自集成和自精煉零樣本評估，以測試MLLMs在解決TSP時的表現。實驗中，模型被要求僅通過視覺分析來生成TSP的解決方案，并通過自集成和自精煉策略來提高解決方案的質量。
?? 實驗設計：實驗使用了包含不同數量點的旅程數據集，每個旅程由一系列獨特的二維點組成。實驗設計了不同規模的問題（5、10、15、20個點），并使用了零樣本、少樣本、自集成和自精煉方法來評估模型的性能。此外，研究還分析了模型在處理不同問題規模時的幻覺（如錯誤的節點ID和不完整的路線）情況，以及自集成和自精煉方法對減少這些幻覺的影響。

MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models

?? 論文標題：MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models
?? 論文作者：Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu
?? 研究機構: 清華大學、北京航空航天大學、上海交通大學、RealAI、廣州黃埔區琶洲實驗室
?? 問題背景：盡管多模態大語言模型（MLLMs）在多種任務中表現出色，但它們在可信度方面仍面臨重大挑戰，包括事實性錯誤、有害輸出、隱私泄露等問題。當前對MLLMs可信度的評估研究有限，缺乏全面的評估框架，無法提供深入的見解以指導未來的改進。
?? 研究動機：為了促進基礎模型的可信度，開發全面和標準化的評估基準是必不可少的。雖然已有許多研究評估了大語言模型（LLMs）的可信度，但針對MLLMs的評估框架仍然缺乏。此外，多模態的特性引入了新的風險，如對對抗性圖像攻擊的敏感性、圖像中的有毒內容以及通過視覺上下文進行的越獄等。因此，研究團隊建立了MultiTrust，旨在全面評估MLLMs在五個主要方面的可信度：事實性、安全性、魯棒性、公平性和隱私性。
?? 方法簡介：研究團隊提出了一個更深入的評估策略，通過考慮多模態風險和視覺輸入對基礎LLMs性能的跨模態影響，來評估MLLMs的可信度。為此，他們設計了32個不同的任務，包括對現有多模態任務的改進、將文本任務擴展到多模態場景以及新的風險評估方法。研究團隊還構建了豐富的數據集，其中大部分數據集是基于現有數據集改進或通過數據合成（如Stable Diffusion、GPT-4V）和手動收集新提出的。
?? 實驗設計：研究團隊在21個現代MLLMs（4個專有模型和17個開源模型）上進行了大規模實驗，以確保模型的廣泛覆蓋和架構的多樣性。實驗設計涵蓋了多種任務類型，包括多模態任務、跨模態任務、判別任務和生成任務，旨在全面評估模型在不同場景下的基本性能和實際意義。實驗結果揭示了MLLMs在可信度方面的一些先前未被探索的問題和風險，強調了多模態特性帶來的復雜性，并指出了提高模型可靠性的必要性。

Needle In A Multimodal Haystack

?? 論文標題：Needle In A Multimodal Haystack
?? 論文作者：Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang
?? 研究機構: Fudan University, OpenGVLab, Shanghai AI Laboratory, Tsinghua University, The Chinese University of Hong Kong, Nanjing University, SenseTime Research, The University of Hong Kong
?? 問題背景：隨著多模態大語言模型（Multimodal Large Language Models, MLLMs）的快速發展，其評估方法也日益全面。然而，理解長多模態內容作為實際應用的基礎能力，仍然未得到充分探索。當前的多模態模型在處理長上下文多模態文檔時面臨挑戰，主要受限于上下文窗口大小的限制，以及缺乏適當的評估基準。
?? 研究動機：現有的多模態模型在處理長上下文多模態文檔時表現不佳，主要原因是上下文窗口大小的限制。此外，缺乏適當的評估基準也是限制多模態模型在長上下文理解方面發展的關鍵因素。為了填補這一空白，研究團隊構建了第一個專門用于評估多模態模型長文檔理解能力的基準——MM-NIAH（Needle In A Multimodal Haystack）。
?? 方法簡介：研究團隊通過將OBELICS中的交錯圖像-文本序列連接起來，構建了包含1k到72k圖像和文本標記的長上下文文檔，作為“多模態干草堆”。然后，研究團隊在這些文檔中插入了不同類型的關鍵信息（“針”），包括文本針和圖像針。MM-NIAH包含三種任務類型：檢索、計數和推理。每種任務都要求模型根據文檔中的關鍵信息回答問題。
?? 實驗設計：研究團隊在MM-NIAH基準上評估了9個先進的多模態大語言模型，包括開源和閉源模型。實驗設計了不同上下文長度和針深度的分布，以全面評估模型在不同條件下的表現。實驗結果表明，現有模型在處理圖像針時的表現顯著低于處理文本針時的表現，且大多數模型在處理長上下文多模態文檔時表現不佳。

Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

?? 論文標題：Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
?? 論文作者：Renjie Pi, Jianshu Zhang, Jipeng Zhang, Rui Pan, Zhekai Chen, Tong Zhang
?? 研究機構: The Hong Kong University of Science and Technology (HKUST)、Wuhan University、Zhejiang University、University of Illinois Urbana-Champaign
?? 問題背景：當前的圖像描述數據集主要來源于網絡抓取的圖像-文本對和人工標注的數據集。網絡抓取的數據集雖然規模龐大，但質量低下且噪聲多；而人工標注的數據集雖然質量較高，但缺乏細節且成本高昂。這些限制突顯了需要更高效和可擴展的方法來生成準確和詳細的圖像描述。
?? 研究動機：高質量的圖像描述對于提高多模態大語言模型（MLLMs）在圖像理解、文本到圖像生成和文本-圖像檢索等任務中的性能至關重要。然而，現有的圖像描述數據集往往缺乏細節且容易產生幻覺。因此，研究團隊提出了一種自動框架——圖像文本化（Image Textualization, IT），旨在利用現有的多模態大語言模型和多個視覺專家模型，以協作方式生成高質量的圖像描述。
?? 方法簡介：研究團隊提出的圖像文本化框架（IT）包括三個階段：1) 整體文本化（Holistic Textualization）：利用MLLM生成參考描述，提供基本結構；2) 視覺細節文本化（Visual Detail Textualization）：利用視覺專家模型提取細粒度的物體信息，并識別參考描述中的幻覺內容；3) 文本化重述（Textualized Recaptioning）：利用大型語言模型（LLMs）的高級理解和推理能力，基于前兩個階段的文本化信息生成準確且詳細的描述。
?? 實驗設計：研究團隊構建了三個基準測試集（DID-Bench、D2I-Bench和LIN-Bench），從多個方面評估生成的圖像描述的質量。實驗驗證了IT框架生成的描述在多個基準測試集上的表現，并通過微調MLLMs驗證了生成數據對模型性能的提升。此外，研究團隊還進行了語言評估和數據集的統計分析。