多模態大語言模型arxiv論文略讀（157）

在這里插入圖片描述

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

?? 論文標題：Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark
?? 論文作者：Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao
?? 研究機構: 北京理工大學計算機科學技術學院 (School of Computer Science and Technology, Beijing Institute of Technology)
?? 問題背景：隨著擴散模型的顯著進展，文本到圖像生成模型取得了重大突破，但生成的圖像往往存在主要實體扭曲和與輸入文本提示不一致的問題。自動評估這些生成圖像的質量不僅能夠為訓練生成模型提供有效的損失函數，還能在推理過程中過濾掉低質量的生成圖像，從而提升用戶體驗。因此，迫切需要精確且自動的評估方法來評估生成圖像的質量和保真度。
?? 研究動機：當前最先進的自動評估方法嚴重依賴于多模態大型語言模型（MLLMs），尤其是像GPT-4o這樣的強大商業模型。雖然這些模型非常有效，但高昂的成本限制了其在大規模評估中的可擴展性。采用開源MLLMs是一個替代方案，但由于其處理多模態數據的能力顯著不足，性能較差。為了解決這些問題，研究團隊提出了一種任務分解評估框架，通過將復雜的評估任務分解為更簡單的子任務，減少學習難度，從而提高開源MLLMs的評估性能。
?? 方法簡介：研究團隊提出了一種基于GPT-4o的任務分解評估框架，用于自動構建訓練數據集，將復雜的評估任務分解為更簡單的子任務，有效降低了學習難度。基于此數據集，研究團隊設計了創新的訓練策略，將GPT-4o的評估能力有效地蒸餾到一個7B的開源MLLM，MiniCPM-V-2.6中。此外，為了可靠和全面地評估現有方法和提出的模型，研究團隊手動標注了一個元評估基準，包括生成圖像的鏈式思維解釋和質量評分。
?? 實驗設計：實驗在多個數據集上進行，包括文本到圖像生成任務。實驗設計了不同因素的變化，如文本大小、透明度和位置，以及不同類型的評估目標，如保護性、有害性、偏見性和中性內容，以全面評估模型對文本提示注入的敏感性和抗干擾能力。實驗結果表明，蒸餾后的開源MLLM在Spearman和Kendall相關性上比當前最先進的GPT-4o基線模型VIEScore提高了4.6%以上。

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration

?? 論文標題：ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration
?? 論文作者：Haozhan Shen, Kangjia Zhao, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Mingwei Zhu, Jianwei Yin
?? 研究機構: 浙江大學計算機科學與技術學院、Om AI Research、濱江研究院
?? 問題背景：多模態大語言模型（MLLMs）在視覺-語言理解方面取得了顯著進展，但受限于預訓練視覺編碼器的輸入分辨率限制和圖像的密集、復雜背景，這些模型在處理高分辨率圖像時，往往只能關注主要對象，而容易忽略細節。這導致了在回答涉及圖像細節的問題時，MLLMs的表現不佳。
?? 研究動機：為了克服這一限制，研究團隊提出了一種名為Zoom Eye的樹搜索算法，該算法通過模擬人類的縮放行為，幫助MLLMs在高分辨率圖像中捕捉相關細節，從而提高模型在視覺-語言任務中的表現。
?? 方法簡介：Zoom Eye算法將圖像抽象為一棵樹，每個節點代表圖像的一個局部區域，通過遞歸分割節點直到滿足分辨率限制。算法通過計算節點的優先級值來指導搜索過程，并在模型能夠自信地回答問題時停止搜索。Zoom Eye算法無需額外訓練，適用于任何MLLMs。
?? 實驗設計：研究團隊在多個高分辨率基準數據集上進行了實驗，包括V?Bench和HR-Bench。實驗結果表明，Zoom Eye不僅顯著提高了多個MLLMs在這些基準上的表現，還使得小型模型在某些任務上超越了大型模型。例如，LLaVA-v1.5-7B在V?Bench上的表現提高了34.57%，在HR-Bench 4K上的表現提高了17.88%。此外，實驗還揭示了MLLMs在感知方向和識別圖像與子圖像之間位置關系方面的不足，為未來的研究提供了方向。

Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models

?? 論文標題：Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models
?? 論文作者：Hao Yi, Qingyang Li, Yulan Hu, Fuzheng Zhang, Di Zhang, Yong Liu
?? 研究機構: Kuaishou Technology, Beijing, China; Remin University of China, Gaoling School of Artificial Intelligence, Beijing
?? 問題背景：高質量的視頻-文本偏好數據對于多模態大語言模型（MLLMs）的對齊至關重要。然而，現有的偏好數據非常稀缺，獲取VQA偏好數據進行偏好訓練成本高昂，且手動標注響應結果的可靠性低，可能導致低質量的數據對。此外，通過溫度調整控制的AI生成響應缺乏多樣性。這些問題限制了MLLMs的對齊研究。
?? 研究動機：為了解決上述問題，研究團隊提出了一種高質量的VQA偏好數據集（MMAIP-V），該數據集通過從響應分布集中采樣并使用外部評分函數評估響應質量來構建。此外，研究團隊還提出了一種迭代弱到強的強化學習框架（Iter-W2S-RLAIF），該框架通過逐步更新參考模型和執行參數外推來增強MLLMs的對齊能力。最后，研究團隊提出了一種無偏且信息完整的VQA評估方案，以消除先前評估方法中的偏差和視覺信息損失。
?? 方法簡介：研究團隊通過從多個對齊良好的MLLMs中采樣響應，并利用細粒度的外部評分函數評估響應質量，構建了MMAIP-V數據集。基于這些評分，研究團隊構建了偏好響應對，增強了對齊信號的多樣性和質量。此外，研究團隊提出了Iter-W2S-RLAIF框架，通過迭代更新參考模型和參數外推，充分利用AI偏好信號，提高MLLMs的VQA生成能力。
?? 實驗設計：研究團隊在三個領域內和四個領域外的測試數據集上進行了實驗，評估了MMAIP-V和Iter-W2S-RLAIF的有效性。實驗結果表明，MMAIP-V中的高質量正響應和多樣性的負響應對偏好學習有益，而Iter-W2S-RLAIF框架能夠有效且充分地利用AI偏好反饋，提高MLLMs的對齊能力。此外，研究團隊還提出了一種基于視覺的無偏評估方案，從多個角度評估MLLMs的響應質量，消除了先前評估方法中的偏差和視覺信息損失。

Is ‘Right’ Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning

?? 論文標題：Is ‘Right’ Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning
?? 論文作者：Ji Hyeok Jung, Eun Tae Kim, Seo Yeon Kim, Joo Ho Lee, Bumsoo Kim, Buru Chang
?? 研究機構: Sogang University、Chung-Ang University
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）在連接人類與AI技術方面發揮著重要作用，尤其是在需要圖像和文本理解的多模態任務中。然而，當前的MLLMs在準確解釋圖像中物體的方向時面臨挑戰，這主要是由于訓練數據中物體方向標注的不一致性，導致模型難以形成一致的方向理解能力。這種局限性在自動駕駛、機器人操作和增強現實設備的交互中尤為明顯，可能導致嚴重的錯誤和事故。
?? 研究動機：研究團隊發現，訓練數據中物體方向標注的不一致性是導致MLLMs方向理解能力不足的主要原因。為了解決這一問題，研究團隊提出了一種基于用戶視角的指令調優方法（Egocentric Instruction Tuning），旨在通過一致的標注標準，使MLLMs的方向理解能力與用戶的視角對齊，從而提高模型在實際應用中的表現。
?? 方法簡介：研究團隊首先基于ImageNet數據集，手動標注了物體的方向，這些標注基于用戶視角，分為八個方向類別。然后，團隊生成了基于這些標注的指令數據，利用MLLMs識別圖像細節的能力和LLM的先驗知識，通過指令調優來增強模型的方向理解能力。此外，團隊還引入了EgoOrientBench基準測試，用于評估MLLMs在不同任務中的方向理解能力。
?? 實驗設計：研究團隊在五個不同的數據集上進行了實驗，包括ImageNet、D3、DomainNet、PACS和OmniObject3D。實驗設計了三個任務：選擇（Choose）、驗證（Verify）和自由形式（Freeform），以全面評估模型在不同條件下的方向理解能力。實驗結果表明，通過基于用戶視角的指令調優，MLLMs的方向理解能力得到了顯著提升，同時保持了模型的總體響應生成能力。

Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

?? 論文標題：Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
?? 論文作者：Jungeun Kim, Hyeongwoo Jeon, Jongseong Bae, Ha Young Kim
?? 研究機構: Yonsei University
?? 問題背景：手語翻譯（SLT）是一項具有挑戰性的任務，旨在將手語視頻轉換為口語句子。為了成功完成這一任務，SLT模型需要克服模態差距，識別手語組件的細微變化，并準確理解其含義。現有的基于詞匯表的SLT模型雖然通過中層監督提高了性能，但依賴于勞動密集型的詞匯注釋，存在可擴展性和信息瓶頸的問題。因此，研究團隊提出了一種新的無詞匯表SLT框架——多模態手語翻譯（MMSLT），利用現成的多模態大語言模型（MLLMs）來生成手語組件的詳細文本描述，并通過多模態語言預訓練模塊將這些描述與手語視頻特征融合，對齊到口語句子空間。
?? 研究動機：現有的無詞匯表SLT模型雖然能夠提取視覺特征并轉換為文本表示，但這些特征可能受到與SLT無關的視覺信息（如背景元素或服裝顏色）的影響，限制了其對手語組件的準確表示。為了克服這些挑戰，研究團隊提出通過多模態大語言模型（MLLMs）生成手語組件的詳細文本描述，以提供更準確和易于理解的表示，從而減少模態差距，提高翻譯準確性。
?? 方法簡介：研究團隊提出了MMSLT框架，包括兩個主要模塊：1）通過MLLM生成手語描述（GSD-MLLM）模塊，利用預訓練的MLLM生成手語視頻的詳細文本描述；2）多模態語言預訓練（MMLP）模塊，將手語視頻和相應的文本描述融合，并對齊到目標口語句子空間，減少模態差距。此外，為了提高效率，研究團隊還引入了一個描述映射器，通過預測描述嵌入特征來減輕推理過程中的計算負擔。
?? 實驗設計：研究團隊在兩個基準數據集PHOENIX14T和CSL-Daily上進行了廣泛的實驗，評估了MMSLT在不同條件下的性能。實驗設計了不同的提示類型和多模態大語言模型，以全面評估模型生成手語描述的能力和翻譯準確性。實驗結果表明，MMSLT在兩個數據集上均顯著優于現有的無詞匯表SLT方法，特別是在大規模的CSL-Daily數據集上表現尤為突出，顯著提高了BLEU-4和ROUGE分數，表明其在復雜語法和長上下文中的有效翻譯能力。