多模態大語言模型arxiv論文略讀（六十九）

在這里插入圖片描述

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

?? 論文標題：Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
?? 論文作者：Yue Zhang, Hehe Fan, Yi Yang
?? 研究機構: 浙江大學
?? 問題背景：當前的多模態大語言模型（Multimodal Large Language Models, MLLMs）通過適配器（adapters）將視覺輸入轉換為大語言模型（LLMs）可理解的token，但大多數適配器生成的視覺token與提示（prompt）無關，導致在處理復雜場景時效率低下，增加了LLMs的認知負擔。
?? 研究動機：為了提高MLLMs在處理復雜視覺場景時的效率和準確性，研究團隊提出了一種新的提示感知適配器（prompt-aware adapter），該適配器能夠根據提示動態地嵌入視覺輸入，從而更有效地捕捉與提示相關的視覺線索。
?? 方法簡介：研究團隊設計了一種包含全局注意力（global attention）和局部注意力（local attention）的提示感知適配器。全局注意力用于捕捉與提示相關的粗粒度視覺感知，而局部注意力則專注于細化對特定細粒度區域的響應。這種方法使得適配器能夠更有效地揭示視覺上下文，并將注意力轉移到相關區域。
?? 實驗設計：研究團隊在COCO-QA和MME數據集上進行了實驗，評估了提示感知適配器在不同任務（如物體分類、計數、顏色識別和位置推理）中的表現。實驗結果表明，與提示無關的基線方法相比，提示感知適配器在COCO-QA數據集上顯著提高了物體分類、計數、顏色識別和位置推理的性能，分別提升了7.71%、18.42%、12.84%和9.51%。在MME數據集上，該方法在感知任務和認知任務的總得分上分別提高了59.43%和46.91%。

LM4LV: A Frozen Large Language Model for Low-level Vision Tasks

?? 論文標題：LM4LV: A Frozen Large Language Model for Low-level Vision Tasks
?? 論文作者：Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong
?? 研究機構: Shanghai Jiao Tong University, Shanghai AI Laboratory, Nanjing University, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
?? 問題背景：大型語言模型（LLMs）的成功催生了多模態大型語言模型（MLLMs）的新研究趨勢，這些模型在計算機視覺的多個領域中改變了范式。盡管MLLMs在許多高級視覺和視覺-語言任務（如VQA和文本到圖像生成）中展示了有希望的結果，但目前尚無研究展示MLLMs如何在低級視覺任務中發揮作用。研究發現，大多數當前的MLLMs由于其視覺模塊的設計，對低級特征視而不見，因此無法解決低級視覺任務。
?? 研究動機：現有的MLLMs主要集中在文本和圖像模態的更好語義融合上，而低級視覺任務尚未顯著受益于MLLMs帶來的變化。本研究旨在探索如何利用MLLMs接受、處理和輸出低級特征，以彌合MLLMs與低級視覺任務之間的差距。這不僅能夠推動MLLMs的極限，還能為低級視覺任務提供更好的用戶交互和更高的可解釋性。
?? 方法簡介：研究團隊提出了一種框架LM4LV，該框架使凍結的LLM能夠在沒有任何多模態數據或先驗的情況下解決一系列低級視覺任務。通過訓練兩個線性層與視覺數據，凍結的LLM展示了在多種低級視覺任務上的非平凡能力。
?? 實驗設計：實驗在多個低級視覺任務上進行，包括去噪、去模糊、椒鹽噪聲去除、去雨和去遮罩。實驗設計了不同的退化類型和程度，以及不同的評估指標（如PSNR和SSIM），以全面評估模型在處理低級視覺特征方面的性能。實驗結果表明，LM4LV在所有恢復任務中均優于僅使用MAE重建退化圖像的基線方法，平均PSNR提高了3.96dB，平均SSIM提高了0.09。在空間操作任務中，LM4LV也取得了接近基線的高PSNR和SSIM值。

Human-Centered Automation

?? 論文標題：Human-Centered Automation
?? 論文作者：Carlos Toxtli
?? 研究機構: Clemson University, USA
?? 問題背景：隨著生成式人工智能（如大型語言模型LLMs和多模態大型語言模型MLLMs）的快速發展，這些技術有潛力徹底改變我們在各個行業中的工作方式和與數字系統的互動方式。然而，當前的軟件自動化技術（如機器人流程自動化RPA框架）往往需要領域專業知識，缺乏可見性和直觀界面，使得用戶難以充分利用這些技術。
?? 研究動機：本文旨在介紹并倡導新興的人類中心自動化（HCA）領域，該領域在自動化系統的設計和開發中優先考慮用戶需求和偏好。通過將用戶置于自動化過程的中心，HCA尋求創建直觀、適應性強且賦權的解決方案，使用戶能夠在無需廣泛技術知識的情況下利用AI和RPA的優勢。
?? 方法簡介：研究團隊提出了一個框架，用于設計以用戶為中心的自動化解決方案。該框架強調了考慮用戶視角的重要性，并提供了多個示例和指南，說明如何在不同領域和用例中應用HCA，以簡化工作流程并保持競爭力。
?? 實驗設計：論文討論了現有自動化方法的局限性，包括RPA和生成式AI的挑戰，以及HCA在提高生產力、創新和普及這些技術方面的潛力。研究還探討了如何利用多模態大型語言模型（MLLMs）理解用戶行為和屏幕內容，以實現更高級和上下文感知的自動化解決方案。此外，論文還探討了實現更先進和上下文感知自動化解決方案的路徑，并呼吁研究人員和實踐者關注開發適應用戶需求、提供直觀界面并利用高端AI能力的自動化技術，以創造一個更加可訪問和用戶友好的自動化未來。

A Survey of Multimodal Large Language Model from A Data-centric Perspective

?? 論文標題：A Survey of Multimodal Large Language Model from A Data-centric Perspective
?? 論文作者：Tianyi Bai, Hao Liang, Binwang Wan, Yanran Xu, Xi Li, Shiyu Li, Ling Yang, Bozhou Li, Yifan Wang, Bin Cui, Ping Huang, Jiulong Shan, Conghui He, Binhang Yuan, Wentao Zhang
?? 研究機構: 香港科技大學、北京大學、哈爾濱工業大學、蘋果公司、中國科學技術大學、上海人工智能實驗室
?? 問題背景：多模態大語言模型（Multimodal Large Language Models, MLLMs）通過整合和處理來自多種模態的數據（包括文本、視覺、音頻、視頻和3D環境），增強了標準大語言模型的能力。數據在這些模型的開發和優化中起著關鍵作用。本文從數據驅動的角度全面回顧了MLLMs的文獻，探討了預訓練和適應階段的多模態數據準備方法，分析了數據集的評估方法，并回顧了評估MLLMs的基準。
?? 研究動機：盡管現有的MLLMs主要集中在模型架構的改進上，但數據對模型性能的影響同樣重要。本文旨在從數據驅動的角度提供對MLLMs的全面理解，促進該領域的進一步探索和創新。
?? 方法簡介：本文從數據收集、數據處理、數據選擇和數據評估四個方面系統地回顧了MLLMs的數據準備和管理流程。具體包括數據收集的來源、數據處理的方法（如過濾、去重和增強）、數據選擇的方法（如主動學習、分布無關和分布相關選擇），以及數據評估的方法和評估基準。
?? 實驗設計：本文沒有具體描述實驗設計，而是通過文獻回顧的方式，總結了不同階段的數據處理方法和評估標準，包括數據收集的來源、數據處理的方法、數據選擇的方法，以及數據評估的方法和評估基準。這些內容為研究人員提供了關于MLLMs數據處理的全面指南。

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

?? 論文標題：RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness
?? 論文作者：Tianyu Yu, Haoye Zhang, Qiming Li, Qixin Xu, Yuan Yao, Da Chen, Xiaoman Lu, Ganqu Cui, Yunkai Dang, Taiwen He, Xiaocheng Feng, Jun Song, Bo Zheng, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
?? 研究機構: 清華大學計算機科學與技術系、新加坡國立大學NExT++實驗室、哈爾濱工業大學、阿里巴巴淘寶天貓集團、鵬城實驗室
?? 問題背景：當前的多模態大語言模型（MLLMs）在處理多樣化的多模態任務時表現出色，但這些模型容易生成與人類偏好不符的錯誤內容。為了使MLLMs與人類偏好對齊，通常采用基于人類反饋的強化學習（RLHF），但這種方法依賴于勞動密集型的人工標注，難以覆蓋模型與人類偏好之間的廣泛不一致。最近，基于AI反饋的強化學習（RLAIF）作為一種替代方案，顯示出巨大潛力，但現有方法依賴于昂貴的專有模型來提供反饋，且缺乏使用開源MLLMs生成高質量反饋的知識。
?? 研究動機：為了克服現有RLAIF方法的挑戰，研究團隊提出了RLAIF-V框架，旨在通過完全開源的方式對齊MLLMs。該框架通過生成高質量的反饋數據和提供推理時間的自我反饋指導，顯著增強了模型的可信度。
?? 方法簡介：RLAIF-V框架包括兩個主要創新：1）高質量反饋生成：通過去混淆的候選響應生成策略和分而治之的方法，提高數據效率和成對偏好準確性。2）推理時間的自我反饋指導：利用直接偏好優化（DPO）對齊的模型生成的獎勵分數作為自我反饋，通過長度歸一化策略解決對較短響應的偏見。
?? 實驗設計：在六個基準數據集上進行了實驗，包括自動和人工評估。實驗設計了不同的反饋生成方法和反饋收集方法，以全面評估模型在偏好學習和推理時間的性能。實驗結果表明，RLAIF-V 7B在多個基準上顯著減少了對象幻覺和總體幻覺，而RLAIF-V 12B進一步展示了開源MLLMs的自我對齊潛力，其性能甚至超過了GPT-4V。