多模態大語言模型arxiv論文略讀（二十六）

請添加圖片描述

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

?? 論文標題：Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models
?? 論文作者：Xinpeng Ding, Jinahua Han, Hang Xu, Xiaodan Liang, Wei Zhang, Xiaomeng Li
?? 研究機構: Hong Kong University of Science and Technology (HKUST)、Huawei Noah’s Ark Lab、Sun Yat-Sen University
?? 問題背景：當前的多模態大語言模型（Multimodal Large Language Models, MLLMs）在語言驅動的駕駛任務中展現出巨大潛力。然而，現有的研究和數據集通常僅涵蓋有限的任務，并且往往忽略了多視角和時間信息，這些信息對于穩健的自動駕駛至關重要。為了彌補這些不足，研究團隊提出了NuInstruct，這是一個包含91K多視角視頻-問答對的新型數據集，涵蓋了17個子任務，每個任務都需要綜合信息（如時間、多視角、距離等），顯著提高了任務的挑戰性。
?? 研究動機：現有的語言驅動駕駛研究存在兩個主要問題：（1）任務部分覆蓋，即現有基準僅涵蓋自動駕駛任務的一部分；（2）信息不完整，即現有方法在執行任務時使用的數據往往不完整，通常僅基于單視角圖像，缺乏時間和多視角信息。為了解決這些問題，研究團隊創建了NuInstruct數據集，并提出了BEV-InMLLM模型，以增強MLLMs在處理多視角、時間和空間信息方面的能力。
?? 方法簡介：研究團隊提出了一種基于SQL的方法，自動生成指令-響應對，構建了NuInstruct數據集。該數據集涵蓋了感知、預測、風險評估和規劃等任務，每個任務都需要綜合信息。此外，研究團隊還提出了BEV-InMLLM模型，通過注入鳥瞰圖（BEV）表示，增強MLLMs在自動駕駛任務中的全景理解能力。
?? 實驗設計：研究團隊在NuInstruct數據集上進行了實驗，評估了BEV-InMLLM模型在感知、預測、風險評估和規劃等任務上的性能。實驗結果表明，BEV-InMLLM模型在各種任務上顯著優于現有的MLLMs，性能提升高達9%。此外，消融研究表明，MV-MLLM在多視角任務上表現出色，而BEV-InMLLM在大多數任務中都至關重要，突顯了空間信息的重要性。

Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study

?? 論文標題：Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study
?? 論文作者：Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan-Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai-Kit Yeung
?? 研究機構: The Hong Kong University of Science and Technology, University of Science and Technology of China, Shenzhen University
?? 問題背景：大型語言模型（LLMs）展示了處理各種查詢的強大能力，作為通用助手。多模態大型語言模型（MLLMs）賦予LLMs感知視覺信號的能力。GPT-4V（視覺版）在學術和工業領域都表現出顯著的影響力，成為新一代人工智能的焦點。然而，盡管GPT-4V取得了顯著成功，但在特定領域分析（如海洋分析）中，需要特定領域的知識和專業知識，這方面的研究較少受到關注。
?? 研究動機：為了填補這一空白，研究團隊進行了初步的全面案例研究，利用GPT-4V進行海洋分析。研究旨在系統評估GPT-4V在海洋研究中的表現，并為未來MLLMs的發展設定新的標準。研究發現，GPT-4V在生成的響應中仍遠未滿足海洋專業領域的要求。
?? 方法簡介：研究團隊構建了一系列定性測試樣本，涵蓋海洋分析的多個目的，并使用這些樣本評估GPT-4V生成響應的質量。測試樣本包括不可在線獲取的圖像和私人數據，結合手動設計的提示構建。評估方面包括感知、統計、特定領域問答、海洋文化理解、高級功能和提示工程。
?? 實驗設計：實驗數據來自不同來源，包括海洋生物學家的私人數據、YouTube視頻的手動裁剪幀、GPT-4V API發布后的互聯網圖像、研究文章和書籍中的框架和流程圖圖像，以及公共數據集和新創建的圖像。每個案例至少有10個測試樣本，以確保研究的一致性和可靠性。實驗設計了多種提示，以評估GPT-4V在不同任務中的表現，包括物體識別、細粒度物體識別、魯棒性分析、物理世界知識理解等。評估指標包括準確率、專家標注的對比和人類判斷的評分。

Object-Centric Instruction Augmentation for Robotic Manipulation

?? 論文標題：Object-Centric Instruction Augmentation for Robotic Manipulation
?? 論文作者：Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
?? 研究機構: 東華師范大學計算機科學學院、美的集團、上海大學理學院數學系
?? 問題背景：在機器人操作任務中，理解物體的位置信息對于完成任務至關重要。盡管大型語言模型（LLM）在增強文本描述方面取得了顯著進展，但這些模型主要關注于增強任務規劃等文本描述，而對物體位置信息的處理相對較少。本文提出了一種新的框架，通過多模態大型語言模型（MLLM）將物體的位置信息融入自然語言指令中，以提高機器人操作任務的成功率。
?? 研究動機：現有的研究主要集中在通過LLM增強任務規劃等文本描述，但對物體位置信息的處理不足。本文旨在通過引入物體位置信息，增強語言指令，從而提高機器人操作任務的泛化能力和成功率。
?? 方法簡介：研究團隊提出了Object-Centric Instruction Augmentation (OCI) 框架，該框架通過MLLM將物體的位置信息（包括絕對位置和相對位置）融入自然語言指令中。此外，還引入了一種特征重用機制，將MLLM的視覺-語言特征嵌入到策略網絡中，以提高策略學習的效率和泛化能力。
?? 實驗設計：研究團隊在模擬環境和真實世界中進行了實驗，包括Franka Kitchen基準測試中的多個任務，如滑動開門、打開柜子、打開燈光、轉動爐灶旋鈕和打開微波爐。實驗設計了不同數量的演示（10次和25次），并通過消融研究驗證了不同組件（如絕對位置、相對位置和特征重用機制）對模型性能的影響。
?? 實驗結果：實驗結果表明，OCI框架在所有子任務中均優于現有的方法，特別是在某些任務上表現出了顯著的優勢。消融研究進一步驗證了物體位置信息和特征重用機制對模型性能的提升作用。

MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance

?? 論文標題：MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance
?? 論文作者：Renjie Pi, Tianyang Han, Jianshu Zhang, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
?? 研究機構: The Hong Kong University of Science and Technology, University of Illinois at Urbana-Champaign, The Hong Kong Polytechnic University
?? 問題背景：多模態大語言模型（MLLMs）的部署帶來了一個獨特的漏洞：通過視覺輸入進行惡意攻擊的易感性。與僅基于文本的大語言模型（LLMs）相比，MLLMs增加了圖像模態，但這些圖像在安全對齊過程中未被充分考慮，導致MLLMs更容易產生有害響應。此外，MLLMs在有限的圖像-文本對上進行微調，遠少于廣泛的文本預訓練語料庫，這使得MLLMs在安全微調過程中更容易遺忘其原始能力。
?? 研究動機：現有的研究和防御策略主要集中在文本輸入的LLMs上，而針對MLLMs的防御策略仍不成熟。研究團隊發現，圖像可以作為“外語”誘導MLLMs生成有害內容，這可能導致嚴重的后果。因此，研究團隊旨在通過引入MLLM-Protector來解決這一問題，以減輕惡意圖像輸入對MLLMs的影響，同時不損害模型的原始性能。
?? 方法簡介：研究團隊提出了MLLM-Protector，這是一種即插即用的策略，通過兩個子任務來解決對齊任務：1）通過輕量級的有害檢測器識別有害響應；2）通過解毒器將有害響應轉換為無害響應。這種方法可以有效地檢測和糾正有害內容，確保模型的安全性。
?? 實驗設計：研究團隊在多個數據集上進行了實驗，包括多模態安全基準（MM-SafetyBench）。實驗設計了不同的攻擊場景（如非法活動、仇恨言論、惡意軟件生成等），以評估MLLM-Protector在不同條件下的表現。實驗結果表明，MLLM-Protector能夠顯著降低攻擊成功率（ASR），尤其是在非法活動和仇恨言論等場景中，幾乎完全防止了有害內容的生成。

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

?? 論文標題：Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
?? 論文作者：Xin He, Longhui Wei, Lingxi Xie, Qi Tian
?? 研究機構: Huawei Inc.
?? 問題背景：多模態大型語言模型（MLLMs）在多種任務中展現了顯著的貢獻，但這些模型在視覺感知能力方面存在局限性，尤其是CLIP類編碼器在提取視覺信息時面臨信息丟失的問題。盡管這些編碼器經過數十億圖像-文本對的預訓練，但文本標題只能部分捕捉圖像內容，導致模型在處理查詢時的響應質量受限。
?? 研究動機：為了克服現有模型在視覺感知能力上的局限，研究團隊提出了一種新的方法，通過整合多種視覺專家（Visual Experts）來增強MLLMs的視覺感知能力，旨在提供更全面和準確的視覺輸入描述。
?? 方法簡介：研究團隊提出了一種名為Incorporating Visual Experts (IVE)的框架，通過引入多任務編碼器和結構知識增強模塊，來全面描述視覺輸入。多任務編碼器整合了語義信息編碼器、低級信息編碼器和文檔相關信息編碼器，以提供更豐富的視覺信息描述。結構知識增強模塊則利用OCR工具和對象檢測器提取圖像中的結構化數據，作為硬提示與融合的潛在嵌入一起輸入到大型語言模型中。
?? 實驗設計：IVE框架在多個多模態任務中進行了實驗，包括通用多模態對話場景和特定任務如DocVQA。實驗結果表明，IVE在識別輸入圖像的內在內容方面表現出色，能夠生成更準確的響應，顯著提升了模型的視覺感知能力。