多模態大語言模型arxiv論文略讀(二十六)

請添加圖片描述

Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models

?? 論文標題:Holistic Autonomous Driving Understanding by Bird’s-Eye-View Injected Multi-Modal Large Models
?? 論文作者:Xinpeng Ding, Jinahua Han, Hang Xu, Xiaodan Liang, Wei Zhang, Xiaomeng Li
?? 研究機構: Hong Kong University of Science and Technology (HKUST)、Huawei Noah’s Ark Lab、Sun Yat-Sen University
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在語言驅動的駕駛任務中展現出巨大潛力。然而,現有的研究和數據集通常僅涵蓋有限的任務,并且往往忽略了多視角和時間信息,這些信息對于穩健的自動駕駛至關重要。為了彌補這些不足,研究團隊提出了NuInstruct,這是一個包含91K多視角視頻-問答對的新型數據集,涵蓋了17個子任務,每個任務都需要綜合信息(如時間、多視角、距離等),顯著提高了任務的挑戰性。
?? 研究動機:現有的語言驅動駕駛研究存在兩個主要問題:(1)任務部分覆蓋,即現有基準僅涵蓋自動駕駛任務的一部分;(2)信息不完整,即現有方法在執行任務時使用的數據往往不完整,通常僅基于單視角圖像,缺乏時間和多視角信息。為了解決這些問題,研究團隊創建了NuInstruct數據集,并提出了BEV-InMLLM模型,以增強MLLMs在處理多視角、時間和空間信息方面的能力。
?? 方法簡介:研究團隊提出了一種基于SQL的方法,自動生成指令-響應對,構建了NuInstruct數據集。該數據集涵蓋了感知、預測、風險評估和規劃等任務,每個任務都需要綜合信息。此外,研究團隊還提出了BEV-InMLLM模型,通過注入鳥瞰圖(BEV)表示,增強MLLMs在自動駕駛任務中的全景理解能力。
?? 實驗設計:研究團隊在NuInstruct數據集上進行了實驗,評估了BEV-InMLLM模型在感知、預測、風險評估和規劃等任務上的性能。實驗結果表明,BEV-InMLLM模型在各種任務上顯著優于現有的MLLMs,性能提升高達9%。此外,消融研究表明,MV-MLLM在多視角任務上表現出色,而BEV-InMLLM在大多數任務中都至關重要,突顯了空間信息的重要性。

Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study

?? 論文標題:Exploring Boundary of GPT-4V on Marine Analysis: A Preliminary Case Study
?? 論文作者:Ziqiang Zheng, Yiwei Chen, Jipeng Zhang, Tuan-Anh Vu, Huimin Zeng, Yue Him Wong Tim, Sai-Kit Yeung
?? 研究機構: The Hong Kong University of Science and Technology, University of Science and Technology of China, Shenzhen University
?? 問題背景:大型語言模型(LLMs)展示了處理各種查詢的強大能力,作為通用助手。多模態大型語言模型(MLLMs)賦予LLMs感知視覺信號的能力。GPT-4V(視覺版)在學術和工業領域都表現出顯著的影響力,成為新一代人工智能的焦點。然而,盡管GPT-4V取得了顯著成功,但在特定領域分析(如海洋分析)中,需要特定領域的知識和專業知識,這方面的研究較少受到關注。
?? 研究動機:為了填補這一空白,研究團隊進行了初步的全面案例研究,利用GPT-4V進行海洋分析。研究旨在系統評估GPT-4V在海洋研究中的表現,并為未來MLLMs的發展設定新的標準。研究發現,GPT-4V在生成的響應中仍遠未滿足海洋專業領域的要求。
?? 方法簡介:研究團隊構建了一系列定性測試樣本,涵蓋海洋分析的多個目的,并使用這些樣本評估GPT-4V生成響應的質量。測試樣本包括不可在線獲取的圖像和私人數據,結合手動設計的提示構建。評估方面包括感知、統計、特定領域問答、海洋文化理解、高級功能和提示工程。
?? 實驗設計:實驗數據來自不同來源,包括海洋生物學家的私人數據、YouTube視頻的手動裁剪幀、GPT-4V API發布后的互聯網圖像、研究文章和書籍中的框架和流程圖圖像,以及公共數據集和新創建的圖像。每個案例至少有10個測試樣本,以確保研究的一致性和可靠性。實驗設計了多種提示,以評估GPT-4V在不同任務中的表現,包括物體識別、細粒度物體識別、魯棒性分析、物理世界知識理解等。評估指標包括準確率、專家標注的對比和人類判斷的評分。

Object-Centric Instruction Augmentation for Robotic Manipulation

?? 論文標題:Object-Centric Instruction Augmentation for Robotic Manipulation
?? 論文作者:Junjie Wen, Yichen Zhu, Minjie Zhu, Jinming Li, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
?? 研究機構: 東華師范大學計算機科學學院、美的集團、上海大學理學院數學系
?? 問題背景:在機器人操作任務中,理解物體的位置信息對于完成任務至關重要。盡管大型語言模型(LLM)在增強文本描述方面取得了顯著進展,但這些模型主要關注于增強任務規劃等文本描述,而對物體位置信息的處理相對較少。本文提出了一種新的框架,通過多模態大型語言模型(MLLM)將物體的位置信息融入自然語言指令中,以提高機器人操作任務的成功率。
?? 研究動機:現有的研究主要集中在通過LLM增強任務規劃等文本描述,但對物體位置信息的處理不足。本文旨在通過引入物體位置信息,增強語言指令,從而提高機器人操作任務的泛化能力和成功率。
?? 方法簡介:研究團隊提出了Object-Centric Instruction Augmentation (OCI) 框架,該框架通過MLLM將物體的位置信息(包括絕對位置和相對位置)融入自然語言指令中。此外,還引入了一種特征重用機制,將MLLM的視覺-語言特征嵌入到策略網絡中,以提高策略學習的效率和泛化能力。
?? 實驗設計:研究團隊在模擬環境和真實世界中進行了實驗,包括Franka Kitchen基準測試中的多個任務,如滑動開門、打開柜子、打開燈光、轉動爐灶旋鈕和打開微波爐。實驗設計了不同數量的演示(10次和25次),并通過消融研究驗證了不同組件(如絕對位置、相對位置和特征重用機制)對模型性能的影響。
?? 實驗結果:實驗結果表明,OCI框架在所有子任務中均優于現有的方法,特別是在某些任務上表現出了顯著的優勢。消融研究進一步驗證了物體位置信息和特征重用機制對模型性能的提升作用。

MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance

?? 論文標題:MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance
?? 論文作者:Renjie Pi, Tianyang Han, Jianshu Zhang, Yueqi Xie, Rui Pan, Qing Lian, Hanze Dong, Jipeng Zhang, Tong Zhang
?? 研究機構: The Hong Kong University of Science and Technology, University of Illinois at Urbana-Champaign, The Hong Kong Polytechnic University
?? 問題背景:多模態大語言模型(MLLMs)的部署帶來了一個獨特的漏洞:通過視覺輸入進行惡意攻擊的易感性。與僅基于文本的大語言模型(LLMs)相比,MLLMs增加了圖像模態,但這些圖像在安全對齊過程中未被充分考慮,導致MLLMs更容易產生有害響應。此外,MLLMs在有限的圖像-文本對上進行微調,遠少于廣泛的文本預訓練語料庫,這使得MLLMs在安全微調過程中更容易遺忘其原始能力。
?? 研究動機:現有的研究和防御策略主要集中在文本輸入的LLMs上,而針對MLLMs的防御策略仍不成熟。研究團隊發現,圖像可以作為“外語”誘導MLLMs生成有害內容,這可能導致嚴重的后果。因此,研究團隊旨在通過引入MLLM-Protector來解決這一問題,以減輕惡意圖像輸入對MLLMs的影響,同時不損害模型的原始性能。
?? 方法簡介:研究團隊提出了MLLM-Protector,這是一種即插即用的策略,通過兩個子任務來解決對齊任務:1)通過輕量級的有害檢測器識別有害響應;2)通過解毒器將有害響應轉換為無害響應。這種方法可以有效地檢測和糾正有害內容,確保模型的安全性。
?? 實驗設計:研究團隊在多個數據集上進行了實驗,包括多模態安全基準(MM-SafetyBench)。實驗設計了不同的攻擊場景(如非法活動、仇恨言論、惡意軟件生成等),以評估MLLM-Protector在不同條件下的表現。實驗結果表明,MLLM-Protector能夠顯著降低攻擊成功率(ASR),尤其是在非法活動和仇恨言論等場景中,幾乎完全防止了有害內容的生成。

Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models

?? 論文標題:Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models
?? 論文作者:Xin He, Longhui Wei, Lingxi Xie, Qi Tian
?? 研究機構: Huawei Inc.
?? 問題背景:多模態大型語言模型(MLLMs)在多種任務中展現了顯著的貢獻,但這些模型在視覺感知能力方面存在局限性,尤其是CLIP類編碼器在提取視覺信息時面臨信息丟失的問題。盡管這些編碼器經過數十億圖像-文本對的預訓練,但文本標題只能部分捕捉圖像內容,導致模型在處理查詢時的響應質量受限。
?? 研究動機:為了克服現有模型在視覺感知能力上的局限,研究團隊提出了一種新的方法,通過整合多種視覺專家(Visual Experts)來增強MLLMs的視覺感知能力,旨在提供更全面和準確的視覺輸入描述。
?? 方法簡介:研究團隊提出了一種名為Incorporating Visual Experts (IVE)的框架,通過引入多任務編碼器和結構知識增強模塊,來全面描述視覺輸入。多任務編碼器整合了語義信息編碼器、低級信息編碼器和文檔相關信息編碼器,以提供更豐富的視覺信息描述。結構知識增強模塊則利用OCR工具和對象檢測器提取圖像中的結構化數據,作為硬提示與融合的潛在嵌入一起輸入到大型語言模型中。
?? 實驗設計:IVE框架在多個多模態任務中進行了實驗,包括通用多模態對話場景和特定任務如DocVQA。實驗結果表明,IVE在識別輸入圖像的內在內容方面表現出色,能夠生成更準確的響應,顯著提升了模型的視覺感知能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/76733.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/76733.shtml
英文地址,請注明出處:http://en.pswp.cn/web/76733.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

“星睿O6” AI PC開發套件評測 - 部署PVE搭建All in One NAS服務器

Radxa O6平臺上部署PVE搭建All in One NAS服務器 Radxa O6是一款性能卓越的單板計算機,其強勁的硬件配置和多樣化的接口設計,使其成為家庭和小型企業理想的All in One服務器解決方案。值得一提的是,O6原生配備了兩個5G網口,便于直…

C++ linux打包運行方案(cmake)

文章目錄 背景動態庫打包方案動態庫轉靜態庫動態庫打到軟件包中 運行 背景 使用C編寫的一個小項目,需要打包成ubuntu下的可執行文件,方便分發給其他ubuntu執行,因為docker鏡像方案過于臃腫,所以需要把項目的動態庫都打在軟件包中…

Linux內核編譯(Ubuntu)

實驗內容:在系統中下載統一發行版本的版本號較高的內核,編譯之后運行自己編譯的內核,并使用uname-r命令查看是否運行成功。 實驗步驟: 1.查看實驗環境和內核版本 圖1 實驗環境 VMware中虛擬機Ubuntu(24.04&#xff…

EdgeGPT - 新版Bing聊天功能逆向工程

本文翻譯整理自:https://github.com/acheong08/EdgeGPT 文章目錄 一、關于 EdgeGPT相關鏈接資源關鍵功能特性 二、安裝系統要求安裝命令 三、認證配置獲取Cookie步驟代碼中使用Cookie 四、使用方法1、命令行方式2、Python API方式使用Chatbot類使用Query輔助類 3、…

三網通電玩城平臺系統結構與源碼工程詳解(四):子游戲集成與服務器調度機制全解

本篇將深入講解三網通電玩城平臺中子游戲接入、前后端資源組織方式、服務器調度邏輯、并發接入方案等核心內容,重點覆蓋“李逵劈魚”、“水果瑪麗”、“瘋狂瑪麗”等熱門組件,輔以完整代碼框架與部署邏輯。 一、子游戲資源目錄結構與加載機制 平臺采用標…

1.1 AI大模型與Agent的興起及其對企業數字化轉型的推動作用

隨著人工智能技術的飛速發展,AI大模型和智能代理(Agent)的興起正成為推動企業數字化轉型的重要力量。從2017年GPT-1的首次亮相到2025年GPT-4和Qwen 2.5等多模態模型的成熟,AI大模型經歷了顯著的技術演進;與此同時&…

位運算練習:起床困難綜合征(貪心,位運算)(算法競賽進階指南學習筆記)

目錄 前情提要起床困難綜合征(貪心,位運算) 前情提要 一些基礎運算操作用法看看上一篇; 起床困難綜合征(貪心,位運算) 題目原文 [P2114 NOI2014] 起床困難綜合癥 - 洛谷 思路分析 題目很長…

PowerBi中REMOVEFILTERS怎么使用?

在 Power BI 的 DAX 中,REMOVEFILTERS() 是一個非常重要的函數,常用于取消某個字段或表的篩選上下文(Filter Context),從而讓你的計算不受切片器(Slicer)、篩選器或視覺對象的限制。 ? 一、REM…

Vue3 實戰:打造多功能旅游攻略選項卡頁面

在旅游類應用開發中,為用戶提供全面、直觀的信息展示界面至關重要。本文將分享如何基于 Vue3 Axios 技術棧,實現一個包含攻略、游記、問答三大板塊的旅游攻略選項卡頁面,從樣式設計到交互邏輯,帶你深入了解整個開發過程。 項目背…

JavaScript性能優化實戰(1):性能優化基礎與性能分析工具

性能優化的重要性與業務價值 在當今競爭激烈的互聯網環境中,網站和應用的性能已成為用戶體驗和業務成功的關鍵因素。研究表明,頁面加載時間每增加1秒,轉化率可能下降7%,而53%的用戶會在頁面加載時間超過3秒后放棄訪問。這些數據直接揭示了性能優化對業務的巨大影響: 用戶…

Unity 腳本使用(二)——UnityEngine.AI——NavMesh

描述 Singleton class 用于訪問被烘培好的 NavMesh. 使用NavMesh類可以執行空間查詢(spatial queries),例如路徑查找和可步行性測試。此類還允許您設置特定區域類型的尋路成本,并調整尋路和避免的全局行為。 靜態屬性&#xff0…

Java 靜態內部類面試題與高質量答案合集

本文整理了關于 Java 靜態內部類(Static Nested Class)在面試中的高頻問題及標準答案,幫助你理解其底層原理、內存表現以及實際應用。 1. 什么是靜態內部類?和普通內部類有什么區別? 答: 靜態內部類是定義…

為什么買不到一定阻抗特性曲線的磁環

為什么買不到一定阻抗特性曲線的磁環: 磁環繞不同的圈數,阻抗特性曲線不同,磁環沒有類似于磁珠的特定頻率和阻抗特性曲線的磁環。 磁環與磁珠的核心區別: 磁珠是一種固定頻率阻抗器件,出廠時已通過材料和工藝設計確定…

【MATLAB海洋專題】歷史匯總

【MATLAB海洋專題】歷史匯總 目錄 01:海洋專題進階教學 02:海洋數據處理 03:海洋數據下載 04:海洋配色 05:海洋專題基礎教學 06: 其他基礎畫圖 07:python 畫海圖專題 08:模式相關文件制作 01…

數據倉庫ODS、DWD、DWS、ADS各層介紹

數據倉庫Data warehouse(可簡寫為DW或者DWH)建設的目的,是為前端查詢和分析作為基礎,主要應用于OLAP(on-line Analytical Processing),支持復雜的分析操作,側重決策支持,…

動態提示詞(小模型)、RAG和提示詞系統

動態提示詞(小模型)、RAG和提示詞系統 目錄 動態提示詞(小模型)、RAG和提示詞系統小模型方案:動態提示詞基于規則的動態提示詞生成基于模板的動態提示詞生成基于小模型的動態提示詞生成基于強化學習的動態提示詞生成基于元學習的動態提示詞生成動態提示詞(小模型)RAG(檢…

并發設計模式實戰系列(3):工作隊列

🌟 ?大家好,我是摘星!? 🌟 今天為大家帶來的是并發設計模式實戰系列,第三章工作隊列(Work Queue)??,廢話不多說直接開始~ 目錄 一、核心原理深度拆解 1. 生產者-消費者架構 …

云賬號安全事件應急響應指南:應對來自中國IP的異常訪問

在當今數字化時代,云服務已成為企業IT基礎設施的核心。然而,隨之而來的安全挑戰也日益突出。本文將詳細介紹當發現云賬號被來自中國的IP地址異常利用時,應如何快速有效地響應,以確保賬戶安全并最小化潛在風險。 1. 確認異常活動 首先,我們需要確認是否真的發生了安全事件…

三網通電玩城平臺系統結構與源碼工程詳解(五):客戶端熱更機制與多端資源分發流程

本篇將聚焦三網通平臺在多客戶端部署中的資源熱更機制設計、跨平臺同步策略、版本控制與前端資源發布管理,幫助開發者搭建高效穩定的資源更新系統。 一、資源分發平臺架構 為實現安卓端、iOS端、PC端的統一更新分發,平臺采用 Node.js Express 構建資源…

spark和hadoop的區別

一、spark概述 二、處理速度 三、 編程模型 四、實時性處理 五、spark內置模塊 六、spark的運行模式