多模態大語言模型arxiv論文略讀(十五)

請添加圖片描述

Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts

?? 論文標題:Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts
?? 論文作者:Yuanwei Wu, Xiang Li, Yixin Liu, Pan Zhou, Lichao Sun
?? 研究機構: Huazhong University of Science and Technology, Lehigh University
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在生成詳細圖像描述、代碼生成、視覺對象定位和高級多模態推理等任務中表現出強大的能力。然而,這些模型在訓練過程中可能會接觸到有害或私密內容,因此需要通過安全機制進行微調,以確保生成的內容安全。盡管如此,研究發現,通過對抗性攻擊,可以繞過這些模型的安全約束和內容過濾機制,尤其是通過模型API的漏洞。
?? 研究動機:現有的研究主要集中在模型輸入中的對抗性樣本,而對模型API中的漏洞關注較少。為了填補這一研究空白,研究團隊發現了GPT-4V中的系統提示泄露漏洞,并基于此提出了一種新的MLLM破解攻擊方法——SASP(Self-Adversarial Attack via System Prompt)。此外,研究還探討了修改系統提示以防御破解攻擊的潛力。
?? 方法簡介:研究團隊通過精心設計的對話模擬,成功提取了GPT-4V的內部系統提示。基于這些系統提示,他們開發了SASP方法,通過GPT-4作為紅隊工具,自動搜索潛在的破解提示。此外,通過人工修改這些提示,進一步提高了攻擊成功率至98.7%。研究還評估了修改系統提示以防御破解攻擊的效果,結果表明,適當設計的系統提示可以顯著降低破解成功率。
?? 實驗設計:實驗在三個公開數據集上進行,包括面部識別任務。實驗設計了不同語言(英語、中文、泰語)的四種提示類型(直接請求、基線攻擊、SASP、SASP+人工修改),以全面評估模型對破解提示的敏感性和抗干擾能力。實驗結果表明,SASP方法在英語提示下的攻擊成功率為59%,而經過人工修改后的攻擊成功率高達99%。此外,研究還通過系統提示召回方法,評估了系統提示在防御破解攻擊中的有效性。

Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection

?? 論文標題:Chain of Visual Perception: Harnessing Multimodal Large Language Models for Zero-shot Camouflaged Object Detection
?? 論文作者:Lv Tang, Peng-Tao Jiang, Zhihao Shen, Hao Zhang, Jinwei Chen, Bo Li
?? 研究機構: vivo Mobile Communication Co., Ltd
?? 問題背景:當前的偽裝物體檢測(Camouflaged Object Detection, COD)方法主要依賴于監督學習模型,這些模型需要大量準確標注的數據集,導致其泛化能力較弱。此外,現有的COD方法在處理新場景時表現不佳,尤其是在視頻偽裝物體檢測(VCOD)等新場景中,性能顯著下降。
?? 研究動機:為了克服現有COD方法的局限性,研究團隊提出了一種基于多模態大語言模型(Multimodal Large Language Models, MLLMs)的零樣本偽裝物體檢測框架(Multimodal Camo-Perceptive Framework, MMCPF)。該框架旨在利用MLLMs的強大泛化能力,提高在偽裝場景中的檢測性能,而無需重新訓練或微調模型。
?? 方法簡介:研究團隊設計了鏈式視覺感知(Chain of Visual Perception, CoVP)機制,從語言和視覺兩個方面增強MLLMs在偽裝場景中的感知能力。CoVP包括語言提示機制和視覺完成機制,前者通過描述偽裝物體的屬性、多義性和多樣性來增強MLLMs的感知能力,后者通過改進MLLMs輸出的不確定坐標來提高最終生成的二值掩碼的準確性。
?? 實驗設計:研究團隊在五個廣泛使用的COD數據集上進行了實驗,包括CAMO、COD10K、NC4K、MoCA-Mask和OVCamo。實驗設計了不同的提示機制,從簡單的文本提示到包含物理和動態描述的復雜提示,以及視覺完成機制,以全面評估MMCPF在不同條件下的表現。實驗結果表明,MMCPF在零樣本設置下顯著優于現有的零樣本COD方法,并且在弱監督和全監督方法中也表現出競爭力。

InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models

?? 論文標題:InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal Large Language Models
?? 論文作者:Xiaotian Han, Quanzeng You, Yongfei Liu, Wentao Chen, Huangjie Zheng, Khalil Mrini, Xudong Lin, Yiqi Wang, Bohan Zhai, Jianbo Yuan, Heng Wang, Hongxia Yang
?? 研究機構: ByteDance Inc.
?? 問題背景:多模態大型語言模型(MLLMs)在人工智能領域日益突出,不僅在傳統的視覺-語言任務中表現出色,還在當代多模態基準測試中展示了令人印象深刻的能力。然而,現有的多模態基準測試通常集中在基本的推理任務上,往往只能產生簡單的“是/否”或多選答案,這導致了對MLLMs推理能力評估的混淆和困難。
?? 研究動機:為了緩解這一問題,研究團隊手動策劃了一個專門針對MLLMs的基準數據集,重點在于復雜的推理任務。該基準數據集包括三個關鍵的推理類別:演繹推理、溯因推理和類比推理。每個樣本都設計了多個步驟的推理過程,以評估模型在生成答案時的推理能力。
?? 方法簡介:研究團隊提出了一個系統的方法,通過構建InfiMM-Eval基準數據集,來評估MLLMs在復雜視覺推理問題上的表現。該數據集不僅包括圖像和問題,還包括詳細的推理步驟,這些步驟對于評估模型的推理能力至關重要。評估協議包括直接正確答案的滿分和基于推理步驟的相關性和邏輯性的部分分數。
?? 實驗設計:研究團隊在InfiMM-Eval基準數據集上對多個代表性的MLLMs進行了評估,包括了演繹推理、溯因推理和類比推理的樣本。實驗設計了不同復雜度的推理任務,以全面評估模型的推理能力和決策過程。評估結果通過一個綜合的評分系統計算,該系統考慮了推理的復雜度和模型生成答案的準確性。

LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

?? 論文標題:LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge
?? 論文作者:Gongwei Chen, Leyang Shen, Rui Shao, Xiang Deng, Liqiang Nie
?? 研究機構: Harbin Institute of Technology, Shenzhen
?? 問題背景:現有的多模態大語言模型(MLLMs)主要采用粗略對齊的圖像-文本對預訓練的視覺編碼器,導致視覺知識的提取和推理不足。這使得MLLMs在處理視覺-語言任務時,容易產生錯誤和幻覺響應。
?? 研究動機:為了克服這一問題,研究團隊設計了一種雙層視覺知識增強的多模態大語言模型(LION),通過細粒度的空間感知視覺知識和高層次的語義視覺證據的注入,提升MLLMs的視覺理解能力。
?? 方法簡介:LION通過兩個層面增強視覺信息:1) 逐步融合細粒度的空間感知視覺知識,設計了一個視覺聚合器與區域級視覺-語言任務合作,采用分階段的指令調優策略和混合適配器來解決圖像級和區域級任務之間的沖突;2) 軟提示高層次的語義視覺證據,利用圖像標簽作為補充信息,并設計了一種軟提示方法來減輕不準確標簽的影響。
?? 實驗設計:在多個多模態基準數據集上進行了實驗,包括圖像描述生成、視覺問答(VQA)和視覺定位任務。實驗結果表明,LION在多個任務上顯著優于現有模型,例如在VSR任務上比InstructBLIP提高了約5%的準確率,在TextCaps任務上提高了約3%的CIDEr分數,在RefCOCOg任務上比Kosmos-2提高了約5%的準確率。

A Survey on Multimodal Large Language Models for Autonomous Driving

?? 論文標題:A Survey on Multimodal Large Language Models for Autonomous Driving
?? 論文作者:Can Cui, Yunsheng Ma, Xu Cao, Wenqian Ye, Yang Zhou, Kaizhao Liang, Jintai Chen, Juanwu Lu, Zichong Yang, Kuei-Da Liao, Tianren Gao, Erlong Li, Kun Tang, Zhipeng Cao, Tong Zhou, Ao Liu, Xinrui Yan, Shuqi Mei, Jianguo Cao, Ziran Wang, Chao Zheng
?? 研究機構: Purdue University, Tencent T Lab, University of Illinois Urbana-Champaign, University of Virginia, New York University, PediaMed AI, SambaNova Systems, Inc, Objective, Inc
?? 問題背景:隨著大型語言模型(LLMs)和視覺基礎模型(VFMs)的出現,多模態AI系統在感知現實世界、做出決策和控制工具方面展現出與人類相當的潛力。LLMs在自動駕駛和地圖系統中受到了廣泛關注。盡管具有巨大潛力,但目前對將LLMs應用于自動駕駛系統的關鍵挑戰、機遇和未來方向的理解仍然不足。
?? 研究動機:為了系統地探討多模態大型語言模型(MLLMs)在自動駕駛中的應用,本文提供了該領域的全面調查。研究旨在介紹MLLMs的背景、發展以及自動駕駛的歷史,概述現有的MLLM工具、數據集和基準,總結首屆WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD)的工作,并討論使用MLLMs在自動駕駛系統中需要解決的重要問題。
?? 方法簡介:研究團隊通過分析現有文獻和數據集,總結了MLLMs在自動駕駛中的應用,特別是在感知、運動規劃和運動控制模塊中的作用。此外,研究還探討了MLLMs在提高車輛智能、決策和乘客互動方面的潛力。
?? 實驗設計:研究沒有進行具體的實驗設計,而是通過文獻綜述和案例分析,探討了MLLMs在自動駕駛中的應用現狀和未來方向。研究團隊還組織了首屆WACV Workshop on Large Language and Vision Models for Autonomous Driving (LLVM-AD),以促進學術界和工業界的合作,探索多模態大型語言模型在自動駕駛領域的可能性和挑戰。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/75564.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/75564.shtml
英文地址,請注明出處:http://en.pswp.cn/web/75564.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

第1節:計算機視覺發展簡史

計算機視覺與圖像分類概述:計算機視覺發展簡史 計算機視覺(Computer Vision)作為人工智能領域的重要分支,是一門研究如何使機器"看"的科學,更具體地說,是指用攝影機和計算機代替人眼對目標進行識…

【工具】Fiddler抓包

本文主要講解如何使用Fiddler抓HTTP包,可通過所抓包內容分析HTTP請求/響應的細節 安裝與配置 1.下載與安裝 下載地址: https://www.telerik.com/fiddler/ 點擊了鏈接后,跳轉到以下頁面: 點擊Fiddler Classic(免費版)后,跳轉到以…

STM32F103復用JTAG/SWD引腳為GPIO

普中-精靈1開發板,主芯片為STM32F103C8T6,4個獨立按鍵K1~K4依次接PA15~PA12,按下為低電平,8個LED燈D1~D8,依次接PA0~PA7。查詢手冊得知:PA15主功能為JTDI,PA14為JTCK/SWCLK,PA13為JT…

難度偏低,25西電人工智能學院821、833、834考研錄取情況

1、人工智能學院各個方向 2、人工智能學院近三年復試分數線對比 學長、學姐分析 由表可看出: 1、智能院25年院線相對于24年院線 全部專業下降比較多,其中控制科學與工程下降20分,計算機科學與技術下降20分,計算機技術[專碩]下降…

達夢數據校驗系統(DMDVS):數據完整性保障的不二之選

產品概述 達夢數據校驗系統(DMDVS)是一款企業級數據一致性管理平臺,提供跨數據庫、跨平臺的數據比對與修復能力。系統采用模塊化架構設計,支持靜態校驗、動態校驗、單向校驗及分布式校驗四大核心模式,適用于數據遷移驗證、容災備份核查、實時同步監控等關鍵場景,??更多…

【3dSwap】3D-Aware Face Swapping

文章目錄 3D-Aware Face Swapping背景points貢獻方法從2D圖像推斷3D先驗通過潛在代碼操縱進行人臉交換聯合樞軸調整目標函數實驗與二維人臉交換方法比較進一步分析3D感知人臉交換消融實驗局限性3D-Aware Face Swapping 會議/期刊:CVPR 2023 作者: code:https://lyx0208.gi…

客戶案例 | 日事清×初心家居:多部門協作實現新品上架自動化

1、客戶背景 佛山市初心家居有限公司,主營家居類目,年營收額近億元。初心家居有自己的家居生產工廠(可為第三方提供生產),店內產品均為自主研發設計,所以新品開發也是初心家居的核心。 2、客戶工作場景及需…

KWDB創作者計劃—KWDB多副本集群保姆級部署

📢📢📢📣📣📣 作者:IT邦德 中國DBA聯盟(ACDU)成員,10余年DBA工作經驗 Oracle、PostgreSQL ACE CSDN博客專家及B站知名UP主,全網粉絲10萬 擅長主流Oracle、MySQL、PG、高斯…

micro ubuntu 安裝教程

micro ubuntu 安裝教程 官網地址 : https://micro-editor.github.io 以下是在 Ubuntu 系統中安裝 micro 編輯器 的詳細教程: 方法 1:通過 ?apt?? 直接安裝(推薦) 適用于 Ubuntu 20.04 及以上版本(官方倉庫已收錄…

Docker 鏡像 的常用命令介紹

拉取鏡像 $ docker pull imageName[:tag][:tag] tag 不寫時,拉取的 是 latest 的鏡像查看鏡像 查看所有本地鏡像 docker images or docker images -a查看完整的鏡像的數字簽名 docker images --digests查看完整的鏡像ID docker images --no-trunc只查看所有的…

從零搭建微服務項目Pro(第0章——微服務項目腳手架搭建)

前言: 在本專欄Base第0章曾介紹一種入門級的微服務項目搭建,盡管后續基于此框架上實現了Nacos、Eureka服務注冊發現、配置管理、Feign調用、網關模塊、OSS文件存儲、JSR參數校驗、LogBack日志配置,鑒權模塊、定時任務模塊等,但由于…

VS Code下開發FPGA——FPGA開發體驗提升__下

上一篇:IntelliJ IDEA下開發FPGA-CSDN博客 Type:Quartus 一、安裝插件 在應用商店先安裝Digtal IDE插件 安裝后,把其他相關的Verilog插件禁用,避免可能的沖突。重啟后,可能會彈出下面提示 這是插件默認要求的工具鏈&a…

使用Python從零開始構建端到端文本到圖像 Transformer大模型

簡介:通過特征向量從文本生成圖像 回顧:多模態 Transformer 在使用Python從零實現一個端到端多模態 Transformer大模型中,我們調整了字符級 Transformer 以處理圖像(通過 ResNet 特征)和文本提示,用于視覺…

Webpack中的文件指紋:給資源戴上個“名牌”

你是否想過,當你修改代碼后,瀏覽器為什么仍然拿著舊版資源不放?秘密就在于——文件指紋!簡單來說,文件指紋就像給每個構建出來的文件貼上獨一無二的“姓名牌”,告訴瀏覽器:“嘿,我更…

python可變對象與不可變對象

文章目錄 Python 中的可變對象與不可變對象不可變對象(Immutable Objects)可變對象(Mutable Objects)重要區別 Python 中的可變對象與不可變對象 在 Python 中,對象可以分為可變對象(mutable)和不可變對象(immutable),這是 Python 中非常重要的概念&…

DeepSeek私有化部署性能怎么樣?企業級AI落地實戰解析!

1. 私有化部署是什么?為什么企業需要它? 很多公司在考慮用AI時都會問:“DeepSeek私有化部署性能怎么樣?能不能在我們自己的服務器上跑?” 私有化部署的意思就是把AI模型裝在你自己的機房或者云服務器上,而…

SQL學習--基礎語法學習

SQL和excle對比 學習目標 單表查詢 項目背景 SQL 練習環境 SQL Online Compiler - Next gen SQL Editor 商品信息表:https://study-zhibo.oss-cn-shanghai.aliyuncs.com/test/%E5%95%86%E5%93%81%E4%BF%A1%E6%81%AF%E8%A1%A8.csv 訂單明細表:https://…

【Docker基礎-網絡】--查閱筆記4

目錄 Docker 網絡網絡類型none 網絡host 網絡bridge 網絡自定義網絡 容器間通信IP 通信Docker DNS Serverjoined 容器 容器與外部通信容器訪問外部外部訪問容器 Docker 網絡 學習Docker提供的幾種原生網絡如何創建自定義網絡容器間通信,容器于外界交互 Docker 安裝…

GPT模型架構與文本生成技術深度解析

核心發現概述 本文通過系統分析OpenAI的GPT系列模型架構,揭示其基于Transformer解碼器的核心設計原理與文本生成機制。研究顯示,GPT模型通過自回歸機制實現上下文感知的序列生成,其堆疊式解碼器結構配合創新的位置編碼方案,可有效…

AWTK-MVVM 如何讓多個View復用一個Model記錄+關于app_conf的踩坑

前言 有這么一個業務,主界面點擊應用窗口進入聲納顯示界面,聲納顯示界面再通過按鈕進入菜單界面,菜單界面有很多關于該聲納顯示界面的設置項,比如量程,增益,時間顯示,亮度,對比度等…