多模態大語言模型arxiv論文略讀(三十四)

請添加圖片描述

SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models

?? 論文標題:SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models
?? 論文作者:Yichen Shi, Yuhao Gao, Yingxin Lai, Hongyang Wang, Jun Feng, Lei He, Jun Wan, Changsheng Chen, Zitong Yu, Xiaochun Cao
?? 研究機構: Shanghai Jiao Tong University、Shijiazhuang Tiedao University、Xiamen University、Eastern Institute of Advanced Study、University of California, Los Angeles、NLPR, CASIA、Shenzhen University、Great Bay University、Sun Yat-sen University
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在各種視覺領域(如通用對象識別和定位)中展示了卓越的問題解決能力,基于強大的視覺語義表示和語言推理能力。然而,MLLMs是否對細微的視覺欺騙/偽造線索敏感,以及它們在面部攻擊檢測領域的表現如何,仍是一個未探索的領域。當前的面部攻擊檢測模型通常專注于單一模態或特定類型的欺騙攻擊,缺乏對更廣泛和多樣攻擊場景的適應性。
?? 研究動機:為了探索MLLMs在面部攻擊檢測領域的應用潛力和優勢,研究團隊引入了一個新的基準測試——SHIELD,用于評估MLLMs在面部欺騙和偽造檢測任務中的能力。通過設計多項選擇和真假問題,評估多模態面部數據,旨在為未來的生物識別安全提供有價值的見解和方法。
?? 方法簡介:研究團隊構建了SHIELD基準測試,包括面部反欺騙任務和面部偽造檢測任務。對于面部反欺騙任務,評估了三種不同的模態(RGB、紅外、深度)在四種類型的呈現攻擊(打印攻擊、重放攻擊、剛性面具、紙面具)下的表現。對于面部偽造檢測任務,評估了基于GAN和擴散模型的數據,同時考慮了視覺和聲學模態。每個問題都在零樣本和少樣本測試中進行了評估,包括標準設置和鏈式思維(COT)設置。
?? 實驗設計:實驗在多個公開數據集上進行,包括WMCA數據集(用于面部反欺騙任務)和FaceForensics++數據集(用于面部偽造檢測任務)。實驗設計了不同類型的攻擊(如打印攻擊、重放攻擊、剛性面具、紙面具)和不同的模態(RGB、紅外、深度),以及不同類型的偽造技術(如Deepfakes、Face2Face、FaceSwap、NeuralTextures)。每個任務都設計了真假問題和多項選擇問題,以全面評估MLLMs在不同條件下的表現。此外,研究團隊還提出了一種新的多屬性鏈式思維(MA-COT)范式,用于描述和判斷面部圖像的各種任務特定和任務無關屬性,提供豐富的任務相關知識,以挖掘細微的欺騙/偽造線索。

MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark

?? 論文標題:MLLM-as-a-Judge: Assessing Multimodal LLM-as-a-Judge with Vision-Language Benchmark
?? 論文作者:Dongping Chen, Ruoxi Chen, Shilin Zhang, Yinuo Liu, Yaochen Wang, Huichi Zhou, Qihui Zhang, Yao Wan, Pan Zhou, Lichao Sun
?? 研究機構: 華中科技大學、浙江工業大學、LAIR Lab(Lehigh University)
?? 問題背景:多模態大語言模型(MLLMs)在生成內容方面取得了顯著進展,尤其是在文本生成、代碼生成和視頻合成等領域。然而,評估MLLMs的效用面臨巨大挑戰,主要是因為缺乏與人類偏好對齊的多模態基準。受LLM-as-a-Judge概念的啟發,本文提出了一種新的基準,稱為MLLM-as-a-Judge,用于評估MLLMs在不同模態任務中的輔助判斷能力。
?? 研究動機:盡管MLLMs在某些任務中表現出與人類偏好高度一致的能力,但在評分評估和批量排名任務中,這些模型與人類偏好的差異顯著。此外,研究發現,即使在高級模型如GPT-4V中,也存在多種偏見、幻覺響應和判斷不一致的問題。這些發現強調了在將MLLMs視為可靠評估者之前,需要進行改進和進一步研究。
?? 方法簡介:研究團隊構建了一個包含14個數據集的綜合基準,涵蓋圖像描述、數學推理、文本閱讀和信息圖理解等任務,共收集了4,414個圖像-指令對。隨后,使用六個主流的MLLMs生成響應,并通過人類評估者進行嚴格注釋,以確保對MLLMs判斷的公正和全面評估。
?? 實驗設計:實驗在三個不同的評估設置下進行,包括評分評估、成對比較和批量排名。實驗設計了不同任務和設置下的評估,以全面評估MLLMs在多模態任務中的判斷能力。研究發現,GPT-4V在所有任務和設置中表現最佳,而其他模型如Gemini、LLaVA和CogVLM則表現較差。此外,研究還揭示了MLLMs在判斷過程中存在的幻覺、偏見和不一致問題。

SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark

?? 論文標題:SceMQA: A Scientific College Entrance Level Multimodal Question Answering Benchmark
?? 論文作者:Zhenwen Liang, Kehan Guo, Gang Liu, Taicheng Guo, Yujun Zhou, Tianyu Yang, Jiajun Jiao, Renjie Pi, Jipeng Zhang, Xiangliang Zhang
?? 研究機構: University of Notre Dame、New York University、Hong Kong University of Science and Technology
?? 問題背景:當前的多模態問答(Multimodal Question Answering, MMQA)基準測試主要集中在小學到大學水平,但忽略了高中和大學入學水平這一關鍵教育階段。這一階段的學習內容對人類學習過程至關重要,但現有的基準測試要么過于簡單,要么難度過高,無法全面評估AI模型在這一階段的表現。
?? 研究動機:為了填補這一空白,研究團隊開發了一個新的基準測試——SceMQA(Science College Entrance Level Multimodal Question Answering),專門針對高中和大學入學水平的多模態科學問題。SceMQA涵蓋了數學、物理、化學和生物四個核心科學科目,旨在評估AI模型在解決復雜科學問題時的多模態理解和推理能力。
?? 方法簡介:SceMQA包含261個問題,每個科目平均65個問題,問題形式包括選擇題和自由回答題。每個問題都配有詳細的解答和解釋,并且每個問題都關聯了特定的知識點。此外,SceMQA還設計了基于同一背景但不同問題的題組,以測試模型的深度理解和推理能力。
?? 實驗設計:研究團隊在SceMQA上評估了多個開源和閉源的多模態大語言模型(MLLMs),包括InstructBLIP、MiniGPT4、LLaVA、Google Bard、Gemini Pro和GPT4-V。實驗設置了零樣本、少樣本和僅文本三種模式,以全面評估模型在不同條件下的表現。結果表明,即使是性能最強的模型(如GPT4-V),在SceMQA上的準確率也僅為50%到60%,顯示出進一步研究和開發的必要性。

λ λ λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space

?? 論文標題: λ λ λ-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space
?? 論文作者:Maitreya Patel, Sangmin Jung, Chitta Baral, Yezhou Yang
?? 研究機構: Arizona State University
?? 問題背景:當前的個性化文本到圖像(P-T2I)生成模型在實現高保真度和多樣性方面取得了顯著進展,但多主體驅動的個性化生成仍面臨資源效率低下和泛化能力不足的問題。現有的方法,如Hypernetworks和多模態大語言模型(MLLMs),雖然能夠實現快速個性化,但需要大量的計算資源,從600到12300 GPU小時不等。這些方法依賴于潛在擴散模型(LDMs)的潛在空間,導致資源消耗巨大,且結果不一致。
?? 研究動機:為了提高多概念個性化圖像生成的資源效率,研究團隊提出了一種新的訓練策略,即λ-ECLIPSE,該策略在預訓練的CLIP模型的潛在空間中工作,而不需要依賴擴散UNet模型。研究旨在通過減少對擴散模型的依賴,提高多主體驅動個性化生成的效率和性能。
?? 方法簡介:λ-ECLIPSE通過利用UnCLIP T2I模型的特性,將輸出空間與CLIP視覺空間對齊,而不是CLIP文本空間。該方法接受多張圖像和文本指令作為輸入,估計相應的視覺嵌入,這些嵌入可以被凍結的擴散UNet模型用于生成圖像。此外,λ-ECLIPSE還引入了圖像-文本交錯預訓練策略,通過創建200萬高質量的圖像-文本對,將文本嵌入替換為相應的圖像嵌入,以優化映射到目標潛在空間的過程。
?? 實驗設計:研究在Dreambench、Multibench和ConceptBed三個公開數據集上進行了實驗,評估了λ-ECLIPSE在單主體和多主體驅動個性化生成任務中的性能。實驗設計了不同的控制條件,如Canny邊緣圖,以評估模型在不同條件下的表現。實驗結果表明,λ-ECLIPSE在僅34M參數和74 GPU小時的訓練下,能夠實現與大型模型相當的性能,同時在概念和組成對齊方面表現出色。

LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education

?? 論文標題:LLaVA-Docent: Instruction Tuning with Multimodal Large Language Model to Support Art Appreciation Education
?? 論文作者:Unggi Lee, Minji Jeon, Yunseo Lee, Gyuri Byun, Yoorim Son, Jaeyoon Shin, Hongkyu Ko, Hyeoncheol Kim
?? 研究機構: Korea University, University of Nebraska-Lincoln, Seoul Metropolitan Office of Education, Seoul National University, Seoul National University of Education
?? 問題背景:盡管各種AI系統在不同領域支持學習方面取得了進展,但在藝術鑒賞教育中,AI輔助的應用尚未得到廣泛探索。藝術鑒賞通常被視為少數人的精英活動,許多人在日常生活中遇到藝術時會感到 intimidat 或缺乏信心。缺乏有效的指導和教育阻礙了人們與藝術的深入互動。本研究探討了多模態大語言模型(MLLMs)在藝術鑒賞教育中的應用,特別是開發了 LLaVA-Docent,旨在作為藝術鑒賞的個人導師。
?? 研究動機:研究旨在通過開發 LLaVA-Docent,解決藝術鑒賞教育中的挑戰,如缺乏個性化反饋、互動有限等問題。研究團隊希望通過結合建構主義教學理論和AI技術,提供一種新的藝術鑒賞教育方法,使藝術鑒賞更加可及和有意義。
?? 方法簡介:研究團隊采用設計與開發研究(DDR)方法,通過迭代增強設計和開發 LLaVA-Docent。研究包括六個階段:原型開發、文獻回顧與初步驗證、數據設計框架的驗證與精煉、數據生成、模型訓練和模型評估。研究團隊還建立了一個虛擬對話數據集,用于訓練 LLaVA-Docent,并通過定量和定性方法評估了模型的性能。
?? 實驗設計:研究團隊使用了 vicuna-13b-v1.5 作為語言模型,clip-vit-large-patch14 作為圖像編碼器,并通過線性層進行模態投影。模型訓練分為預訓練和微調兩個階段。預訓練階段使用了 cc3m_595k_images 數據集,微調階段使用了 LLaVA-Instruct-150K 數據集。模型評估包括與 GPT-4 的對比測試,以及基于 Anderson 的關鍵階段理論的對話質量評估。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/78055.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/78055.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/78055.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Unity InputSystem觸摸屏問題

最近把Unity打包后的windows軟件放到windows觸摸屏一體機上測試,發現部分屏幕觸摸點擊不了按鈕,測試了其他應用程序都正常。 這個一體機是這樣的,一個電腦機箱,外接一個可以觸摸的顯示屏,然后UGUI的按鈕就間歇性點不了…

AI打開潘多拉魔盒?當深度偽造成為虛假信息的核動力引擎

引言:虛假信息——數字時代的“隱形武器” 在人工智能(AI)與社交媒體深度融合的今天,虛假信息(Disinformation)已成為全球社會面臨的最嚴峻挑戰之一。 source: Gartner.(2024). 2025 Top Strategic Techno…

MySQL的圖形管理工具-MySQL Workbench的下載安裝及使用【保姆級】

MySQL的圖形管理工具-MySQL Workbench的下載安裝及使用 下載安裝使用Workbench 創建數據庫Workbench 創建數據表數據表中的增刪改增加數據 刪除數據修改數據 下載 MySQL的圖形管理工具有很多,常用的有MySQL Workbench、phpMyAdmin和Navicat等軟件。我選擇了MySQL W…

Spring Security認證流程

認證是Spring Security的核心功能之一,Spring Security所提供的認證可以更好地保護系統的隱私數據與資源,只有當用戶的身份合法后方可訪問該系統的資源。Spring Security提供了默認的認證相關配置,開發者也可以根據自己實際的環境進行自定義身…

程序員魚皮最新項目-----AI超級智能體教程(一)

文章目錄 1.前言1.什么是AI大模型2.什么是多模態3.阿里云百煉平臺介紹3.1文本調試展示3.2阿里云和dashscope的關系3.3平臺智能體應用3.4工作流的創建3.5智能體編排應用 1.前言 最近魚皮大佬出了一套關于這個AI 的教程,關注魚皮大佬很久了,魚皮大佬確實在…

《Pinia 從入門到精通》Vue 3 官方狀態管理 -- 進階使用篇

《Pinia 從入門到精通》Vue 3 官方狀態管理 – 基礎入門篇 《Pinia 從入門到精通》Vue 3 官方狀態管理 – 進階使用篇 《Pinia 從入門到精通》Vue 3 官方狀態管理 – 插件擴展篇 目錄 Store 的模塊化設計4.1 多模塊結構設計? 推薦目錄結構(中大型項目) …

西甲001:奧薩蘇納VS塞維利亞

西甲001:奧薩蘇納VS塞維利亞 奧薩蘇納主場強勢力擒塞維利亞 奧薩蘇納中場核心蒙卡約納上輪聯賽早段傷退,本輪將由巴勃羅-伊瓦涅斯頂替首發。當家射手布迪米爾狀態爆棚,近兩輪斬獲3球,本賽季聯賽已轟入18球創生涯新高,將…

C語言編程--15.四數之和

題目: 給你一個由 n 個整數組成的數組 nums ,和一個目標值 target 。請你找出并返回滿足下述全部條件且不重復的四元組 [nums[a], nums[b], nums[c], nums[d]] (若兩個四元組元素一一對應,則認為兩個四元組重復)&…

2025.04.23【探索工具】| STEMNET:高效數據排序與可視化的新利器

文章目錄 1. STEMNET工具簡介2. STEMNET的安裝方法3. STEMNET常用命令 1. STEMNET工具簡介 在生物信息學領域,分析和處理大規模數據集是研究者們面臨的日常挑戰。STEMNET工具應運而生,旨在提供一個強大的平臺,用于探索和分析單細胞RNA測序&a…

Day-3 應急響應實戰

應急響應實戰一:Web入侵與數據泄露分析 1. Web入侵核心原理 ??漏洞利用路徑?? 未授權訪問:弱口令(如空密碼/默認口令)、目錄遍歷漏洞代碼注入攻擊:JSP/ASP木馬、PHP一句話木馬(利用eval($_POST[cmd])&…

兩段文本比對,高亮出差異部分

用法一:computed <div class"card" v-if"showFlag"><div class"info">*紅色背景為已刪除內容&#xff0c;綠色背景為新增內容</div><el-form-item label"與上季度比對&#xff1a;"><div class"comp…

Python中的 for 與 迭代器

文章目錄 一、for 循環的底層機制示例&#xff1a;手動模擬 for 循環 二、可迭代對象 vs 迭代器關鍵區別&#xff1a; 三、for 循環的典型應用場景1. 遍歷序列類型2. 遍歷字典3. 結合 range() 生成數字序列4. 遍歷文件內容 四、迭代器的自定義實現示例&#xff1a;生成斐波那契…

Pytest教程:為什么Pytest要用插件模式?

目錄 一、歷史背景:測試框架的局限性與Pytest的設計哲學 1.1 早期測試框架的困境 1.2 Pytest的模塊化設計 二、橫向對比:插件機制如何讓Pytest脫穎而出 2.1 與Unittest/Nose的對比 2.2 插件模式的架構優勢 三、插件模式的核心優勢解析 3.1 可擴展性:從單元測試到全鏈…

【深度】如何通過MCP實現多智能體之間的協同

來源&#xff1a;騰訊技術工程、infoQ、原力注入 自 OpenAI 于 2023 年發布函數調用功能以來&#xff0c;我一直在思考如何構建一個開放的智能體與工具使用生態系統。隨著基礎模型愈發智能化&#xff0c;智能體與外部工具、數據和 API 的交互能力卻日益碎片化&#xff1a;開發…

NVIDIA自動駕駛安全與技術讀后感

ll在閱讀了 NVIDIA 自動駕駛安全報告后&#xff0c;我對該公司致力于推進自動駕駛汽車&#xff08;AV&#xff09;技術、同時優先考慮安全和標準化的承諾印象深刻。它揭示了 NVIDIA 在功能安全、法規合規性以及與全球標準組織合作方面的嚴謹態度。 ?? 報告中最引人注目的部分…

關于nginx,負載均衡是什么?它能給我們的業務帶來什么?怎么去配置它?

User 關于nginx&#xff0c;我還想知道&#xff0c;負載均衡是什么&#xff1f;它能為我的業務帶來什么&#xff1f;怎么去配置它&#xff1f; Assistant 負載均衡是 Nginx 另一個非常強大的功能&#xff0c;也是構建高可用、高性能應用的關鍵技術之一。我們來詳細了解一下。 …

前端如何優雅地對接后端

作為一名前端開發者&#xff0c;與后端對接是我們日常工作中不可避免的一部分。從API設計的理解到錯誤處理的優雅實現&#xff0c;前端需要的不只是調用接口的代碼&#xff0c;更是一種協作的藝術。本文將從Vue 3項目出發&#xff0c;分享如何與后端高效協作&#xff0c;減少聯…

PYTHON用幾何布朗運動模型和蒙特卡羅MONTE CARLO隨機過程模擬股票價格可視化分析耐克NKE股價時間序列數據

原文鏈接&#xff1a;http://tecdat.cn/?p27099 金融資產/證券已使用多種技術進行建模。該項目的主要目標是使用幾何布朗運動模型和蒙特卡羅模擬來模擬股票價格。該模型基于受乘性噪聲影響的隨機&#xff08;與確定性相反&#xff09;變量&#xff08;點擊文末“閱讀原文”獲取…

頭歌之動手學人工智能-機器學習 --- PCA

目錄 第1關&#xff1a;維數災難與降維 第2關&#xff1a;PCA算法流程 任務描述 編程要求 測試說明 第3關&#xff1a;sklearn中的PCA 任務描述 編程要求 測試說明 第1關&#xff1a;維數災難與降維 第2關&#xff1a;PCA算法流程 任務描述 本關任務&#xff1a;補充…

IOMUXC_SetPinMux的0,1參數解釋

IOMUXC_SetPinMux(IOMUXC_ENET1_RX_DATA0_FLEXCAN1_TX, 0); 這里的第二個參數 0 實際上傳遞給了 inputOnfield&#xff0c;它控制的是 SION&#xff08;Software Input On&#xff09;位。 當 inputOnfield 為 0 時&#xff0c;SION 關閉&#xff0c;此時引腳的輸入/輸出方向由…