多模態大語言模型arxiv論文略讀(117)

在這里插入圖片描述

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity

?? 論文標題:Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity
?? 論文作者:Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang
?? 研究機構: National Sun Yat-sen University, Kaohsiung, Taiwan
?? 問題背景:組合圖像檢索(Composed Image Retrieval, CIR)通過結合參考圖像和修改后的文本,以更準確地捕捉用戶意圖,成為一種新的圖像搜索形式。然而,現有的CIR模型通常需要大量的人工標注數據進行監督訓練,這不僅耗時耗力,而且在處理未見過的數據時性能有限。盡管零樣本CIR(Zero-shot CIR, ZS-CIR)方法可以避免在特定下游數據集上的訓練,但它們仍然需要在大規模圖像數據集上進行預訓練,這同樣需要大量資源。
?? 研究動機:為了克服現有ZS-CIR方法的局限性,研究團隊提出了一種完全無需訓練的ZS-CIR方法。該方法利用預訓練的視覺-語言模型(VLMs)和多模態大語言模型(MLLMs),通過簡單的加權融合圖像和文本模態,直接構建查詢表示,從而實現高效的圖像檢索。此外,通過生成數據庫圖像的文本描述并將其納入相似度計算,進一步增強了檢索性能。
?? 方法簡介:研究團隊提出了一種名為WeiMoCIR的方法,該方法包括三個模塊:加權模態融合模塊用于構建查詢表示,增強表示模塊通過MLLM生成的圖像描述來改進數據庫圖像的表示,加權模態相似度模塊則在檢索過程中同時考慮圖像和文本信息。具體來說,通過預訓練的VLM(如CLIP)提取參考圖像和文本修改的特征,然后通過加權融合生成查詢表示。在檢索階段,不僅比較查詢特征與數據庫圖像的視覺特征,還通過MLLM生成的圖像描述來計算查詢與數據庫圖像的文本相似度,最終通過加權平均得到綜合相似度。
?? 實驗設計:實驗在兩個公開數據集上進行,分別是FashionIQ和CIRR。實驗設計了不同的超參數(如α和β)的變化,以評估不同加權策略對檢索性能的影響。實驗結果表明,WeiMoCIR在FashionIQ和CIRR數據集上均取得了與現有方法相當或更好的性能,特別是在使用較大的CLIP模型時,性能提升更為顯著。此外,通過消融實驗,研究團隊還探討了不同預訓練VLMs對檢索性能的影響,發現經過COCO或Flickr30k數據集微調的BLIP模型在兩個數據集上均表現更佳。

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

?? 論文標題:MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
?? 論文作者:Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
?? 研究機構: 深圳先進技術研究院、中國科學院大學、阿里巴巴集團、同濟大學、獨立研究員、悉尼大學
?? 問題背景:多模態大語言模型(MLLMs)在多種領域(如多模態代理、具身智能)中展現出顯著的發展潛力。然而,隨著模型驅動方法的邊際收益逐漸減少,數據驅動方法雖然更有效,但面臨數據多樣性和復雜性不足的挑戰。高質量數據的缺乏成為MLLMs發展的主要障礙。
?? 研究動機:為了克服數據質量瓶頸,研究團隊提出了MMEvol,一種新的多模態指令數據進化框架。該框架通過細粒度感知、認知推理和交互進化相結合的方式,迭代地提高數據質量,生成更復雜和多樣的圖像-文本指令數據集,以增強MLLMs的能力。
?? 方法簡介:MMEvol框架從初始指令集SEED-163K開始,通過細粒度感知進化、認知推理進化和交互進化三個方向,系統地擴展指令類型的多樣性,延長視覺推理步驟以提高認知推理能力,并深入探索圖像中的細粒度信息以增強視覺理解和魯棒性。每個進化周期包括指令進化和指令消除兩個主要步驟,以確保進化數據的質量。
?? 實驗設計:研究團隊在13個視覺-語言任務上進行了廣泛的定性和定量實驗,驗證了MMEvol的有效性。實驗結果表明,與使用初始種子數據訓練的基線模型相比,MMEvol方法在平均準確率上提高了3.1個百分點,并在九個任務中達到了使用更少數據的最先進性能。此外,還進行了詳細的定性分析和消融實驗,展示了方法中每個組件的貢獻。

Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

?? 論文標題:Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments
?? 論文作者:Haritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
?? 研究機構: New York University, Hello Robot Inc., Meta Inc.
?? 問題背景:盡管機器人模型在特定環境中的訓練數據充足時可以很好地完成任務,但需要為每個新環境微調模型,這與語言和視覺模型的零樣本部署能力形成鮮明對比。這種微調需求限制了機器人模型在新環境中的快速部署能力。
?? 研究動機:為了克服這一限制,研究團隊開發了Robot Utility Models (RUMs),這是一種新的框架,旨在訓練和部署無需進一步訓練或微調即可在新環境中直接使用的通用機器人策略。研究旨在通過大規模數據收集、多模態行為學習算法和自檢重試機制,提高機器人在新環境中的零樣本部署能力。
?? 方法簡介:研究團隊開發了一種名為Stick-v2的手持數據收集工具,用于快速收集大規模、高質量的演示數據。這些數據被用于訓練多模態行為生成模型,模型能夠吸收和擴展大規模演示數據。此外,研究團隊還設計了一種基于多模態大語言模型(mLLM)的自檢和重試系統,以提高模型在新環境中的成功率。
?? 實驗設計:研究團隊在25個未見過的環境中進行了2,950次機器人實驗,包括紐約市、新澤西州和賓夕法尼亞州的家庭環境。實驗評估了RUMs在不同任務(如開門、抽屜開啟、物體重新定向、紙巾拾取和紙袋拾取)中的表現。實驗結果表明,RUMs在未見過的環境中平均成功率為90%,其中多模態策略和mLLM自檢重試系統是提高成功率的關鍵技術。

MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning

?? 論文標題:MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning
?? 論文作者:Jianyi Zhang, Hao Frank Yang, Ang Li, Xin Guo, Pu Wang, Haiming Wang, Yiran Chen, Hai Li
?? 研究機構: Duke University, Johns Hopkins University, University of Maryland College Park, Lenovo Research
?? 問題背景:聯邦學習(Federated Learning, FL)在處理不同客戶端之間的數據異質性時,經常遇到性能下降的問題。盡管已有一些方法嘗試解決這一問題,但大多數方法未能在提升性能的同時,有效緩解隱私泄露和增加本地設備計算負擔的問題。
?? 研究動機:鑒于多模態大語言模型(Multimodal Large Language Models, MLLMs)在多模態任務中的卓越表現,研究團隊提出了一種新的聯邦學習框架——多模態大語言模型輔助聯邦學習(MLLM-LLaVA-FL),旨在利用MLLMs的強大跨模態表示能力和豐富的開放詞匯先驗知識,解決數據異質性和長尾分布帶來的挑戰,同時提高數據利用效率和服務器計算能力的利用。
?? 方法簡介:MLLM-LLaVA-FL框架包含三個關鍵階段:1) 全局多模態預訓練(Global Multimodal Pretraining),利用MLLMs生成描述,對未標注的在線數據進行預處理;2) 聯邦微調(Federated Finetuning),將預訓練模型分發給客戶端進行本地訓練;3) 全局對齊(Global Alignment),在服務器端對聚合后的模型進行進一步優化,以提高模型的性能和安全性。
?? 實驗設計:研究團隊在CIFAR-10-LT、CIFAR-100-LT和ImageNet-LT三個長尾分布數據集上進行了實驗。實驗結果表明,MLLM-LLaVA-FL框架在處理數據異質性和類別分布不平衡方面,顯著優于現有的聯邦學習方法,同時在隱私保護和減少本地設備計算負擔方面也表現出色。

MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding

?? 論文標題:MIP-GAF: A MLLM-annotated Benchmark for Most Important Person Localization and Group Context Understanding
?? 論文作者:Surbhi Madan, Shreya Ghosh, Lownish Rai Sookha, M. A. Ganaie, Ramanathan Subramanian, Abhinav Dhall, Tom Gedeon
?? 研究機構: IIT Ropar、Curtin University、University of Canberra、Flinders University
?? 問題背景:在多人群體社交場景中定位最重要的人員(MIP)對于圖像標注、社會關系分析、群體活動識別、群體情緒分析和群體中的主導人物識別等實際應用至關重要。然而,由于場景中對象和人類之間的高階關系、情境影響、相機位置、遮擋、模糊和多人存在等因素,MIP估計在不受限制的環境中極具挑戰性。此外,MIP估計的因果方面非常主觀和多樣。
?? 研究動機:現有的MIP數據集規模較小,且主要集中在受控環境下的特定場景,這限制了MIP定位算法在真實世界中的應用。為了克服這些限制,研究團隊構建了一個大規模的“在野”數據集MIP-GAF,旨在提供更全面的MIP定位基準,涵蓋多樣化的場景和上下文理解。
?? 方法簡介:研究團隊提出了一種半自動的多模態大語言模型(MLLM)數據標注策略,通過結合MLLM的初步標注和人工驗證,確保數據集的高質量。MIP-GAF數據集包含16,550張圖像,每張圖像都標注了MIP的邊界框及其重要性的解釋,這些解釋與圖像上下文對齊,有助于理解MIP的確定依據。
?? 實驗設計:研究團隊在四個學習范式(零樣本、完全監督、半監督和自監督)下,使用最先進的MIP檢測算法對MIP-GAF數據集進行了全面的基準測試。實驗結果表明,與現有的數據集相比,MIP-GAF數據集在性能上具有顯著的挑戰性,特別是在“在野”情況下,現有的MIP定位算法需要更加魯棒。此外,實驗還展示了MIP-GAF數據集在不同場景下的適用性和挑戰性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/86678.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/86678.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/86678.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

如何正確的配置eureka server集群

將 Eureka Server 實例的 hostname 都配置成相同的值,在 Eureka Server 集群環境下同樣是不推薦且通常會導致嚴重問題的, 核心問題:Eureka Server 集群的工作機制 Eureka Server 集群通過相互注冊(Peering)來實現高可…

AI支持下的-ArcGIS數據處理、空間分析、可視化及多案例綜合應用

查看原文>>> 從入門到精通-AI支持下的-ArcGIS數據處理、空間分析、可視化及多案例綜合應用 結合ArcGIS和GPT的優勢,本文重點進行AI大模型應用、ArcGIS工作流程及功能、Prompt使用技巧、AI助力工作流程、AI助力數據讀取與處理、AI助力空間分析、AI助力遙感…

vue3-ts: v-model 和 props 的關系

在 Vue.js 中,v-model 是一個語法糖,它實際上是 :value 和 input 事件的組合。 當你使用 v-model 綁定一個組件時,默認情況下,組件會通過 props 接收 value 這個 prop, 并通過觸發 input 事件來更新父組件中的數據。 …

學車筆記 變擋

超15就可以加一檔了 有些人對手動擋的檔位有一些誤解_嗶哩嗶哩_bilibili 獻給所有新司機.開手動檔擺脫頓挫的根本方法.學會看轉速!沒那么復雜!_嗶哩嗶哩_bilibili 減速到怠速降一檔

STM32的DMA簡介

STM32的DMA簡介 一、DMA概述 DMA(Direct Memory Access,直接存儲器存取)是一種硬件機制,它允許外設和存儲器之間或者存儲器和存儲器之間進行高速數據傳輸,而無需CPU的干預。這種機制可以極大地節省CPU資源&#xff0c…

Spring-AOP知識點

一、AOP簡介 1.AOP概念 2.AOP思想實現方案 3.AOP相關概念 二、基于xml配置AOP 1.快速入門 2.AOP配置詳解 3.AOP原理剖析 三、基于注解配置AOP 1.快速入門 2.注解方式AOP配置詳解 抽取切點表達式

Java@Data 與 @NotNull 注解沖突問題

第一章:核心概念解析 1. Data(Lombok 提供) 自動生成以下方法: gettersettertoString()equals()hashCode() 簡化實體類編寫,提高開發效率。 示例: import lombok.Data;Data public class User {private…

離線部署openstack 2024.1 glance

控制節點鏡像服務 離線下載 apt install --download-only glancemkdir /controller/glance mv /var/cache/apt/archives/*.deb /controller/glance/ dpkg -i /controller/glance/*.deb在一個控制節點操作 CREATE DATABASE glance; GRANT ALL PRIVILEGES ON glance.* TO glan…

.NET AOT 詳解

簡介 AOT(Ahead-Of-Time Compilation)是一種將代碼直接編譯為機器碼的技術,與傳統的 JIT(Just-In-Time Compilation)編譯方式形成對比。在.NET 中,AOT 編譯可以在應用發布時將 IL(中間語言&…

博客系統自動化測試

基于SSM(Spring Spring MVC MyBatis)框架構建的個人博客系統,通過分層架構實現高效協作:Spring負責依賴注入與事務管理,Spring MVC處理HTTP請求分發,MyBatis完成數據持久化操作。系統包含以下核心功能模塊…

animate.css詳解:輕松實現網頁動畫效果

前言 在網頁設計中,動畫效果不僅僅是視覺上的裝飾,更是提升用戶體驗的重要元素。animate.css 作為一個輕量級的 CSS 動畫庫,提供了豐富的預設動畫效果,本文將探討 animate.css 使用方法以及在實際項目中的應用案例,幫助…

【多智能體】基于嵌套進化算法的多代理工作流

😊你好,我是小航,一個正在變禿、變強的文藝傾年。 🔔本專欄《人工智能》旨在記錄最新的科研前沿,包括大模型、具身智能、智能體等相關領域,期待與你一同探索、學習、進步,一起卷起來叭&#xff…

電源知多少?LDO VS DCDC((下)

首先補充幾個上一節沒有提到的知識,我們通常說的DCDC同步整流是指什么? 同步是指采用通態電阻極低的專用功率MOS來取代整流二極管以降低整流損耗,,但是同步整流有以下兩點需要注意:1、MOS在導通之后的壓降比較低&…

數組方法_push()/pop()/數組方法_shift()/unshift()

push 方法用于在數組的末端添加一個或多個元素,并返回添加新元 素后的數組長度。注意,該方法會改變原數組 var arr [];arr.push("顫三") // 1arr.push(itbaizhan) // 2arr.push(true, {}) // 4arr // [顫三 , itbaizhan, true, {}] pop 方法用…

腦機新手指南(八):OpenBCI_GUI:從環境搭建到數據可視化(下)

一、數據處理與分析實戰 (一)實時濾波與參數調整 基礎濾波操作 60Hz 工頻濾波:勾選界面右側 “60Hz” 復選框,可有效抑制電網干擾(適用于北美地區,歐洲用戶可調整為 50Hz)。 平滑處理&…

多頭與空頭:市場博弈的兩面

在金融市場中,多頭(Bull)和空頭(Bear)代表兩種截然相反的投資策略,它們的博弈構成了市場價格波動的核心動力。 1. 概念對比:看漲與看跌的本質區別 多頭(Bull)&#xff0…

Excel 發現此工作表中有一處或多處公式引用錯誤。請檢查公式中的單元格引用、區域名稱、已定義名稱以及到其他工作簿的鏈接是否均正確無誤。彈窗

Excel 提示“發現此工作表中有一處或多處公式引用錯誤”通常表示公式中存在無效引用。以下是系統化的檢查步驟,幫助你定位和修復問題: 1. 檢查單元格引用: 無效單元格引用:檢查公式中的單元格地址(如 A1、B10&…

變量 varablie 聲明- Rust 變量 let mut 聲明與 C/C++ 變量聲明對比分析

一、變量聲明設計:let 與 mut 的哲學解析 Rust 采用 let 聲明變量并通過 mut 顯式標記可變性,這種設計體現了語言的核心哲學。以下是深度解析: 1.1 設計理念剖析 安全優先原則:默認不可變強制開發者明確聲明意圖 let x 5; …

【指針】(適合考研、專升本)

指針 &與*是兩個作用相反的運算符。 二級指針只能保存一級指針變量的地址和指向指針數組,其余情況不考慮。 int *p[2];int a12;int b15;*p&a;*(p1)&b;printf("%d\n%d\n",**p,**(p1));int **rp;printf("%d\n",**r); 普遍變量…

電路圖識圖基礎知識-行程開關自動往返運行控制電路詳解(二十三)

行程開關自動往返運行控制電路詳解 在機床設備運行中,部分工作臺需在特定距離內自動往復循環,行程開關自動往返運行控制電路可實現該功能,通過行程開關自動控制電動機正反轉,保障工作臺有序運動,以下展開詳細解析。 …