多模態大語言模型arxiv論文略讀(157)

在這里插入圖片描述

Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark

?? 論文標題:Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark
?? 論文作者:Rong-Cheng Tu, Zi-Ao Ma, Tian Lan, Yuehao Zhao, Heyan Huang, Xian-Ling Mao
?? 研究機構: 北京理工大學計算機科學技術學院 (School of Computer Science and Technology, Beijing Institute of Technology)
?? 問題背景:隨著擴散模型的顯著進展,文本到圖像生成模型取得了重大突破,但生成的圖像往往存在主要實體扭曲和與輸入文本提示不一致的問題。自動評估這些生成圖像的質量不僅能夠為訓練生成模型提供有效的損失函數,還能在推理過程中過濾掉低質量的生成圖像,從而提升用戶體驗。因此,迫切需要精確且自動的評估方法來評估生成圖像的質量和保真度。
?? 研究動機:當前最先進的自動評估方法嚴重依賴于多模態大型語言模型(MLLMs),尤其是像GPT-4o這樣的強大商業模型。雖然這些模型非常有效,但高昂的成本限制了其在大規模評估中的可擴展性。采用開源MLLMs是一個替代方案,但由于其處理多模態數據的能力顯著不足,性能較差。為了解決這些問題,研究團隊提出了一種任務分解評估框架,通過將復雜的評估任務分解為更簡單的子任務,減少學習難度,從而提高開源MLLMs的評估性能。
?? 方法簡介:研究團隊提出了一種基于GPT-4o的任務分解評估框架,用于自動構建訓練數據集,將復雜的評估任務分解為更簡單的子任務,有效降低了學習難度。基于此數據集,研究團隊設計了創新的訓練策略,將GPT-4o的評估能力有效地蒸餾到一個7B的開源MLLM,MiniCPM-V-2.6中。此外,為了可靠和全面地評估現有方法和提出的模型,研究團隊手動標注了一個元評估基準,包括生成圖像的鏈式思維解釋和質量評分。
?? 實驗設計:實驗在多個數據集上進行,包括文本到圖像生成任務。實驗設計了不同因素的變化,如文本大小、透明度和位置,以及不同類型的評估目標,如保護性、有害性、偏見性和中性內容,以全面評估模型對文本提示注入的敏感性和抗干擾能力。實驗結果表明,蒸餾后的開源MLLM在Spearman和Kendall相關性上比當前最先進的GPT-4o基線模型VIEScore提高了4.6%以上。

ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration

?? 論文標題:ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration
?? 論文作者:Haozhan Shen, Kangjia Zhao, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Mingwei Zhu, Jianwei Yin
?? 研究機構: 浙江大學計算機科學與技術學院、Om AI Research、濱江研究院
?? 問題背景:多模態大語言模型(MLLMs)在視覺-語言理解方面取得了顯著進展,但受限于預訓練視覺編碼器的輸入分辨率限制和圖像的密集、復雜背景,這些模型在處理高分辨率圖像時,往往只能關注主要對象,而容易忽略細節。這導致了在回答涉及圖像細節的問題時,MLLMs的表現不佳。
?? 研究動機:為了克服這一限制,研究團隊提出了一種名為Zoom Eye的樹搜索算法,該算法通過模擬人類的縮放行為,幫助MLLMs在高分辨率圖像中捕捉相關細節,從而提高模型在視覺-語言任務中的表現。
?? 方法簡介:Zoom Eye算法將圖像抽象為一棵樹,每個節點代表圖像的一個局部區域,通過遞歸分割節點直到滿足分辨率限制。算法通過計算節點的優先級值來指導搜索過程,并在模型能夠自信地回答問題時停止搜索。Zoom Eye算法無需額外訓練,適用于任何MLLMs。
?? 實驗設計:研究團隊在多個高分辨率基準數據集上進行了實驗,包括V?Bench和HR-Bench。實驗結果表明,Zoom Eye不僅顯著提高了多個MLLMs在這些基準上的表現,還使得小型模型在某些任務上超越了大型模型。例如,LLaVA-v1.5-7B在V?Bench上的表現提高了34.57%,在HR-Bench 4K上的表現提高了17.88%。此外,實驗還揭示了MLLMs在感知方向和識別圖像與子圖像之間位置關系方面的不足,為未來的研究提供了方向。

Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models

?? 論文標題:Video-Text Dataset Construction from Multi-AI Feedback: Promoting Weak-to-Strong Preference Learning for Video Large Language Models
?? 論文作者:Hao Yi, Qingyang Li, Yulan Hu, Fuzheng Zhang, Di Zhang, Yong Liu
?? 研究機構: Kuaishou Technology, Beijing, China; Remin University of China, Gaoling School of Artificial Intelligence, Beijing
?? 問題背景:高質量的視頻-文本偏好數據對于多模態大語言模型(MLLMs)的對齊至關重要。然而,現有的偏好數據非常稀缺,獲取VQA偏好數據進行偏好訓練成本高昂,且手動標注響應結果的可靠性低,可能導致低質量的數據對。此外,通過溫度調整控制的AI生成響應缺乏多樣性。這些問題限制了MLLMs的對齊研究。
?? 研究動機:為了解決上述問題,研究團隊提出了一種高質量的VQA偏好數據集(MMAIP-V),該數據集通過從響應分布集中采樣并使用外部評分函數評估響應質量來構建。此外,研究團隊還提出了一種迭代弱到強的強化學習框架(Iter-W2S-RLAIF),該框架通過逐步更新參考模型和執行參數外推來增強MLLMs的對齊能力。最后,研究團隊提出了一種無偏且信息完整的VQA評估方案,以消除先前評估方法中的偏差和視覺信息損失。
?? 方法簡介:研究團隊通過從多個對齊良好的MLLMs中采樣響應,并利用細粒度的外部評分函數評估響應質量,構建了MMAIP-V數據集。基于這些評分,研究團隊構建了偏好響應對,增強了對齊信號的多樣性和質量。此外,研究團隊提出了Iter-W2S-RLAIF框架,通過迭代更新參考模型和參數外推,充分利用AI偏好信號,提高MLLMs的VQA生成能力。
?? 實驗設計:研究團隊在三個領域內和四個領域外的測試數據集上進行了實驗,評估了MMAIP-V和Iter-W2S-RLAIF的有效性。實驗結果表明,MMAIP-V中的高質量正響應和多樣性的負響應對偏好學習有益,而Iter-W2S-RLAIF框架能夠有效且充分地利用AI偏好反饋,提高MLLMs的對齊能力。此外,研究團隊還提出了一種基于視覺的無偏評估方案,從多個角度評估MLLMs的響應質量,消除了先前評估方法中的偏差和視覺信息損失。

Is ‘Right’ Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning

?? 論文標題:Is ‘Right’ Right? Enhancing Object Orientation Understanding in Multimodal Language Models through Egocentric Instruction Tuning
?? 論文作者:Ji Hyeok Jung, Eun Tae Kim, Seo Yeon Kim, Joo Ho Lee, Bumsoo Kim, Buru Chang
?? 研究機構: Sogang University、Chung-Ang University
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在連接人類與AI技術方面發揮著重要作用,尤其是在需要圖像和文本理解的多模態任務中。然而,當前的MLLMs在準確解釋圖像中物體的方向時面臨挑戰,這主要是由于訓練數據中物體方向標注的不一致性,導致模型難以形成一致的方向理解能力。這種局限性在自動駕駛、機器人操作和增強現實設備的交互中尤為明顯,可能導致嚴重的錯誤和事故。
?? 研究動機:研究團隊發現,訓練數據中物體方向標注的不一致性是導致MLLMs方向理解能力不足的主要原因。為了解決這一問題,研究團隊提出了一種基于用戶視角的指令調優方法(Egocentric Instruction Tuning),旨在通過一致的標注標準,使MLLMs的方向理解能力與用戶的視角對齊,從而提高模型在實際應用中的表現。
?? 方法簡介:研究團隊首先基于ImageNet數據集,手動標注了物體的方向,這些標注基于用戶視角,分為八個方向類別。然后,團隊生成了基于這些標注的指令數據,利用MLLMs識別圖像細節的能力和LLM的先驗知識,通過指令調優來增強模型的方向理解能力。此外,團隊還引入了EgoOrientBench基準測試,用于評估MLLMs在不同任務中的方向理解能力。
?? 實驗設計:研究團隊在五個不同的數據集上進行了實驗,包括ImageNet、D3、DomainNet、PACS和OmniObject3D。實驗設計了三個任務:選擇(Choose)、驗證(Verify)和自由形式(Freeform),以全面評估模型在不同條件下的方向理解能力。實驗結果表明,通過基于用戶視角的指令調優,MLLMs的方向理解能力得到了顯著提升,同時保持了模型的總體響應生成能力。

Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

?? 論文標題:Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
?? 論文作者:Jungeun Kim, Hyeongwoo Jeon, Jongseong Bae, Ha Young Kim
?? 研究機構: Yonsei University
?? 問題背景:手語翻譯(SLT)是一項具有挑戰性的任務,旨在將手語視頻轉換為口語句子。為了成功完成這一任務,SLT模型需要克服模態差距,識別手語組件的細微變化,并準確理解其含義。現有的基于詞匯表的SLT模型雖然通過中層監督提高了性能,但依賴于勞動密集型的詞匯注釋,存在可擴展性和信息瓶頸的問題。因此,研究團隊提出了一種新的無詞匯表SLT框架——多模態手語翻譯(MMSLT),利用現成的多模態大語言模型(MLLMs)來生成手語組件的詳細文本描述,并通過多模態語言預訓練模塊將這些描述與手語視頻特征融合,對齊到口語句子空間。
?? 研究動機:現有的無詞匯表SLT模型雖然能夠提取視覺特征并轉換為文本表示,但這些特征可能受到與SLT無關的視覺信息(如背景元素或服裝顏色)的影響,限制了其對手語組件的準確表示。為了克服這些挑戰,研究團隊提出通過多模態大語言模型(MLLMs)生成手語組件的詳細文本描述,以提供更準確和易于理解的表示,從而減少模態差距,提高翻譯準確性。
?? 方法簡介:研究團隊提出了MMSLT框架,包括兩個主要模塊:1)通過MLLM生成手語描述(GSD-MLLM)模塊,利用預訓練的MLLM生成手語視頻的詳細文本描述;2)多模態語言預訓練(MMLP)模塊,將手語視頻和相應的文本描述融合,并對齊到目標口語句子空間,減少模態差距。此外,為了提高效率,研究團隊還引入了一個描述映射器,通過預測描述嵌入特征來減輕推理過程中的計算負擔。
?? 實驗設計:研究團隊在兩個基準數據集PHOENIX14T和CSL-Daily上進行了廣泛的實驗,評估了MMSLT在不同條件下的性能。實驗設計了不同的提示類型和多模態大語言模型,以全面評估模型生成手語描述的能力和翻譯準確性。實驗結果表明,MMSLT在兩個數據集上均顯著優于現有的無詞匯表SLT方法,特別是在大規模的CSL-Daily數據集上表現尤為突出,顯著提高了BLEU-4和ROUGE分數,表明其在復雜語法和長上下文中的有效翻譯能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/914793.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/914793.shtml
英文地址,請注明出處:http://en.pswp.cn/news/914793.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

面試150——數組字符串

88. 合并兩個有序數組 給你兩個按 非遞減順序 排列的整數數組 nums1 和 nums2,另有兩個整數 m 和 n ,分別表示 nums1 和 nums2 中的元素數目。請你 合并 nums2 到 nums1 中,使合并后的數組同樣按 非遞減順序 排列。倒序比較,避免覆…

深入理解設計模式:命令模式詳解

在軟件開發中,我們經常遇到需要將"請求"或"操作"封裝成對象的情況。比如,GUI中的按鈕點擊、遙控器控制家電、事務系統中的操作回滾等場景。命令模式(Command Pattern)正是為解決這類問題而生的設計模式。本文…

自己寫的 MyHttpServlet 和直接繼承 HttpServlet 的區別

繼承你自己寫的 MyHttpServlet 和直接繼承 HttpServlet 的區別如下:1. 繼承 HttpServlet(官方推薦用法)HttpServlet 是 Java EE 官方提供的 Servlet 基類,已經實現了 Servlet 接口的大部分方法。它內部已經實現了 service() 方法&…

python庫 maya 庫的各種案例的使用詳解(人性化的日期時間處理)

文章目錄 一、Maya庫概述 1.1 maya介紹 1.2 安裝 maya 1.3 注意事項 二、基本使用 2.1 創建 MayaDT 對象 2.2 格式化輸出 2.3 時間運算 三、高級使用 3.1 時區處理 3.2 時間間隔 3.3 網絡時間獲取 四、實際應用示例 4.1 日志時間處理 4.2 會議時間提醒 4.3 國際化時間顯示 5. M…

企業選擇大帶寬服務器租用的原因有哪些?

大帶寬服務器作為各個行業使用較多的服務器類型,可以為企業提供更高的數據傳輸速率,極大縮短文件上傳與下載時間,對于大型文件,大帶寬服務器能夠將時間大幅縮減至數分鐘或數小時,提高企業整體的工作效率。大帶寬服務器…

使用canal同步分庫分表數據,到 Elasticsearch

作者:小凱 沉淀、分享、成長,讓自己和他人都能有所收獲! 本文的宗旨在于通過簡單干凈實踐的方式教會讀者,配置出一套 Canal 工具服務,來同步分庫分表的數據到 Elasticsearch 文件夾系統中。同時在 SpringBoot 工程中&a…

氣候為何愈演愈“炙” — 未來五年高溫趨勢與 AI 氣象大模型的突破性價值

早、更準 代表性模型 主要特征 應用進展 GraphCast(DeepMind) 10 天全球預報;0.25 分辨率;< 1 min 推理 90 % 指標超 ECMWF HRES,已用于極端風暴提前鎖定Google DeepMind MetNet-3(Google Research) 1–4 km 分辨率;2 min 時序;24 h 區域精細預報 美東、歐洲已在 G…

LVS四種模式及部署NAT、DR模式集群

1、lvs簡介LVS:Linux Virtual Server&#xff0c;負載調度器&#xff0c;內核集成&#xff0c;章文嵩&#xff0c;阿里四層SLB(ServerLoadBalance)是基于LVSkeepalived實現LVS 官網: http://www.linuxvirtualserver.org/LVS 相關術語VS: Virtual Server&#xff0c;負責調度RS:…

【Linux】Ubuntu22.04安裝zabbix

官方文檔&#xff1a;zabbix安裝文檔 環境如下 環境版本nginx1.26.3zabbix7.0.16mysql8.0.41 安裝nginx和mysql 一鍵部署腳本 部署zabbix #!/bin/bash wget https://repo.zabbix.com/zabbix/7.0/ubuntu/pool/main/z/zabbix-release/zabbix-release_latest_7.0ubuntu22.04_…

C++ - 仿 RabbitMQ 實現消息隊列--sqlite與gtest快速上手

目錄 SQLite 什么是 SQLite 為什么要用 SQLite SQLite3 C/C API 介紹 SQLite3 C/C API 使用 GTest GTest 是什么 GTest 使用 TEST 宏 斷言 事件機制 全局事件 TestSuite 事件 SQLite 什么是 SQLite SQLite 是一個進程內的輕量級數據庫&#xff0c;它實現了自給自足…

Web3.0 學習方案

Web3.0 學習方案 一、學習方案 &#xff08;一&#xff09;入門階段 1. 了解 Web3.0 基礎概念 學習內容&#xff1a; Web3.0 的起源、愿景、與 Web2.0 的區別區塊鏈的基本概念&#xff1a;分布式賬本、哈希、公鑰/私鑰、共識機制&#xff08;PoW、PoS、DPoS、PBFT 等&#xff0…

springboot3.5.3依賴學習

springboot3.5.3依賴學習 ? Spring Boot BOM&#xff08;spring-boot-dependencies&#xff09;是 Spring 官方維護的超級依賴清單&#xff0c;覆蓋了 Spring 生態中幾乎所有核心庫、常用工具庫及第三方依賴。其作用是統一管理這些依賴的版本&#xff0c;確保它們相互兼容。以…

制作一款打飛機游戲80:道具碰撞

目前我們仍然無法拾取這些物品&#xff0c;它們只是簡單地掉落在地上。因此&#xff0c;我們需要對這些功能進行增強。目標?彈射物品?&#xff1a;當物品生成時&#xff0c;我們希望它們能以一定的力量彈出&#xff0c;而不是無力地掉落。?添加不同類型的物品?&#xff1a;…

Python編程基礎(六)| 用戶輸入和while循環

引言 很久沒有寫 Python 了&#xff0c;有一點生疏。這是學習《Python 編程&#xff1a;從入門到實踐&#xff08;第3版&#xff09;》的課后練習記錄&#xff0c;主要目的是快速回顧基礎知識。 練習1&#xff1a;汽車租賃 編寫一個程序&#xff0c;詢問用戶要租什么樣的汽車&a…

【華為機試】HJ52 計算字符串的編輯距離

文章目錄HJ52 計算字符串的編輯距離描述輸入描述輸出描述示例1HJ52 計算字符串的編輯距離描述輸入描述輸出描述示例1解題思路算法分析動態規劃狀態轉移狀態轉移方程算法流程圖DP表格示例三種操作詳解代碼實現思路時間復雜度分析關鍵優化技巧實際應用場景算法擴展面試考點完整題…

15.手動實現BatchNorm(BN)

15.1 BatchNorm操作手動實現 import torch from torch import nndef batch_norm(X,gamma,beta,moving_mean,moving_var,eps,momentum):if not torch.is_grad_enabled():#這個是推理模式X_hat(X-moving_mean)/torch.sqrt(moving_vareps)else:assert len(X.shape) in (2,4)if le…

【項目實踐】SMBMS(Javaweb版)匯總版

文章目錄前期準備工作數據庫、數據表創建web項目創建項目文件目錄配置Tomcat&#xff0c;導入依賴建立實體類編寫基礎公共方法類導入基礎資源登錄功能登錄頁面持久層dao層的用戶登錄及接口實現dao層接口實現所需的方法業務層sevice層的接口的實現接口實現相關的業務邏輯編寫ser…

隱藏源IP的核心方案與高防實踐

一、源IP暴露的風險 直接DDoS攻擊&#xff1a;2025年Q2全球DDoS攻擊峰值達3.8Tbps&#xff08;來源&#xff1a;Cloudflare報告&#xff09;漏洞利用&#xff1a;暴露的SSH端口平均每天遭受12,000暴力破解嘗試數據泄露&#xff1a;直接連接數據庫風險提升300% 二、4種有效隱藏方…

深度學習圖像分類數據集—五種電器識別分類

該數據集為圖像分類數據集&#xff0c;適用于ResNet、VGG等卷積神經網絡&#xff0c;SENet、CBAM等注意力機制相關算法&#xff0c;Vision Transformer等Transformer相關算法。 數據集信息介紹&#xff1a;五種電器識別分類&#xff1a;[notebook, phone, powerbank, tablet, w…

Windows11家庭版配置frigate 嵌入自研算法(基于Yolov8)-【2】

使用 YOLOv8 的 results.xyxy 結構&#xff0c;下面是一個完整的 MQTT 推送腳本&#xff0c;用于把識別到的目標&#xff08;比如突涌水、水漬、障礙物等&#xff09;發送到 Frigate 的 MQTT 接口。? 前提假設 YOLOv8 推理代碼已經運行并生成 results.xyxy。每一行是 [x1, y1,…