多模態大語言模型arxiv論文略讀(六十九)

在這里插入圖片描述

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

?? 論文標題:Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
?? 論文作者:Yue Zhang, Hehe Fan, Yi Yang
?? 研究機構: 浙江大學
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)通過適配器(adapters)將視覺輸入轉換為大語言模型(LLMs)可理解的token,但大多數適配器生成的視覺token與提示(prompt)無關,導致在處理復雜場景時效率低下,增加了LLMs的認知負擔。
?? 研究動機:為了提高MLLMs在處理復雜視覺場景時的效率和準確性,研究團隊提出了一種新的提示感知適配器(prompt-aware adapter),該適配器能夠根據提示動態地嵌入視覺輸入,從而更有效地捕捉與提示相關的視覺線索。
?? 方法簡介:研究團隊設計了一種包含全局注意力(global attention)和局部注意力(local attention)的提示感知適配器。全局注意力用于捕捉與提示相關的粗粒度視覺感知,而局部注意力則專注于細化對特定細粒度區域的響應。這種方法使得適配器能夠更有效地揭示視覺上下文,并將注意力轉移到相關區域。
?? 實驗設計:研究團隊在COCO-QA和MME數據集上進行了實驗,評估了提示感知適配器在不同任務(如物體分類、計數、顏色識別和位置推理)中的表現。實驗結果表明,與提示無關的基線方法相比,提示感知適配器在COCO-QA數據集上顯著提高了物體分類、計數、顏色識別和位置推理的性能,分別提升了7.71%、18.42%、12.84%和9.51%。在MME數據集上,該方法在感知任務和認知任務的總得分上分別提高了59.43%和46.91%。

LM4LV: A Frozen Large Language Model for Low-level Vision Tasks

?? 論文標題:LM4LV: A Frozen Large Language Model for Low-level Vision Tasks
?? 論文作者:Boyang Zheng, Jinjin Gu, Shijun Li, Chao Dong
?? 研究機構: Shanghai Jiao Tong University, Shanghai AI Laboratory, Nanjing University, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
?? 問題背景:大型語言模型(LLMs)的成功催生了多模態大型語言模型(MLLMs)的新研究趨勢,這些模型在計算機視覺的多個領域中改變了范式。盡管MLLMs在許多高級視覺和視覺-語言任務(如VQA和文本到圖像生成)中展示了有希望的結果,但目前尚無研究展示MLLMs如何在低級視覺任務中發揮作用。研究發現,大多數當前的MLLMs由于其視覺模塊的設計,對低級特征視而不見,因此無法解決低級視覺任務。
?? 研究動機:現有的MLLMs主要集中在文本和圖像模態的更好語義融合上,而低級視覺任務尚未顯著受益于MLLMs帶來的變化。本研究旨在探索如何利用MLLMs接受、處理和輸出低級特征,以彌合MLLMs與低級視覺任務之間的差距。這不僅能夠推動MLLMs的極限,還能為低級視覺任務提供更好的用戶交互和更高的可解釋性。
?? 方法簡介:研究團隊提出了一種框架LM4LV,該框架使凍結的LLM能夠在沒有任何多模態數據或先驗的情況下解決一系列低級視覺任務。通過訓練兩個線性層與視覺數據,凍結的LLM展示了在多種低級視覺任務上的非平凡能力。
?? 實驗設計:實驗在多個低級視覺任務上進行,包括去噪、去模糊、椒鹽噪聲去除、去雨和去遮罩。實驗設計了不同的退化類型和程度,以及不同的評估指標(如PSNR和SSIM),以全面評估模型在處理低級視覺特征方面的性能。實驗結果表明,LM4LV在所有恢復任務中均優于僅使用MAE重建退化圖像的基線方法,平均PSNR提高了3.96dB,平均SSIM提高了0.09。在空間操作任務中,LM4LV也取得了接近基線的高PSNR和SSIM值。

Human-Centered Automation

?? 論文標題:Human-Centered Automation
?? 論文作者:Carlos Toxtli
?? 研究機構: Clemson University, USA
?? 問題背景:隨著生成式人工智能(如大型語言模型LLMs和多模態大型語言模型MLLMs)的快速發展,這些技術有潛力徹底改變我們在各個行業中的工作方式和與數字系統的互動方式。然而,當前的軟件自動化技術(如機器人流程自動化RPA框架)往往需要領域專業知識,缺乏可見性和直觀界面,使得用戶難以充分利用這些技術。
?? 研究動機:本文旨在介紹并倡導新興的人類中心自動化(HCA)領域,該領域在自動化系統的設計和開發中優先考慮用戶需求和偏好。通過將用戶置于自動化過程的中心,HCA尋求創建直觀、適應性強且賦權的解決方案,使用戶能夠在無需廣泛技術知識的情況下利用AI和RPA的優勢。
?? 方法簡介:研究團隊提出了一個框架,用于設計以用戶為中心的自動化解決方案。該框架強調了考慮用戶視角的重要性,并提供了多個示例和指南,說明如何在不同領域和用例中應用HCA,以簡化工作流程并保持競爭力。
?? 實驗設計:論文討論了現有自動化方法的局限性,包括RPA和生成式AI的挑戰,以及HCA在提高生產力、創新和普及這些技術方面的潛力。研究還探討了如何利用多模態大型語言模型(MLLMs)理解用戶行為和屏幕內容,以實現更高級和上下文感知的自動化解決方案。此外,論文還探討了實現更先進和上下文感知自動化解決方案的路徑,并呼吁研究人員和實踐者關注開發適應用戶需求、提供直觀界面并利用高端AI能力的自動化技術,以創造一個更加可訪問和用戶友好的自動化未來。

A Survey of Multimodal Large Language Model from A Data-centric Perspective

?? 論文標題:A Survey of Multimodal Large Language Model from A Data-centric Perspective
?? 論文作者:Tianyi Bai, Hao Liang, Binwang Wan, Yanran Xu, Xi Li, Shiyu Li, Ling Yang, Bozhou Li, Yifan Wang, Bin Cui, Ping Huang, Jiulong Shan, Conghui He, Binhang Yuan, Wentao Zhang
?? 研究機構: 香港科技大學、北京大學、哈爾濱工業大學、蘋果公司、中國科學技術大學、上海人工智能實驗室
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)通過整合和處理來自多種模態的數據(包括文本、視覺、音頻、視頻和3D環境),增強了標準大語言模型的能力。數據在這些模型的開發和優化中起著關鍵作用。本文從數據驅動的角度全面回顧了MLLMs的文獻,探討了預訓練和適應階段的多模態數據準備方法,分析了數據集的評估方法,并回顧了評估MLLMs的基準。
?? 研究動機:盡管現有的MLLMs主要集中在模型架構的改進上,但數據對模型性能的影響同樣重要。本文旨在從數據驅動的角度提供對MLLMs的全面理解,促進該領域的進一步探索和創新。
?? 方法簡介:本文從數據收集、數據處理、數據選擇和數據評估四個方面系統地回顧了MLLMs的數據準備和管理流程。具體包括數據收集的來源、數據處理的方法(如過濾、去重和增強)、數據選擇的方法(如主動學習、分布無關和分布相關選擇),以及數據評估的方法和評估基準。
?? 實驗設計:本文沒有具體描述實驗設計,而是通過文獻回顧的方式,總結了不同階段的數據處理方法和評估標準,包括數據收集的來源、數據處理的方法、數據選擇的方法,以及數據評估的方法和評估基準。這些內容為研究人員提供了關于MLLMs數據處理的全面指南。

RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness

?? 論文標題:RLAIF-V: Open-Source AI Feedback Leads to Super GPT-4V Trustworthiness
?? 論文作者:Tianyu Yu, Haoye Zhang, Qiming Li, Qixin Xu, Yuan Yao, Da Chen, Xiaoman Lu, Ganqu Cui, Yunkai Dang, Taiwen He, Xiaocheng Feng, Jun Song, Bo Zheng, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun
?? 研究機構: 清華大學計算機科學與技術系、新加坡國立大學NExT++實驗室、哈爾濱工業大學、阿里巴巴淘寶天貓集團、鵬城實驗室
?? 問題背景:當前的多模態大語言模型(MLLMs)在處理多樣化的多模態任務時表現出色,但這些模型容易生成與人類偏好不符的錯誤內容。為了使MLLMs與人類偏好對齊,通常采用基于人類反饋的強化學習(RLHF),但這種方法依賴于勞動密集型的人工標注,難以覆蓋模型與人類偏好之間的廣泛不一致。最近,基于AI反饋的強化學習(RLAIF)作為一種替代方案,顯示出巨大潛力,但現有方法依賴于昂貴的專有模型來提供反饋,且缺乏使用開源MLLMs生成高質量反饋的知識。
?? 研究動機:為了克服現有RLAIF方法的挑戰,研究團隊提出了RLAIF-V框架,旨在通過完全開源的方式對齊MLLMs。該框架通過生成高質量的反饋數據和提供推理時間的自我反饋指導,顯著增強了模型的可信度。
?? 方法簡介:RLAIF-V框架包括兩個主要創新:1)高質量反饋生成:通過去混淆的候選響應生成策略和分而治之的方法,提高數據效率和成對偏好準確性。2)推理時間的自我反饋指導:利用直接偏好優化(DPO)對齊的模型生成的獎勵分數作為自我反饋,通過長度歸一化策略解決對較短響應的偏見。
?? 實驗設計:在六個基準數據集上進行了實驗,包括自動和人工評估。實驗設計了不同的反饋生成方法和反饋收集方法,以全面評估模型在偏好學習和推理時間的性能。實驗結果表明,RLAIF-V 7B在多個基準上顯著減少了對象幻覺和總體幻覺,而RLAIF-V 12B進一步展示了開源MLLMs的自我對齊潛力,其性能甚至超過了GPT-4V。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/79427.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/79427.shtml
英文地址,請注明出處:http://en.pswp.cn/web/79427.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python 基礎語法與數據類型(七) - 函數的定義與調用 (def, return)

文章目錄 為什么要使用函數?函數的定義 (def)函數的調用函數參數 (Parameters vs Arguments)返回值 (return)變量作用域 (簡要了解)總結練習題練習題答案 **創作不易,請大家點贊加收藏,關注我,持續更新教程!** 到目前為…

華為配置篇-RSTP/MSTP實驗

MSTP 一、簡介二、常用命令總結三、實驗 一、簡介 RSTP(快速生成樹協議)? RSTP(Rapid Spanning Tree Protocol)是 STP 的改進版本,基于 ??IEEE 802.1w 標準??,核心目標是解決傳統 STP 收斂速度慢的問…

Docker Compose 完全指南:從入門到生產實踐

Docker Compose 完全指南:從入門到生產實踐 1. Docker Compose 簡介與核心價值 Docker Compose 是一個用于定義和運行多容器 Docker 應用程序的工具。通過一個 YAML 文件來配置應用的服務,只需簡單命令就能創建和啟動所有服務。 核心優勢:…

Linux 離線安裝 Docker 和 Docker Compose 最新版 的完整指南

一、準備工作 1. 下載安裝包?(需在有網絡的機器操作): Docker 引擎:從官方倉庫下載最新二進制包 wget https://download.docker.com/linux/static/stable/x86_64/docker-24.0.6.tgz?Docker Compose:下載最新二進制…

CSS: 選擇器與三大特性

標簽選擇器 標簽選擇器就是選擇一些HTML的不同標簽&#xff0c;由于它們的標簽需求不同&#xff0c;所以CSS需要設置標簽去選擇它們&#xff0c;為滿足它們的需求給予對應的屬性 基礎選擇器 標簽選擇器 <!DOCTYPE html> <head><title>HOME</title>…

鴻蒙跨平臺開發教程之Uniapp布局基礎

前兩天的文章內容對uniapp開發鴻蒙應用做了一些詳細的介紹&#xff0c;包括配置開發環境和項目結構目錄解讀&#xff0c;今天我們正式開始寫代碼。 入門新的開發語言往往從Hello World開始&#xff0c;Uniapp的初始化項目中已經寫好了一個簡單的demo&#xff0c;這里就不再贅述…

JavaSE核心知識點02面向對象編程02-08(異常處理)

&#x1f91f;致敬讀者 &#x1f7e9;感謝閱讀&#x1f7e6;笑口常開&#x1f7ea;生日快樂?早點睡覺 &#x1f4d8;博主相關 &#x1f7e7;博主信息&#x1f7e8;博客首頁&#x1f7eb;專欄推薦&#x1f7e5;活動信息 文章目錄 JavaSE核心知識點02面向對象編程02-08&#…

【JVM-GC調優】

一、預備知識 掌握GC相關的VM參數&#xff0c;會基本的空間調整掌握相關工具明白一點&#xff1a;調優跟應用、環境有關&#xff0c;沒有放之四海而皆準的法則 二、調優領域 內存鎖競爭cpu占用io 三、確定目標 【低延遲】&#xff1a;CMS、G1&#xff08;低延遲、高吞吐&a…

基于單片機的電子法頻率計

一、電子計數法測頻率原理 通過門控控制閘門開關&#xff0c;閘門時間T自己設定&#xff0c;計數器計數脈沖個數N&#xff08;也就是待測信號&#xff09;&#xff0c;N個脈沖的時間間隔為δt,倒數即為信號的頻率f,由此 δtT/N fN/T——信號頻率 根據公式&#xff0c;如果考慮…

【C/C++】跟我一起學_C++同步機制效率對比與優化策略

文章目錄 C同步機制效率對比與優化策略1 效率對比2 核心同步機制詳解與適用場景3 性能優化建議4 場景對比表5 總結 C同步機制效率對比與優化策略 多線程編程中&#xff0c;同步機制的選擇直接影響程序性能與資源利用率。 主流同步方式: 互斥鎖原子操作讀寫鎖條件變量無鎖數據…

判斷兩臺設備是否在同一局域網內的具體方法

以下是判斷兩臺設備是否在同一局域網內的具體方法&#xff1a; 1. 檢查IP地址和子網掩碼 操作步驟&#xff1a; Windows系統&#xff1a; 按 Win R 鍵&#xff0c;輸入 cmd 并回車。輸入 ipconfig&#xff0c;查看 IPv4 地址 和 子網掩碼&#xff08;如 192.168.1.5/255.255.2…

在R語言中如何將列的名字改成別的

在 R 中&#xff0c;更改數據框&#xff08;data frame&#xff09;中列的名字可以通過多種方法實現。以下是幾種常見的方法&#xff1a; 方法 1&#xff1a;使用 names() 函數 names() 函數可以獲取或設置數據框的列名。 示例 假設我們有一個數據框 data&#xff1a; dat…

JUC并發編程(上)

一、JUC學習準備 核心知識點&#xff1a;進程、線程、并發&#xff08;共享模型、非共享模型&#xff09;、并行 預備知識&#xff1a; 基于JDK8,對函數式編程、lambda有一定了解 采用了slf4j打印日志 采用了lombok簡化java bean編寫 二、進程與線程 進程和線程概念 兩者對比…

單地平面6層PCB設計實戰:如何兼顧電源與信號完整性?

摘要&#xff1a;面對復雜系統&#xff08;SDRAM、WiFi、電機驅動等&#xff09;且僅有1層地平面的6層板設計挑戰&#xff0c;本文從層疊規劃、電源噪聲抑制、高速信號處理等角度&#xff0c;總結可落地的設計技巧與避坑指南。 一、層疊設計&#xff1a;6層板如何“擠”出最優布…

spark:map 和 flatMap 的區別(Scala)

場景設定 假設有一個包含句子的 RDD&#xff1a; scala val rdd sc.parallelize(List("Hello World", "Hi Spark")) 目標是&#xff1a;將每個句子拆分成單詞。 1. 用 map 的效果 代碼示例 scala val resultMap rdd.map(sentence > sentence…

基于VSCode+PlatformIO環境的ESP8266的HX1838紅外模塊

以下是針對ESP8266開發板的紅外遙控解碼系統開發教程&#xff0c;基于VSCodePlatformIO環境編寫 一、概述 本實驗通過ESP8266開發板實現&#xff1a; 紅外遙控信號解碼自定義按鍵功能映射串口監控輸出基礎設備控制&#xff08;LED&#xff09; 硬件組成&#xff1a; NodeMC…

Kubernetes排錯(十四):Pod狀態異常排查手冊

當你在凌晨三點收到告警&#xff0c;發現Pod在崩潰循環中掙扎時&#xff0c;如何快速定位問題&#xff1f;本文將為你梳理一套生產環境通用的Pod排錯流程&#xff0c;并附上救火隊員必備的實用命令清單&#xff01; 一、5分鐘快速定位&#xff1a;四步鎖定問題方向 步驟1&…

醫院藥品管理系統(準備工作)

準備工作 創建數據庫表 搭建Springboot框架 創建工程 定位maven 其他準備工作 創建數據庫表 建了九張表 搭建Springboot框架 創建工程 定位maven 把鏡像改為國內的 其他準備工作 安裝Lombok插件 額外添加依賴 如果添加依賴的過程中一直爆紅&#xff0c;可以刷新…

SpringBoot異步處理@Async深度解析:從基礎到高階實戰

一、異步編程基礎概念 1.1 同步 vs 異步 特性同步異步執行方式順序執行&#xff0c;阻塞調用非阻塞&#xff0c;調用后立即返回線程使用單線程完成所有任務多線程并行處理響應性較差&#xff0c;需等待前任務完成較好&#xff0c;可立即響應新請求復雜度簡單直觀較復雜&#…

簡單的強化學習舉例

1&#xff0c;定義獎勵函數 首先&#xff0c;需要根據具體的任務需求來定義獎勵函數。例如&#xff0c;對于機器人導航任務&#xff0c;可以根據機器人與目標點的距離來定義獎勵函數&#xff1a; import numpy as npdef navigation_reward(robot_position, target_position):…