多模態大語言模型arxiv論文略讀(七十四)

在這里插入圖片描述

UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment

?? 論文標題:UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment
?? 論文作者:Hantao Zhou, Longxiang Tang, Rui Yang, Guanyi Qin, Yan Zhang, Runze Hu, Xiu Li
?? 研究機構: Tsinghua University、Beijing Institute of Technology、Xiamen University
?? 問題背景:圖像質量評估(IQA)和圖像美學評估(IAA)旨在模擬人類對圖像視覺質量和美學吸引力的主觀感知。盡管現有方法通常獨立處理這兩個任務,但忽略了它們之間的內在聯系,這阻礙了任務無關的共享表示的學習。為了克服這一挑戰,研究團隊提出了統一的視覺-語言預訓練模型(UniQA),以學習對兩個任務都有利的一般感知。
?? 研究動機:現有的IQA和IAA方法通常獨立處理這兩個任務,通過設計更深層次和更復雜的網絡來提高模型性能。然而,這些方法往往忽視了任務之間的共同點:模擬人類對圖像的主觀感知。研究團隊提出了一種新的方法,通過利用多模態大語言模型(MLLMs)生成高質量的文本描述,并利用這些生成的文本作為元數據來凈化IAA數據集中的噪聲,從而構建一個統一的質量和美學圖像-文本數據集。此外,研究團隊還提出了一種輕量級的適配器,以充分利用預訓練模型的廣泛知識,適應下游任務。
?? 方法簡介:研究團隊首先利用MLLMs生成與圖像質量相關的文本描述,并利用這些生成的文本作為元數據來凈化IAA數據集中的噪聲。然后,研究團隊構建了一個統一的圖像-文本數據集,用于視覺-語言對比預訓練,從而獲得具有強大多模態圖像評估感知的UniQA模型。最后,研究團隊提出了一種輕量級的多線索集成適配器,以適應特定的IQA和IAA數據集,通過調整視覺特征并注入豐富的線索來微調下游任務。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括IQA數據集FLIVE和IAA數據集AVA,以及AVA-Captions數據集。實驗評估了UniQA在典型IQA和IAA數據集上的性能,包括七個IQA數據集和兩個IAA數據集。實驗結果表明,UniQA在IQA和IAA任務上均達到了新的最先進水平,同時在零樣本和少標簽圖像評估設置中也表現出色。

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning

?? 論文標題:PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning
?? 論文作者:Yupeng Zheng, Zebin Xing, Qichao Zhang, Bu Jin, Pengfei Li, Yuhang Zheng, Zhongpu Xia, Kun Zhan, Xianpeng Lang, Yaran Chen, Dongbin Zhao
?? 研究機構: 中國科學院自動化研究所、中國科學院大學、北京郵電大學、北京航空航天大學、清華大學、理想汽車
?? 問題背景:自動駕駛車輛的運動規劃是實現舒適、安全和高效駕駛的關鍵技術。當前基于規則的車輛運動規劃方法在常見場景中表現良好,但在長尾場景中難以泛化。同時,基于學習的方法在大規模閉環場景中尚未超越基于規則的方法。為了解決這些問題,研究團隊提出了PlanAgent,這是首個基于多模態大語言模型(MLLM)的中到中規劃系統。
?? 研究動機:現有的基于規則和基于學習的方法在處理復雜和不確定的開放世界自動駕駛時仍面臨一系列挑戰。特別是,基于學習的方法在泛化到長尾場景時存在過擬合問題。為了克服這些挑戰,研究團隊提出了PlanAgent,旨在利用MLLM的常識推理和泛化能力,提高規劃系統的可靠性和安全性。
?? 方法簡介:PlanAgent通過三個核心模塊利用MLLM的強大功能:1)環境轉換模塊,從環境中提取多模態關鍵信息,構建鳥瞰圖(BEV)地圖和基于車道圖的文本描述;2)推理引擎模塊,通過層次化鏈式思維(CoT)進行多輪迭代推理,指導MLLM生成規劃代碼;3)反思模塊,通過模擬和評分驗證生成的規劃,減少MLLM的不確定性對規劃安全的影響。
?? 實驗設計:PlanAgent在大規模且具有挑戰性的nuPlan基準上進行了評估。實驗設計了詳細的消融研究,以驗證每個模塊的有效性。實驗結果表明,PlanAgent在常見場景(Val14基準)和更具挑戰性的長尾場景(Test14-hard基準)中均表現出色,優于現有的最先進方法。

LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback

?? 論文標題:LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback
?? 論文作者:Wen Lai, Mohsen Mesgar, Alexander Fraser
?? 研究機構: TUM, LMU Munich, Munich Center for Machine Learning, Bosch Center for Artificial Intelligence
?? 問題背景:盡管大型語言模型(LLMs)在多語言任務中取得了顯著進展,但大多數LLMs主要以英語文本進行訓練,僅支持有限數量的非英語語言。此外,這些模型尚未與人類偏好對齊,這對于LLMs在英語任務中的成功至關重要。因此,擴展LLMs的多語言能力,特別是支持低資源語言,成為當前研究的重要方向。
?? 研究動機:現有的多語言LLMs雖然在某些能力上表現出色,但它們支持的語言數量有限,且在低資源語言上的性能差異顯著。此外,這些模型在與人類偏好對齊方面存在不足。為了解決這些問題,研究團隊開發了xLLaMA-100和xBLOOM-100(統稱為xLLMs-100),旨在擴展LLMs的多語言能力至100種語言,并通過多語言指令調優和跨語言人類反饋對齊,提升模型的理解和生成能力。
?? 方法簡介:研究團隊構建了兩個數據集:一個包含100種語言的多語言指令數據集,另一個包含30種語言的跨語言人類反饋數據集。通過這些數據集,研究團隊對LLMs進行了多語言指令調優,并使用DPO算法進一步對齊模型與人類偏好。此外,研究團隊還評估了翻譯指令和生成響應的質量,確保模型在不同語言上的表現。
?? 實驗設計:研究團隊在五個多語言基準數據集上評估了xLLMs-100的性能,包括理解任務(PAWS-X)、推理任務(XCOPA)、生成任務(FLORES-101和XL-Sum)以及專家編寫任務(Self-Instruct*)。實驗涵蓋了高資源和低資源語言,以全面評估模型的多語言理解和生成能力。實驗結果表明,xLLMs-100在所有基準測試中均顯著優于其他模型,特別是在低資源語言上的表現尤為突出。

Parrot: Multilingual Visual Instruction Tuning

?? 論文標題:Parrot: Multilingual Visual Instruction Tuning
?? 論文作者:Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
?? 研究機構: 南京大學、阿里巴巴集團
?? 問題背景:多模態大語言模型(MLLMs)如GPT-4V的發展標志著向通用人工智能邁出的重要一步。然而,現有的方法主要通過監督微調(SFT)將視覺編碼器與大語言模型(LLMs)對齊,以賦予LLMs多模態能力。這一過程導致了MLLMs處理多種語言的能力逐漸下降,尤其是在非英語語言中的表現顯著下降。這主要是由于SFT數據集主要由以英語為中心的圖像-文本對組成,導致視覺編碼器和LLMs在多語言標記上的對齊不足。
?? 研究動機:研究團隊發現,由于多語言數據的不平衡,MLLMs在非英語語言中的表現顯著下降。為了增強MLLMs的多語言能力,研究團隊提出了一種新的方法——PARROT,該方法利用文本引導來驅動視覺標記在語言層面的對齊,從而將視覺標記轉換為語言特定的嵌入。
?? 方法簡介:PARROT通過計算初始視覺特征和文本嵌入之間的交叉注意力,將結果輸入到Mixture-of-Experts (MoE) 路由器中,選擇最相關的專家,將初始視覺標記轉換為語言特定的視覺標記。具體來說,PARROT首先通過視覺編碼器提取視覺特征,并通過投影器將其轉換為語言嵌入標記Hv。然后,通過交叉注意力機制將Hv與文本嵌入Ht對齊,生成語言特定的視覺特征H’v。最后,通過MoE模塊將Hv轉換為語言特定的視覺嵌入Gv。
?? 實驗設計:研究團隊在兩個多語言基準數據集(MMBench和MMMB)上進行了實驗,評估了PARROT在不同語言任務中的表現。MMMB包括6種語言(英語、中文、葡萄牙語、阿拉伯語、土耳其語和俄語),15個類別,共12,000個問題。實驗結果表明,PARROT在多語言任務中表現出色,特別是在土耳其語和阿拉伯語中,性能超過了LLaVA-NeXT。此外,PARROT在多個多模態基準數據集(如MME、ScienceQA-IMG和SEED-Bench-IMG)上也表現出競爭力。

Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning

?? 論文標題:Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
?? 論文作者:Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou
?? 研究機構: National University of Singapore (Show Lab)、Microsoft Gen AI、Central South University
?? 問題背景:當前的多模態模型在處理長文本上下文時面臨顯著的GPU內存和計算成本挑戰。例如,處理MMC4和OBELICS數據集中的5M和10M數據項時,即使僅處理256個文本令牌,OpenFlamingo-9B仍需32個80GB的A100 GPU運行超過三天。這突顯了開發更高效的計算方法以有效處理長上下文文本的必要性。
?? 研究動機:為了應對上述挑戰,研究團隊提出了一種創新方法——Visualized In-Context Text Processing (VisInContext),該方法通過將長文本內容轉換為圖像,并利用視覺編碼器提取文本表示,從而顯著減少GPU內存使用和浮點運算(FLOPs),同時擴展模型的上下文文本長度。
?? 方法簡介:VisInContext方法基于Flamingo架構,通過將部分上下文文本渲染成圖像,然后使用視覺編碼器處理這些圖像,從而在不增加文本令牌長度的情況下擴展上下文文本長度。該方法包括文本渲染、Token Masking機制和Text-Centric Contrastive Learning (TCCL)等關鍵技術,以確保模型能夠從渲染的文本圖像中有效學習文本語義。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括Vision-Language Perception (VLP) 和 Image-to-Image (I2I) 任務。實驗設計了不同的文本渲染參數(如字體大小、間隔閾值)和不同的任務設置(如文本僅上下文示例、文檔理解任務、順序多模態檢索任務),以全面評估VisInContext方法的有效性和效率。實驗結果表明,VisInContext不僅顯著提高了模型在多模態下游任務中的性能,還大幅降低了計算成本,特別是在處理長文檔時表現出色。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/905446.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/905446.shtml
英文地址,請注明出處:http://en.pswp.cn/news/905446.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Flutter - UIKit開發相關指南 - 線程和異步

線程和異步 編寫異步代碼 Dart采用單線程執行模型,支持Isolates(在另一個線程上運行Dart代碼)、事件循環和異步編程。除非生成一個Isolates,否則Dart代碼將在主UI線程中運行,并由事件循環驅動。Flutter的事件循環相當于iOS的主線程上的RunLoop。 Dart…

【愚公系列】《Manus極簡入門》038-數字孿生設計師:“虛實映射師”

🌟【技術大咖愚公搬代碼:全棧專家的成長之路,你關注的寶藏博主在這里!】🌟 📣開發者圈持續輸出高質量干貨的"愚公精神"踐行者——全網百萬開發者都在追更的頂級技術博主! &#x1f…

西門子WinCC Unified PC的GraphQL使用手冊

TIA V20版本:添加用戶 添加角色,并充分授權,尤其是GraphQL的讀寫權限。 通過SIMATIC Runtime Manager啟動wincc unifi工程。 打開瀏覽器,訪問本地的https://localhost/graphql/,運行正常如圖: 連接外…

開源長期主義:淺談DeepSeek技術主張與早期論文

開源、長期主義與DeepSeek的技術愿景 ©作者|格林 來源|神州問學 導入:Deepseek在早期就開源了許多優秀的指令模型與對話模型,并發布了多篇論文。以下,我們將基于Deepseek在早期發布的6篇論文,來梳理Deepseek公司的技術路徑與…

TTS-Web-Vue系列:Vue3實現內嵌iframe文檔顯示功能

🖼? 本文是TTS-Web-Vue系列的新篇章,重點介紹如何在Vue3項目中優雅地實現內嵌iframe功能,用于加載外部文檔內容。通過Vue3的響應式系統和組件化設計,我們實現了一個功能完善、用戶體驗友好的文檔嵌入方案,包括加載狀態…

Elasticsearch索引設計與調優

一、分片策略設計 1.?分片容量規劃 單分片容量建議30GB(日志場景可放寬至100GB),避免超大分片引發查詢延遲。分片總數計算公式:總數據量 / 30GB 1.2(20%余量應對未來增長)。主分片數創建后不可修改,副本分片數支持動態調整。2.?分片分布優化 PUT logs-2025 { &qu…

Spring AI 集成 Mistral AI:構建高效多語言對話助手的實戰指南

Spring AI 集成 Mistral AI:構建高效多語言對話助手的實戰指南 前言 在人工智能應用開發領域,選擇合適的大語言模型(LLM)與開發框架至關重要。Mistral AI 憑借其高效的多語言模型(如 Mistral-7B、Mixtral-8x7B 等&am…

從新手到高手:全面解析 AI 時代的「魔法咒語」——Prompt

引言:AI 時代的「語言煉金術」 在人工智能技術突飛猛進的今天,我們正在經歷一場堪比工業革命的生產力變革。從聊天機器人到圖像生成,從數據分析到自動化寫作,AI 模型正在重塑人類與信息交互的方式。而在這一切背后,隱…

MySQL 8.0安裝(壓縮包方式)

MySQL 8.0安裝(壓縮包方式) 下載安裝包并解壓 下載 https://dev.mysql.com/downloads/mysql/可關注“后端碼匠”回復“MySQL8”關鍵字獲取 解壓(我解壓到D:\dev\mysql-8.4.5-winx64目錄下) 創建mysql服務 注意,這步之前一定要保證自己電…

免費Ollama大模型集成系統——Golang

Ollama Free V2 Web 功能實現:界面交互與后端邏輯 一、Web 界面概述 Ollama Free V2 的 Web 界面提供了豐富的交互功能,包括模型選擇、圖片上傳、歷史記錄查看等。界面使用 Bootstrap 進行布局,結合 JavaScript 實現動態交互。 二、前端界…

【AI】人工智能數據標注細分和商業機會

一、數據標注的常見方法 數據標注是為人工智能模型訓練提供高質量標簽的過程,根據數據類型(圖像、文本、音頻、視頻等)的不同,標注方法也有所差異: 1. 圖像標注 分類標注:為圖像分配類別標簽&#xff08…

lanqiaoOJ 652:一步之遙 ← 擴展歐幾里得定理

【題目來源】 https://www.lanqiao.cn/problems/652/learning/ 【題目背景】 本題為填空題,只需要算出結果后,在代碼中使用輸出語句將所填結果輸出即可。 【題目描述】 從昏迷中醒來,小明發現自己被關在X星球的廢礦車里。礦車停在平直的廢棄…

HTTP / HTTPS 協議

目錄 一、前言: 二、Fiddler 抓包工具: 三、http 協議: 1、http 請求: 1.(1)請求行: 1、(2) 請求頭: 1、(3) 請求正文: 2、http 響應: 2、(1) 狀態碼&#x…

使用泛型加載保存數據

文章速覽 泛型泛型概述定義優點 實例加載數據保存數據 一個贊,專屬于你的足跡! 泛型 泛型概述 泛型(Generics)是 C# 中一種重要的編程特性,它允許程序員編寫靈活且類型安全的代碼。通過使用泛型,可以創建…

Redis內存淘汰策略和過期鍵刪除策略有哪些?

Redis 提供 8 種內存淘汰策略,以下是詳細解析及場景建議: 一、核心策略解析 noeviction (默認策略) 機制:內存滿時拒絕新寫入操作,返回錯誤優勢:絕對數據安全場景:金融交易系統、醫療數據存儲 allkeys-lr…

【C/C++】自定義類型:結構體

文章目錄 前言自定義類型:結構體1.結構體類型的聲明1.1 結構體回顧1.1.1 結構的聲明 1.1.2 結構體變量的創建和初始化1.2 結構的特殊聲明1.3 結構的自引用 2.結構體內存對齊2.1 對?規則2.2 為什么存在內存對齊?2.3 修改默認對?數 3. 結構體傳參4.結構體…

PPO算法:一種先進的強化學習策略

什么是PPO算法? PPO(Proximal Policy Optimization)是一種增強學習算法,主要應用于解決連續控制任務。PPO算法在2017年由OpenAI提出,旨在解決傳統策略梯度方法在連續控制任務中面臨的挑戰。PPO算法通過引入一個近似目…

OpenCV實現數字水印的相關函數和示例代碼

OpenCV計算機視覺開發實踐:基于Qt C - 商品搜索 - 京東 實現數字水印的相關函數 用OpenCV來實現數字水印功能,需要使用一些位操作函數,我們需要先了解一下這些函數。 1. bitwise_and函數 bitwise_and函數是OpenCV中的位運算函數之一&…

基于Python的計算機科學研究話題管理系統的設計與實現 - 爬蟲

標題:基于Python的計算機科學研究話題管理系統的設計與實現 - 爬蟲 內容:1.摘要 本文聚焦于基于Python的計算機科學研究話題管理系統的爬蟲部分。背景是隨著計算機科學研究的快速發展,相關話題數據海量且分散,人工管理效率低。目的是設計并實現一個能高…

告別手動解析!借助 CodeBuddy 快速開發網頁源碼提取工具

作為一名長期從事 Web 開發的程序員,我們在日常工作中,時不時會需要查看網頁的源代碼。這么做的目的通常是為了排查前端渲染的問題、分析接口返回的數據結構,或者就是單純地想快速提取頁面中的某些信息,比如文章鏈接、圖片地址&am…