多模態大語言模型arxiv論文略讀(141)

在這里插入圖片描述

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

?? 論文標題:Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance
?? 論文作者:Zhangwei Gao, Zhe Chen, Erfei Cui, Yiming Ren, Weiyun Wang, Jinguo Zhu, Hao Tian, Shenglong Ye, Junjun He, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Jifeng Dai, Wenhai Wang
?? 研究機構: Shanghai AI Laboratory, Tsinghua University, Nanjing University, Fudan University, The Chinese University of Hong Kong, SenseTime Research, Shanghai Jiao Tong University
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在視覺-語言任務中展現了卓越的性能,但其龐大的模型規模和高昂的計算成本限制了在消費級GPU或邊緣設備上的訓練和部署,阻礙了其廣泛應用。此外,MLLMs在長尾領域特定任務上的表現不佳,進一步限制了其實際應用。
?? 研究動機:為了克服現有MLLMs的計算成本高和領域適應性差的問題,研究團隊提出了一種輕量級的多模態模型Mini-InternVL,該模型在參數量大幅減少的情況下,仍能保持較高的性能。此外,研究團隊還開發了一種統一的遷移學習框架,使Mini-InternVL能夠高效地適應各種下游任務,包括自動駕駛、醫學圖像和遙感等。
?? 方法簡介:研究團隊首先通過知識蒸餾技術,使用InternViT-6B作為教師模型,訓練了一個輕量級的視覺編碼器InternViT-300M。然后,結合預訓練的語言模型(如Qwen2-0.5B、InternLM2-1.8B和Phi-3-Mini),開發了Mini-InternVL系列模型(1B、2B和4B參數量)。此外,研究團隊還提出了一種統一的遷移學習框架,通過標準化模型架構、數據格式和訓練策略,使模型能夠高效地適應特定領域的下游任務。
?? 實驗設計:研究團隊在多個通用和領域特定的基準數據集上進行了廣泛的實驗,包括AI2D、ChartQA、DocVQA、InfoVQA、MathVista和MMBench等。實驗結果表明,Mini-InternVL在通用多模態基準上達到了90%的性能,而參數量僅為大型模型的5%。在特定領域的任務中,通過少量的微調,Mini-InternVL能夠與專有商業模型相媲美。研究團隊還進行了消融實驗,探討了數據樣本量對領域適應性的影響,為MLLMs在特定領域的應用提供了有價值的見解。

IPL: Leveraging Multimodal Large Language Models for Intelligent Product Listing

?? 論文標題:IPL: Leveraging Multimodal Large Language Models for Intelligent Product Listing
?? 論文作者:Kang Chen, Qingheng Zhang, Chengbao Lian, Yixin Ji, Xuwei Liu, Shuguang Han, Guoqiang Wu, Fei Huang, Jufeng Chen
?? 研究機構: Alibaba Group, Fudan University
?? 問題背景:在消費者對消費者的(C2C)電子商務平臺上,個人賣家通常缺乏足夠的電子商務經驗,難以創建高質量的產品描述。這不僅影響了產品上市的成功率,還影響了上市產品的整體質量和可發現性。為了解決這些問題,研究團隊開發了IPL(Intelligent Product Listing),一個智能產品上市工具,旨在通過上傳產品照片自動生成產品描述,從而簡化個人賣家的產品上市過程。
?? 研究動機:現有的多模態大型語言模型(MLLMs)在視覺理解和自然語言生成方面取得了顯著進展,使得基于產品照片自動生成產品描述成為可能。然而,這些模型在生成產品描述時面臨幾個挑戰,包括缺乏領域知識、幻覺問題以及生產部署的挑戰。研究團隊通過進一步的指令調優和多模態檢索增強生成(RAG)方法,旨在提高模型的領域知識理解能力,減少幻覺問題,并確保系統的高效部署。
?? 方法簡介:研究團隊首先通過進一步指令調優,將領域知識注入到一個開源的多模態大型語言模型中,顯著增強了模型對領域知識的理解能力。其次,引入了一種創新的多模態RAG方法,通過檢索相似產品來增強描述的質量并減少幻覺風險。最后,該系統成功部署在生產環境中,為實際用戶提供了智能撰寫服務。
?? 實驗設計:研究團隊在多個數據集上進行了實驗,包括領域特定任務和通用任務。實驗評估了不同訓練數據量對模型性能的影響,以及RAG方法在減少幻覺問題方面的效果。實驗結果表明,經過領域特定訓練的模型在多個任務上顯著優于基線模型,尤其是在生成符合C2C平臺風格的產品描述方面。此外,RAG方法有效減少了模型的幻覺問題,提高了生成內容的準確性。

Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models

?? 論文標題:Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models
?? 論文作者:Zhijie Tan, Xu Chu, Weiping Li, Tong Mo
?? 研究機構: 北京大學軟件與微電子學院
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)利用文本、圖像或視頻等多種模態的上下文來解決各種多模態任務。然而,研究發現,改變多模態輸入的順序會導致模型性能在高級表現和隨機猜測之間波動。這種現象不僅存在于單模態(僅文本或僅圖像)上下文中,也存在于混合模態(圖像-文本對)上下文中。
?? 研究動機:現有的研究已經揭示了在大語言模型(LLMs)中,輸入順序對模型性能有顯著影響。為了進一步探討這種順序敏感性是否也存在于MLLMs中,以及什么樣的順序對MLLMs的性能有益,研究團隊設計了一系列實驗,旨在全面評估不同模態上下文順序對MLLMs性能的影響。
?? 方法簡介:研究團隊通過設計一系列實驗,包括文本順序敏感性、圖像順序敏感性以及混合模態順序敏感性的評估,來探討MLLMs對不同上下文順序的敏感性。實驗中,研究團隊使用了多個公開數據集,如CelebAText-HQ、COCO等,通過改變上下文中的正確選項位置,評估模型在不同位置的性能表現。
?? 實驗設計:實驗設計了三個主要任務,分別評估MLLMs在文本順序、圖像順序和混合模態順序上的敏感性。每個任務中,研究團隊通過改變正確選項的位置(如開始、中間、結束),統計模型在不同位置的準確率,以評估模型對上下文順序的依賴程度。此外,研究團隊還設計了兩個基于順序敏感性的任務:視頻-字幕匹配任務和帶有檢索增強生成(RAG)的視覺問答任務,以進一步驗證特殊位置對模型性能的提升效果。

LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding

?? 論文標題:LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding
?? 論文作者:Xiaoqian Shen, Yunyang Xiong, Changsheng Zhao, Lemeng Wu, Jun Chen, Chenchen Zhu, Zechun Liu, Fanyi Xiao, Balakrishnan Varadarajan, Florian Bordes, Zhuang Liu, Hu Xu, Hyunwoo J. Kim, Bilge Soran, Raghuraman Krishnamoorthi, Mohamed Elhoseiny, Vikas Chandra
?? 研究機構: Meta AI, King Abdullah University of Science and Technology (KAUST), Korea University
?? 問題背景:多模態大語言模型(Multimodal Large Language Models, MLLMs)在理解和分析視頻內容方面取得了顯著進展。然而,處理長視頻時,由于LLMs的上下文長度限制,仍然面臨重大挑戰。例如,處理一小時長的視頻可能需要超過200k的token,而常用的上下文長度僅為8k。這導致了在視頻處理中,尤其是在長視頻理解任務中,需要在幀數和每幀token數之間做出權衡。
?? 研究動機:為了克服長視頻處理中的上下文長度限制,研究團隊提出了LongVU,一種時空自適應壓縮機制,旨在減少視頻token數量的同時,保留視頻的視覺細節。通過這種方法,LongVU能夠在不超出常用LLMs上下文長度的情況下,處理長達一小時的視頻。
?? 方法簡介:LongVU通過三個步驟實現長視頻的有效處理:1) 利用DINOv2特征進行時間維度的幀序列壓縮,去除冗余幀;2) 通過跨模態查詢選擇性地減少某些幀的視覺token,保留關鍵幀的高分辨率token;3) 基于幀間時間依賴性進行空間token壓縮,進一步減少token數量。這種方法能夠有效地處理大量幀,同時保持視覺信息的完整性。
?? 實驗設計:研究團隊在多個視頻理解基準數據集上進行了實驗,包括EgoSchema、MVBench、VideoMME和MLVU。實驗評估了LongVU在不同視頻長度和內容類型上的表現,結果表明LongVU在多個基準測試中顯著優于現有的視頻LLMs模型,尤其是在處理長達一小時的視頻時。此外,實驗還驗證了LongVU在輕量級LLM上的有效性,展示了其在小型模型上的優越性能。

Responsible Multilingual Large Language Models: A Survey of Development, Applications, and Societal Impact

?? 論文標題:Responsible Multilingual Large Language Models: A Survey of Development, Applications, and Societal Impact
?? 論文作者:Junhua Liu, Bin Fu
?? 研究機構: Forth AI、Shopee
?? 問題背景:多語言大型語言模型(Multilingual Large Language Models, MLLMs)在推動人工智能(AI)的多語言包容性方面具有重要意義。然而,當前的MLLMs主要集中在高資源語言上,如英語,而許多低資源語言在AI技術中被忽視,導致了數字語言鴻溝和技術不平等。
?? 研究動機:為了應對多語言支持和語言包容性在最先進的大型語言模型(LLMs)中的不足,本研究探討了MLLMs的發展趨勢和有前景的方向,旨在更好地解決語言多樣性和代表性挑戰。研究強調了技術、語言和文化視角在MLLMs開發中的重要性,并提出了實際解決方案。
?? 方法簡介:研究團隊提出了一個全面的端到端框架,涵蓋了從數據預處理到模型部署的整個MLLM生命周期。此外,通過Llama2的案例研究,提供了詳細的優化策略,包括課程學習方法、分詞策略和有效的采樣方法。研究還從技術、語言和文化角度進行了跨學科分析,以更全面地理解創建有效多語言模型的復雜性。
?? 實驗設計:研究通過實際應用案例,如客戶服務、搜索引擎和機器翻譯,探討了多語言模型在不同場景下的表現。研究分析了不同語言資源類別(從0到5)的特點和挑戰,特別是低資源語言(如類別0和1的語言)在數據資源和模型性能上的不足。通過這些分析,研究提出了具體的策略,以提高MLLMs在低資源語言上的表現和包容性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/88959.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/88959.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/88959.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

VScode使用usb轉網口遠程開發rk3588

我使用的是魯班貓的板,只有一個網口,需要接雷達,因此另外弄了一個usb轉網口來連接電腦開發。 在使用vscode或MobaXterm連接板子時,使用主機名與用戶名來連接: ssh catlubancat rk那邊就直接插入usb轉網口以及網線&a…

AUTOSAR圖解==>AUTOSAR_AP_EXP_SOVD

AUTOSAR服務導向車輛診斷詳解 面向現代化車輛架構的診斷方案 目錄 1. 引言 1.1 ASAM SOVD簡介1.2 SOVD產生的動機 2. SOVD參考架構 2.1 SOVD網關2.2 診斷管理器2.3 SOVD到UDS轉換2.4 后端連接 3. SOVD用例 3.1 SOVD和UDS的共同用例3.2 SOVD特定用例 3.2.1 訪問權限3.2.2 軟件更…

第八講:STL簡介

1. 什么是STL STL(standard template libaray-標準模板庫):是C標準庫的重要組成部分,不僅是一個可復的 組件庫,而且是一個包羅數據結構與算法的軟件框架。 2. STL的版本 a. 原始版本 Alexander Stepanov、Meng Lee 在惠普實驗室完成的原始版本…

高彈性、高可靠!騰訊云 TDMQ RabbitMQ Serverless 版全新發布

導語 2025年6月起,騰訊云 TDMQ RabbitMQ 版正式推出 Serverless 版本,該版本基于自研的存算分離架構,兼容 AMQP 0-9-1 協議和開源 RabbitMQ 的各個組件與概念,且能夠規避開源版本固有的不抗消息堆積、腦裂等穩定性缺陷&#xff0…

Linux 內存調優之 BPF 分析用戶態小內存分配

寫在前面 博文內容為 使用 BPF 工具跟蹤 Linux 用戶態小內存分配(brk,sbrk)理解不足小伙伴幫忙指正 ??,生活加油我看遠山,遠山悲憫 持續分享技術干貨,感興趣小伙伴可以關注下 _ brk 內存分配簡單概述 一般來說,應用程序的數據存放于堆內存中,堆內存通過brk(2)系統調用進…

心理測評app心理測試系統框架設計

一、邏輯分析 用戶管理邏輯 新用戶注冊:需要收集用戶的基本信息,如用戶名、密碼、郵箱等,并且要對輸入信息進行合法性校驗,確保信息完整且符合格式要求。同時,為每個新用戶生成唯一的標識符,方便后續數據管…

配置有nvlink的H20A800使用pytorch報錯

背景 裝有nvlink的h20機器上配置好驅動和cuda之后使用pytorch報錯 A800機器同樣 (pytorch2.4) rootxx-dev-H20:~# python Python 3.12.0 | packaged by Anaconda, Inc. | (main, Oct 2 2023, 17:29:18) [GCC 11.2.0] on linux Type “help”, “copyright”, “credits” or …

sql的語句執行過程

第一步:客戶端把語句發給服務器端執行 當我們在客戶端執行SQL語句時,客戶端會把這條SQL語句發送給服務器端,讓服務器端的進程來處理這語句。也就是說,Oracle 客戶端是不會做任何的操作,他的主要任務就是把客戶端產生的…

深度學習-分類

深度學習-分類方式 (重點)一、按數據類型與處理邏輯分類1. 序列數據(時序/順序相關)2. 網格狀數據(空間相關)3. 圖結構數據(非歐幾里得結構)4. 其他特殊類型數據 (重點&a…

C語言---常見的字符函數和字符串函數介紹

目錄 前言 1 字符分類函數 2 字符轉換函數 3 strlen的使用和模擬實現 3.1 strlen的模擬實現 4 strcpy的使用和模擬實現 4.1 strcpy的模擬實現 5 strcat的使用和模擬實現 5.1 strcat的模擬實現 6 strcmp的使用和模擬實現 6.1 strcmp的模擬實現 7 strncpy函數的使用…

Minio入門+適配器模式(實戰教程)

一、安裝Minio 1.1 拉取鏡像 docker pull minio/minio docker images 1.2創建掛載目錄 1.2.1 創建數據目錄 mkdir -p /docker-minio/data 1.2.2 創建配置文件目錄 mkdir -p /docker-minio/config 1.2.3 設置權限 chmod -R 777 /docker-minio/data /docker-minio/config …

LLaMA-Factory 對 omnisql 進行 ppo dpo grpo nl2sql任務 實現難度 時間 全面對比

在LLaMA-Factory框架下,針對omnisql任務(自然語言到SQL生成)應用PPO、DPO、GRPO三種算法的實現難度、時間及全面對比如下: 一、實現難度對比 1. PPO(近端策略優化) 難度:★★☆☆☆&#xff…

Kingbase 數據庫中的 sys_guid() 函數報錯

解決 Kingbase 數據庫中的 sys_guid() 函數報錯問題 問題背景 Kingbase 數據庫在遷移或使用過程中,可能會遇到 select sys_guid() 函數報錯 , 提示函數不存在的情況,這通常是由于以下幾種原因造成的: 函數未正確安裝或未啟用函數參數不符合…

零基礎RT-thread第五節:電容按鍵(2)

上一章的電容按鍵完全使用的HAL庫的代碼,并沒有使用線程。這里嘗試使用線程來控制電容按鍵。 依舊是 F767 本來以為會很容易實現,沒想到嘗試了很久,電容按鍵一直沒有反應。 static rt_uint32_t measure_charge_time(void) {// 步驟1: 放電 …

華為云Flexus+DeepSeek征文|單機部署 與 CCE 高可用部署下 Dify 性能實測

引言 在當今的 AI 應用開發領域,選擇合適的部署方式對于應用的性能表現、資源利用和成本控制至關重要。華為云為開發者提供了多樣化的部署選擇,其中基于單機 Flexus 實例的基礎版部署和基于 CCE 容器的高可用版部署是兩種常見的方式。本文將深入對比這兩…

釘釘小程序框架:Pinia 狀態管理與持久化存儲封裝

上一篇文章完成了 Pinia 在釘釘小程序中的引入與基礎配置 文章地址:釘釘小程序框架引入 Pinia 狀態管理-CSDN博客 本文將深入探討如何通過Pinia 結合持久化存儲 實現用戶狀態 在上一章節中,我們已經完成了 Pinia 在釘釘小程序中的引入與基礎配置。本章將…

云計算產業鏈

一、云計算定義與分類體系 本質特征 按需服務模式:以網絡化方式提供可配置的計算資源共享池(網絡/服務器/存儲/應用)。核心能力:快速彈性擴容、資源池化共享、按使用量付費、低管理開銷。技術原理:通過分布式計算將大型…

git使用詳解和示例

什么是 Git? Git 是一個 分布式版本控制系統(DVCS),用于跟蹤文件的變化,協調多人協作開發。由 Linus Torvalds 開發,用于管理 Linux 內核代碼。 Git 的核心概念 名稱說明工作區 (Working Directory)你看到…

深度學習的引出

雖然我們的神經?絡給出了令?印象深刻的表現,但這樣的表現帶有?分神秘 ?絡中的權重和偏置是被?動發現的。這意味著我們不能?即解釋?絡怎么做的、做了什么。我們能否找 到?些?法來理解我們的?絡通過什么原理分類?寫數字?并且,在知道…

GEO(生成式引擎優化)—— 內容創作者與企業的生死新戰場

在搜索引擎優化(SEO)定義了互聯網信息獲取規則數十年后,一場由生成式人工智能(AIGC)驅動的風暴正悄然重塑整個格局。當ChatGPT、Claude、Gemini等AI助手能夠直接生成整合后的答案,而非僅僅提供鏈接列表時&a…