多模態大語言模型arxiv論文略讀(140)

在這里插入圖片描述

SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation

?? 論文標題:SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation
?? 論文作者:Junda Wang, Yujan Ting, Eric Z. Chen, Hieu Tran, Hong Yu, Weijing Huang, Terrence Chen
?? 研究機構: United Imaging Intelligence, Manning College of Information and Computer Sciences, University of Massachusetts Amherst, Department of Medicine, University of Massachusetts Medical School, Miner School of Computer and Information Sciences, University of Massachusetts Lowell
?? 問題背景:多模態大語言模型(MLLMs)在醫療領域面臨挑戰,主要由于其在理解特定領域視覺特征方面的局限性。盡管在實驗室環境中表現出色,但這些模型在實際應用中往往表現不佳,尤其是在處理復雜的醫學圖像和文本描述時。此外,高質量的標注醫療數據獲取困難,進一步限制了這些模型的性能和可擴展性。
?? 研究動機:為了克服現有醫療多模態模型在實際應用中的局限性,研究團隊提出了一種新的方法,通過構建SemiHVision數據集,結合人類標注和自動化增強技術,以提高模型的醫學知識表示和診斷推理能力。此外,研究團隊還開發了新的評估基準JAMA Clinical Challenge,以更準確地評估模型在實際臨床任務中的表現。
?? 方法簡介:研究團隊構建了SemiHVision數據集,該數據集結合了人類標注和自動化增強技術,涵蓋了多種醫學影像模態(如X射線、CT、MRI等)。通過多模態檢索系統,該數據集能夠從OpenGuidelines和Eurorad等資源中檢索相關指南和類似病例,生成高質量的圖像標注和臨床報告。此外,研究團隊還設計了專門的醫療問答對,用于優化模型的診斷推理和醫療決策能力。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括SLAKE、VQA-RAD和JAMA Clinical Challenge。實驗設計了不同的評估指標,以全面評估模型在傳統基準和實際臨床任務中的表現。實驗結果表明,PMC-Cambrian-AN在多個任務上顯著優于現有的公共醫療模型和通用模型,特別是在JAMA Clinical Challenge基準上,其表現尤為突出。

LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound

?? 論文標題:LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound
?? 論文作者:Xuechen Guo, Wenhao Chai, Shi-Yan Li, Gaoang Wang
?? 研究機構: ZJU-UIUC Institute, Zhejiang University, University of Washington, Zhejiang University School of Medicine Sir Run Run Shaw Hospital, Shanghai Artificial Intelligence Laboratory
?? 問題背景:多模態大語言模型(Multimodal Large Language Model, MLLM)在視覺語言任務中展現出顯著的能力,但現有的通用視覺語言模型(VLM)在醫療視覺問答(Med-VQA)任務中表現不佳,尤其是在處理細微的醫學圖像時。此外,現有的醫療多模態模型在處理數據冗余時也存在不足,這在臨床場景中非常常見。
?? 研究動機:為了提高多模態大語言模型在醫療領域的適應性和魯棒性,研究團隊提出了一種細粒度的適應性VLM架構,通過參數高效的調優方法,增強模型對細微醫學視覺語義的理解,并設計了自適應采樣模塊來處理醫療場景中的數據冗余問題。
?? 方法簡介:研究團隊提出了LLaVA-Ultra,這是一種針對中文醫療領域的大型語言和視覺助手。該模型通過融合細粒度的視覺編碼器(如Segment Anything Model, SAM)和CLIP編碼器,增強了視覺特征的提取能力。此外,團隊還設計了自適應采樣策略,通過特征評分和注意力評分來篩選有效的圖像信息,以提高模型在復雜醫療場景中的表現。
?? 實驗設計:研究團隊利用從醫院數據庫中收集的大規模中文超聲多模態數據集,生成了專業的多模態指令數據,用于模型的微調。實驗在三個公開的醫療視覺問答(Med-VQA)數據集上進行,評估了LLaVA-Ultra在不同任務中的性能。實驗結果表明,LLaVA-Ultra在多個指標上超越了現有的最先進模型。

Modality-Fair Preference Optimization for Trustworthy MLLM Alignment

?? 論文標題:Modality-Fair Preference Optimization for Trustworthy MLLM Alignment
?? 論文作者:Songtao Jiang, Yan Zhang, Ruizhe Chen, Yeying Jin, Zuozhu Liu
?? 研究機構: 浙江大學、新加坡國立大學
?? 問題背景:直接偏好優化(Direct Preference Optimization, DPO)在對齊大型語言模型(LLMs)方面非常有效,但在應用于多模態模型(MLLMs)時,往往傾向于文本信息而忽視圖像信息,導致輸出不可靠和視覺幻覺。視覺幻覺是指模型生成的文本不準確地描述視覺內容或引用不存在的對象,這在視覺問答(VQA)等任務中尤為關鍵。
?? 研究動機:現有的偏好優化方法雖然在減少幻覺方面取得了一些進展,但往往忽視了文本和圖像模態偏好優化之間的平衡。為了平衡這兩種模態的偏好優化,并確保文本級別的優化能夠結合圖像偏好,研究團隊提出了模態公平偏好優化(Modality-Fair Preference Optimization, MFPO)方法。
?? 方法簡介:研究團隊首先構建了圖像偏好數據,以整合圖像級別的獎勵函數。通過提取關鍵詞并映射到相應的圖像區域,生成細粒度的噪聲圖像作為被拒絕的偏好數據。然后,設計了一個學習目標,確保模型在捕捉文本和圖像偏好時保持高質量的輸出。最后,采用多階段對齊方法來穩定訓練并提高跨模態的學習效果。
?? 實驗設計:在多個公開數據集上進行了實驗,包括Object HalBench、MMHalBench和AMBER。實驗設計了不同因素(如圖像噪聲的強度和位置)的變化,以及不同類型的評估指標(如幻覺率、覆蓋率和認知幻覺率),以全面評估模型在不同條件下的表現。實驗結果表明,MFPO顯著提高了MLLMs的可信度,尤其是在減少幻覺方面表現突出。

Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

?? 論文標題:Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining
?? 論文作者:Han Huang, Yuqi Huo, Zijia Zhao, Haoyu Lu, Shu Wu, Bingning Wang, Qiang Liu, Weipeng Chen, Liang Wang
?? 研究機構: University of Chinese Academy of Sciences (UCAS)、Baichuan Inc.、New Laboratory of Pattern Recognition (NLPR)、Institute of Automation, Chinese Academy of Sciences (CASIA)、Gaoling School of Artificial Intelligence, Renmin University of China
?? 問題背景:多模態大語言模型(MLLMs)通過整合視覺和文本模態,顯著擴展了人工智能的能力。然而,訓練MLLMs的關鍵因素之一是多模態預訓練數據集中圖像-文本對的質量。現有的基于過濾的數據質量增強方法通常會因為圖像和文本之間的語義對齊不足而丟棄大量高質量圖像數據,導致數據利用效率低下和擴展性差。
?? 研究動機:現有的過濾方法在提高數據質量的同時,不可避免地丟棄了大量高質量圖像。為了在保持高數據質量的同時最大化數據量,研究團隊提出了自適應圖像-文本質量增強器(AITQE),旨在動態評估和增強圖像-文本對的質量,從而在不顯著改變文本分布的情況下,最小化調整文本,以保留數據量并提高質量。
?? 方法簡介:研究團隊提出了AITQE模型,該模型通過文本重寫機制對低質量的圖像-文本對進行增強,并引入了對比樣本學習策略,通過在訓練過程中故意納入低質量樣本,以增強模型的評估能力。與現有方法相比,AITQE最小化調整文本,以保留數據量并提高質量,同時促進預訓練數據的高效探索。
?? 實驗設計:實驗在多個基準數據集上進行,包括SEED-Bench-2、MME、AMBER、OKVQA、VQAv2、DocVQA、TextVQA和Textcaps。實驗設計了不同數據集的隨機采樣和AITQE增強數據的對比分析,以全面評估模型在不同條件下的表現。實驗結果表明,AITQE在多個基準測試中超越了現有方法,有效地利用了原始數據,并且隨著數據量的增加,表現更加穩定。

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

?? 論文標題:LLaVA-KD: A Framework of Distilling Multimodal Large Language Models
?? 論文作者:Yuxuan Cai, Jiangning Zhang, Haoyang He, Xinwei He, Ao Tong, Zhenye Gan, Chengjie Wang, Xiang Bai
?? 研究機構: 華中科技大學、浙江大學、騰訊優圖實驗室、華中農業大學
?? 問題背景:大型語言模型(LLM)的成功促使研究人員探索多模態大型語言模型(MLLM),以實現統一的視覺和語言理解。然而,MLLM的模型規模和計算復雜度限制了其在資源受限環境中的應用。小型MLLM(s-MLLM)雖然減少了計算需求,但性能顯著下降。為了解決這些問題,研究團隊提出了一種新的框架LLaVA-KD,通過知識蒸餾技術將大型MLLM(l-MLLM)的知識轉移到小型MLLM。
?? 研究動機:現有的研究主要通過優化模型結構和提高訓練數據質量來提升小型MLLM的性能,但這些方法通常需要復雜的模型結構或多個教師模型。本研究旨在通過優化訓練策略,而不改變模型架構,來顯著提升小型MLLM的性能。
?? 方法簡介:研究團隊提出了一個三階段的訓練方案,包括蒸餾預訓練(DPT)、監督微調(SFT)和蒸餾微調(DFT)。DPT階段通過多模態蒸餾(MDist)和關系蒸餾(RDist)來對齊視覺和文本特征;SFT階段通過監督學習初始化模型的推理和指令跟隨能力;DFT階段進一步通過MDist和RDist將大型MLLM的能力轉移到小型MLLM。
?? 實驗設計:研究團隊在五個流行的多模態基準數據集上進行了實驗,包括VQAv2、VizWiz、MMB、GQA和POPE。實驗設計了不同的訓練階段和蒸餾策略,以全面評估LLaVA-KD的有效性和效率。實驗結果表明,LLaVA-KD在模型規模為1B參數的情況下,顯著超越了現有的大型MLLM模型,如BLIP2-13B和InstructBLIP-7B。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/88967.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/88967.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/88967.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

模型預測控制專題:無差拍預測電流控制

前言: 為了進一步深入探索電機控制這個領域,找到了一些志同道合的同學一起來進行知識的分享。最近群里投票后續更新內容,票數最多的方向就是模型預測控制;無論這個方向目前是否還是很火,至少應大家需求,工…

Youtube雙塔模型

1. 引言 在大規模推薦系統中,如何從海量候選物品中高效檢索出用戶可能感興趣的物品是一個關鍵問題。傳統的矩陣分解方法在處理稀疏數據和長尾分布時面臨挑戰。本文介紹了一種基于雙塔神經網絡的建模框架,通過采樣偏差校正技術提升推薦質量,并…

.net8創建tcp服務接收數據通過websocket廣播

注冊TCP服務器 注冊WebSocket中間件 using System.Net; using System.Net.Sockets; using System.Text; using System.Text.Json; using Microsoft.AspNetCore.Builder; using Microsoft.AspNetCore.Http; using Microsoft.AspNetCore.SignalR.Client; using Microsoft.AspNet…

閱讀服務使用示例(HarmonyOS Reader Kit)

閱讀服務使用示例(HarmonyOS Reader Kit) Reader Kit到底能干啥? 第一次搞電子書閱讀器,真以為就是“讀txt顯示出來”這么簡單,結果各種格式、排版、翻頁動效、目錄跳轉……全是坑。還好有Reader Kit,救了…

ASP.NET Core Web API 實現 JWT 身份驗證

在ASP.NET Core WebApi中使用標識框架(Identity)-CSDN博客 因為一般需要和標識框架一起使用,建議先查看標識框架用法 一.為什么需要JWT 我們的系統需要實現認證,即服務端需要知道登錄進來的客戶端的身份,管理員有管理員的權限,普通用戶有普通用戶的權限. 但服務…

優化Cereal宏 一行聲明序列化函數

Cereal序列化庫中宏遞歸展開的優化方案及技術解析 未優化&#xff1a;參考nlohmann json設計Cereal宏 一行聲明序列化函數 宏實現 #include <cereal/cereal.hpp>// 強制二次展開 #define CEREAL_EXPAND( x ) x// 獲取宏參數的數量&#xff0c;對應的CEREAL_PASTEn宏NAME…

14-C#的彈出的窗口輸入與輸出

C#的彈出的窗口輸入與輸出 1.文件名輸入 string fileName Interaction.InputBox("輸入保存的文件名", "保存");2.彈窗信息輸出 MessageBox.Show("請選擇輪詢!", "Error", MessageBoxButtons.OK);catch (Exception ex){MessageBox.S…

多模態大語言模型arxiv論文略讀(141)

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance ?? 論文標題&#xff1a;Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance ?? 論文作者&#xff1a;Zhangwei …

VScode使用usb轉網口遠程開發rk3588

我使用的是魯班貓的板&#xff0c;只有一個網口&#xff0c;需要接雷達&#xff0c;因此另外弄了一個usb轉網口來連接電腦開發。 在使用vscode或MobaXterm連接板子時&#xff0c;使用主機名與用戶名來連接&#xff1a; ssh catlubancat rk那邊就直接插入usb轉網口以及網線&a…

AUTOSAR圖解==>AUTOSAR_AP_EXP_SOVD

AUTOSAR服務導向車輛診斷詳解 面向現代化車輛架構的診斷方案 目錄 1. 引言 1.1 ASAM SOVD簡介1.2 SOVD產生的動機 2. SOVD參考架構 2.1 SOVD網關2.2 診斷管理器2.3 SOVD到UDS轉換2.4 后端連接 3. SOVD用例 3.1 SOVD和UDS的共同用例3.2 SOVD特定用例 3.2.1 訪問權限3.2.2 軟件更…

第八講:STL簡介

1. 什么是STL STL(standard template libaray-標準模板庫)&#xff1a;是C標準庫的重要組成部分&#xff0c;不僅是一個可復的 組件庫&#xff0c;而且是一個包羅數據結構與算法的軟件框架。 2. STL的版本 a. 原始版本 Alexander Stepanov、Meng Lee 在惠普實驗室完成的原始版本…

高彈性、高可靠!騰訊云 TDMQ RabbitMQ Serverless 版全新發布

導語 2025年6月起&#xff0c;騰訊云 TDMQ RabbitMQ 版正式推出 Serverless 版本&#xff0c;該版本基于自研的存算分離架構&#xff0c;兼容 AMQP 0-9-1 協議和開源 RabbitMQ 的各個組件與概念&#xff0c;且能夠規避開源版本固有的不抗消息堆積、腦裂等穩定性缺陷&#xff0…

Linux 內存調優之 BPF 分析用戶態小內存分配

寫在前面 博文內容為 使用 BPF 工具跟蹤 Linux 用戶態小內存分配(brk,sbrk)理解不足小伙伴幫忙指正 ??,生活加油我看遠山,遠山悲憫 持續分享技術干貨,感興趣小伙伴可以關注下 _ brk 內存分配簡單概述 一般來說,應用程序的數據存放于堆內存中,堆內存通過brk(2)系統調用進…

心理測評app心理測試系統框架設計

一、邏輯分析 用戶管理邏輯 新用戶注冊&#xff1a;需要收集用戶的基本信息&#xff0c;如用戶名、密碼、郵箱等&#xff0c;并且要對輸入信息進行合法性校驗&#xff0c;確保信息完整且符合格式要求。同時&#xff0c;為每個新用戶生成唯一的標識符&#xff0c;方便后續數據管…

配置有nvlink的H20A800使用pytorch報錯

背景 裝有nvlink的h20機器上配置好驅動和cuda之后使用pytorch報錯 A800機器同樣 (pytorch2.4) rootxx-dev-H20:~# python Python 3.12.0 | packaged by Anaconda, Inc. | (main, Oct 2 2023, 17:29:18) [GCC 11.2.0] on linux Type “help”, “copyright”, “credits” or …

sql的語句執行過程

第一步&#xff1a;客戶端把語句發給服務器端執行 當我們在客戶端執行SQL語句時&#xff0c;客戶端會把這條SQL語句發送給服務器端&#xff0c;讓服務器端的進程來處理這語句。也就是說&#xff0c;Oracle 客戶端是不會做任何的操作&#xff0c;他的主要任務就是把客戶端產生的…

深度學習-分類

深度學習-分類方式 &#xff08;重點&#xff09;一、按數據類型與處理邏輯分類1. 序列數據&#xff08;時序/順序相關&#xff09;2. 網格狀數據&#xff08;空間相關&#xff09;3. 圖結構數據&#xff08;非歐幾里得結構&#xff09;4. 其他特殊類型數據 &#xff08;重點&a…

C語言---常見的字符函數和字符串函數介紹

目錄 前言 1 字符分類函數 2 字符轉換函數 3 strlen的使用和模擬實現 3.1 strlen的模擬實現 4 strcpy的使用和模擬實現 4.1 strcpy的模擬實現 5 strcat的使用和模擬實現 5.1 strcat的模擬實現 6 strcmp的使用和模擬實現 6.1 strcmp的模擬實現 7 strncpy函數的使用…

Minio入門+適配器模式(實戰教程)

一、安裝Minio 1.1 拉取鏡像 docker pull minio/minio docker images 1.2創建掛載目錄 1.2.1 創建數據目錄 mkdir -p /docker-minio/data 1.2.2 創建配置文件目錄 mkdir -p /docker-minio/config 1.2.3 設置權限 chmod -R 777 /docker-minio/data /docker-minio/config …

LLaMA-Factory 對 omnisql 進行 ppo dpo grpo nl2sql任務 實現難度 時間 全面對比

在LLaMA-Factory框架下&#xff0c;針對omnisql任務&#xff08;自然語言到SQL生成&#xff09;應用PPO、DPO、GRPO三種算法的實現難度、時間及全面對比如下&#xff1a; 一、實現難度對比 1. PPO&#xff08;近端策略優化&#xff09; 難度&#xff1a;★★☆☆☆&#xff…