多模態大語言模型arxiv論文略讀(九十)

在這里插入圖片描述

Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach

?? 論文標題:Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach
?? 論文作者:Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Yuanjia Su, Hudan Pan, Zishao Zhong, M. Shamim Hossain
?? 研究機構: 廣東工業大學、南京航空航天大學、廣州中醫藥大學、沙特國王大學
?? 問題背景:隨著云計算、物聯網(IoT)和人工智能(AI)等先進技術的集成,醫療健康系統經歷了快速的發展,特別是互聯網醫療事物(IoMT)的興起,使得醫療數據的收集、傳輸和分析變得更加智能和高效。然而,醫療數據的多模態性和分布式存儲、數據安全和隱私問題、以及數據的新鮮度和質量,都是在IoMT中應用多模態大型語言模型(MLLMs)時面臨的重大挑戰。
?? 研究動機:為了應對上述挑戰,研究團隊提出了一種混合檢索增強生成(RAG)賦能的醫療MLLM框架,旨在通過跨鏈技術實現安全的數據傳輸,利用混合多模態RAG提高數據檢索和分析的質量,同時通過合同理論激勵機制鼓勵醫療數據持有者分享高質量的數據,從而提高醫療數據管理的效率和安全性。
?? 方法簡介:研究團隊設計了一種基于跨鏈技術的混合RAG-empowered MLLM框架,該框架通過多模態RAG模塊和合同理論激勵機制,實現了醫療數據的安全、高效管理和分析。此外,研究還引入了信息年齡(AoI)作為數據新鮮度的評估指標,并采用生成擴散模型(GDM)和深度強化學習(DRL)算法來確定最優的合同設計,以適應數據共享的動態環境。
?? 實驗設計:研究在多個醫療數據集上進行了實驗,驗證了所提出的混合RAG-empowered MLLM框架的有效性。實驗結果表明,該框架在提高數據管理的安全性和效率方面表現優異,特別是在數據新鮮度評估和合同設計優化方面,相比傳統的DRL方案,性能提升了20.35%。

Human-like object concept representations emerge naturally in multimodal large language models

?? 論文標題:Human-like object concept representations emerge naturally in multimodal large language models
?? 論文作者:Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He
?? 研究機構: 中國科學院自動化研究所、中國科學院腦認知與腦啟發智能技術重點實驗室、中國科學院腦科學與智能技術卓越創新中心、中國科學院大學、華南理工大學自動化科學與工程學院
?? 問題背景:人類對自然物體的概念化和分類是認知科學和神經科學的核心問題,提供了對人類感知和認知的重要見解。近年來,大規模語言模型(LLMs)的快速發展引發了關于這些模型是否也能通過接觸大量語言和多模態數據來發展人類類似的對象表示的有趣問題。
?? 研究動機:盡管深度學習系統的認知合理性引發了廣泛討論,但一個關鍵問題仍未解決:是否可以在沒有特定任務訓練的情況下自然地出現人類類似的心理表示?本研究旨在通過數據驅動的方法,探討LLMs(如ChatGPT-3.5)和多模態LLMs(如Gemini Pro Vision)是否能夠發展出人類類似的概念表示,特別是在自然物體方面。
?? 方法簡介:研究團隊采用了一種新穎的數據驅動方法,通過收集大規模的三元組相似性判斷數據集,來揭示LLMs和MLLMs中的核心維度。這些數據集包括470萬次三元組判斷,涉及1,854個自然物體。通過使用稀疏正相似性嵌入(SPoSE)方法,研究團隊識別出了66個稀疏、非負的維度,這些維度能夠很好地預測單次試驗行為和物體對之間的相似性評分。研究還通過比較模型嵌入與人類認知的核心維度,以及模型嵌入與大腦功能定義的類別選擇性ROI(如EBA、PPA、RSC和FFA)中的神經活動模式,驗證了這些嵌入的穩定性和預測能力。
?? 實驗設計:研究團隊首先從THINGS數據庫中選擇了1,854個日常生活中常見的活體和非活體物體。然后,通過三元組“不同項”任務收集了大規模的行為相似性判斷數據集。為了驗證嵌入的有效性,研究團隊使用了自然場景fMRI數據集(NSD)和表征相似性分析(RSA)方法,評估了模型嵌入在未見過的數據集上的泛化能力和與大腦神經活動的相關性。實驗結果表明,LLMs和MLLMs的嵌入在預測行為和重建表征空間方面表現出色,且與人類的嵌入有顯著的相似性。

ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities

?? 論文標題:ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
?? 論文作者:Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu
?? 研究機構: The University of Hong Kong、Shanghai AI Laboratory
?? 問題背景:盡管3D視覺定位領域取得了顯著進展,但當前的模型仍然依賴于顯式的文本描述來定位對象,并缺乏從隱式指令中推理人類意圖的能力。例如,模型無法處理像“我渴了,可以給我點喝的嗎?”這樣的隱式指令。
?? 研究動機:為了彌補這一差距,并推動具身代理在3D世界中的理解和交互能力,研究團隊提出了一個新的任務——3D推理定位(3D Reasoning Grounding),并引入了一個新的基準數據集ScanReason。該任務要求模型在預測目標對象的3D位置之前,對問題和3D環境進行聯合推理。
?? 方法簡介:研究團隊設計了一個新的框架ReGround3D,該框架由視覺中心推理模塊和3D定位模塊組成,其中包含幾何增強的回看機制。視覺中心推理模塊利用多模態大語言模型(MLLM)對3D場景和指令進行聯合推理,并預測一個特殊的標記,該標記包含目標對象的語義和位置信息。3D定位模塊使用標記的隱藏嵌入來定位目標對象,通過回看3D場景的細粒度表示。此外,研究團隊還提出了一個鏈式定位機制(Chain-of-Grounding, CoG),在推理和定位之間交替進行多輪操作,以增強3D推理定位能力。
?? 實驗設計:在提出的ScanReason基準數據集上進行了廣泛的實驗,該數據集包含超過10K個問題-答案-3D邊界框對,涉及五種推理類型:空間推理、功能推理、邏輯推理、情感推理和安全推理。實驗設計了不同類型的復雜問題,以全面評估模型在3D推理定位任務中的表現。實驗結果驗證了ReGround3D的有效性。

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

?? 論文標題:Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
?? 論文作者:Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha
?? 研究機構: University of Maryland, College Park、University of Toronto、Mila and Université de Montréal、King Abdullah University of Science and Technology (KAUST)
?? 問題背景:當前的多模態大語言模型(Multi-modal Large Language Models, MLLMs)在處理多模態內容方面取得了顯著進展,但大多數研究仍集中在需要粗粒度理解的任務上,如圖像和音頻的描述和問答。然而,對于需要細粒度時空理解的音頻-視覺任務,如音頻引導的圖像定位、圖像引導的音頻時間定位和音頻-視覺事實核查,現有模型的表現仍有待提高。
?? 研究動機:為了填補這一研究空白,研究團隊提出了Meerkat,這是一個具備細粒度時空理解能力的音頻-視覺大語言模型。Meerkat旨在通過引入新的模態對齊模塊和跨模態注意力一致性模塊,增強模型在處理復雜音頻-視覺任務時的表現,從而推動多模態理解的邊界。
?? 方法簡介:Meerkat通過兩個關鍵模塊實現其強大的細粒度理解能力:模態對齊模塊(Modality Alignment Module, AVOpT)和跨模態注意力一致性模塊(Cross-Modal Attention Consistency Enforcement Module, AVACE)。AVOpT模塊基于最優傳輸理論,學習圖像和音頻補丁之間的弱監督對齊;AVACE模塊則通過限制跨模態注意力圖在目標對象的邊界內,實現區域級別的強監督對齊。此外,研究團隊還構建了一個包含300萬指令調優樣本的大型數據集AVFIT,以及一個統一五個音頻-視覺任務的基準測試套件MeerkatBench。
?? 實驗設計:研究團隊在五個音頻-視覺任務上進行了廣泛的實驗,包括音頻引導的圖像定位、圖像引導的音頻時間定位、音頻-視覺事實核查、音頻-視覺問答和音頻-視覺描述。實驗結果表明,Meerkat在所有任務上均取得了當前最佳的性能,相對改進率最高達到37.12%。

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

?? 論文標題:A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
?? 論文作者:Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang
?? 研究機構: ByteDance Inc.、Fudan University
?? 問題背景:當前的文檔理解方法在結合光學字符識別(OCR)提取的文本和空間布局時,存在生成過長的文本序列或未能充分利用大型語言模型(LLMs)的自回歸特性等問題。這些問題限制了模型在文檔理解任務中的性能,尤其是在處理視覺豐富的文檔時。
?? 研究動機:為了克服現有方法的局限性,研究團隊提出了一種新的方法——LayTextLLM,該方法通過將每個邊界框映射到單個嵌入,并將其與文本交織,從而有效地解決了序列長度問題,同時充分利用了LLMs的自回歸特性。研究旨在提高文檔理解任務中的關鍵信息提取(KIE)和視覺問答(VQA)性能。
?? 方法簡介:LayTextLLM引入了空間布局投影器(SLP),將OCR提取的四維坐標轉換為單個嵌入,然后與文本交織。此外,研究團隊提出了兩個定制的訓練任務:布局感知的下一個詞預測(Layout-aware Next Token Prediction)和打亂的OCR監督微調(Shuffled-OCR Supervised Fine-tuning),以增強模型的布局和文本對齊能力及泛化能力。
?? 實驗設計:實驗在多個公開數據集上進行,包括文檔密集描述(DDD)、DocVQA、InfoVQA、ChartQA、VisualMRC、SROIE、CORD和FUNSD等。實驗設計了不同的訓練集組合,以評估LayTextLLM在不同任務和設置下的性能。結果表明,LayTextLLM在KIE任務上比現有方法提高了27.2%,在VQA任務上提高了12.0%。此外,LayTextLLM在零樣本和監督微調場景下均表現出色,特別是在處理高分辨率輸入時,能夠保留更多文本細節,同時減少輸入序列長度。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/84706.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/84706.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/84706.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

電腦主板VGA長亮白燈

電腦主板VGA長亮白燈 起因解決方法注意事項: 起因 搬家沒有拆機整機在車上晃蕩導致顯卡松動接觸不良(一般VGA長亮白燈都和顯卡有關,主要排查顯卡) 解決方法 將顯卡拆下重新安裝即可 注意事項: 不可直接拔下顯卡&a…

【監控】pushgateway中間服務組件

Pushgateway 是 Prometheus 生態中的一個中間服務組件,以獨立工具形式存在,主要用于解決 Prometheus 無法直接獲取監控指標的場景,彌補其定時拉取(pull)模式的不足。 其用途如下: 突破網絡限制&#xff1…

打造AI智能旅行規劃器:基于LLM和Crew AI的Agent實踐

引言 今天來學習大佬開發的一個AI驅動的旅行規劃應用程序,它能夠自動處理旅行規劃的復雜性——尋jni找航班、預訂酒店以及優化行程。傳統上,這個過程需要手動搜索多個平臺,常常導致決策效率低下。 通過利用**代理型人工智能(Age…

21. 自動化測試框架開發之Excel配置文件的測試用例改造

21. 自動化測試框架開發之Excel配置文件的測試用例改造 一、測試框架核心架構 1.1 組件依賴關系 # 核心庫依賴 import unittest # 單元測試框架 import paramunittest # 參數化測試擴展 from chap3.po import * # 頁面對象模型 from file_reader import E…

如何在電力系統中配置和管理SNTP時間同步?

在電力系統中配置和管理 SNTP 時間同步需結合行業標準(如《DL/T 1100.1-2019》)和分層架構特點,確保安全性、可靠性和精度適配。以下是具體操作指南,涵蓋架構設計、設備配置、安全管理、運維監控四大核心環節,并附典型…

MTK-關于HW WCN的知識講解

前言: 最近做項目過程中和硬件打交道比較多,現在關于整理下硬件的HW wcn的知識點 一 MTK常見的MT6631 Wi-Fi 2.4GHz 匹配調諧指南 ?拓撲結構選擇? 推薦采用并聯電容拓撲(?shunt cap topology?)代替并聯電感拓撲(?shunt inductor topology?),以減少潛在電路設計…

(1)課堂 1--5,這五節主要講解 mysql 的概念,定義,下載安裝與卸載

(1)謝謝老師: (2)安裝 mysql : (3)鏡像下載 ,這個網址很好 : (4) 另一個虛擬機的是 zhang 123456 : 接著配置…

U-Boot ARMv8 平臺異常處理機制解析

入口點:arch/arm/cpu/armv8/start.S 1. 判斷是否定義了鉤子,如有則執行,否則往下走。執行save_boot_params,本質就是保存一些寄存器的值。 2. 對齊修復位置無關碼的偏移 假設U-Boot鏈接時基址為0x10000,但實際加載到0…

mysql安裝教程--筆記

一、Windows 系統安裝 方法1:使用 MySQL Installer(推薦) 1. 下載安裝包 訪問 MySQL 官網下載頁面,選擇 MySQL Installer for Windows。 2. 運行安裝程序 雙擊下載的 .msi 文件,選擇安裝類型: ? Developer…

投資策略規劃最優決策分析

目錄 一、投資策略規劃問題詳細 二、存在最優投資策略:每年都將所有錢投入到單一投資產品中 (一)狀態轉移方程 (二)初始條件與最優策略 (三)證明最優策略總是將所有錢投入到單一投資產品中…

NGINX HTTP/3 實驗指南安裝、配置與調優

一、HTTP/3 簡介 基于 QUIC:在 UDP 之上實現的多路復用傳輸,內置擁塞控制與前向糾錯,無需三次握手即可恢復連接。零 RTT 重連:借助 TLS 1.3,實現連接恢復時的 0-RTT 數據發送(視底層庫支持)。多…

編程日志5.28

string賦值操作 算法: #include<iostream> using namespace std; int main() { //1.字符串常量的賦值 string s1; s1 = "英雄哪里出來"; cout << s1 << endl; //2.字符串變量的賦值 string s2; s2 = s1; cout <…

AE的ai圖層導到Ai

AE的ai圖層導到ai 解決方法: 1、打開ai軟件&#xff0c;不用新建&#xff0c;留在那就行。 2、在AE里選中任意一個ai文件圖層&#xff0c;只需同時按住ctrl和英文字母鍵&#xff0c;圖層就會自動全部導入到ai中 英文字母鍵的詳情可以參考&#xff1a;http://www.yayihouse.co…

【Springboot+LangChain4j】Springboot項目集成LangChain4j(下)

前置條件&#xff1a;根據上篇文章完成springboot初步集成LangChain4j 【SpringbootLangChain4j】根據LangChain4j官方文檔&#xff0c;三分鐘完成Springboot項目集成LangChain4j&#xff08;上&#xff09;-CSDN博客 但是接口方法中&#xff0c;關于大模型的配置都是寫死的&a…

好壞質檢分類實戰(異常數據檢測、降維、KNN模型分類、混淆矩陣進行模型評估)

任務 好壞質檢分類實戰 task: 1、基于 data_class_raw.csv 數據&#xff0c;根據高斯分布概率密度函數&#xff0c;尋找異常點并剔除 2、基于 data_class_processed.csv 數據&#xff0c;進行 PCA 處理&#xff0c;確定重要數據維度及成分 3、完成數據分離&#xff0c;數據分離…

以少學習:通過無標簽數據從大型語言模型進行知識蒸餾

Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data 發表&#xff1a;NNACL-Findings 2025 機構&#xff1a;密歇根州立大學 Abstract 在實際的自然語言處理&#xff08;NLP&#xff09;應用中&#xff0c;大型語言模型&#xff08…

EasyExcel使用

EasyExcel 簡介 EasyExcel 是阿里巴巴開源的一個基于 Java 的簡單、省內存的讀寫 Excel 工具。在處理大量數據時&#xff0c;它能極大地減少內存占用&#xff0c;提高性能。下面從依賴配置、模板使用到代碼調用&#xff0c;進行詳細介紹。 添加依賴 若要在項目里使用 EasyEx…

文件類型匯總

一、文檔類文件 Microsoft Office 文檔&#xff1a;.doc、.docx&#xff08;Word 文檔&#xff09;、.xls、.xlsx&#xff08;Excel 表格&#xff09;、.ppt、.pptx&#xff08;PowerPoint 演示文稿&#xff09; OpenOffice/LibreOffice 文檔&#xff1a;.odt&#xff08;文字…

OpenCV CUDA模塊圖像處理------顏色空間處理之拜耳模式去馬賽克函數demosaicing()

操作系統&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 編程語言&#xff1a;C11 算法描述 該函數用于在 GPU 上執行拜耳圖像&#xff08;Bayer Pattern&#xff09;的去馬賽克操作&#xff08;Demosaicing&#xff09;&#xff0c;將單通…

Linux: 守護進程

Linux&#xff1a; 守護進程 &#xff08;一&#xff09;前臺進程和后臺進程前臺進程后臺進程 &#xff08;二&#xff09;會話、進程組、進程的關系&#xff08;三&#xff09;守護進程創建守護進程 &#xff08;一&#xff09;前臺進程和后臺進程 前臺進程 前臺進程是指當前…