Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach
?? 論文標題:Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach
?? 論文作者:Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Yuanjia Su, Hudan Pan, Zishao Zhong, M. Shamim Hossain
?? 研究機構: 廣東工業大學、南京航空航天大學、廣州中醫藥大學、沙特國王大學
?? 問題背景:隨著云計算、物聯網(IoT)和人工智能(AI)等先進技術的集成,醫療健康系統經歷了快速的發展,特別是互聯網醫療事物(IoMT)的興起,使得醫療數據的收集、傳輸和分析變得更加智能和高效。然而,醫療數據的多模態性和分布式存儲、數據安全和隱私問題、以及數據的新鮮度和質量,都是在IoMT中應用多模態大型語言模型(MLLMs)時面臨的重大挑戰。
?? 研究動機:為了應對上述挑戰,研究團隊提出了一種混合檢索增強生成(RAG)賦能的醫療MLLM框架,旨在通過跨鏈技術實現安全的數據傳輸,利用混合多模態RAG提高數據檢索和分析的質量,同時通過合同理論激勵機制鼓勵醫療數據持有者分享高質量的數據,從而提高醫療數據管理的效率和安全性。
?? 方法簡介:研究團隊設計了一種基于跨鏈技術的混合RAG-empowered MLLM框架,該框架通過多模態RAG模塊和合同理論激勵機制,實現了醫療數據的安全、高效管理和分析。此外,研究還引入了信息年齡(AoI)作為數據新鮮度的評估指標,并采用生成擴散模型(GDM)和深度強化學習(DRL)算法來確定最優的合同設計,以適應數據共享的動態環境。
?? 實驗設計:研究在多個醫療數據集上進行了實驗,驗證了所提出的混合RAG-empowered MLLM框架的有效性。實驗結果表明,該框架在提高數據管理的安全性和效率方面表現優異,特別是在數據新鮮度評估和合同設計優化方面,相比傳統的DRL方案,性能提升了20.35%。
Human-like object concept representations emerge naturally in multimodal large language models
?? 論文標題:Human-like object concept representations emerge naturally in multimodal large language models
?? 論文作者:Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He
?? 研究機構: 中國科學院自動化研究所、中國科學院腦認知與腦啟發智能技術重點實驗室、中國科學院腦科學與智能技術卓越創新中心、中國科學院大學、華南理工大學自動化科學與工程學院
?? 問題背景:人類對自然物體的概念化和分類是認知科學和神經科學的核心問題,提供了對人類感知和認知的重要見解。近年來,大規模語言模型(LLMs)的快速發展引發了關于這些模型是否也能通過接觸大量語言和多模態數據來發展人類類似的對象表示的有趣問題。
?? 研究動機:盡管深度學習系統的認知合理性引發了廣泛討論,但一個關鍵問題仍未解決:是否可以在沒有特定任務訓練的情況下自然地出現人類類似的心理表示?本研究旨在通過數據驅動的方法,探討LLMs(如ChatGPT-3.5)和多模態LLMs(如Gemini Pro Vision)是否能夠發展出人類類似的概念表示,特別是在自然物體方面。
?? 方法簡介:研究團隊采用了一種新穎的數據驅動方法,通過收集大規模的三元組相似性判斷數據集,來揭示LLMs和MLLMs中的核心維度。這些數據集包括470萬次三元組判斷,涉及1,854個自然物體。通過使用稀疏正相似性嵌入(SPoSE)方法,研究團隊識別出了66個稀疏、非負的維度,這些維度能夠很好地預測單次試驗行為和物體對之間的相似性評分。研究還通過比較模型嵌入與人類認知的核心維度,以及模型嵌入與大腦功能定義的類別選擇性ROI(如EBA、PPA、RSC和FFA)中的神經活動模式,驗證了這些嵌入的穩定性和預測能力。
?? 實驗設計:研究團隊首先從THINGS數據庫中選擇了1,854個日常生活中常見的活體和非活體物體。然后,通過三元組“不同項”任務收集了大規模的行為相似性判斷數據集。為了驗證嵌入的有效性,研究團隊使用了自然場景fMRI數據集(NSD)和表征相似性分析(RSA)方法,評估了模型嵌入在未見過的數據集上的泛化能力和與大腦神經活動的相關性。實驗結果表明,LLMs和MLLMs的嵌入在預測行為和重建表征空間方面表現出色,且與人類的嵌入有顯著的相似性。
ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
?? 論文標題:ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
?? 論文作者:Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu
?? 研究機構: The University of Hong Kong、Shanghai AI Laboratory
?? 問題背景:盡管3D視覺定位領域取得了顯著進展,但當前的模型仍然依賴于顯式的文本描述來定位對象,并缺乏從隱式指令中推理人類意圖的能力。例如,模型無法處理像“我渴了,可以給我點喝的嗎?”這樣的隱式指令。
?? 研究動機:為了彌補這一差距,并推動具身代理在3D世界中的理解和交互能力,研究團隊提出了一個新的任務——3D推理定位(3D Reasoning Grounding),并引入了一個新的基準數據集ScanReason。該任務要求模型在預測目標對象的3D位置之前,對問題和3D環境進行聯合推理。
?? 方法簡介:研究團隊設計了一個新的框架ReGround3D,該框架由視覺中心推理模塊和3D定位模塊組成,其中包含幾何增強的回看機制。視覺中心推理模塊利用多模態大語言模型(MLLM)對3D場景和指令進行聯合推理,并預測一個特殊的標記,該標記包含目標對象的語義和位置信息。3D定位模塊使用標記的隱藏嵌入來定位目標對象,通過回看3D場景的細粒度表示。此外,研究團隊還提出了一個鏈式定位機制(Chain-of-Grounding, CoG),在推理和定位之間交替進行多輪操作,以增強3D推理定位能力。
?? 實驗設計:在提出的ScanReason基準數據集上進行了廣泛的實驗,該數據集包含超過10K個問題-答案-3D邊界框對,涉及五種推理類型:空間推理、功能推理、邏輯推理、情感推理和安全推理。實驗設計了不同類型的復雜問題,以全面評估模型在3D推理定位任務中的表現。實驗結果驗證了ReGround3D的有效性。
Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
?? 論文標題:Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
?? 論文作者:Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha
?? 研究機構: University of Maryland, College Park、University of Toronto、Mila and Université de Montréal、King Abdullah University of Science and Technology (KAUST)
?? 問題背景:當前的多模態大語言模型(Multi-modal Large Language Models, MLLMs)在處理多模態內容方面取得了顯著進展,但大多數研究仍集中在需要粗粒度理解的任務上,如圖像和音頻的描述和問答。然而,對于需要細粒度時空理解的音頻-視覺任務,如音頻引導的圖像定位、圖像引導的音頻時間定位和音頻-視覺事實核查,現有模型的表現仍有待提高。
?? 研究動機:為了填補這一研究空白,研究團隊提出了Meerkat,這是一個具備細粒度時空理解能力的音頻-視覺大語言模型。Meerkat旨在通過引入新的模態對齊模塊和跨模態注意力一致性模塊,增強模型在處理復雜音頻-視覺任務時的表現,從而推動多模態理解的邊界。
?? 方法簡介:Meerkat通過兩個關鍵模塊實現其強大的細粒度理解能力:模態對齊模塊(Modality Alignment Module, AVOpT)和跨模態注意力一致性模塊(Cross-Modal Attention Consistency Enforcement Module, AVACE)。AVOpT模塊基于最優傳輸理論,學習圖像和音頻補丁之間的弱監督對齊;AVACE模塊則通過限制跨模態注意力圖在目標對象的邊界內,實現區域級別的強監督對齊。此外,研究團隊還構建了一個包含300萬指令調優樣本的大型數據集AVFIT,以及一個統一五個音頻-視覺任務的基準測試套件MeerkatBench。
?? 實驗設計:研究團隊在五個音頻-視覺任務上進行了廣泛的實驗,包括音頻引導的圖像定位、圖像引導的音頻時間定位、音頻-視覺事實核查、音頻-視覺問答和音頻-視覺描述。實驗結果表明,Meerkat在所有任務上均取得了當前最佳的性能,相對改進率最高達到37.12%。
A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
?? 論文標題:A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
?? 論文作者:Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang
?? 研究機構: ByteDance Inc.、Fudan University
?? 問題背景:當前的文檔理解方法在結合光學字符識別(OCR)提取的文本和空間布局時,存在生成過長的文本序列或未能充分利用大型語言模型(LLMs)的自回歸特性等問題。這些問題限制了模型在文檔理解任務中的性能,尤其是在處理視覺豐富的文檔時。
?? 研究動機:為了克服現有方法的局限性,研究團隊提出了一種新的方法——LayTextLLM,該方法通過將每個邊界框映射到單個嵌入,并將其與文本交織,從而有效地解決了序列長度問題,同時充分利用了LLMs的自回歸特性。研究旨在提高文檔理解任務中的關鍵信息提取(KIE)和視覺問答(VQA)性能。
?? 方法簡介:LayTextLLM引入了空間布局投影器(SLP),將OCR提取的四維坐標轉換為單個嵌入,然后與文本交織。此外,研究團隊提出了兩個定制的訓練任務:布局感知的下一個詞預測(Layout-aware Next Token Prediction)和打亂的OCR監督微調(Shuffled-OCR Supervised Fine-tuning),以增強模型的布局和文本對齊能力及泛化能力。
?? 實驗設計:實驗在多個公開數據集上進行,包括文檔密集描述(DDD)、DocVQA、InfoVQA、ChartQA、VisualMRC、SROIE、CORD和FUNSD等。實驗設計了不同的訓練集組合,以評估LayTextLLM在不同任務和設置下的性能。結果表明,LayTextLLM在KIE任務上比現有方法提高了27.2%,在VQA任務上提高了12.0%。此外,LayTextLLM在零樣本和監督微調場景下均表現出色,特別是在處理高分辨率輸入時,能夠保留更多文本細節,同時減少輸入序列長度。