多模態大語言模型arxiv論文略讀（六十五）

請添加圖片描述

VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons

?? 論文標題：VS-Assistant: Versatile Surgery Assistant on the Demand of Surgeons
?? 論文作者：Zhen Chen, Xingjian Luo, Jinlin Wu, Danny T. M. Chan, Zhen Lei, Jinqiao Wang, Sebastien Ourselin, Hongbin Liu
?? 研究機構: Centre for Artificial Intelligence and Robotics (CAIR), HKISI-CAS; Dept. of Surgery, The Chinese University of Hong Kong; King’s College London
?? 問題背景：當前的計算機輔助手術技術在提高手術干預的患者安全和治療效果方面發揮了重要作用。然而，現有的手術算法大多針對單一任務和場景設計，需要手動組合不同功能，這限制了其在實際應用中的靈活性和適用性。因此，需要一個能夠準確理解外科醫生意圖并根據需求執行特定任務的智能手術助手。
?? 研究動機：現有的大型語言模型（LLMs）和多模態大型語言模型（MLLMs）在理解、推理和規劃方面表現出色，但它們在手術室環境中存在三個主要不足：缺乏手術專業知識、視覺理解能力不足以及無法根據外科醫生的意圖調用不同的手術算法。為了解決這些問題，研究團隊提出了一種多功能手術助手（VS-Assistant），旨在通過多模態理解和功能調用來提高手術過程的支持能力。
?? 方法簡介：VS-Assistant 通過利用多模態大型語言模型（MLLMs）的能力，能夠準確理解外科醫生的意圖并完成一系列手術理解任務，如手術場景分析、手術器械檢測和分割。具體來說，研究團隊設計了手術 LLM 調整策略，以生成具有手術專業知識的定制 LLM。為了實現卓越的手術多模態理解，研究團隊提出了混合投影器（MOP）模塊，通過動態路由策略將手術 MLLM 與自然和手術知識對齊。此外，研究團隊還設計了手術功能調用調整策略，使 VS-Assistant 能夠理解手術意圖，并通過思考、調用和回復三個步驟，按需調用一系列手術功能。
?? 實驗設計：研究團隊在神經外科數據集上進行了廣泛的實驗，評估了 VS-Assistant 在文本分析和視覺任務中的表現。實驗設計包括了不同類型的手術功能調用，以及對模型在處理多模態輸入時的準確性和響應性的評估。實驗結果表明，VS-Assistant 在理解外科醫生意圖方面比現有的 MLLM 表現更優，特別是在文本分析和視覺任務中表現出色。

A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine

?? 論文標題：A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine
?? 論文作者：Hanguang Xiao, Feizhong Zhou, Xingyue Liu, Tianqi Liu, Zhipeng Li, Xin Liu, Xiaoxuan Huang
?? 研究機構: 重慶理工大學人工智能學院
?? 問題背景：自ChatGPT和GPT-4發布以來，大型語言模型（LLMs）和多模態大型語言模型（MLLMs）因其在理解、推理和生成方面的卓越能力而受到廣泛關注，為將人工智能整合到醫學領域引入了變革性的范式。本文綜述了LLMs和MLLMs在醫學中的發展、原理、應用場景、挑戰及未來方向，旨在促進人工智能與醫療的深度融合。
?? 研究動機：盡管LLMs和MLLMs在醫學領域取得了顯著的學術突破，但醫院在訓練自己的醫療LLMs和MLLMs以及將其部署到實際臨床應用中仍面臨諸多挑戰。本文旨在通過回顧LLMs和MLLMs的發展背景、結構特點、訓練和評估方法，以及總結其在臨床實踐中的應用、挑戰和潛在解決方案，為醫療領域的研究人員和從業人員提供全面的指導。
?? 方法簡介：本文首先回顧了LLMs和MLLMs的發展歷程，包括從監督學習到無監督預訓練與微調、無監督預訓練與提示、單模態到多模態的范式轉變。接著，文章詳細介紹了現有醫療LLMs和MLLMs的結構特點，包括編碼器-解碼器框架、視覺編碼器和模態對齊模塊。此外，文章還探討了高質量數據在模型訓練中的重要性，并提出了數據工程作為未來研究的重點方向。
?? 實驗設計：本文并未進行具體的實驗設計，而是通過文獻綜述和案例分析，系統地總結了醫療LLMs和MLLMs的構建和評估方法，包括數據集的選擇、微調方法和評估策略。文章還詳細討論了這些模型在醫療診斷、臨床報告生成、醫學教育、心理健康服務和手術輔助等領域的應用，并分析了當前面臨的挑戰和潛在的解決方案。

Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring

?? 論文標題：Incorporating Clinical Guidelines through Adapting Multi-modal Large Language Model for Prostate Cancer PI-RADS Scoring
?? 論文作者：Tiantian Zhang, Manxi Lin, Hongda Guo, Xiaofan Zhang, Ka Fung Peter Chiu, Aasa Feragen, Qi Dou
?? 研究機構: The Chinese University of Hong Kong, Technical University of Denmark, The Chinese University of Hong Kong (Department of Surgery), Shanghai Jiao Tong University, Shanghai Artificial Intelligence Laboratory
?? 問題背景：前列腺癌的診斷中，前列腺影像報告和數據系統（PI-RADS）通過MRI成像在臨床顯著前列腺癌的診斷中起著關鍵作用。然而，現有的基于深度學習的PI-RADS評分方法往往未能充分整合放射科醫生常用的PI-RADS臨床指南（PICG），這可能影響評分的準確性。
?? 研究動機：為了提高PI-RADS評分模型的準確性，研究團隊提出了一種新的方法，通過適應多模態大型語言模型（MLLM）來整合PICG，無需額外的注釋和網絡參數。該方法旨在通過特征蒸餾技術，將PICG信息有效地融入評分網絡中，從而提高模型的性能。
?? 方法簡介：研究團隊設計了一個兩階段的微調過程，首先通過開發一個領域適配層來處理3D MRI輸入，并指導MLLM區分MRI序列。在第二階段，通過將PICG轉化為指導指令，引導模型生成PICG指導的圖像特征。通過特征蒸餾，將評分網絡的特征與PICG指導的圖像特征對齊，從而實現PICG信息的有效整合。
?? 實驗設計：研究在公共數據集上進行了模型開發，并在內部數據集上進行了測試。實驗選擇了三種最先進的評分方法作為評分網絡，實驗結果表明，整合PICG后，這些方法的準確性分別提高了4.8%、5.3%和6.4%。此外，實驗還分析了不同損失函數權重α的影響以及兩階段微調的效果，進一步驗證了方法的有效性。

AMSNet: Netlist Dataset for AMS Circuits

?? 論文標題：AMSNet: Netlist Dataset for AMS Circuits
?? 論文作者：Zhuofu Tao, Yichen Shi, Yiru Huo, Rui Ye, Zonghang Li, Li Huang, Chen Wu, Na Bai, Zhiping Yu, Ting-Jung Lin, Lei He
?? 研究機構: Ningbo Institute of Digital Twin, Eastern Institute of Technology, Ningbo, China; University of California, Los Angeles, USA; Anhui University, Hefei, China; Tsinghua University, Beijing, China
?? 問題背景：當前的模擬/混合信號（AMS）集成電路（IC）設計需要大量的手動干預。盡管多模態大語言模型（MLLMs）在多個領域展現了巨大的潛力，但在AMS電路設計中的應用仍面臨挑戰，主要原因是缺乏一個全面的描述電路圖與網表關系的數據集。這限制了MLLMs在自動AMS電路設計中的應用。
?? 研究動機：為了克服上述挑戰，研究團隊設計了一種自動技術，用于將電路圖轉換為網表，并創建了AMSNet數據集，該數據集包含了晶體管級別的電路圖及其對應的SPICE格式網表。AMSNet的建立旨在為MLLMs在AMS電路設計中的應用提供數據支持，從而實現AMS電路設計的自動化。
?? 方法簡介：研究團隊提出了一種系統的方法來構建AMSNet，包括電路圖的收集、組件檢測、網絡檢測和網表生成。首先，從教科書中收集組件，然后通過對象檢測模型自動識別和標記這些組件。接著，通過搜索算法將組件組裝成電路圖，并通過網絡檢測算法識別電路中的網絡連接。最后，生成符合SPICE格式的網表。
?? 實驗設計：研究團隊在初步版本的AMSNet-1.0上進行了實驗，驗證了GPT-4在AMS電路設計中的潛力，尤其是在提供設計風格建議方面。盡管GPT-4在理解電路拓撲方面的能力有限，但AMSNet通過建立電路圖、網表和電路功能之間的對應關系，為MLLMs提供了必要的知識支持。此外，研究團隊還探討了AMSNet的未來擴展方向，包括增加晶體管尺寸和性能規格、功能宏識別、自動AMS前端設計以及構建MLLM4EDA基準測試。