MammothModa: Multi-Modal Large Language Model
?? 論文標題:MammothModa: Multi-Modal Large Language Model
?? 論文作者:Qi She, Junwen Pan, Xin Wan, Rui Zhang, Dawei Lu, Kai Huang
?? 研究機構: ByteDance, Beijing, China
?? 問題背景:多模態大型語言模型(MLLMs)在理解視覺輸入并生成語言方面表現出色,廣泛應用于圖像描述、視覺問答和視頻分析等領域。然而,這些模型在處理高分辨率和長時間視覺輸入時,仍面臨有效結合復雜語言理解的挑戰。
?? 研究動機:為了克服現有MLLMs的局限,研究團隊設計了MammothModa,通過三個關鍵設計洞察來提升模型性能:1) 整合視覺能力同時保持復雜的語言理解;2) 擴展上下文窗口以處理高分辨率和長時間視覺特征;3) 使用高質量的雙語數據集減少視覺幻覺。
?? 方法簡介:MammothModa的架構包括三個主要組件:高分辨率輸入的視覺編碼器和視覺合并模塊、投影層,以及帶有視覺注意力專家(VE)和共享幀位置ID的大型語言模型(LLM)。視覺合并模塊通過平均池化減少特征圖的大小,而共享幀位置ID則通過為每個視頻幀分配共享的位置編碼來避免位置插值問題。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括視覺語言理解(VLP)和圖像到圖像(I2I)任務。實驗設計了不同的動態分割方法、視覺合并窗口大小和幀位置ID的使用,以評估模型在不同條件下的性能。實驗結果表明,MammothModa在多個基準測試中表現出色,特別是在處理高分辨率圖像和長時間視頻時,顯著提高了效率和性能。
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
?? 論文標題:CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
?? 論文作者:Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen
?? 研究機構: Princeton Language and Intelligence (PLI), Princeton University, University of Wisconsin, Madison, The University of Hong Kong
?? 問題背景:當前的多模態大語言模型(Multimodal Large Language Models, MLLMs)在處理現實世界任務時表現出色,尤其是在分析科學論文或財務報告中的圖表理解方面。然而,現有的評估基準往往過于簡化和同質化,導致對模型性能的過度樂觀估計。研究表明,即使在圖表或問題稍作修改的情況下,開源模型的性能也可能大幅下降,最高可達34.5%。
?? 研究動機:為了更準確地評估MLLMs的圖表理解能力,研究團隊提出了CharXiv,這是一個包含2,323個自然、具有挑戰性和多樣性的圖表的全面評估套件。CharXiv旨在通過提供更現實和忠實的評估標準,促進未來對MLLMs圖表理解的研究。
?? 方法簡介:CharXiv的數據集從arXiv論文中手動挑選了8個主要學科的圖表,確保了圖表的視覺多樣性和復雜性。數據集包括兩種類型的問題:描述性問題(涉及基本圖表信息的提取和聚合)和推理問題(涉及復雜的視覺和數值推理)。所有問題和答案都經過人工專家的精心挑選和驗證,確保了數據集的高質量。
?? 實驗設計:研究團隊評估了13個開源模型和11個專有模型在CharXiv上的表現,特別是在描述性和推理問題上的表現。實驗結果揭示了開源模型和專有模型之間存在顯著的性能差距,尤其是在推理問題上,最強的專有模型GPT-4o的準確率為47.1%,而最強的開源模型InternVL Chat V1.5的準確率僅為29.2%。所有模型的表現都遠低于人類的80.5%。此外,研究還對模型在不同類型任務和圖表上的表現進行了細粒度分析,揭示了現有MLLMs在圖表理解方面的弱點。
DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming
?? 論文標題:DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming
?? 論文作者:Jiaxin Zhang, Wentao Yang, Songxuan Lai, Zecheng Xie, Lianwen Jin
?? 研究機構: 華南理工大學、華為云
?? 問題背景:當前的多模態大語言模型(MLLMs)在視覺文檔理解(VDU)任務中面臨重大挑戰,主要由于文檔圖像的高分辨率、密集文本和復雜布局。這些特性要求MLLMs具備高度的細節感知能力。雖然提高輸入分辨率可以改善細節感知能力,但也會導致視覺標記序列變長,增加計算成本,并對模型處理長上下文的能力構成壓力。
?? 研究動機:為了應對這些挑戰,研究團隊提出了DocKylin,這是一種以文檔為中心的MLLM,通過在像素和標記級別進行視覺內容瘦身,減少VDU場景中的標記序列長度。研究旨在通過引入自適應像素瘦身(APS)和動態標記瘦身(DTS)模塊,提高模型的性能和效率。
?? 方法簡介:研究團隊提出了一種系統的方法,通過構建自適應像素瘦身(APS)預處理模塊,利用梯度信息識別并消除文檔圖像中的冗余區域,減少冗余像素的比例,提高計算效率。此外,團隊還引入了一種基于雙中心聚類的動態標記瘦身(DTS)方法,高效地從大量視覺標記中過濾出信息標記,生成更緊湊的視覺序列。
?? 實驗設計:實驗在多個公開數據集上進行,包括DocVQA、InfoVQA、ChartQA、FUNSD、SROIE和POIE等。實驗設計了不同因素的變化,如輸入圖像的分辨率、文本密度和布局復雜性,以全面評估DocKylin在不同條件下的表現。實驗結果表明,DocKylin在多個VDU基準測試中表現出色,顯著優于現有的方法。
Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding
?? 論文標題:Read Anywhere Pointed: Layout-aware GUI Screen Reading with Tree-of-Lens Grounding
?? 論文作者:Yue Fan, Lei Ding, Ching-Chen Kuo, Shan Jiang, Yang Zhao, Xinze Guan, Jie Yang, Yi Zhang, Xin Eric Wang
?? 研究機構: University of California, Santa Cruz、eBay Inc.、Cybever
?? 問題背景:當前,圖形用戶界面(GUI)在數字設備的交互中占據核心地位,越來越多的努力被投入到構建各種GUI理解模型中。然而,這些努力大多忽略了基于用戶指示點的屏幕閱讀任務(Screen Point-and-Read, ScreenPR),這一任務對于輔助技術尤為重要,能夠為視覺障礙用戶提供有價值的幫助。
?? 研究動機:為了應對ScreenPR任務的挑戰,研究團隊開發了Tree-of-Lens (ToL) 代理,利用先進的多模態大語言模型(MLLMs)的泛化能力,處理來自不同領域的GUI截圖,并根據用戶指示的屏幕上的任意點生成自然語言描述。ToL代理不僅描述了指示區域的內容,還詳細說明了屏幕布局,從而幫助用戶全面理解界面并避免歧義。
?? 方法簡介:研究團隊提出了ToL接地機制,通過構建層次布局樹(Hierarchical Layout Tree)來表示截圖的層次結構。該樹的節點代表不同尺度的區域,通過訓練的GUI區域檢測模型自動提取局部和全局區域,形成層次布局樹。然后,根據興趣區域選擇目標路徑,生成不同視野寬度的鏡頭作為視覺提示,模擬人類逐步細化的注意力過程,以生成內容和布局描述。
?? 實驗設計:研究團隊在新提出的ScreenPR基準上評估了ToL代理,該基準包括來自網頁、移動和操作系統GUI的650張截圖,手動標注了1,500個目標點和區域。實驗設計了多種評估指標,包括人類評價和自動循環一致性評價,以全面評估ToL代理在內容和布局描述上的準確性和抗干擾能力。實驗結果表明,ToL代理在內容和布局描述的準確性上分別比基線模型提高了15%和30%以上。此外,ToL代理還被應用于移動GUI導航任務中,展示了其在識別執行路徑中不正確動作方面的實用性。
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
?? 論文標題:HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale
?? 論文作者:Junying Chen, Chi Gui, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
?? 研究機構: 深圳大數據研究院、香港中文大學(深圳)、深圳國家健康數據研究院
?? 問題背景:多模態大語言模型(MLLMs)如GPT-4V在醫療應用中表現出有限的性能,尤其是在缺乏特定于醫療領域的視覺知識方面。盡管存在一些高質量的小規模醫療視覺知識數據集,但擴展這些數據集面臨隱私和許可問題。現有方法利用PubMed的大規模去標識化醫療圖像-文本對,但數據噪聲問題仍然影響模型性能。
?? 研究動機:為了提高醫療多模態模型的性能,研究團隊提出了一種新的方法,通過利用“非盲”多模態大語言模型(MLLMs)來重新格式化PubMed的圖像-文本對,以減少數據噪聲并生成更高質量的醫療視覺問答(VQA)數據集。該方法旨在提高模型的醫療多模態能力,并為未來的醫療多模態研究提供高質量的數據資源。
?? 方法簡介:研究團隊從PubMed中篩選出高質量的醫療圖像-文本對,并使用GPT-4V作為“非盲”重新格式化工具,生成了包含130萬個醫療VQA樣本的PubMedVision數據集。該數據集通過多種對話場景和任務類型(如對齊VQA和指令調優VQA)來增強模型的多模態能力。
?? 實驗設計:研究團隊在多個基準測試上進行了實驗,包括醫療VQA基準、多模態基準MMMU Health & Medicine軌道以及傳統醫療影像任務。實驗結果表明,使用PubMedVision數據集訓練的模型在多個醫療多模態任務上顯著優于現有的開源模型。特別是,HuatuoGPT-Vision在多個醫療多模態基準測試中表現出色,顯著提升了模型的醫療多模態能力。