多模態大語言模型arxiv論文略讀（二）

請添加圖片描述

Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space

?? 論文標題：Identifying the Correlation Between Language Distance and Cross-Lingual Transfer in a Multilingual Representation Space
?? 論文作者：Fred Philippy, Siwen Guo, Shohreh Haddadan
?? 研究機構: Zortify Labs, Zortify S.A., SnT, University of Luxembourg
?? 問題背景：多語言語言模型（MLLMs）在跨語言遷移學習中表現出色，但其在不同語言表示空間中的影響以及這些影響如何與語言距離相關聯，尚未得到充分研究。盡管最先進的MLLMs如mBERT和XLM-R旨在將文本投影到語言無關的嵌入空間，但實證研究表明，這些模型在所有層中編碼了特定語言的信息，這導致了在共享的多語言表示空間中識別出不同的單語表示空間的可能性。
?? 研究動機：現有研究主要關注MLLMs在微調過程中的跨語言對齊，而較少關注微調對每個語言表示空間的絕對影響。本研究旨在通過分析語言特征對跨語言遷移性能的影響，以及這些特征與表示空間變化之間的關系，來填補這一研究空白。此外，研究還探討了如何利用這些發現來增強對語言距離較遠的語言的遷移性能。
?? 方法簡介：研究團隊使用12層的多語言BERT模型（bert-base-multilingual-cased），在XNLI數據集的15種語言上進行自然語言推理（NLI）任務的微調。通過計算微調前后不同目標語言樣本的隱藏表示之間的相似性，使用中心化核對齊（CKA）方法來衡量表示空間的影響。此外，研究還使用了五種語言距離度量（句法、地理、庫存、遺傳和音系距離）來量化語言之間的距離。
?? 實驗設計：實驗設計包括三個部分：1) 測量微調對表示空間的影響；2) 分析表示空間影響與語言距離之間的相關性；3) 探索通過選擇性凍結特定層來改善對語言距離較遠的語言的遷移性能的可能性。實驗結果表明，語言距離、表示空間影響和遷移性能之間存在顯著的相關性，且這種相關性在模型的深層更為明顯。通過選擇性凍結特定層，可以減少對語言距離較遠的語言的遷移性能差距。

LMEye: An Interactive Perception Network for Large Language Models

?? 論文標題：LMEye: An Interactive Perception Network for Large Language Models
?? 論文作者：Yunxin Li, Baotian Hu, Xinyu Chen, Lin Ma, Yong Xu, Min Zhang
?? 研究機構: Harbin Institute of Technology, Shenzhen、Meituan, Beijing
?? 問題背景：多模態大型語言模型（MLLMs）在多種多模態理解和生成任務中展現了卓越的能力。然而，訓練一個從零開始的MLLM，如GPT-4，需要大量的資源。現有的方法通過將視覺信息映射到語言模型的表示空間，使大型語言模型（LLMs）能夠處理多模態信息，但這些方法通常只進行一次視覺特征的轉換，不考慮圖像與人類輸入查詢之間的交互，導致LLMs可能無法獲得足夠的視覺信息來生成符合意圖的響應。
?? 研究動機：為了使LLMs能夠根據不同的用戶指令請求所需的視覺信息，研究團隊提出了LMEye，一個具有交互感知網絡的人類眼睛模型。LMEye允許LLMs動態地與外部視覺信息進行交互，從而提高其在多模態任務中的性能，尤其是在零樣本學習場景下。
?? 方法簡介：LMEye主要由兩個階段組成：1）特征對齊階段，通過一個簡單的視覺映射網絡提供圖像的基本感知信息；2）請求基礎的視覺信息交互模塊（RVII），負責從LLMs獲取請求，執行基于請求的視覺信息交互，并將交互后的視覺信息傳輸回LLMs。通過這種方式，LLMs能夠理解人類查詢，發送請求以獲取額外所需的視覺信息，并基于交織的多模態信息生成響應。
?? 實驗設計：研究團隊在多個多模態基準數據集上進行了廣泛的實驗，包括MMBench和SEED-Bench，以評估LMEye在不同任務上的性能。實驗結果表明，LMEye在使用較少參數的情況下，顯著提高了零樣本學習在各種多模態任務上的性能，尤其是在邏輯推理、屬性推理和關系推理方面表現突出。

What Makes for Good Visual Tokenizers for Large Language Models?

?? 論文標題：What Makes for Good Visual Tokenizers for Large Language Models?
?? 論文作者：Guangzhi Wang, Yixiao Ge, Xiaohan Ding, Mohan Kankanhalli, Ying Shan
?? 研究機構: National University of Singapore, ARC Lab, Tencent PCG, Tencent AI Lab
?? 問題背景：大型語言模型（LLMs）在多種下游任務中表現出色，無需特定任務的微調。最近，基于強大的LLMs，研究者成功地將LLMs適應于視覺-語言任務，形成了強大的多模態LLMs（MLLMs）。然而，關于這些MLLMs的視覺理解能力，特別是視覺語義理解和細粒度視覺感知能力的全面評估尚未得到充分研究。
?? 研究動機：盡管CLIP在圖像表示方面表現出色，但其是否是MLLMs的最佳視覺分詞器尚未明確。為了探索這一點，研究團隊創建了一個新的基準（GVTBench），旨在從視覺語義理解和細粒度視覺感知兩個重要視角評估MLLMs的視覺理解能力。
?? 方法簡介：研究團隊通過比較不同預訓練方法（包括全監督、弱監督和自監督）的視覺分詞器，系統地評估了這些模型在GVTBench上的表現。研究發現，全監督和弱監督模型在語義表示能力上優于自監督模型，但隨著預訓練數據集的擴大，這種差距逐漸縮小。自監督模型在細粒度視覺感知方面表現更好，特別是區域級理解。此外，研究還發現，對視覺分詞器進行聯合調優會導致語義損失。
?? 實驗設計：實驗在多個數據集上進行，包括VQA、圖像描述、對象計數和多類識別任務。實驗設計了不同的因素，如視覺分詞器的聯合調優、不同的預訓練策略等，以全面評估模型的視覺理解能力。研究團隊還探討了結合語義和區域監督的方法，但發現這些方法在細粒度視覺理解任務上的表現不佳，且會導致語義損失。基于這些發現，研究團隊提出了一種新的視覺分詞器（GVT），通過特征蒸餾方法在不使用掩碼策略的情況下，保留了豐富的語義信息，同時增強了細粒度視覺感知能力。GVT在多個任務上表現出色，特別是在視覺問題回答和圖像描述任務上。

How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning

?? 論文標題：How do languages influence each other? Studying cross-lingual data sharing during LM fine-tuning
?? 論文作者：Rochelle Choenni, Dan Garrette, Ekaterina Shutova
?? 研究機構: University of Amsterdam, Google Research
?? 問題背景：多語言模型（MLMs）通過聯合訓練多種語言的數據，使得每種語言的表示可以從其他語言的數據中受益。盡管這些模型在零樣本跨語言遷移任務中表現出色，但它們在多大程度上以及在什么條件下依賴其他語言的數據仍不清楚。
?? 研究動機：為了回答上述問題，研究團隊使用了TracIn（Pruthi et al., 2020），一種訓練數據歸因（TDA）方法，來識別對特定測試預測最有影響力的訓練樣本。這使得研究團隊能夠從數據依賴的角度分析MLMs的跨語言共享機制，從而為理解模型在推理時如何利用多語言數據提供了新的視角。
?? 方法簡介：研究團隊提出了一種系統的方法，通過使用TracIn方法，追蹤訓練樣本對測試樣本預測的影響。具體來說，研究團隊計算了每個訓練樣本對測試樣本預測的影響力分數，這些分數反映了如果在訓練過程中排除某個訓練樣本，測試樣本的損失會如何變化。通過這種方法，研究團隊能夠分析MLMs在不同任務和語言上的跨語言數據依賴性。
?? 實驗設計：研究團隊在三個多語言文本分類任務上進行了實驗，包括自然語言推理（NLI）、同義句識別（Paraphrasing）和情感分析（Sentiment Analysis）。實驗設計了不同的語言組合和任務設置，以評估模型在不同條件下的跨語言數據依賴性。研究團隊還通過移除最具影響力的訓練樣本，定量測試了這些樣本對模型預測置信度的影響，以驗證影響力分數的有效性。

PathAsst: A Generative Foundation AI Assistant Towards Artificial General Intelligence of Pathology

?? 論文標題：PathAsst: A Generative Foundation AI Assistant Towards Artificial General Intelligence of Pathology
?? 論文作者：Yuxuan Sun, Chenglu Zhu, Sunyi Zheng, Kai Zhang, Lin Sun, Zhongyi Shui, Yunlong Zhang, Honglin Li, Lin Yang
?? 研究機構: Zhejiang University, Westlake University, The Ohio State University, Hangzhou City University
?? 問題背景：盡管大型語言模型（LLMs）和多模態技術的發展已經取得了顯著進展，病理學領域在高質量數據收集和模型框架設計方面仍存在明顯不足。這導致了病理學領域缺乏專門的多模態大型語言模型（MLLMs），限制了AI在病理學診斷和預測分析中的應用。
?? 研究動機：為了填補病理學領域在高質量數據和模型框架上的空白，研究團隊開發了PathAsst，一個旨在通過AI技術革新病理學診斷和預測分析的多模態生成基礎AI助手。PathAsst的開發涉及數據收集、CLIP模型適應和多模態生成能力的訓練，旨在提高病理學圖像的解釋能力和診斷準確性。
?? 方法簡介：研究團隊首先從權威來源收集了超過207,000個高質量的病理圖像-文本對，構建了PathCap數據集。接著，利用這些數據訓練了專門用于病理學的CLIP模型（PathCLIP），以增強PathAsst在解釋病理圖像方面的能力。最后，通過整合PathCLIP和Vicuna-13B，并利用病理學特定的指令調優數據，進一步提升了PathAsst的多模態生成能力，使其能夠與八個病理學特定的子模型協同工作，提高診斷效果。
?? 實驗設計：研究團隊在PathCap數據集上進行了實驗，評估了PathAsst在不同任務中的表現，包括病理圖像的解釋、零樣本分類和圖像生成等。實驗結果表明，PathAsst在病理學圖像的解釋和診斷方面具有顯著的潛力。此外，研究團隊還開源了數據集和工具包，以促進病理學數據的廣泛收集和預處理。