UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment
?? 論文標題:UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment
?? 論文作者:Hantao Zhou, Longxiang Tang, Rui Yang, Guanyi Qin, Yan Zhang, Runze Hu, Xiu Li
?? 研究機構: Tsinghua University、Beijing Institute of Technology、Xiamen University
?? 問題背景:圖像質量評估(IQA)和圖像美學評估(IAA)旨在模擬人類對圖像視覺質量和美學吸引力的主觀感知。盡管現有方法通常獨立處理這兩個任務,但忽略了它們之間的內在聯系,這阻礙了任務無關的共享表示的學習。為了克服這一挑戰,研究團隊提出了統一的視覺-語言預訓練模型(UniQA),以學習對兩個任務都有利的一般感知。
?? 研究動機:現有的IQA和IAA方法通常獨立處理這兩個任務,通過設計更深層次和更復雜的網絡來提高模型性能。然而,這些方法往往忽視了任務之間的共同點:模擬人類對圖像的主觀感知。研究團隊提出了一種新的方法,通過利用多模態大語言模型(MLLMs)生成高質量的文本描述,并利用這些生成的文本作為元數據來凈化IAA數據集中的噪聲,從而構建一個統一的質量和美學圖像-文本數據集。此外,研究團隊還提出了一種輕量級的適配器,以充分利用預訓練模型的廣泛知識,適應下游任務。
?? 方法簡介:研究團隊首先利用MLLMs生成與圖像質量相關的文本描述,并利用這些生成的文本作為元數據來凈化IAA數據集中的噪聲。然后,研究團隊構建了一個統一的圖像-文本數據集,用于視覺-語言對比預訓練,從而獲得具有強大多模態圖像評估感知的UniQA模型。最后,研究團隊提出了一種輕量級的多線索集成適配器,以適應特定的IQA和IAA數據集,通過調整視覺特征并注入豐富的線索來微調下游任務。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括IQA數據集FLIVE和IAA數據集AVA,以及AVA-Captions數據集。實驗評估了UniQA在典型IQA和IAA數據集上的性能,包括七個IQA數據集和兩個IAA數據集。實驗結果表明,UniQA在IQA和IAA任務上均達到了新的最先進水平,同時在零樣本和少標簽圖像評估設置中也表現出色。
PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning
?? 論文標題:PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning
?? 論文作者:Yupeng Zheng, Zebin Xing, Qichao Zhang, Bu Jin, Pengfei Li, Yuhang Zheng, Zhongpu Xia, Kun Zhan, Xianpeng Lang, Yaran Chen, Dongbin Zhao
?? 研究機構: 中國科學院自動化研究所、中國科學院大學、北京郵電大學、北京航空航天大學、清華大學、理想汽車
?? 問題背景:自動駕駛車輛的運動規劃是實現舒適、安全和高效駕駛的關鍵技術。當前基于規則的車輛運動規劃方法在常見場景中表現良好,但在長尾場景中難以泛化。同時,基于學習的方法在大規模閉環場景中尚未超越基于規則的方法。為了解決這些問題,研究團隊提出了PlanAgent,這是首個基于多模態大語言模型(MLLM)的中到中規劃系統。
?? 研究動機:現有的基于規則和基于學習的方法在處理復雜和不確定的開放世界自動駕駛時仍面臨一系列挑戰。特別是,基于學習的方法在泛化到長尾場景時存在過擬合問題。為了克服這些挑戰,研究團隊提出了PlanAgent,旨在利用MLLM的常識推理和泛化能力,提高規劃系統的可靠性和安全性。
?? 方法簡介:PlanAgent通過三個核心模塊利用MLLM的強大功能:1)環境轉換模塊,從環境中提取多模態關鍵信息,構建鳥瞰圖(BEV)地圖和基于車道圖的文本描述;2)推理引擎模塊,通過層次化鏈式思維(CoT)進行多輪迭代推理,指導MLLM生成規劃代碼;3)反思模塊,通過模擬和評分驗證生成的規劃,減少MLLM的不確定性對規劃安全的影響。
?? 實驗設計:PlanAgent在大規模且具有挑戰性的nuPlan基準上進行了評估。實驗設計了詳細的消融研究,以驗證每個模塊的有效性。實驗結果表明,PlanAgent在常見場景(Val14基準)和更具挑戰性的長尾場景(Test14-hard基準)中均表現出色,優于現有的最先進方法。
LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback
?? 論文標題:LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback
?? 論文作者:Wen Lai, Mohsen Mesgar, Alexander Fraser
?? 研究機構: TUM, LMU Munich, Munich Center for Machine Learning, Bosch Center for Artificial Intelligence
?? 問題背景:盡管大型語言模型(LLMs)在多語言任務中取得了顯著進展,但大多數LLMs主要以英語文本進行訓練,僅支持有限數量的非英語語言。此外,這些模型尚未與人類偏好對齊,這對于LLMs在英語任務中的成功至關重要。因此,擴展LLMs的多語言能力,特別是支持低資源語言,成為當前研究的重要方向。
?? 研究動機:現有的多語言LLMs雖然在某些能力上表現出色,但它們支持的語言數量有限,且在低資源語言上的性能差異顯著。此外,這些模型在與人類偏好對齊方面存在不足。為了解決這些問題,研究團隊開發了xLLaMA-100和xBLOOM-100(統稱為xLLMs-100),旨在擴展LLMs的多語言能力至100種語言,并通過多語言指令調優和跨語言人類反饋對齊,提升模型的理解和生成能力。
?? 方法簡介:研究團隊構建了兩個數據集:一個包含100種語言的多語言指令數據集,另一個包含30種語言的跨語言人類反饋數據集。通過這些數據集,研究團隊對LLMs進行了多語言指令調優,并使用DPO算法進一步對齊模型與人類偏好。此外,研究團隊還評估了翻譯指令和生成響應的質量,確保模型在不同語言上的表現。
?? 實驗設計:研究團隊在五個多語言基準數據集上評估了xLLMs-100的性能,包括理解任務(PAWS-X)、推理任務(XCOPA)、生成任務(FLORES-101和XL-Sum)以及專家編寫任務(Self-Instruct*)。實驗涵蓋了高資源和低資源語言,以全面評估模型的多語言理解和生成能力。實驗結果表明,xLLMs-100在所有基準測試中均顯著優于其他模型,特別是在低資源語言上的表現尤為突出。
Parrot: Multilingual Visual Instruction Tuning
?? 論文標題:Parrot: Multilingual Visual Instruction Tuning
?? 論文作者:Hai-Long Sun, Da-Wei Zhou, Yang Li, Shiyin Lu, Chao Yi, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
?? 研究機構: 南京大學、阿里巴巴集團
?? 問題背景:多模態大語言模型(MLLMs)如GPT-4V的發展標志著向通用人工智能邁出的重要一步。然而,現有的方法主要通過監督微調(SFT)將視覺編碼器與大語言模型(LLMs)對齊,以賦予LLMs多模態能力。這一過程導致了MLLMs處理多種語言的能力逐漸下降,尤其是在非英語語言中的表現顯著下降。這主要是由于SFT數據集主要由以英語為中心的圖像-文本對組成,導致視覺編碼器和LLMs在多語言標記上的對齊不足。
?? 研究動機:研究團隊發現,由于多語言數據的不平衡,MLLMs在非英語語言中的表現顯著下降。為了增強MLLMs的多語言能力,研究團隊提出了一種新的方法——PARROT,該方法利用文本引導來驅動視覺標記在語言層面的對齊,從而將視覺標記轉換為語言特定的嵌入。
?? 方法簡介:PARROT通過計算初始視覺特征和文本嵌入之間的交叉注意力,將結果輸入到Mixture-of-Experts (MoE) 路由器中,選擇最相關的專家,將初始視覺標記轉換為語言特定的視覺標記。具體來說,PARROT首先通過視覺編碼器提取視覺特征,并通過投影器將其轉換為語言嵌入標記Hv。然后,通過交叉注意力機制將Hv與文本嵌入Ht對齊,生成語言特定的視覺特征H’v。最后,通過MoE模塊將Hv轉換為語言特定的視覺嵌入Gv。
?? 實驗設計:研究團隊在兩個多語言基準數據集(MMBench和MMMB)上進行了實驗,評估了PARROT在不同語言任務中的表現。MMMB包括6種語言(英語、中文、葡萄牙語、阿拉伯語、土耳其語和俄語),15個類別,共12,000個問題。實驗結果表明,PARROT在多語言任務中表現出色,特別是在土耳其語和阿拉伯語中,性能超過了LLaVA-NeXT。此外,PARROT在多個多模態基準數據集(如MME、ScienceQA-IMG和SEED-Bench-IMG)上也表現出競爭力。
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
?? 論文標題:Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning
?? 論文作者:Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou
?? 研究機構: National University of Singapore (Show Lab)、Microsoft Gen AI、Central South University
?? 問題背景:當前的多模態模型在處理長文本上下文時面臨顯著的GPU內存和計算成本挑戰。例如,處理MMC4和OBELICS數據集中的5M和10M數據項時,即使僅處理256個文本令牌,OpenFlamingo-9B仍需32個80GB的A100 GPU運行超過三天。這突顯了開發更高效的計算方法以有效處理長上下文文本的必要性。
?? 研究動機:為了應對上述挑戰,研究團隊提出了一種創新方法——Visualized In-Context Text Processing (VisInContext),該方法通過將長文本內容轉換為圖像,并利用視覺編碼器提取文本表示,從而顯著減少GPU內存使用和浮點運算(FLOPs),同時擴展模型的上下文文本長度。
?? 方法簡介:VisInContext方法基于Flamingo架構,通過將部分上下文文本渲染成圖像,然后使用視覺編碼器處理這些圖像,從而在不增加文本令牌長度的情況下擴展上下文文本長度。該方法包括文本渲染、Token Masking機制和Text-Centric Contrastive Learning (TCCL)等關鍵技術,以確保模型能夠從渲染的文本圖像中有效學習文本語義。
?? 實驗設計:研究團隊在多個公開數據集上進行了實驗,包括Vision-Language Perception (VLP) 和 Image-to-Image (I2I) 任務。實驗設計了不同的文本渲染參數(如字體大小、間隔閾值)和不同的任務設置(如文本僅上下文示例、文檔理解任務、順序多模態檢索任務),以全面評估VisInContext方法的有效性和效率。實驗結果表明,VisInContext不僅顯著提高了模型在多模態下游任務中的性能,還大幅降低了計算成本,特別是在處理長文檔時表現出色。