1、InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
中文標題:InternLM-XComposer-2.5:支持長上下文輸入和輸出的多功能大視覺語言模型
簡介:我們推出了InternLM-XComposer-2.5(簡稱IXC-2.5),一款具有卓越處理長序列數據能力的多功能語言模型,能夠處理和生成廣泛的文本與圖像內容。IXC-2.5憑借其強大的7B參數規模,展現了媲美GPT-4V的性能,即便是在處理包含24K交替圖像與文本的復雜情境下,也能通過RoPE技術平穩地適應更長達96K的上下文環境。這種對長序列的出色掌控力,使其在需求涵蓋大量輸入輸出信息的任務中表現優異。
相較于其前身2.0版,IXC-2.5在視覺語言理解領域實現了三大突破性進步:一是具備了對超高分辨率圖像的深度解析能力;二是能夠精細解讀視頻內容;三是支持多輪次、多圖片的交互式對話。此外,IXC-2.5通過引入額外的LoRA參數,增強了兩項文本圖像融合的應用場景:第一,能夠創建結構化且內容豐富的網頁;第二,能生成結合高品質圖文的文章。這些功能的實現,得益于IXC-2.5在28個評估基準上的出色表現,其中在16項上超越了當前開源領域的頂尖模型。同時,在16個核心任務上,IXC-2.5與GPT-4V及Gemini Pro等強勁對手展開了激烈的比拼,展現出不俗的實力。
目前,InternLM-XComposer-2.5已對外開放,可于https://github.com/InternLM/InternLM-XComposer獲取源代碼,供研究者和開發者們探索和應用。
2、BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations
中文標題:BACON:使用概念袋圖增強您的 VLM,以減輕幻覺
簡介:本文創新性地引入了“概念袋圖”(BACON)這一框架,旨在增強模型的語言理解能力,使之能夠借鑒視覺語言模型(VLMs)的優勢,從而在諸如物體檢測、視覺問答(VQA)以及圖像合成等下游任務上取得顯著提升。鑒于現實世界中的視覺場景往往蘊含著錯綜復雜的對象間關系,BACON巧妙地將這些注解拆解至最基本單元,并以圖形化的形式予以呈現。這種基于元素的直觀表達,加之靈活的結構重組,有效規避了定位困難的問題。
借助精心設計的引導策略,輔以現成的VLMs與分割算法,我們構建了一個包含10萬張標注圖像的龐大數據庫。此舉不僅令VLMs展現出了非凡的才能——比如,精確地生成BACON圖表,將自然語言提示轉化為BACON格式,還能生動地再現由BACON定義的場景布局,并支持通過互動對話實時調整BACON中的組成要素。一系列覆蓋檢測、VQA與圖像生成等領域的全面實驗證明,BACON成為了實現過往難以觸及任務的關鍵,亦或是在現有頂尖方案中脫穎而出的制勝法寶,其價值不可小覷。
3、ACTRESS: Active Retraining for Semi-supervised Visual Grounding
中文標題:ACTRESS:半監督視覺基礎的主動再訓練
簡介:半監督視覺定位(SSVG)作為一項前沿研究課題,其特征在于稀缺的標注數據和對多模態理解的需求,構成了一個頗具挑戰性的領域。先前的探索,如RefTeacher,曾通過師生架構引入偽置信度指導及注意力機制監督,初步涉足這一難題。不過,該途徑與現今基于Transformer架構的頂尖視覺定位系統格格不入。這些系統采取直接預測策略,跳過了區域提議和前景二元分類步驟,故而缺失置信度評分,使得它們與RefTeacher的協同工作受阻。再者,因數據增強策略的差異,造成師生模型輸入間的幾何偏差,進而自然地引發了注意力約束下的配準難題。
為解決上述局限,本文獻提出了一種名為ACTRESS的半監督視覺定位主動重訓練流程。此法首先借由附加量化檢測模塊,強化模型的檢測置信水平。隨后,ACTRESS整合了主動采樣與選擇性重訓練雙策略。主動采樣技術憑借評估三大核心指標——忠誠度、穩健性及置信度,循環甄選出高質偽標簽,以最大化無標簽數據的效能。選擇性重訓練機制則通過周期性重置部分模型參數,實施模型重訓,助其擺脫局部最優陷阱。一系列全面的測試結果證實,ACTRESS在廣泛應用的基準數據集上展現了超群的效能。
簡而言之,面對SSVG任務的固有復雜性,本文提出的ACTRESS方案,通過增強模型置信度、優化偽標簽質量以及促進全局最優解搜索,有效提升了基于Transformer的視覺定位模型在半監督環境下的表現。