CV每日論文--2024.7.4

1、InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

中文標題：InternLM-XComposer-2.5：支持長上下文輸入和輸出的多功能大視覺語言模型

簡介：我們推出了InternLM-XComposer-2.5（簡稱IXC-2.5），一款具有卓越處理長序列數據能力的多功能語言模型，能夠處理和生成廣泛的文本與圖像內容。IXC-2.5憑借其強大的7B參數規模，展現了媲美GPT-4V的性能，即便是在處理包含24K交替圖像與文本的復雜情境下，也能通過RoPE技術平穩地適應更長達96K的上下文環境。這種對長序列的出色掌控力，使其在需求涵蓋大量輸入輸出信息的任務中表現優異。

相較于其前身2.0版，IXC-2.5在視覺語言理解領域實現了三大突破性進步：一是具備了對超高分辨率圖像的深度解析能力；二是能夠精細解讀視頻內容；三是支持多輪次、多圖片的交互式對話。此外，IXC-2.5通過引入額外的LoRA參數，增強了兩項文本圖像融合的應用場景：第一，能夠創建結構化且內容豐富的網頁；第二，能生成結合高品質圖文的文章。這些功能的實現，得益于IXC-2.5在28個評估基準上的出色表現，其中在16項上超越了當前開源領域的頂尖模型。同時，在16個核心任務上，IXC-2.5與GPT-4V及Gemini Pro等強勁對手展開了激烈的比拼，展現出不俗的實力。

目前，InternLM-XComposer-2.5已對外開放，可于https://github.com/InternLM/InternLM-XComposer獲取源代碼，供研究者和開發者們探索和應用。

2、BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

中文標題：BACON：使用概念袋圖增強您的 VLM，以減輕幻覺

簡介：本文創新性地引入了“概念袋圖”（BACON）這一框架，旨在增強模型的語言理解能力，使之能夠借鑒視覺語言模型（VLMs）的優勢，從而在諸如物體檢測、視覺問答（VQA）以及圖像合成等下游任務上取得顯著提升。鑒于現實世界中的視覺場景往往蘊含著錯綜復雜的對象間關系，BACON巧妙地將這些注解拆解至最基本單元，并以圖形化的形式予以呈現。這種基于元素的直觀表達，加之靈活的結構重組，有效規避了定位困難的問題。

借助精心設計的引導策略，輔以現成的VLMs與分割算法，我們構建了一個包含10萬張標注圖像的龐大數據庫。此舉不僅令VLMs展現出了非凡的才能——比如，精確地生成BACON圖表，將自然語言提示轉化為BACON格式，還能生動地再現由BACON定義的場景布局，并支持通過互動對話實時調整BACON中的組成要素。一系列覆蓋檢測、VQA與圖像生成等領域的全面實驗證明，BACON成為了實現過往難以觸及任務的關鍵，亦或是在現有頂尖方案中脫穎而出的制勝法寶，其價值不可小覷。

3、ACTRESS: Active Retraining for Semi-supervised Visual Grounding

中文標題：ACTRESS：半監督視覺基礎的主動再訓練

簡介：半監督視覺定位（SSVG）作為一項前沿研究課題，其特征在于稀缺的標注數據和對多模態理解的需求，構成了一個頗具挑戰性的領域。先前的探索，如RefTeacher，曾通過師生架構引入偽置信度指導及注意力機制監督，初步涉足這一難題。不過，該途徑與現今基于Transformer架構的頂尖視覺定位系統格格不入。這些系統采取直接預測策略，跳過了區域提議和前景二元分類步驟，故而缺失置信度評分，使得它們與RefTeacher的協同工作受阻。再者，因數據增強策略的差異，造成師生模型輸入間的幾何偏差，進而自然地引發了注意力約束下的配準難題。

為解決上述局限，本文獻提出了一種名為ACTRESS的半監督視覺定位主動重訓練流程。此法首先借由附加量化檢測模塊，強化模型的檢測置信水平。隨后，ACTRESS整合了主動采樣與選擇性重訓練雙策略。主動采樣技術憑借評估三大核心指標——忠誠度、穩健性及置信度，循環甄選出高質偽標簽，以最大化無標簽數據的效能。選擇性重訓練機制則通過周期性重置部分模型參數，實施模型重訓，助其擺脫局部最優陷阱。一系列全面的測試結果證實，ACTRESS在廣泛應用的基準數據集上展現了超群的效能。

簡而言之，面對SSVG任務的固有復雜性，本文提出的ACTRESS方案，通過增強模型置信度、優化偽標簽質量以及促進全局最優解搜索，有效提升了基于Transformer的視覺定位模型在半監督環境下的表現。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/42848.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/42848.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/42848.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！