CV每日論文--2024.7.4

1、InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

中文標題:InternLM-XComposer-2.5:支持長上下文輸入和輸出的多功能大視覺語言模型

簡介:我們推出了InternLM-XComposer-2.5(簡稱IXC-2.5),一款具有卓越處理長序列數據能力的多功能語言模型,能夠處理和生成廣泛的文本與圖像內容。IXC-2.5憑借其強大的7B參數規模,展現了媲美GPT-4V的性能,即便是在處理包含24K交替圖像與文本的復雜情境下,也能通過RoPE技術平穩地適應更長達96K的上下文環境。這種對長序列的出色掌控力,使其在需求涵蓋大量輸入輸出信息的任務中表現優異。

相較于其前身2.0版,IXC-2.5在視覺語言理解領域實現了三大突破性進步:一是具備了對超高分辨率圖像的深度解析能力;二是能夠精細解讀視頻內容;三是支持多輪次、多圖片的交互式對話。此外,IXC-2.5通過引入額外的LoRA參數,增強了兩項文本圖像融合的應用場景:第一,能夠創建結構化且內容豐富的網頁;第二,能生成結合高品質圖文的文章。這些功能的實現,得益于IXC-2.5在28個評估基準上的出色表現,其中在16項上超越了當前開源領域的頂尖模型。同時,在16個核心任務上,IXC-2.5與GPT-4V及Gemini Pro等強勁對手展開了激烈的比拼,展現出不俗的實力。

目前,InternLM-XComposer-2.5已對外開放,可于https://github.com/InternLM/InternLM-XComposer獲取源代碼,供研究者和開發者們探索和應用。

2、BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

中文標題:BACON:使用概念袋圖增強您的 VLM,以減輕幻覺

簡介:本文創新性地引入了“概念袋圖”(BACON)這一框架,旨在增強模型的語言理解能力,使之能夠借鑒視覺語言模型(VLMs)的優勢,從而在諸如物體檢測、視覺問答(VQA)以及圖像合成等下游任務上取得顯著提升。鑒于現實世界中的視覺場景往往蘊含著錯綜復雜的對象間關系,BACON巧妙地將這些注解拆解至最基本單元,并以圖形化的形式予以呈現。這種基于元素的直觀表達,加之靈活的結構重組,有效規避了定位困難的問題。

借助精心設計的引導策略,輔以現成的VLMs與分割算法,我們構建了一個包含10萬張標注圖像的龐大數據庫。此舉不僅令VLMs展現出了非凡的才能——比如,精確地生成BACON圖表,將自然語言提示轉化為BACON格式,還能生動地再現由BACON定義的場景布局,并支持通過互動對話實時調整BACON中的組成要素。一系列覆蓋檢測、VQA與圖像生成等領域的全面實驗證明,BACON成為了實現過往難以觸及任務的關鍵,亦或是在現有頂尖方案中脫穎而出的制勝法寶,其價值不可小覷。

3、ACTRESS: Active Retraining for Semi-supervised Visual Grounding

中文標題:ACTRESS:半監督視覺基礎的主動再訓練

簡介:半監督視覺定位(SSVG)作為一項前沿研究課題,其特征在于稀缺的標注數據和對多模態理解的需求,構成了一個頗具挑戰性的領域。先前的探索,如RefTeacher,曾通過師生架構引入偽置信度指導及注意力機制監督,初步涉足這一難題。不過,該途徑與現今基于Transformer架構的頂尖視覺定位系統格格不入。這些系統采取直接預測策略,跳過了區域提議和前景二元分類步驟,故而缺失置信度評分,使得它們與RefTeacher的協同工作受阻。再者,因數據增強策略的差異,造成師生模型輸入間的幾何偏差,進而自然地引發了注意力約束下的配準難題。

為解決上述局限,本文獻提出了一種名為ACTRESS的半監督視覺定位主動重訓練流程。此法首先借由附加量化檢測模塊,強化模型的檢測置信水平。隨后,ACTRESS整合了主動采樣與選擇性重訓練雙策略。主動采樣技術憑借評估三大核心指標——忠誠度、穩健性及置信度,循環甄選出高質偽標簽,以最大化無標簽數據的效能。選擇性重訓練機制則通過周期性重置部分模型參數,實施模型重訓,助其擺脫局部最優陷阱。一系列全面的測試結果證實,ACTRESS在廣泛應用的基準數據集上展現了超群的效能。

簡而言之,面對SSVG任務的固有復雜性,本文提出的ACTRESS方案,通過增強模型置信度、優化偽標簽質量以及促進全局最優解搜索,有效提升了基于Transformer的視覺定位模型在半監督環境下的表現。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/42848.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/42848.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/42848.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

079、類的繼承

繼承是對已有的類進行擴展創建出新的類,這個過程就叫做繼承。其中,提供繼承信息的類叫做父類(超類、基類),得到繼承信息的類稱為子類(派生類)。 基本語法 繼承是通過在類定義語句中使用圓括號…

控制周期與控制頻率

控制周期是指控制系統中執行一次完整控制循環所需的時間間隔。它表示了控制系統對輸入信號進行處理、執行控制算法、生成輸出信號并更新系統狀態的頻率。在實時控制系統中,控制周期的選擇對系統的性能和穩定性具有重要影響。較短的控制周期可以提高系統的響應速度&a…

高級java每日一道面試題-2024年7月8日

文章目錄 面試官問: final 在java中有什么作用面試者回答:1. final修飾變量基本數據類型:示例: 對象引用:示例: 2. final修飾方法示例: 3. final修飾類示例: 4. final局部變量和參數示例: 總結 …

互聯網十萬個為什么之什么是CDN?

CDN(Content Delivery Network,內容分發網絡)是一組分布在不同地理位置的服務器,其目的是更有效地向用戶分發互聯網內容。通過緩存內容(如網頁、圖片、視頻和其他類型的網絡數據)在多個服務器上&#xff0c…

學生護眼臺燈哪個牌子實用?值得入手的學生護眼臺燈十大排名分析

在這個數碼時代,人們對屏幕的依賴程度越來越高,尤其是孩子們。他們不僅在學校里需要長時間盯著教科書,還會在學習和娛樂中使用各種數碼設備。然而,這也使得眼睛健康問題逐漸凸顯,尤其是兒童近視的問題。為了保護視力&a…

Flink 提交作業的方式

參考: Flink運行方式及對比-騰訊云開發者社區-騰訊云

IP地址設置的全面指南-okeyproxy

IP地址是每個連接到互聯網的設備的唯一識別字,無論是家庭網路還是企業網路,正確設置IP地址是確保網路穩定和安全的關鍵。IP地址由一系列數字組成,通常分為IPv4和IPv6兩種格式。IPv4是最常見的形式,由四組0到255之間的數字組成&…

濟南網站建設費用為什么差距如此之大

濟南網站建設費用的差距之所以如此之大,主要是由于以下幾個因素的影響。 首先,不同的網站建設公司所提供的服務內容和質量不盡相同,這直接導致了費用的差距。一些知名的大型網絡公司會提供全方位的網站建設服務,包括網站設計、頁面…

ELFK 8.12.2 部署 -- docker部署方式?

👨?🎓博主簡介 🏅CSDN博客專家 ??🏅云計算領域優質創作者 ??🏅華為云開發者社區專家博主 ??🏅阿里云開發者社區專家博主 💊交流社區:運維交流社區 歡迎大家的加入&#xff01…

SpringBoot源碼閱讀(3)——監聽器

ApplicationListener類初始化位置 在類SpringApplication的構造方法,第267行 在META-INFO/spring.factories中配置的實現類 spring-boot # Application Listeners org.springframework.context.ApplicationListener\ org.springframework.boot.ClearCachesApplic…

Top級“水刊”!高達10.1分,發文量大,最快1個月左右錄用,幾乎沾邊可錄!

本周投稿推薦 SCI ? 能源科學類,1.5-2.0(來稿即錄25天) ? 計算機類,2.0-3.0(純正刊29天錄用) EI ? 各領域沾邊均可(2天錄用) 知網 ? 7天錄用-檢索(急錄友好&…

【YOLOv5進階】——替換主干網絡(backbone)-MobileNet為例

聲明:筆記是做項目時根據B站博主視頻學習時自己編寫,請勿隨意轉載! 一、說在前面的一些話 1、torchvision 需要用到torchvision里的一些模塊,之前第一期配置環境的時候已經安裝過torchvision! torchvision是PyTorch生態系統中的一個關鍵庫,專門為計算機視覺任務設計和優…

個性化微課教學視頻推薦系統-計算機畢業設計源碼77648

個性化微課教學視頻推薦系統 摘 要 隨著信息技術的迅猛發展,教育領域正經歷著前所未有的變革。微課作為一種新興的教學資源形式,以其短小精悍、針對性強、易于傳播等特點,逐漸受到廣大師生的青睞。然而,在微課資源日益豐富的今天…

Python語法基礎

python語法 TIPS:本文適合有一定編程語言基礎的人快速復習python基本語法 python的IO: 基礎input ainput():默認輸入 基礎output print():默認輸出 默認換行參數end""控制字母之間的距離,可以理解為默認為換行符,修改…

谷粒商城學習筆記-逆向工程錯誤記錄

文章目錄 1,Since Maven 3.8.1 http repositories are blocked.1.1 在maven的settings.xml文件中,新增如下配置:1.2,執行clean命令刷新maven配置 2,internal java compiler error3,啟動逆向工程報錯&#x…

【Linux】網絡新手村

歡迎來到 破曉的歷程的 博客 ??不負時光,不負己?? 引言 今天,我們就開始學習Linux網絡相關的內容。這篇博客作為Linux網絡板塊的第一篇博客看,我們首先要帶著大家明白Linux網絡的一些名詞的概念,為之后的學習掃清障礙。然后我…

Bootstrap 按鈕下拉菜單

Bootstrap 按鈕下拉菜單 簡介 Bootstrap 是一個流行的前端框架,用于快速開發響應式和移動設備優先的網頁。它提供了一套豐富的組件,包括導航、下拉菜單、按鈕等,使得開發者能夠輕松構建功能豐富且美觀的界面。在本文中,我們將重…

新加坡工作和生活指北:餐飲出行篇

文章首發于公眾號:Keegan小鋼 ?餐飲 前一篇文章 說到,有些房東不允許房客煮飯,那在新加坡都去哪吃飯?有什么吃的呢? 比較便宜的餐飲場所就是小販中心、咖啡店和冷氣食閣,也是大部分人常去的就餐場所。咖…

分布式整合

一、分布式架構介紹 什么是分布式系統 分布式系統指一個硬件或軟件組件分布在不同的網絡計算機上,彼此之間僅僅通過消息傳遞進行通信和協調的系統。 通俗的理解,分布式系統就是一個業務拆分成多個子業務,分布在不同的服務器節點&#xff0…