【論文閱讀】DeepSeek-LV2:用于高級多模態理解的專家混合視覺語言模型

【論文閱讀】DeepSeek-LV2:用于高級多模態理解的專家混合視覺語言模型

文章目錄

  • 【論文閱讀】DeepSeek-LV2:用于高級多模態理解的專家混合視覺語言模型
    • 一、介紹
    • 二、模型結構
    • 三、數據建設
      • **3.1 對齊**
      • **3.2 視覺語言預訓練數據**
      • **3.3 監督微調數據**
    • 四、訓練方法
    • 五、實驗結果

通過兩個關鍵的主要升級,顯著改進了其前身DeepSeek-VL

對于視覺組件,采用了dynamic tiling vision encoding strategy 專門用于處理不同長寬比的高分辨率圖像

對于語言組件,利用DeepSeekMoE模型和Multi-head Latent Attention機制,將鍵值緩存壓縮為潛在向量,以實現高效推理和高吞吐量

在這里插入圖片描述

?

一、介紹

語言模型(VLMs)已經成為人工智能領域的一股變革力量

以解決需要多模態理解的復雜現實世界應用。

?

DeepSeek-LV2 進步主要集中在三個關鍵方面:

  • 增強視覺理解的動態、高分辨率視覺編碼策略
  • 顯著提高訓練和推理效率的優化語言模型架構
  • 精細的視覺語言數據構建管道,提高了整體性能,擴展到新的領域

?

(1)

引入了一種動態平鋪視覺編碼策略,可以有效地處理不同寬高比的高分辨率圖像

  • 避免了舊的固定尺寸編碼器的限制
  • 需要超高分辨率的任務中表現出色,包括視覺接地,文檔/表格/圖表分析和詳細的特征提取
  • 保持可管理數量的視覺token
    ?

(2)

MLA通過將鍵值(KV)緩存壓縮到潛在向量中來顯著降低計算成本,從而加快推理速度并提高吞吐量。

通過DeepSeekMoE框架進一步提高效率

?

(3)

在質量、數量和多樣性方面大大提高了我們的視覺語言訓練數據

改進的訓練數據還實現了新的能力,如視覺基礎和圖形用戶界面(GUI)感知

在這里插入圖片描述

?
如果說要對其進行圖像思路的處理,難道是用提取出的文本token來對語義分割進行輔助嗎。

思路1:

文本條件下的token來進行輔助融合。

思路2:

輸出的文本,或者說定位信息來優化我們的分割模型的效果。

?

二、模型結構

DeepSeek-VL 2由三個核心模塊組成:

  • 視覺編碼器
  • 視覺語言適配器
  • 專家混合語言模型

?
這些創新能夠更有效地處理高分辨率視覺輸入和文本數據。

我覺得主要帶來的影響是對圖像信息的提取處理能力
?

動態平鋪策略

通過將高分辨率圖像分割為瓦片來實現動態瓦片化策略

使用單個SigLIP-SO 400 M-384視覺編碼器有效處理具有不同縱橫比圖像

在這里插入圖片描述

?
視覺語言適配器

實現了一個2 × 2像素的洗牌操作,將每個瓦片的視覺令牌從27 × 27壓縮到14 × 14 = 196個令牌。

在全局縮略圖塊和局部塊之間插入一個標記

在這里插入圖片描述

隨后使用雙層多層感知器(MLP)將其投影到語言模型的嵌入空間中。我們的動態平鋪策略的視覺說明如圖3所示

?

DeepSeekMoE LLM

語言模型基于DeepSeekMoE,結合了多頭潛在注意力機制[53]。MLA通過將鍵值緩存壓縮到潛在向量中來提高推理效率,從而提高吞吐量

全局偏差項,以經濟高效地改善專家之間的負載平衡

?

三、數據建設

訓練過程分為三個不同的階段:

  • VL對齊
  • VL預訓練
  • 監督微調(SFT)

?

3.1 對齊

該階段的重點是訓練MLP連接器,以橋接預訓練的視覺編碼器和LLM

?

3.2 視覺語言預訓練數據

預訓練數據將視覺語言(VL)和純文本數據結合

保持視覺語言(VL)功能和純文本性能之間的平衡

?
1)交錯的圖像-文本數據

DeepSeek-VL 2-Tiny的初步實驗確定了這個特定的混合比例
?

2)圖像字幕數據

提供視覺和文本信息之間的直接對齊

?

開發了一個全面的圖像字幕流程,該流程考慮:

  • OCR提示
  • Meta信息(例如,位置,相機設置)
  • 相關原始字幕作為提示

?

實現了一個質量控制管道,以簡單地根據其寫作質量對所有字幕進行評分以實現過濾低質量字幕

所以deepseek對于圖像中的文字信息相對敏感
?

3)光學字符識別數據

開發OCR功能,我們使用了開源數據

?

4)視覺問答數據

  • General VQA
  • Table, chart and document understanding
  • Web-to-code and plot-to-Python generation
  • QA with visual prompt

?
5)視覺基礎數據

其實我感覺我們能用的部分就是這一塊,換個話說,我們應該怎么去利用他的輸出信息

定位框出指定的圖中物體

?

6)基礎對話數據

在這里插入圖片描述

?

3.3 監督微調數據

SFT數據將各種開源數據集與高質量的內部QA對相結合

?

一般的視覺問答

三個主要限制:

  • 簡短的回答
  • 糟糕的OCR質量
  • 幻覺內容
  • 偶爾會在中文響應中不適當地插入英語單詞
    ?

針對存在的問題來補充訓練的數據集

  • 發了一個內部中文QA數據集
  • 額外的內部數據集,以補充現實世界和文化視覺知識
  • 成了特定于文檔理解的多輪會話QA對
  • 原始問題重新生成所有公共數據,增強基于表格的QA數據
  • 更詳細的推理過程增強了以公共推理為中心的數據集
  • 構建了一個專注于教科書的內部數據集
  • 擴展了我們內部的Web代碼和Python Plot代碼數據集
  • 開發我們的視覺基礎數據集
  • 使用[62,72]構建接地對話數據,以進一步增強模型在預訓練階段建立的能力
  • Text-Only datasets

?

相關能力:

  • OCR和文檔理解
  • 推理,邏輯和數學
  • 教科書和學術問題
  • Web到代碼和Plot到Python生成
  • 視覺基礎
  • Grounded conversation

?

四、訓練方法

三階段流程進行訓練:

  • 初始階段,使用詳細描述的圖像-文本配對數據訓練視覺編碼器和視覺語言適配器MLP,同時保持語言模型
  • 預訓練階段,使用數據進行視覺語言預訓練
  • 微調階段,使用的數據執行監督微調
    ?

預訓練和微調階段,所有模型參數同時訓練

?

對齊

主要目標是在視覺特征和語言特征之間建立魯棒的連接

調整固定分辨率的視覺編碼器以適應動態的高分辨率圖像,保持語言模型凍結

?

視覺-語言協調

主要目標是在視覺特征和語言特征之間建立魯棒的連接

部分計算資源用于視覺語言預訓練

解凍所有參數,包括視覺編碼器,視覺語言適配器MLP和DeepSeekMoE LLM

?

監督微調

優化所有參數,同時只監督答案和特殊標記,屏蔽系統和用戶提示

聯合收割機多模態數據與來自DeepSeek-V2的純文本對話數據相結合

?

五、實驗結果

該模型在密集圖像描述方面表現出色,能夠識別常見地標,一般視覺知識,和豐富的文本在英語和中文

在這里插入圖片描述
?

RefCOCO 數據集是一個多模態數據集,它包含了圖像和對應的自然語言表達式,這些表達式指向圖像中的特定對象

在這里插入圖片描述

?
這也有點類似于打天梯圖了,在視覺表現上也比如優秀

在這里插入圖片描述

我們更加去關注DeepSeek對于物體的檢索和找到能力

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/97761.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/97761.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/97761.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

一款為開發者而生的開源全棧LLMOps平臺

🚀 超越ChatGPT!一款為開發者而生的全棧LLMOps平臺:LMForge完全指南 作為一名AI應用開發者,你是否也曾遇到過這些令人頭疼的問題? 成本失控:GPT-4的API賬單像雪片一樣飛來,卻不知道錢具體花在…

DeepL Translate在線工具測評:精準翻譯技術文檔與學術論文,支持多格式文檔上傳保留原格式

之前跟你們聊過幫著梳理代碼協作的 GitLens,今天換個偏向文檔翻譯的方向 —— 給你們安利一個在線 AI 翻譯工具「DeepL Translate」,官網地址是DeepL Translate: The worlds most accurate translator,它跟普通翻譯工具不一樣,翻技…

系統配置不是“樂高積木”:制造企業如何通過科學變更管理保障穩定運行

在制造業的數字化進程中,系統配置的穩定性常被忽視。作為一家制造企業的行政經理,我曾親歷這樣的場景:為應對生產波動,各部門頻繁要求調整ERP系統參數,結果導致庫存數據失真、訂單處理延遲,甚至引發客戶投訴…

vscode炒股插件-韭菜盒子AI版

基于vscode插件,原韭菜盒子3.15.0版本開發,新增選股寶快訊功能、AI投資助手、指定股票AI分析功能(目前只針對A股),內置AI大模型助手功能,支持ai分析最新資訊、ai分析當日資訊(讓ai隨時給你分析股…

Spring Cloud Config 核心原理

Spring Cloud Config 是 Spring Cloud 提供的一個用于集中化管理應用程序各個環境下的配置屬性的解決方案。它支持統一管理配置,并且可以在不重啟應用的情況下動態地更新配置信息,提高開發和運維效率。 主要特點 ? 集中管理配置:可以將不同環…

springboot ioc 控制反轉入門與實戰

Spring Boot3 IOC 項目地址https://gitee.com/supervol/loong-springboot-study(記得給個start,感謝)IOC 概述在 Spring Boot 3 中,IOC(Inversion of Control,控制反轉)是核心思想之一&#xff…

LangGraph 重要注意事項和常見問題

01. 數據狀態與歸納函數在前面的課時中,我們說過在 LangGraph 中 節點 在默認情況下返回的字典數據會將原始數據覆蓋,例如下面的代碼最終返回結果是 {"messages": [4]} 而不是 [1,2,3,4],如下class MyState(TypedDict):messages: l…

避坑指南!解決Navicat運行SQL成功但沒有表的問題

在運行轉儲的SQL文件時,成功運行,試了很多辦法都不顯示出表。原因:當從一個高版本的 MySQL 數據庫導入數據到低版本的 MySQL 數據庫時,可能會遇到兼容性問題。因為高版本的 MySQL 可能支持 utf8mb4_0900_ai_ci,而低版本…

在 Elasticsearch 中使用用戶行為分析:使用 UBI 和 search-ui 創建一個應用程序

作者:來自 Elastic Eduard Martin 及 Alexander Dvila 通過一個實際示例學習如何在 Elasticsearch 中使用 UBI。我們將創建一個在搜索和點擊結果時生成 UBI 事件的應用程序。 想要獲得 Elastic 認證嗎?看看下一次 Elasticsearch Engineer 培訓什么時候開…

SpringBoot3中使用Caffeine緩存組件

SpringBoot3已經把EhCache從框架中刪除了&#xff0c;SpringBoot3默認的緩存組件為Caffeine&#xff0c;那么我們在SpringBoot3中如何去使用它了&#xff1f; 1.添加依賴 <dependency><groupId>com.github.ben-manes.caffeine</groupId><artifactId>ca…

正則表達式與grep文本過濾詳解

文章目錄前言一、正則表達式概述1.1 定義1.2 主要用途1.3 Linux 中的正則表達式分類1.3.1 基礎正則表達式&#xff08;BRE&#xff09;1.3.2 擴展正則表達式&#xff08;ERE&#xff09;二、正則表達式的基本組成2.1 普通字符2.2 元字符2.2.1 基本元字符2.2.2 重復次數相關2.2.…

Dify 集成 Milvus 配置指南

&#x1f9e9; Dify 集成 Milvus 配置指南 &#x1f527; 詳細配置步驟 1. 環境準備與克隆倉庫 首先確保你的系統已安裝 Git、Docker 和 Docker Compose。然后克隆 Dify 的代碼倉庫&#xff1a; git clone https://github.com/langgenius/dify.git cd dify/docker2. 配置環境變…

為不平,不止于此

口碑可以成就一個人&#xff0c;也可以毀掉一個人&#xff0c; 所以我們選擇用實力去創造兩種無聲的口碑。 要么讓期待的你張口而呼&#xff0c; 要么讓挑剔的你啞口無言。瑪哈特科技創始人 #為不平&#xff0c;不止于此#

0902 C++類的匿名對象

Part 1.梳理思維導圖一.匿名對象1.概念沒有對象名的類對象2.格式類名();3.作用1.給有名對象初始化2.給對象數組初始化3.作為函數的參數傳遞給形參4.例子#include <iostream>using namespace std;class Dog {friend void Dogfriend(Dog &b); private:string name;int …

在 PySpark 中解鎖窗口函數的力量,實現高級數據轉換

本篇文章Mastering PySpark Window Functions: A Practical Guide to Time-Based Analytics適合數據分析和工程師入門了解PySpark的窗口函數。文章的亮點在于詳細介紹了窗口函數的基本概念及其在銷售數據分析中的實際應用&#xff0c;幫助讀者理解如何進行復雜的數據計算而無需…

從理念到實踐:三層解耦架構與“無系統”論

在上一篇中&#xff0c;我們揭示了“五層雙閉環”治理模型如何像骨骼一樣&#xff0c;為數字化轉型提供支撐和定型。但再宏偉的藍圖也需要堅實的施工來實現。今天&#xff0c;我們將深入最具體的實施層面&#xff0c;將“業務重塑”和“以人為本”的理念&#xff0c;轉化為可落…

詳細介紹Linux 內存管理struct page數據結構中的_count和_mapcount有什么區別?

在Linux內核的struct page中&#xff0c;_count&#xff08;或_refcount&#xff09;和_mapcount是兩個關鍵的引用計數成員&#xff0c;它們各自承擔不同的職責。以下是深度解析和代碼案例&#xff1a;1. _count vs _mapcount 區別詳解_count&#xff08;或_refcount&#xff0…

面陣 vs 線陣相機:怎么選不踩坑?選型公式直接套用

面陣vs線陣相機&#xff1a;怎么選不踩坑&#xff1f;選型公式直接套用&#x1f3af;面陣vs線陣相機怎么選不踩坑&#xff1f;&#x1f3af;一、面陣相機&#xff1a;工業檢測的“萬能選手”&#xff0c;拍全圖靠它&#x1f3af;二、線陣相機&#xff1a;大視野/高精度的“專屬…

Spring Security 如何使用@PreAuthorize注解

&#x1f9f1; 第一步&#xff1a;環境準備? 1. 創建數據庫&#xff08;MySQL&#xff09;-- 創建數據庫&#xff0c;使用 utf8mb4 字符集支持 emoji 和多語言 CREATE DATABASE security_demo CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;-- 使用該數據庫 USE security…

JVM中產生OOM(內存溢出)的8種典型情況及解決方案

Java中的OutOfMemoryError&#xff08;OOM&#xff09;是當JVM內存不足時拋出的錯誤。本文將全面剖析JVM中產生OOM的各種情況&#xff0c;包括堆內存溢出、方法區溢出、棧溢出等&#xff0c;并提供詳細的診斷方法和解決方案。 一、OOM基礎概念 1.1 OOM錯誤類型 Java中的OOM是…