【論文閱讀】DeepSeek-LV2:用于高級多模態理解的專家混合視覺語言模型
文章目錄
- 【論文閱讀】DeepSeek-LV2:用于高級多模態理解的專家混合視覺語言模型
- 一、介紹
- 二、模型結構
- 三、數據建設
- **3.1 對齊**
- **3.2 視覺語言預訓練數據**
- **3.3 監督微調數據**
- 四、訓練方法
- 五、實驗結果
通過兩個關鍵的主要升級,顯著改進了其前身DeepSeek-VL
對于視覺組件,采用了dynamic tiling vision encoding strategy 專門用于處理不同長寬比的高分辨率圖像
對于語言組件,利用DeepSeekMoE模型和Multi-head Latent Attention機制,將鍵值緩存壓縮為潛在向量,以實現高效推理和高吞吐量
?
一、介紹
語言模型(VLMs)已經成為人工智能領域的一股變革力量
以解決需要多模態理解的復雜現實世界應用。
?
DeepSeek-LV2 進步主要集中在三個關鍵方面:
- 增強視覺理解的動態、高分辨率視覺編碼策略
- 顯著提高訓練和推理效率的優化語言模型架構
- 精細的視覺語言數據構建管道,提高了整體性能,擴展到新的領域
?
(1)
引入了一種動態平鋪視覺編碼策略,可以有效地處理不同寬高比的高分辨率圖像
- 避免了舊的固定尺寸編碼器的限制
- 需要超高分辨率的任務中表現出色,包括視覺接地,文檔/表格/圖表分析和詳細的特征提取
- 保持可管理數量的視覺token
?
(2)
MLA通過將鍵值(KV)緩存壓縮到潛在向量中來顯著降低計算成本,從而加快推理速度并提高吞吐量。
通過DeepSeekMoE框架進一步提高效率
?
(3)
在質量、數量和多樣性方面大大提高了我們的視覺語言訓練數據
改進的訓練數據還實現了新的能力,如視覺基礎和圖形用戶界面(GUI)感知
?
如果說要對其進行圖像思路的處理,難道是用提取出的文本token來對語義分割進行輔助嗎。
思路1:
文本條件下的token來進行輔助融合。
思路2:
輸出的文本,或者說定位信息來優化我們的分割模型的效果。
?
二、模型結構
DeepSeek-VL 2由三個核心模塊組成:
- 視覺編碼器
- 視覺語言適配器
- 專家混合語言模型
?
這些創新能夠更有效地處理高分辨率視覺輸入和文本數據。
我覺得主要帶來的影響是對圖像信息的提取處理能力
?
動態平鋪策略
通過將高分辨率圖像分割為瓦片來實現動態瓦片化策略
使用單個SigLIP-SO 400 M-384視覺編碼器有效處理具有不同縱橫比圖像
?
視覺語言適配器
實現了一個2 × 2像素的洗牌操作,將每個瓦片的視覺令牌從27 × 27壓縮到14 × 14 = 196個令牌。
在全局縮略圖塊和局部塊之間插入一個標記
隨后使用雙層多層感知器(MLP)將其投影到語言模型的嵌入空間中。我們的動態平鋪策略的視覺說明如圖3所示
?
DeepSeekMoE LLM
語言模型基于DeepSeekMoE,結合了多頭潛在注意力機制[53]。MLA通過將鍵值緩存壓縮到潛在向量中來提高推理效率,從而提高吞吐量
全局偏差項,以經濟高效地改善專家之間的負載平衡
?
三、數據建設
訓練過程分為三個不同的階段:
- VL對齊
- VL預訓練
- 監督微調(SFT)
?
3.1 對齊
該階段的重點是訓練MLP連接器,以橋接預訓練的視覺編碼器和LLM
?
3.2 視覺語言預訓練數據
預訓練數據將視覺語言(VL)和純文本數據結合
保持視覺語言(VL)功能和純文本性能之間的平衡
?
1)交錯的圖像-文本數據
DeepSeek-VL 2-Tiny的初步實驗確定了這個特定的混合比例
?
2)圖像字幕數據
提供視覺和文本信息之間的直接對齊
?
開發了一個全面的圖像字幕流程,該流程考慮:
- OCR提示
- Meta信息(例如,位置,相機設置)
- 相關原始字幕作為提示
?
實現了一個質量控制管道,以簡單地根據其寫作質量對所有字幕進行評分以實現過濾低質量字幕
所以deepseek對于圖像中的文字信息相對敏感
?
3)光學字符識別數據
開發OCR功能,我們使用了開源數據
?
4)視覺問答數據
- General VQA
- Table, chart and document understanding
- Web-to-code and plot-to-Python generation
- QA with visual prompt
?
5)視覺基礎數據
其實我感覺我們能用的部分就是這一塊,換個話說,我們應該怎么去利用他的輸出信息
定位框出指定的圖中物體
?
6)基礎對話數據
?
3.3 監督微調數據
SFT數據將各種開源數據集與高質量的內部QA對相結合
?
一般的視覺問答
三個主要限制:
- 簡短的回答
- 糟糕的OCR質量
- 幻覺內容
- 偶爾會在中文響應中不適當地插入英語單詞
?
針對存在的問題來補充訓練的數據集
- 發了一個內部中文QA數據集
- 額外的內部數據集,以補充現實世界和文化視覺知識
- 成了特定于文檔理解的多輪會話QA對
- 原始問題重新生成所有公共數據,增強基于表格的QA數據
- 更詳細的推理過程增強了以公共推理為中心的數據集
- 構建了一個專注于教科書的內部數據集
- 擴展了我們內部的Web代碼和Python Plot代碼數據集
- 開發我們的視覺基礎數據集
- 使用[62,72]構建接地對話數據,以進一步增強模型在預訓練階段建立的能力
- Text-Only datasets
?
相關能力:
- OCR和文檔理解
- 推理,邏輯和數學
- 教科書和學術問題
- Web到代碼和Plot到Python生成
- 視覺基礎
- Grounded conversation
?
四、訓練方法
三階段流程進行訓練:
- 初始階段,使用詳細描述的圖像-文本配對數據訓練視覺編碼器和視覺語言適配器MLP,同時保持語言模型
- 預訓練階段,使用數據進行視覺語言預訓練
- 微調階段,使用的數據執行監督微調
?
預訓練和微調階段,所有模型參數同時訓練
?
對齊
主要目標是在視覺特征和語言特征之間建立魯棒的連接
調整固定分辨率的視覺編碼器以適應動態的高分辨率圖像,保持語言模型凍結
?
視覺-語言協調
主要目標是在視覺特征和語言特征之間建立魯棒的連接
部分計算資源用于視覺語言預訓練
解凍所有參數,包括視覺編碼器,視覺語言適配器MLP和DeepSeekMoE LLM
?
監督微調
優化所有參數,同時只監督答案和特殊標記,屏蔽系統和用戶提示
聯合收割機多模態數據與來自DeepSeek-V2的純文本對話數據相結合
?
五、實驗結果
該模型在密集圖像描述方面表現出色,能夠識別常見地標,一般視覺知識,和豐富的文本在英語和中文
?
RefCOCO 數據集是一個多模態數據集,它包含了圖像和對應的自然語言表達式,這些表達式指向圖像中的特定對象
?
這也有點類似于打天梯圖了,在視覺表現上也比如優秀
我們更加去關注DeepSeek對于物體的檢索和找到能力