PaliGemma 2-輕量級開放式視覺語言模型

??PaliGemma 2是輕量級開放式視覺語言模型 (VLM)，靈感源自 PaLI-3，基于 SigLIP 視覺模型和 Gemma 語言模型等開放式組件。PaliGemma 同時接受圖片和文本作為輸入，并且可以回答有關圖片的詳細問題和背景信息。
PaliGemma 2 提供 30 億、100 億和 280 億個參數的大小，分別基于 Gemma 2 20 億、90 億和 270 億個參數的模型。三種參數規模(3B/10B/28B)、三種分辨率(224×224/448×448/896×896)。
在這里插入圖片描述

模型架構

??PaliGemma 2 由 Transformer 解碼器和 Vision Transformer 圖片編碼器組成。文本解碼器從 2B、9B 和 27B 參數大小的 Gemma 2 初始化。圖片編碼器從 SigLIP-So400m/14 初始化。與原始 PaliGemma 模型類似，PaLiGemma 2 是按照 PaLI-3 方案訓練的。
在這里插入圖片描述

輸入和輸出

??● 輸入：圖片和文本字符串，例如用于為圖片添加說明的提示或問題。
● 輸出：針對輸入生成的文本，例如圖片的標題、問題的答案、對象邊界框坐標列表或分割代碼詞。

視覺編碼器

??SigLIP：其shape optimized ViT-So400m圖像編碼器，該模型通過sigmoid損失在大規模上進行了對比預訓練，且其在小尺寸上也表現出色。

輸入投影

??線性投影：將SigLIP的輸出到與gemma的詞匯token相同的維度，以便它們可以被連接。
LLM主干。

LLM主干

??Gemma2 10B：該模型可以匹配或超越使用相對更大些的語言模型的VLMs的性能，包括之前的PaLIs。
在這里插入圖片描述

Finetune

不在這里

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/89711.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/89711.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/89711.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！