圖像LLM是怎么工作
圖像LLM(多模態大語言模型)的核心是將圖像轉化為語言模型能理解的“語言”,并與文本深度融合。以下結合CLIP、DALL-E、GPT-4V等主流模型,通過具體例子說明其工作機制:
一、圖像→特征向量:從像素到“密碼”
例子:識別“戴墨鏡的貓”
-
視覺編碼器提取特征
- 使用ResNet或ViT(Vision Transformer)作為圖像編碼器,將圖片分解為局部像素塊(如16x16像素)。
- 每個像素塊通過多層卷積或自注意力機制,生成包含顏色、紋理、邊緣等信息的特征向量(如1024維數字串)。
- 最終,整幅圖像被濃縮為一個全局特征向量(類似“圖像指紋”)。
-
特征對齊語言空間
- 例如CLIP模型,通過對比學習將圖像特征與文本特征映射到同一空間:
- 輸入圖像“戴墨鏡的貓”和文本“a cat wearing sunglasses”,模型計算兩者特征的余弦相似度,若相似度高則視為匹配
- 例如CLIP模型,通過對比學習將圖像特征與文本特征映射到同一空間: