深入淺出多模態》(十一)之多模態經典模型:Flamingo系列

在這里插入圖片描述

🎉AI學習星球推薦: GoAI的學習社區 知識星球是一個致力于提供《機器學習 | 深度學習 | CV | NLP | 大模型 | 多模態 | AIGC 》各個最新AI方向綜述、論文等成體系的學習資料,配有全面而有深度的專欄內容,包括不限于 前沿論文解讀、資料共享、行業最新動態以、實踐教程、求職相關(簡歷撰寫技巧、面經資料與心得)多方面綜合學習平臺,強烈推薦AI小白及AI愛好者學習,性價比非常高!加入星球??點擊鏈接

?專欄介紹: 本作者推出全新系列《深入淺出多模態》專欄,具體章節如導圖所示(導圖后續更新),將分別從各個多模態模型的概念、經典模型、創新點、論文綜述、發展方向、數據集等各種角度展開詳細介紹,歡迎大家關注。
💙作者主頁: GoAI |💚 公眾號: GoAI的學習小屋 | 💛交流群: 704932595 |💜個人簡介 : 掘金簽約作者、百度飛槳PPDE、領航團團長、開源特訓營導師、CSDN、阿里云社區人工智能領域博客專家、新星計劃計算機視覺方向導師等,專注大數據與AI 知識分享。

💻文章目錄

《深入淺出多模態》(一):多模態模型論文最全總結
《深入淺出多模態》(二):多模態任務應用與背景
《深入淺出多模態》(三):多模態任務前言知識
《深入淺出多模態》之多模態經典模型:CLIP
《深入淺出多模態》之多模態經典模型:ALBEF
《深入淺出多模態》之多模態經典模型:BLIP
《深入淺出多模態》之多模態經典模型:BLIP2
《深入淺出多模態》之多模態經典模型:MiniGPTv4
《深入淺出多模態》之多模態經典模型:MiniGPT-v2、MiniGPT5
《深入淺出多模態》之多模態經典模型:InstructBLIP
《深入淺出多模態》之多模態經典模型:LLava系列
《深入淺出多模態》之多模態經典模型:Flamingo系列(本篇)


👨?💻導讀: 本文為《深入淺出多模態》系列:多模態經典模型 Flamingo系列詳解。本文將從論文精讀、訓練數據、核心結構、開源代碼、評測結果、部署方式等多個角度逐一展開,適合多模態領域入門用戶、開發者與研究者參考與使用。

傳統多模態模型總結

在這里插入圖片描述

?Flamingo 系列(DeepMind)

Flamingo簡介:

Flamingo是由DeepMind(Google DeepMind)提出的一系列強大的多模態(視覺-語言)大模型,首次于2022年4月發布。Flamingo系列模型設計的目標是“更少樣本(few-shot)”和“零樣本(zero-shot)”場景下,實現高效的視覺與語言任務統一理解和推理,成為多模態大模型領域的重要里程碑之一。
**目標:**構建可泛化的視覺語言對話模型,支持few-shot 與 zero-shot 多模態任務。

paper : Flamingo: a Visual Language Model for Few-Shot Learning
code : https://github.com/lucidrains/flamingo-pytorch
,2022年4月

特點說明
可插拔視覺語言模塊無需大規模重訓,視覺模塊可靈活接入語言大模型(如Chinchilla)
Perceiver Resampler將視覺 token 從 CLIP 中降維成少量稠密 token,減輕LLM輸入負擔
支持連續對話場景實現圖文混合輸入輸出,適配如圖文問答、視頻理解、對話等
Few-shot 強泛化能力僅用幾個演示樣例即可解決新任務,強調通用性和靈活性

一、Flamingo 系列發展脈絡

1. Flamingo (2022) - 首個版本

  • 論文:Flamingo: a Visual Language Model for Few-Shot Learning

  • 發布時間:2022年4月

  • 核心目標

    • 讓大模型在視覺-語言任務上具備強大的適應能力,能在極少樣本甚至零樣本下完成復雜視覺-語言推理。
    • 模型無需針對每個新任務特定微調,只需給出少量“上下文示例”(prompting)即可直接泛化。
  • 模型結構:
    在這里插入圖片描述
    在這里插入圖片描述
    在這里插入圖片描述

  • 關鍵創新

    1. 模塊化架構:將大型預訓練語言模型(如Chinchilla, Gopher)與凍結的視覺編碼器(如Perceiver Resampler, Frozen ViT)通過特定的多模態交互層(Perceiver Resampler+Cross-Attention)無縫耦合。
    2. 少樣本泛化:通過上下文學習(In-Context Learning),模型能在未見過的新任務上,僅靠少量樣本展示即可獲得優異表現。
    3. 端到端訓練:視覺和語言部分聯合訓練,但底層基礎模型參數可凍結,提升訓練效率和通用性。
  • 主要能力

    • 圖像-文本理解(如圖片問答)
    • 圖文推理
    • 多輪視覺-語言對話
    • 視頻多模態任務(后續擴展)

2. Flamingo V2 / Flamingo-2 (2024)

  • 論文:Flamingo-2: Advancing Open Multimodal AI
  • 發布時間:2024年
  • 核心進展
    • 開放權重:Flamingo-2及其微調權重部分開源,推動社區多模態AI發展。
    • 大規模數據訓練:在更大規模的圖文/視頻數據上訓練,進一步提升泛化能力。
    • 更高性能:在VQA、視覺推理、圖像描述等任務上已超越同期眾多多模態模型。
    • 更強視頻能力:Flamingo-2原生支持視頻輸入,能處理視頻-文本多模態任務。
  • 主要能力
    • 圖片、視頻與文本的統一理解與生成
    • 視頻問答、多模態推理
    • 更強的少樣本/零樣本泛化能力

3. 衍生與影響

  • Flamingo的架構思想影響了后續一系列多模態大模型(如LLaVA、MiniGPT-4、OpenFlamingo等)。
  • OpenFlamingo是社區復現和開放的Flamingo變體,方便學術與工業實驗。

二、Flamingo模型技術細節

1. 整體架構

  • 視覺編碼器:通常為Frozen ViT(Vision Transformer),將圖片/視頻幀編碼為視覺特征。
  • Perceiver Resampler:對視覺特征進行降維和重采樣,適配下游Transformer模型。
  • 語言模型:大規模預訓練LM(如Chinchilla、Gopher),專注于文本理解與生成。
  • 交互層(Cross-attention):連接視覺特征與語言模型,通過交叉注意力機制實現多模態融合。
  • 端到端結構:整體通過聯合訓練實現視覺-語言高效對齊。

2. Few-shot/Zero-shot Prompting

  • Flamingo支持用戶以“方式示例+任務輸入”的方式(prompt)靈活適配新任務,無需微調。
  • 例如:給定幾組圖片+文本問答對作為示例,“In-context learning”能力使模型快速適應新任務。

3. 多模態輸入輸出

  • 支持單圖、多圖、視頻幀+文本混合輸入,輸出為文本(如描述、推理、回答等)。

三、Flamingo代表任務與表現

  • 視覺問答(VQA):在多種VQA數據集上實現SOTA或接近SOTA表現。
  • 圖片描述(Captioning):生成自然語言描述圖片內容,表現優異。
  • 視覺常識推理:如OK-VQA、ScienceQA等復雜推理任務。
  • 多輪多模態對話:支持連續圖片/文本對話場景。
  • 視頻問答:Flamingo-2原生支持,能理解并推理視頻內容。

下游任務能力:

Flamingo 在多個多模態任務中表現出色,包括:

🖼? 圖像問答(VQA)

📄 圖像字幕生成

📹 視頻QA與事件理解

📊 科學圖表問答

💬 圖文多輪對話

四、Flamingo 與其他多模態大模型比較

模型公司支持模態Few-shot能力視頻輸入開源情況
FlamingoDeepMind圖像+文本(+視頻)極強是(V2)V2部分權重開源
Kosmos微軟圖像+文本部分開源
LLaVA社區圖像+文本開源
GPT-4VOpenAI圖像+文本閉源
GeminiGoogle圖像+文本(+音頻)極強閉源

五、總結

Flamingo系列通過創新的視覺-語言融合架構和強大的上下文學習能力,極大推動了多模態大模型在少樣本/零樣本場景下的泛化能力,是多模態AI領域的重要里程碑。其開放性和高性能,推動了學術界和產業界多模態AI的快速發展和普及。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/87229.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/87229.shtml
英文地址,請注明出處:http://en.pswp.cn/web/87229.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于Pandas和FineBI的昆明職位數據分析與可視化實現(三)- 職位數據統計分析

文章目錄 一、職位數據分析1. 一級分類職位數量統計分析2. 職位二級分類分布分析3. 職位分布分析4. 工作經驗需求分布分析5. 學歷要求職位分布分析6. 企業職位供給前507. 不同規模公司的職位數量統計8. 區域職位分布分析9. 各區域平均薪資范圍分布分析10. 不同工作經驗平均薪資…

大數據Hadoop之——安裝部署hadoop

目錄 前期準備 一、JDK的安裝 1、安裝jdk 2、配置Java環境變量 3、加載環境變量 4、進行校驗 二、hadoop的環境搭建 1、hadoop的下載安裝 2、配置文件設置 2.1. 配置 hadoop-env.sh 2.2. 配置 core-site.xml 2.3. 配置 hdfs-site.xml 2.4. 配置 yarn-site.xml 2.…

Spring IoC DI介紹

文章目錄 IoC & DI 介紹IoC介紹DI 介紹 組件注冊Bean 命名約定方法注解 Bean總結 掃描路徑DI 詳解屬性注入構造方法注入Setter 注入三種注入優缺點分析 當同一類型存在多個Bean時,直接使用Autowired會存在問題使用Primary注解使用Qualifier注解使用Bean的名稱使用Resource注…

【Flutter】解決 flutter_inappwebview在 Windows 上使用導致應用閃退問題

問題背景 在 Windows 11 上運行 Flutter 桌面應用時,應用出現閃退現象。通過系統事件日志分析,發現是 MSVCP140.dll 模塊的訪問沖突異常(錯誤代碼 c0000005)導致的崩潰。 問題分析 1. 錯誤現象 應用啟動后立即閃退Windows 事件…

使用 JavaScript、Mastra 和 Elasticsearch 構建一個具備代理能力的 RAG 助手

作者:來自 Elastic JD Armada 了解如何在 JavaScript 生態系統中構建 AI 代理。 Elasticsearch 與業界領先的生成式 AI 工具和服務商有原生集成。查看我們的網絡研討會,了解如何超越 RAG 基礎,或使用 Elastic 向量數據庫構建可投入生產的應用…

Active Directory 環境下 Linux Samba 文件共享服務建設方案

Active Directory 環境下 Linux Samba 文件共享服務建設方案 目錄 需求分析方案總體設計技術架構與選型詳細部署規劃共享文件性能測試非域終端共享配置運維與權限安全管理建議1. 需求分析 因某公司(編的)新增多個部門,各部門之間存在多類型終端系統,但又有同時訪問文件庫…

Python爬蟲網安-項目-簡單網站爬取

源碼: https://github.com/Wist-fully/Attack/tree/pc pc_p1 目標: 1.進入列表頁,順著列表爬取每個電影詳情頁 2.利用正則來提取,海報,名稱,類別,上映的時間,評分,劇…

Golang中的數組

Golang Array和以往認知的數組有很大不同。有點像Python中的列表 1. 數組:是同一種數據類型的固定長度的序列。 2. 數組定義:var a [len]int,比如:var a [5]int,數組長度必須是常量,且是類型的組成部分。一…

《Origin畫百圖》之矩陣散點圖

矩陣散點圖的作用 一、直觀展示多變量間的兩兩關系 矩陣散點圖的基本單元是兩兩變量的散點圖,每個散點圖對應矩陣中的一個單元格,可直接反映變量間的: 相關性方向:正相關(散點向右上傾斜)或負相關&#x…

Flask文件下載send_file中文文件名處理解決方案

Flask文件下載send_file中文文件名處理解決方案 Flask文件下載中文文件名處理解決方案問題背景問題分析核心問題常見癥狀 解決方案技術實現關鍵技術點 完整實現示例 Flask文件下載中文文件名處理解決方案 問題背景 在Web應用開發中,當用戶下載包含中文字符的文件時…

新手指南:在 Ubuntu 上安裝 PostgreSQL 并通過 VS Code 連接及操作

本文檔記錄了一個初學者在 Ubuntu 系統上安裝、配置 PostgreSQL 數據庫,并使用 Visual Studio Code (VS Code) 作為客戶端進行連接和操作的全過程。其中包含了遇到的常見錯誤、分析和最終的解決方案,旨在為新手提供一個清晰、可復現的操作路徑。 最終目…

二刷 蒼穹外賣day10(含bug修改)

Spring Task Spring框架提供的任務調度工具,可以按照約定的時間自動執行某個代碼邏輯 cron表達式 一個字符串,通過cron表達式可以定義任務觸發的時間 **構成規則:**分為6或7個域,由空格分隔開,每個域代表一個含義 …

Android Native 之 inputflinger進程分析

Android IMS原理解析 - 簡書 Android 輸入事件分發全流程梳理(一)_android input事件分發流程-CSDN博客 Android 輸入事件分發全流程梳理(二)_android輸入事件流程圖-CSDN博客 inputflinger模塊與surfaceflinger模塊在同級目錄…

Python實例題:基于 Flask 的在線聊天系統

目錄 Python實例題 題目 要求: 解題思路: 代碼實現: Python實例題 題目 基于 Flask 的在線聊天系統 要求: 使用 Flask 框架構建一個實時在線聊天系統,支持以下功能: 用戶注冊、登錄和個人資料管理…

v-bind指令

好的,我們來學習 v-bind 指令。這個指令是理解 Vue 數據驅動思想的基石。 核心功能:v-bind 的作用是將一個或多個 HTML 元素的 attribute (屬性) 或一個組件的 prop (屬性) 動態地綁定到 Vue 實例的數據上。 簡單來說,它在你的數據和 HTML …

【設計模式04】單例模式

前言 整個系統中只會出現要給實例,比如Spring中的Bean基本都是單例的 UML類圖 無 代碼示例 package com.sw.learn.pattern.B_create.c_singleton;public class Main {public static void main(String[] args) {// double check locking 線程安全懶加載 ?? //…

飛算科技依托 JavaAI 核心技術,打造企業級智能開發全場景方案

在數字經濟蓬勃發展的當下,企業對智能化開發的需求愈發迫切。飛算數智科技(深圳)有限公司(簡稱 “飛算科技”)作為自主創新型數字科技公司與國家級高新技術企業,憑借深厚的技術積累與創新能力,以…

20250701【二叉樹公共祖先】|Leetcodehot100之236【pass】今天計劃

20250701 思路與錯誤記錄1.二叉樹的數據結構與初始化1.1數據結構1.2 初始化 2.解題 完整代碼今天做了什么 題目 思路與錯誤記錄 1.二叉樹的數據結構與初始化 1.1數據結構 1.2 初始化 根據列表,順序存儲構建二叉樹 def build_tree(nodes, index0):# idx是root開始…

Web應用開發 --- Tips

Web應用開發 --- Tips General后端需要做參數校驗代碼風格和Api設計風格的一致性大于正確性數據入庫時間應由后端記錄在對Api修改的時候,要注意兼容情況,避免breaking change 索引對于查詢字段,注意加索引對于唯一的字段,考慮加唯…

CSS 安裝使用教程

一、CSS 簡介 CSS(Cascading Style Sheets,層疊樣式表)是用于為 HTML 頁面添加樣式的語言。通過 CSS 可以控制網頁元素的顏色、布局、字體、動畫等,是前端開發的三大核心技術之一(HTML、CSS、JavaScript)。…