Visual-RFT視覺強化微調:用「試錯學習」教會AI看圖說話

📜 文獻卡

英文題目: Visual-RFT: Visual Reinforcement Fine-Tuning;
作者: Ziyu Liu; Zeyi Sun; Yuhang Zang; Xiaoyi Dong; Yuhang Cao; Haodong Duan; Dahua Lin; Jiaqi Wang
DOI: 10.48550/arXiv.2503.01785
摘要翻譯: 像OpenAI o1這樣的大型推理模型中的強化微調(RFT)從對其答案的反饋中學習,這在微調數據稀缺的應用程序中特別有用。最近像DeepSeek-R1這樣的開源工作表明,具有可驗證獎勵的強化學習是再現o1的一個關鍵方向。雖然R1風格的模型已經在語言模型中展示了成功,但它在多模態領域的應用仍然沒有得到充分探索。這項工作引入了視覺強化微調(Visual-RFT),它進一步擴展了RFT在視覺任務上的應用領域。具體來說,Visual-RFT首先使用大型視覺語言模型(LVLMs)為每個輸入生成包含推理令牌和最終答案的多個響應,然后使用我們提出的視覺感知可驗證獎勵函數通過組相對策略優化(GRPO)等策略優化算法更新模型。我們針對不同的感知任務設計了不同的可驗證獎勵函數,例如目標檢測的交叉點超過聯合(IoU)獎勵。在細粒度圖像分類、少鏡頭目標檢測、推理接地以及開放詞匯表目標檢測基準上的實驗結果顯示了Visual-RFT與監督微調(SFT)相比的競爭性能和高級泛化能力。例如,Visual-RFT在大約100個樣本的單鏡頭細粒度圖像分類中比基線提高了24.3美元%$。在少鏡頭目標檢測中,Visual-RFT在COCO的雙鏡頭設置上也超過基線21.9美元,在LVIS上超過基線15.4美元。我們的Visual-RFT代表了微調LVLM的范式轉變,提供了一種數據高效、獎勵驅動的方法,增強了特定領域任務的推理和適應性。
github:https://github.com/liuziyu77/visual-rft

📜 研究核心

?? 內容

論文提出 Visual Reinforcement Fine-Tuning (Visual-RFT),旨在解決大型視覺語言模型(LVLMs)在少樣本視覺感知任務中的優化問題。傳統監督微調(SFT)依賴大量標注數據,而 Visual-RFT 通過強化學習框架結合可驗證獎勵機制,在數據稀缺場景下顯著提升模型性能1。其核心流程包括:

  1. 多響應生成:LVLMs 對輸入生成多個包含推理過程和答案的響應(如 <think><answer> 結構化輸出)2
  2. 任務定制獎勵:設計基于交并比(IoU)的目標檢測獎勵和基于分類準確率的獎勵,直接量化模型輸出的正確性3
  3. 策略優化:采用 Group Relative Policy Optimization (GRPO) 算法,通過對比組內響應的相對質量更新模型參數1

💡 創新

  1. 跨模態獎勵遷移:首次將可驗證獎勵機制從語言領域(如 DeepSeek-R1)擴展到視覺任務,突破傳統 RL 在視覺感知中的局限性1
  2. 結構化推理引導:通過強制模型輸出 <think> 推理步驟,提升視覺任務的邏輯分析能力(如細粒度分類中準確率提升 24.3%)4
  3. 數據效率突破:僅需 100 個樣本即可完成微調,相比 SFT 在少樣本目標檢測任務中 mAP 提升 21.9(COCO 數據集)2

🧩 不足

  1. 獎勵函數依賴:檢測任務需手動設計 IoU 獎勵,缺乏通用性框架3
  2. 長尾類別局限:在 LVIS 數據集的罕見類別(如 “stepladder”)檢測中,性能提升幅度波動較大(AP 0→29.3)5
  3. 計算成本:多響應生成策略增加 30% 訓練耗時1

🔁 研究內容

💧 數據

  1. 數據集:COCO(開放詞匯檢測)、LVIS(罕見類別檢測)、LISA(推理定位)、Flower102/Pets37(細粒度分類)25
  2. 預處理
    • 設計結構化提示模板(如檢測任務要求輸出 [x1,y1,x2,y2] 格式的邊界框)3
    • 少樣本場景下,僅使用 1-16 張標注圖像進行微調4

👩🏻?💻 實現

  1. 響應生成:對每張輸入圖像,模型生成 5 組含推理過程的響應1
  2. 獎勵計算
    • 檢測任務:R = 平均IoU + 置信度獎勵 + 格式合規獎勵3
    • 分類任務:R = 準確率 + 格式獎勵3
  3. 策略更新:GRPO 算法歸一化組內獎勵后,通過策略梯度提升高獎勵響應的生成概率1

🔬 實驗

  1. 少樣本分類:在 100 樣本的細粒度分類中,Visual-RFT 準確率達 80.3%(SFT 為 51.7%)4
  2. 開放詞匯檢測:COCO 新類別 mAP 從 9.8 提升至 31.3,超越 GroundingDINO 基線5
  3. 推理定位:在 LISA 數據集上,邊界框 IoU 提升 10.7%,推理步驟顯著改善定位精度(圖 5)5

論文中 GRPO 算法與獎勵計算邏輯12偽代碼形式:

# Visual-RFT 訓練流程(簡化偽代碼)
def Visual_RFT_Training(model, dataset, epochs):for epoch in range(epochs):for image, question in dataset:# 步驟1:生成多響應(G=5)responses = [model.generate(image, question) for _ in range(5)]  # [^1]# 步驟2:計算可驗證獎勵rewards = []for resp in responses:if task_type == "檢測":iou = calculate_iou(resp.bbox, gt_bbox)  # 交并比計算[^3]conf_reward = confidence_penalty(resp.confidence, iou)  # 公式(7)format_ok = check_xml_tags(resp)  # 格式校驗[^2]reward = iou + conf_reward + (1 if format_ok else 0)  # 公式(5)elif task_type == "分類":acc = 1 if resp.class == gt_class else 0  # 公式(9)format_ok = check_xml_tags(resp)reward = acc + (1 if format_ok else 0)rewards.append(reward)# 步驟3:GRPO策略優化[^1]mean_r = mean(rewards)std_r = std(rewards)advantages = [(r - mean_r)/std_r for r in rewards]  # 公式(4)# 步驟4:策略梯度更新model.update(responses, advantages)  # 使用KL約束[^1]

📜 結論

Visual-RFT 在 4 類視覺任務中均超越 SFT,證明強化學習可有效提升 LVLMs 的少樣本適應能力跨任務泛化性,為數據稀缺場景提供新范式12


🤔 論文總結

👍 論文優點

  1. 方法普適性:兼容檢測、分類、定位等多種視覺任務3
  2. 開源貢獻:公開訓練代碼、數據集及評估腳本(GitHub)1
  3. 可解釋性:通過 <think> 標簽顯式展示模型推理過程2

🎓 方法創新

  1. 格式獎勵機制:強制結構化輸出減少 37% 的格式錯誤3
  2. 動態置信度懲罰:對誤檢目標施加 1 - 置信度 的負獎勵,降低假陽性 22%3

? 未來展望

  1. 自動化獎勵設計:探索基于 LLM 的通用獎勵生成器。
  2. 跨任務遷移:研究視覺獎勵函數在視頻理解中的應用。
  3. 硬件優化:壓縮多響應生成的計算開銷。

參考內容


  1. Visual-RFT 框架設計與實驗設置,參見論文第 3.2 節及圖 2。 ?? ?? ?? ?? ?? ?? ?? ??

  2. 數據準備與提示模板設計,詳見論文表 1 和 3.2.2 節。 ?? ?? ?? ?? ??

  3. IoU 獎勵函數公式推導見論文公式 (5)-(8)。 ?? ?? ?? ?? ?? ?? ?? ??

  4. 少樣本分類實驗結果數據來自論文表 2。 ?? ?? ??

  5. 開放詞匯檢測與推理定位結果參見論文表 7-8 及圖 5。 ?? ?? ?? ??

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/71757.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/71757.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/71757.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Hadoop管理頁看不到任務的問題

這個yarn分配任務了但是為空 在$HADOOP_HOME/conf/mapred-site.xml 原來的配置文件基礎之上添加&#xff1a; <property><name>mapreduce.framework.name</name><value>yarn</value></property> 重啟之后就好了

傅里葉變換:跨越時空的數學魔法

引言&#xff1a;從振動到信息——傅里葉的智慧 傅里葉變換&#xff08;Fourier Transform&#xff09;是數學與工程領域最具影響力的工具之一。它的核心思想是將復雜的信號分解為簡單的正弦波和余弦波的疊加&#xff0c;從而揭示隱藏在數據背后的頻率信息。自19世紀法國數學家…

DR和BDR的選舉規則

在 OSPF&#xff08;開放最短路徑優先&#xff09;協議中&#xff0c;DR&#xff08;Designated Router&#xff0c;指定路由器&#xff09; 和 BDR&#xff08;Backup Designated Router&#xff0c;備份指定路由器&#xff09; 的選舉是為了在廣播型網絡&#xff08;如以太網…

【linux網絡編程】套接字編程API詳細介紹

在C語言中&#xff0c;套接字&#xff08;Socket&#xff09;編程主要用于網絡通信&#xff0c;尤其是在基于TCP/IP協議的應用程序開發中。常用的套接字編程API主要基于Berkeley Sockets&#xff08;伯克利套接字&#xff09;接口&#xff0c;這些函數通常在<sys/socket.h&g…

Linux和gcc/g++常用命令總結

目錄 Linux命令總結 文件操作相關命令 ls cd pwd cp mv rm cat mkdir rmdir touch 文本處理操作命令 grep awk sed 進程管理操作相關命令 ps top htop kill pkill killall chmod chown 網絡操作相關命令 ping ifconfig netstat ss lsof curl …

VUE的第二天

1. 指令修飾符 1.1什么是指令修飾符&#xff1f; ? 所謂指令修飾符就是通過“.”指明一些指令后綴 不同的后綴封裝了不同的處理操作 —> 簡化代碼 1.2按鍵修飾符 keyup.enter —>當點擊enter鍵的時候才觸發 代碼演示&#xff1a; <div id"app"><…

WSL with NVIDIA Container Toolkit

一、wsl 下安裝 docker 會提示安裝 docekr 桌面版&#xff0c;所以直接安裝 docker 桌面版本即可 二、安裝 NVIDIA Container Toolkit NVIDIA Container Toolkit倉庫 https://github.com/NVIDIA/nvidia-container-toolkit?github.com/NVIDIA/nvidia-container-toolkit 安裝…

mysql下載

目錄 下載地址&#xff1a; 1.MSI安裝包下載 2.ZIP壓縮包下載 卸載MySQL&#xff1a; 下載地址&#xff1a; MySQL :: Download MySQL Community Server到mysql官網進行下載&#xff1a;MySQL :: Download MySQL Community Server &#xff08;下面二選一&#xff0c;選擇一…

基于Kubernetes部署MySQL主從集群

以下是一個基于Kubernetes部署MySQL主從集群的詳細YAML示例&#xff0c;包含StatefulSet、Service、ConfigMap和Secret等關鍵配置。MySQL主從集群需要至少1個主節點和多個從節點&#xff0c;這里使用 StatefulSet 初始化腳本 實現主從自動配置。 1. 創建 Namespace (可選) ap…

如何使用 GPT-4o 翻譯播客聲音

Voice Translation into Different Languages | OpenAI Cookbook 如何使用 GPT-4o 將播客翻譯并配音成您的母語 您是否曾想過將播客翻譯成您的母語&#xff1f;翻譯和配音音頻內容可以讓全球更多的觀眾獲取信息。而現在&#xff0c;借助 GPT-4o 的音頻輸入&#xff08;audio-i…

Lab17_ Blind SQL injection with out-of-band data exfiltration

文章目錄 前言&#xff1a;進入實驗室構造 payload 前言&#xff1a; 實驗室標題為&#xff1a; 帶外數據泄露的 SQL 盲注 簡介&#xff1a; 本實驗包含一個SQL盲目注入漏洞。應用程序使用跟蹤Cookie進行分析&#xff0c;并執行包含提交的Cookie值的SQL查詢。 SQL查詢是異…

深入解析 configService.addListener 使用中的注意事項

在使用 Nacos 的 configService.addListener 方法進行配置監聽時&#xff0c;為了確保程序的穩定性、可靠性以及高效性&#xff0c;有諸多注意事項需要我們關注。下面將對這些關鍵要點進行詳細闡述。 一、連接穩定性 1.1 網絡連接問題 Nacos 客戶端與服務端通過網絡進行通信&…

C/C++藍橋杯算法真題打卡(Day4)

一、P11041 [藍橋杯 2024 省 Java B] 報數游戲 - 洛谷 算法代碼&#xff1a; #include<bits/stdc.h> using namespace std;// 計算第 n 個滿足條件的數 long long findNthNumber(long long n) {long long low 1, high 1e18; // 二分查找范圍while (low < high) {lo…

【Python 數據結構 10.二叉樹】

目錄 一、二叉樹的基本概念 1.二叉樹的定義 2.二叉樹的特點 3.特殊的二叉樹 Ⅰ、斜樹 Ⅱ、滿二叉樹 Ⅲ、完全二叉樹 Ⅳ、完全二叉樹和滿二叉樹的區別 4.二叉樹的性質 5.二叉樹的順序存儲 Ⅰ、完全二叉樹 Ⅱ、非完全二叉樹 Ⅲ、稀疏二叉樹 6.二叉樹的鏈式存儲 7.二叉樹的遍歷概念…

Windows 系統 Docker Desktop 入門教程:從零開始掌握容器化技術

文章目錄 前言一、Docker 簡介二、Docker Desktop 安裝2.1 系統要求2.2 安裝步驟 三、Docker 基本概念四、Docker 常用命令五、實戰&#xff1a;運行你的第一個容器5.1 拉取并運行 Nginx 容器5.2 查看容器日志5.3 停止并刪除容器 六、總結 前言 隨著云計算和微服務架構的普及&…

可變參數與遞歸

可變參數與遞歸 可變參數 package method; ? public class Demo03 {public static void main(String[] args) {Demo03 demo03new Demo03();demo03.test(1,2,3);?}public void test (int... i){System.out.println(i[0]);//1System.out.println(i[1]);//2System.out.println(…

【redis】全局命令exists、del、expire、ttl(惰性刪除和定期刪除)

exists——判定 key 是否存在 語法&#xff1a; exists key [key...] # 返回值&#xff1a;key 存在的個數針對多個 key 來說&#xff0c;是非常有用的時間復雜度 O ( 1 ) O(1) O(1) Redis 組織這些 key 就是按照哈希表的方式來組織的。Redis 支持很多數據結構指的是 value …

系統架構設計師—系統架構設計篇—特定領域軟件體系結構

文章目錄 概述領域分類垂直域水平域 系統模型基本活動參與角色 概述 特定領域軟件架構&#xff08;Domain Specific Software Architecture&#xff0c;DSSA&#xff09;是在一個特定應用領域中&#xff0c;為一組應用提供組織結構參考的標準團建體系結構。 領域分類 垂直域…

OpenManus:優點突出,短板也明顯

最近&#xff0c;OpenManus 在 AI 領域掀起了一陣熱潮。作為開源版的智能代理軟件&#xff0c;它自誕生起就備受矚目。今天&#xff0c;咱們就來深入聊聊 OpenManus 在實際測試中的表現&#xff0c;看看它到底有哪些過人之處&#xff0c;又存在哪些不足。? 優點大起底? 開源…

VUE3項目的文檔結構分析

1. Vue 3 項目的文檔結構 Vue 3 項目通常基于 Vue CLI 或 Vite 等工具創建&#xff0c;其文檔結構如下&#xff1a; 常見目錄結構 my-vue-project/ ├── public/ # 靜態資源目錄 │ ├── index.html # 入口頁面 ├── src/ …