Visual-RFT視覺強化微調：用「試錯學習」教會AI看圖說話

📜 文獻卡

英文題目: Visual-RFT: Visual Reinforcement Fine-Tuning;
作者: Ziyu Liu; Zeyi Sun; Yuhang Zang; Xiaoyi Dong; Yuhang Cao; Haodong Duan; Dahua Lin; Jiaqi Wang
DOI: 10.48550/arXiv.2503.01785
摘要翻譯: 像OpenAI o1這樣的大型推理模型中的強化微調（RFT）從對其答案的反饋中學習，這在微調數據稀缺的應用程序中特別有用。最近像DeepSeek-R1這樣的開源工作表明，具有可驗證獎勵的強化學習是再現o1的一個關鍵方向。雖然R1風格的模型已經在語言模型中展示了成功，但它在多模態領域的應用仍然沒有得到充分探索。這項工作引入了視覺強化微調（Visual-RFT），它進一步擴展了RFT在視覺任務上的應用領域。具體來說，Visual-RFT首先使用大型視覺語言模型（LVLMs）為每個輸入生成包含推理令牌和最終答案的多個響應，然后使用我們提出的視覺感知可驗證獎勵函數通過組相對策略優化（GRPO）等策略優化算法更新模型。我們針對不同的感知任務設計了不同的可驗證獎勵函數，例如目標檢測的交叉點超過聯合（IoU）獎勵。在細粒度圖像分類、少鏡頭目標檢測、推理接地以及開放詞匯表目標檢測基準上的實驗結果顯示了Visual-RFT與監督微調（SFT）相比的競爭性能和高級泛化能力。例如，Visual-RFT在大約100個樣本的單鏡頭細粒度圖像分類中比基線提高了24.3美元%$。在少鏡頭目標檢測中，Visual-RFT在COCO的雙鏡頭設置上也超過基線21.9美元，在LVIS上超過基線15.4美元。我們的Visual-RFT代表了微調LVLM的范式轉變，提供了一種數據高效、獎勵驅動的方法，增強了特定領域任務的推理和適應性。
github：https://github.com/liuziyu77/visual-rft

📜 研究核心

?? 內容

論文提出 Visual Reinforcement Fine-Tuning (Visual-RFT)，旨在解決大型視覺語言模型（LVLMs）在少樣本視覺感知任務中的優化問題。傳統監督微調（SFT）依賴大量標注數據，而 Visual-RFT 通過強化學習框架結合可驗證獎勵機制，在數據稀缺場景下顯著提升模型性能¹。其核心流程包括：

多響應生成：LVLMs 對輸入生成多個包含推理過程和答案的響應（如 <think> 和 <answer> 結構化輸出）²。
任務定制獎勵：設計基于交并比（IoU）的目標檢測獎勵和基于分類準確率的獎勵，直接量化模型輸出的正確性³。
策略優化：采用 Group Relative Policy Optimization (GRPO) 算法，通過對比組內響應的相對質量更新模型參數¹。

💡 創新

跨模態獎勵遷移：首次將可驗證獎勵機制從語言領域（如 DeepSeek-R1）擴展到視覺任務，突破傳統 RL 在視覺感知中的局限性¹。
結構化推理引導：通過強制模型輸出 <think> 推理步驟，提升視覺任務的邏輯分析能力（如細粒度分類中準確率提升 24.3%）⁴。
數據效率突破：僅需 100 個樣本即可完成微調，相比 SFT 在少樣本目標檢測任務中 mAP 提升 21.9（COCO 數據集）²。

🧩 不足

獎勵函數依賴：檢測任務需手動設計 IoU 獎勵，缺乏通用性框架³。
長尾類別局限：在 LVIS 數據集的罕見類別（如 “stepladder”）檢測中，性能提升幅度波動較大（AP 0→29.3）⁵。
計算成本：多響應生成策略增加 30% 訓練耗時¹。

🔁 研究內容

💧 數據

數據集：COCO（開放詞匯檢測）、LVIS（罕見類別檢測）、LISA（推理定位）、Flower102/Pets37（細粒度分類）²⁵。
預處理：
- 設計結構化提示模板（如檢測任務要求輸出 [x1,y1,x2,y2] 格式的邊界框）³。
- 少樣本場景下，僅使用 1-16 張標注圖像進行微調⁴。

👩🏻?💻 實現

響應生成：對每張輸入圖像，模型生成 5 組含推理過程的響應¹。
獎勵計算：
- 檢測任務：R = 平均IoU + 置信度獎勵 + 格式合規獎勵³。
- 分類任務：R = 準確率 + 格式獎勵³。
策略更新：GRPO 算法歸一化組內獎勵后，通過策略梯度提升高獎勵響應的生成概率¹。

🔬 實驗

少樣本分類：在 100 樣本的細粒度分類中，Visual-RFT 準確率達 80.3%（SFT 為 51.7%）⁴。
開放詞匯檢測：COCO 新類別 mAP 從 9.8 提升至 31.3，超越 GroundingDINO 基線⁵。
推理定位：在 LISA 數據集上，邊界框 IoU 提升 10.7%，推理步驟顯著改善定位精度（圖 5）⁵。

論文中 GRPO 算法與獎勵計算邏輯12偽代碼形式：

# Visual-RFT 訓練流程（簡化偽代碼）
def Visual_RFT_Training(model, dataset, epochs):for epoch in range(epochs):for image, question in dataset:# 步驟1：生成多響應（G=5）responses = [model.generate(image, question) for _ in range(5)]  # [^1]# 步驟2：計算可驗證獎勵rewards = []for resp in responses:if task_type == "檢測":iou = calculate_iou(resp.bbox, gt_bbox)  # 交并比計算[^3]conf_reward = confidence_penalty(resp.confidence, iou)  # 公式(7)format_ok = check_xml_tags(resp)  # 格式校驗[^2]reward = iou + conf_reward + (1 if format_ok else 0)  # 公式(5)elif task_type == "分類":acc = 1 if resp.class == gt_class else 0  # 公式(9)format_ok = check_xml_tags(resp)reward = acc + (1 if format_ok else 0)rewards.append(reward)# 步驟3：GRPO策略優化[^1]mean_r = mean(rewards)std_r = std(rewards)advantages = [(r - mean_r)/std_r for r in rewards]  # 公式(4)# 步驟4：策略梯度更新model.update(responses, advantages)  # 使用KL約束[^1]

📜 結論

Visual-RFT 在 4 類視覺任務中均超越 SFT，證明強化學習可有效提升 LVLMs 的少樣本適應能力與跨任務泛化性，為數據稀缺場景提供新范式¹²。

🤔 論文總結

👍 論文優點

方法普適性：兼容檢測、分類、定位等多種視覺任務³。
開源貢獻：公開訓練代碼、數據集及評估腳本（GitHub）¹。
可解釋性：通過 <think> 標簽顯式展示模型推理過程²。

🎓 方法創新

格式獎勵機制：強制結構化輸出減少 37% 的格式錯誤³。
動態置信度懲罰：對誤檢目標施加 1 - 置信度 的負獎勵，降低假陽性 22%³。

? 未來展望

自動化獎勵設計：探索基于 LLM 的通用獎勵生成器。
跨任務遷移：研究視覺獎勵函數在視頻理解中的應用。
硬件優化：壓縮多響應生成的計算開銷。

參考內容

Visual-RFT 框架設計與實驗設置，參見論文第 3.2 節及圖 2。 ?? ?? ?? ?? ?? ?? ?? ??
數據準備與提示模板設計，詳見論文表 1 和 3.2.2 節。 ?? ?? ?? ?? ??
IoU 獎勵函數公式推導見論文公式 (5)-(8)。 ?? ?? ?? ?? ?? ?? ?? ??
少樣本分類實驗結果數據來自論文表 2。 ?? ?? ??
開放詞匯檢測與推理定位結果參見論文表 7-8 及圖 5。 ?? ?? ?? ??

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/71757.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/71757.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/71757.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！