📜 文獻卡
英文題目: Visual-RFT: Visual Reinforcement Fine-Tuning; |
---|
作者: Ziyu Liu; Zeyi Sun; Yuhang Zang; Xiaoyi Dong; Yuhang Cao; Haodong Duan; Dahua Lin; Jiaqi Wang |
DOI: 10.48550/arXiv.2503.01785 |
摘要翻譯: 像OpenAI o1這樣的大型推理模型中的強化微調(RFT)從對其答案的反饋中學習,這在微調數據稀缺的應用程序中特別有用。最近像DeepSeek-R1這樣的開源工作表明,具有可驗證獎勵的強化學習是再現o1的一個關鍵方向。雖然R1風格的模型已經在語言模型中展示了成功,但它在多模態領域的應用仍然沒有得到充分探索。這項工作引入了視覺強化微調(Visual-RFT),它進一步擴展了RFT在視覺任務上的應用領域。具體來說,Visual-RFT首先使用大型視覺語言模型(LVLMs)為每個輸入生成包含推理令牌和最終答案的多個響應,然后使用我們提出的視覺感知可驗證獎勵函數通過組相對策略優化(GRPO)等策略優化算法更新模型。我們針對不同的感知任務設計了不同的可驗證獎勵函數,例如目標檢測的交叉點超過聯合(IoU)獎勵。在細粒度圖像分類、少鏡頭目標檢測、推理接地以及開放詞匯表目標檢測基準上的實驗結果顯示了Visual-RFT與監督微調(SFT)相比的競爭性能和高級泛化能力。例如,Visual-RFT在大約100個樣本的單鏡頭細粒度圖像分類中比基線提高了24.3美元%$。在少鏡頭目標檢測中,Visual-RFT在COCO的雙鏡頭設置上也超過基線21.9美元,在LVIS上超過基線15.4美元。我們的Visual-RFT代表了微調LVLM的范式轉變,提供了一種數據高效、獎勵驅動的方法,增強了特定領域任務的推理和適應性。 |
github:https://github.com/liuziyu77/visual-rft |
📜 研究核心
?? 內容
論文提出 Visual Reinforcement Fine-Tuning (Visual-RFT),旨在解決大型視覺語言模型(LVLMs)在少樣本視覺感知任務中的優化問題。傳統監督微調(SFT)依賴大量標注數據,而 Visual-RFT 通過強化學習框架結合可驗證獎勵機制,在數據稀缺場景下顯著提升模型性能1。其核心流程包括:
- 多響應生成:LVLMs 對輸入生成多個包含推理過程和答案的響應(如
<think>
和<answer>
結構化輸出)2。 - 任務定制獎勵:設計基于交并比(IoU)的目標檢測獎勵和基于分類準確率的獎勵,直接量化模型輸出的正確性3。
- 策略優化:采用 Group Relative Policy Optimization (GRPO) 算法,通過對比組內響應的相對質量更新模型參數1。
💡 創新
- 跨模態獎勵遷移:首次將可驗證獎勵機制從語言領域(如 DeepSeek-R1)擴展到視覺任務,突破傳統 RL 在視覺感知中的局限性1。
- 結構化推理引導:通過強制模型輸出
<think>
推理步驟,提升視覺任務的邏輯分析能力(如細粒度分類中準確率提升 24.3%)4。 - 數據效率突破:僅需 100 個樣本即可完成微調,相比 SFT 在少樣本目標檢測任務中 mAP 提升 21.9(COCO 數據集)2。
🧩 不足
- 獎勵函數依賴:檢測任務需手動設計 IoU 獎勵,缺乏通用性框架3。
- 長尾類別局限:在 LVIS 數據集的罕見類別(如 “stepladder”)檢測中,性能提升幅度波動較大(AP 0→29.3)5。
- 計算成本:多響應生成策略增加 30% 訓練耗時1。
🔁 研究內容
💧 數據
- 數據集:COCO(開放詞匯檢測)、LVIS(罕見類別檢測)、LISA(推理定位)、Flower102/Pets37(細粒度分類)25。
- 預處理:
- 設計結構化提示模板(如檢測任務要求輸出
[x1,y1,x2,y2]
格式的邊界框)3。 - 少樣本場景下,僅使用 1-16 張標注圖像進行微調4。
- 設計結構化提示模板(如檢測任務要求輸出
👩🏻?💻 實現
- 響應生成:對每張輸入圖像,模型生成 5 組含推理過程的響應1。
- 獎勵計算:
- 檢測任務:
R = 平均IoU + 置信度獎勵 + 格式合規獎勵
3。 - 分類任務:
R = 準確率 + 格式獎勵
3。
- 檢測任務:
- 策略更新:GRPO 算法歸一化組內獎勵后,通過策略梯度提升高獎勵響應的生成概率1。
🔬 實驗
- 少樣本分類:在 100 樣本的細粒度分類中,Visual-RFT 準確率達 80.3%(SFT 為 51.7%)4。
- 開放詞匯檢測:COCO 新類別 mAP 從 9.8 提升至 31.3,超越 GroundingDINO 基線5。
- 推理定位:在 LISA 數據集上,邊界框 IoU 提升 10.7%,推理步驟顯著改善定位精度(圖 5)5。
論文中 GRPO 算法與獎勵計算邏輯12偽代碼形式:
# Visual-RFT 訓練流程(簡化偽代碼)
def Visual_RFT_Training(model, dataset, epochs):for epoch in range(epochs):for image, question in dataset:# 步驟1:生成多響應(G=5)responses = [model.generate(image, question) for _ in range(5)] # [^1]# 步驟2:計算可驗證獎勵rewards = []for resp in responses:if task_type == "檢測":iou = calculate_iou(resp.bbox, gt_bbox) # 交并比計算[^3]conf_reward = confidence_penalty(resp.confidence, iou) # 公式(7)format_ok = check_xml_tags(resp) # 格式校驗[^2]reward = iou + conf_reward + (1 if format_ok else 0) # 公式(5)elif task_type == "分類":acc = 1 if resp.class == gt_class else 0 # 公式(9)format_ok = check_xml_tags(resp)reward = acc + (1 if format_ok else 0)rewards.append(reward)# 步驟3:GRPO策略優化[^1]mean_r = mean(rewards)std_r = std(rewards)advantages = [(r - mean_r)/std_r for r in rewards] # 公式(4)# 步驟4:策略梯度更新model.update(responses, advantages) # 使用KL約束[^1]
📜 結論
Visual-RFT 在 4 類視覺任務中均超越 SFT,證明強化學習可有效提升 LVLMs 的少樣本適應能力與跨任務泛化性,為數據稀缺場景提供新范式12。
🤔 論文總結
👍 論文優點
- 方法普適性:兼容檢測、分類、定位等多種視覺任務3。
- 開源貢獻:公開訓練代碼、數據集及評估腳本(GitHub)1。
- 可解釋性:通過
<think>
標簽顯式展示模型推理過程2。
🎓 方法創新
- 格式獎勵機制:強制結構化輸出減少 37% 的格式錯誤3。
- 動態置信度懲罰:對誤檢目標施加
1 - 置信度
的負獎勵,降低假陽性 22%3。
? 未來展望
- 自動化獎勵設計:探索基于 LLM 的通用獎勵生成器。
- 跨任務遷移:研究視覺獎勵函數在視頻理解中的應用。
- 硬件優化:壓縮多響應生成的計算開銷。
參考內容
Visual-RFT 框架設計與實驗設置,參見論文第 3.2 節及圖 2。 ?? ?? ?? ?? ?? ?? ?? ??
數據準備與提示模板設計,詳見論文表 1 和 3.2.2 節。 ?? ?? ?? ?? ??
IoU 獎勵函數公式推導見論文公式 (5)-(8)。 ?? ?? ?? ?? ?? ?? ?? ??
少樣本分類實驗結果數據來自論文表 2。 ?? ?? ??
開放詞匯檢測與推理定位結果參見論文表 7-8 及圖 5。 ?? ?? ?? ??