【論文筆記】【強化微調】T-GRPO：對視頻數據進行強化微調

【論文筆記】【強化微調】T-GRPO：對視頻數據進行強化微調

pingmian/2025/6/24 22:28:26/文章來源:https://blog.csdn.net/m0_72372080/article/details/148812606

tulerfeng/Video-R1: Video-R1: Reinforcing Video Reasoning in MLLMs [🔥the first paper to explore R1 for video]

1. 引述

在強化微調中，像 GRPO、DAPO 這樣的方法都是對文本或者圖片進行微調思考，所以這類微調方法不對時序信息做處理，因此無法很好的遷移到視頻的強化微調中。

雖說目前有不少視頻理解的工作，但是都沒有加上強化微調的方法。也就是說，針對視頻數據的強化微調很稀缺。

于是幾個大學（港大+清華+中科大）聯合搞了一個 Video-R1，提出 T-GRPO，實現對視頻進行思考。

2. T-GRPO

T-GRPO 的核心思路如上圖。

相比 GRPO，T-GRPO 的創新在于使大模型微調的時候，能關注時序信息。做法就是將視頻數據復制一份，并將這一份的視頻幀打亂，打亂視頻幀的視頻就沒有時序信息了。

于是，設置獎勵，使得模型在分析視頻內容時，要求對有時序信息的視頻幀分析正確，對亂序的視頻幀分析錯誤。寫成公式如下：（這里的? $\alpha$ ?設置為 0.3）

$r_t = \begin{cases} \alpha, & \text{if } p \geq \tilde{p} \\ 0, & \text{otherwise} \end{cases}$

于是乎，T-GRPO 的核心獎勵如下：

$R_i = \begin{cases} r_i + r_t, & \text{if } o_i \text{ is correct} \\ r_i, & \text{otherwise} \end{cases}$

其中， $r_i$ ?代表問題是否回答正確。這個公式的意思就是說，如果有時序信息的視頻幀的分析效果比亂序的更好，那么獎勵就是? $r_i+r_t$

除此之外，還對模型輸出長度通過獎勵做了限制。如果輸出長度少，還有額外獎勵：

$R_i = \begin{cases} R_i + \omega, & \text{if } o_i \text{ is correct and } l_{\min} \leq \mathrm{len}(o_i) \leq l_{\max} \\ R_i, & \text{otherwise} \end{cases}$

最小長度? $l_\text{min}$ ?被設置為 320，最大長度? $l_\text{max}$ ?被設置為 512

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/85978.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/85978.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/85978.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

【Unity】動畫系統

【Unity】動畫系統

0 前言早些時間學動畫系統時的筆記，實際還沒學完，后續計劃會慢慢補全吧。 1 動畫通常來說動畫都是動畫師來做的，不過Unity也能實現簡單的動畫效果。PS：官方文檔中，將動畫稱之為動畫剪輯。 1.1 創建動畫首先在Unit…

閱讀更多...

C++二級指針的用法指向指針的指針(多級間接尋址）

C++二級指針的用法指向指針的指針(多級間接尋址）

指向指針的指針是一種多級間接尋址的形式，或者說是一個指針鏈。指針的指針就是將指針的地址存放在另一個指針里面。通常，一個指針包含一個變量的地址。當我們定義一個指向指針的指針時，第一個指針包含了第二個指針的地址，第二個…

閱讀更多...

【格與代數系統】示例

【格與代數系統】示例

【格與代數系統】格與代數系統匯總例1 設是由誘導的代數系統，則其上的二元運算滿足（ABCD） A. B. C. D. 代數系統滿足交換律、冪等律、吸收律、結合律例2 是（ABCD） A.有界格有界格：有最大、最小元…

閱讀更多...

Stable Diffusion 項目實戰落地：手機壁紙制作-第一篇從零基礎到生成藝術品的第一步！

Stable Diffusion 項目實戰落地：手機壁紙制作-第一篇從零基礎到生成藝術品的第一步！

大家好！歡迎來到《StableDiffusion實戰-手機壁紙制作》系列的第一篇！在這一篇文章里，我們將一起探索如何用StableDiffusion（SD）這款強大的工具，快速制作出炫酷的手機壁紙。如果你對生成藝術、AI繪圖感興趣，那你一定不能錯過！你能做什么？你將做什么！在之前的系…

閱讀更多...

WEB3開啟 Hardhat 自動驗證有什么意義

WEB3開啟 Hardhat 自動驗證有什么意義

這是個非常好的問題，尤其是你在學習 Web3 后端開發時，理解為什么要啟用 Hardhat 自動驗證合約源碼，會讓你開發流程更完整、更專業。 ? 一句話總結： 開啟 Hardhat 自動驗證的意義是：讓你的合約在區塊鏈瀏覽器&#xff…

閱讀更多...

Qt窗?的學習（一）

Qt窗?的學習（一）

Qt窗?是通過QMainWindow類來實現的。 QMainWindow是?個為??提供主窗?程序的類，繼承?QWidget類，并且提供了?個預定義的布局。QMainWindow包含?個菜單欄（menubar）、多個?具欄(toolbars)、多個浮動窗?（鉚接部…

閱讀更多...

C++ 面試題常用總結詳解（滿足c++ 崗位必備，不定時更新）

C++ 面試題常用總結詳解（滿足c++ 崗位必備，不定時更新）

📚 本文主要總結了一些常見的C面試題，主要涉及到語法基礎、STL標準庫、內存相關、類相關和其他輔助技能，掌握這些內容，基本上就滿足C的崗位技能（紅色標記為重點內容），歡迎大家前來學習指正&…

閱讀更多...

git提交的腳本無執行權限怎么辦

git提交的腳本無執行權限怎么辦

問題描述自己寫的小項目，沒有在服務器安裝 Jenkins 進行項目部署，為了圖方便，在項目中編寫了一個 deploy.sh 腳本文件用來執行項目部署。但是在服務器上 pull 下來之后發現腳本文件沒有執行權限，通過 chmod 命令進行賦權&#x…

閱讀更多...

004.chromium編譯進階-啟動時傳入cookies

004.chromium編譯進階-啟動時傳入cookies

一、目標： 實現傳入參數--set-cookies[{"domain":"https://baidu.com","name":"AAAA","value":"111"},{"domain":"https://baidu.com","name":"BBB","…

閱讀更多...

【數據庫復習】

【數據庫復習】

數據庫復習題一、填空題1．數據庫系統一般由（數據庫）、應用系統、（數據庫管理系統）、（數據庫管理員）和用戶構成。2．數據模型通常由（數據結構）、（數…

閱讀更多...

微信小程序：選擇頁面單選實現（多頁面均可選擇）

微信小程序：選擇頁面單選實現（多頁面均可選擇）

一、效果展示 1、主頁面展示了兩個選擇行 2、選擇頁面根據傳遞的參數決定員工展示的數據，并且單選，可將數據傳遞給主頁面二、主頁面實現 1、視圖層寫入了采購員和庫管員的行選擇信息 <view class="item flex flex-between"><view class="i…

閱讀更多...

使用docker-compose搭建redis-cluster集群

使用docker-compose搭建redis-cluster集群

前言如果你也因為centos的gcc版本落后導致redis編譯安裝不通過而煩惱，大可以試一試用docker去搭建redis集群。本文以單節點搭建redis-cluster三主三從為例。 ip：192.168.0.10redis信息： 客戶端連接端口：7001 -7006集群間通信端…

閱讀更多...

【LLaMA-Factory 實戰系列】二、WebUI 篇 - Qwen2.5-VL 多模態模型 LoRA 微調保姆級教程

【LLaMA-Factory 實戰系列】二、WebUI 篇 - Qwen2.5-VL 多模態模型 LoRA 微調保姆級教程

【LLaMA-Factory 實戰系列】二、WebUI 篇 - Qwen2.5-VL 多模態模型 LoRA 微調保姆級教程 1. 引言1.1 為什么選擇 Qwen2.5-VL-3B-Instruct？1.2 環境要求 2. 環境搭建2.1 安裝 LLaMA-Factory2.2 驗證安裝 3. 數據集準備與配置3.1 數據集結構3.2 數據格式3.3 數據集聲明…

閱讀更多...

風險矩陣與灰色綜合評價

風險矩陣與灰色綜合評價

一、風險矩陣（Risk Matrix） 1. 定義與原理定義：風險矩陣是一種通過二維網格（可能性 vs. 后果嚴重程度）可視化展示風險等級的工具，用于優先級排序和決策支持。核心要素： 橫軸（X軸&…

閱讀更多...

谷歌瀏覽器電腦版官方下載- Google Chrome官方網頁版入口

谷歌瀏覽器電腦版官方下載- Google Chrome官方網頁版入口

谷歌瀏覽器（Google Chrome）是一款由谷歌公司開發的免費網頁瀏覽器，自2008年首次發布以來，迅速成為全球最受歡迎的瀏覽器之一。它以簡潔的界面設計、快速的瀏覽速度和強大的安全性能而聞名。谷歌瀏覽器支持多種操作系統&#xff0c…

閱讀更多...

垂直電商供應鏈平臺：重構產業生態，驅動數字化增長

垂直電商供應鏈平臺：重構產業生態，驅動數字化增長

垂直電商供應鏈平臺：重構產業生態，驅動數字化增長在電商行業競爭日益激烈的當下，垂直電商供應鏈平臺憑借對細分領域的深度聚焦與數字化能力，成為產業升級的關鍵引擎。本文圍繞垂直電商供應鏈平臺的架構、價值及生態構建展開&…

閱讀更多...

VSCode 插件 Remote - SSH：開啟高效遠程開發之旅

VSCode 插件 Remote - SSH：開啟高效遠程開發之旅

在當今的軟件開發領域，遠程開發已經成為了一種越來越流行的工作方式。無論是分布式團隊協作，還是需要在不同環境中進行開發，遠程開發都能為開發者帶來極大的便利。而 VSCode 的 Remote - SSH 插件，就是一款能夠幫助開發者實現高效…

閱讀更多...

亞矩陣云手機+Whatnot：直播電商的自動化增長引擎

亞矩陣云手機+Whatnot：直播電商的自動化增長引擎

在直播電商蓬勃發展的今天，Whatnot作為北美領先的收藏品和潮流商品拍賣平臺，吸引了大量賣家和收藏愛好者。然而，高效運營多個賬號、管理直播場次、優化出價策略等挑戰，讓許多商家難以規模化經營。??亞矩陣云手機??與??Whatn…

閱讀更多...

關于vue.mixin與vue.use的用法分析

關于vue.mixin與vue.use的用法分析

背景。源碼不會讀，不清楚的問大模型。特別是對平常開發太會用到的情形。 vue.mixin。是將每一個頁面注入mixin的內容。會對頁面中注入$uStore而不是方便獲取狀態信息。 vue.use。按裝的插件。用于封裝完整的功能，如UI庫，路由攔截器等&…

閱讀更多...

MySQL 8.x配置MGR高可用+ProxySQL讀寫分離（二）：ProxySQL配置MySQL代理及讀寫分離

MySQL 8.x配置MGR高可用+ProxySQL讀寫分離（二）：ProxySQL配置MySQL代理及讀寫分離

#作者：stackofumbrella 文章目錄 ProxySQL簡介ProxySQL架構ProxySQL的安裝與配置在不同層次間移動配置 ProxySQL簡介 ProxySQL是基于MySQL的一款開源的中間件的產品，是一個靈活的MySQL代理層，可以實現讀寫分離，支持Query路由功能…

閱讀更多...

最新文章