【論文筆記】【強化微調】T-GRPO:對視頻數據進行強化微調

tulerfeng/Video-R1: Video-R1: Reinforcing Video Reasoning in MLLMs [🔥the first paper to explore R1 for video]

1. 引述

在強化微調中,像 GRPO、DAPO 這樣的方法都是對文本或者圖片進行微調思考,所以這類微調方法不對時序信息做處理,因此無法很好的遷移到視頻的強化微調中。

雖說目前有不少視頻理解的工作,但是都沒有加上強化微調的方法。也就是說,針對視頻數據的強化微調很稀缺。

于是幾個大學(港大+清華+中科大)聯合搞了一個 Video-R1,提出 T-GRPO,實現對視頻進行思考。

2. T-GRPO

T-GRPO 的核心思路如上圖。

相比 GRPO,T-GRPO 的創新在于使大模型微調的時候,能關注時序信息。做法就是將視頻數據復制一份,并將這一份的視頻幀打亂,打亂視頻幀的視頻就沒有時序信息了。

于是,設置獎勵,使得模型在分析視頻內容時,要求對有時序信息的視頻幀分析正確,對亂序的視頻幀分析錯誤。寫成公式如下:(這里的?\alpha?設置為 0.3)

r_t = \begin{cases} \alpha, & \text{if } p \geq \tilde{p} \\ 0, & \text{otherwise} \end{cases}

于是乎,T-GRPO 的核心獎勵如下:

R_i = \begin{cases} r_i + r_t, & \text{if } o_i \text{ is correct} \\ r_i, & \text{otherwise} \end{cases}

其中,r_i?代表問題是否回答正確。這個公式的意思就是說,如果有時序信息的視頻幀的分析效果比亂序的更好,那么獎勵就是?r_i+r_t

除此之外,還對模型輸出長度通過獎勵做了限制。如果輸出長度少,還有額外獎勵:

R_i = \begin{cases} R_i + \omega, & \text{if } o_i \text{ is correct and } l_{\min} \leq \mathrm{len}(o_i) \leq l_{\max} \\ R_i, & \text{otherwise} \end{cases}

最小長度?l_\text{min}?被設置為 320,最大長度?l_\text{max}?被設置為 512

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85978.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85978.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85978.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Unity】動畫系統

0 前言 早些時間學動畫系統時的筆記,實際還沒學完,后續計劃會慢慢補全吧。 1 動畫 通常來說動畫都是動畫師來做的,不過Unity也能實現簡單的動畫效果。PS:官方文檔中,將動畫稱之為動畫剪輯。 1.1 創建動畫 首先在Unit…

C++二級指針的用法指向指針的指針(多級間接尋址)

指向指針的指針是一種多級間接尋址的形式,或者說是一個指針鏈。 指針的指針就是將指針的地址存放在另一個指針里面。 通常,一個指針包含一個變量的地址。當我們定義一個指向指針的指針時,第一個指針包含了第二個指針的地址,第二個…

【格與代數系統】示例

【格與代數系統】格與代數系統匯總 例1 設是由誘導的代數系統,則其上的二元運算滿足(ABCD) A. B. C. D. 代數系統滿足交換律、冪等律、吸收律、結合律 例2 是(ABCD) A.有界格 有界格:有最大、最小元…

Stable Diffusion 項目實戰落地:手機壁紙制作-第一篇 從零基礎到生成藝術品的第一步!

大家好!歡迎來到《StableDiffusion實戰-手機壁紙制作》系列的第一篇! 在這一篇文章里,我們將一起探索如何用StableDiffusion(SD)這款強大的工具,快速制作出炫酷的手機壁紙。 如果你對生成藝術、AI繪圖感興趣,那你一定不能錯過! 你能做什么?你將做什么! 在之前的系…

WEB3開啟 Hardhat 自動驗證有什么意義

這是個非常好的問題,尤其是你在學習 Web3 后端開發時,理解為什么要啟用 Hardhat 自動驗證合約源碼,會讓你開發流程更完整、更專業。 ? 一句話總結: 開啟 Hardhat 自動驗證的意義是:讓你的合約在區塊鏈瀏覽器&#xff…

Qt窗?的學習(一)

Qt窗?是通過QMainWindow類來實現的。 QMainWindow是?個為??提供主窗?程序的類,繼承?QWidget類,并且提供了?個預定義的 布局。QMainWindow包含?個菜單欄(menubar)、多個?具欄(toolbars)、多個浮動窗?(鉚 接部…

C++ 面試題常用總結 詳解(滿足c++ 崗位必備,不定時更新)

📚 本文主要總結了一些常見的C面試題,主要涉及到語法基礎、STL標準庫、內存相關、類相關和其他輔助技能,掌握這些內容,基本上就滿足C的崗位技能(紅色標記為重點內容),歡迎大家前來學習指正&…

git提交的腳本無執行權限怎么辦

問題描述 自己寫的小項目,沒有在服務器安裝 Jenkins 進行項目部署,為了圖方便,在項目中編寫了一個 deploy.sh 腳本文件用來執行項目部署。但是在服務器上 pull 下來之后發現腳本文件沒有執行權限,通過 chmod 命令進行賦權&#x…

004.chromium編譯進階-啟動時傳入cookies

一、目標: 實現傳入參數--set-cookies[{"domain":"https://baidu.com","name":"AAAA","value":"111"},{"domain":"https://baidu.com","name":"BBB","…

【數據庫復習】

數據庫復習題 一、填空題1.數據庫系統一般由(數據庫)、應用系統、(數據庫管理系統)、(數據庫管理員)和用戶構成。2.數據模型通常由(數據結構)、(數…

微信小程序:選擇頁面單選實現(多頁面均可選擇)

一、效果展示 1、主頁面 展示了兩個選擇行 2、選擇頁面 根據傳遞的參數決定員工展示的數據,并且單選,可將數據傳遞給主頁面 二、主頁面實現 1、視圖層 寫入了采購員和庫管員的行選擇信息 <view class="item flex flex-between"><view class="i…

使用docker-compose搭建redis-cluster集群

前言 如果你也因為centos的gcc版本落后導致redis編譯安裝不通過而煩惱&#xff0c;大可以試一試用docker去搭建redis集群。本文以單節點搭建redis-cluster三主三從為例。 ip&#xff1a;192.168.0.10redis信息&#xff1a; 客戶端連接端口&#xff1a;7001 -7006集群間通信端…

【LLaMA-Factory 實戰系列】二、WebUI 篇 - Qwen2.5-VL 多模態模型 LoRA 微調保姆級教程

【LLaMA-Factory 實戰系列】二、WebUI 篇 - Qwen2.5-VL 多模態模型 LoRA 微調保姆級教程 1. 引言1.1 為什么選擇 Qwen2.5-VL-3B-Instruct&#xff1f;1.2 環境要求 2. 環境搭建2.1 安裝 LLaMA-Factory2.2 驗證安裝 3. 數據集準備與配置3.1 數據集結構3.2 數據格式3.3 數據集聲明…

風險矩陣與灰色綜合評價

一、風險矩陣&#xff08;Risk Matrix&#xff09; 1. 定義與原理 定義&#xff1a;風險矩陣是一種通過二維網格&#xff08;可能性 vs. 后果嚴重程度&#xff09;可視化展示風險等級的工具&#xff0c;用于優先級排序和決策支持。核心要素&#xff1a; 橫軸&#xff08;X軸&…

谷歌瀏覽器電腦版官方下載- Google Chrome官方網頁版入口

谷歌瀏覽器&#xff08;Google Chrome&#xff09;是一款由谷歌公司開發的免費網頁瀏覽器&#xff0c;自2008年首次發布以來&#xff0c;迅速成為全球最受歡迎的瀏覽器之一。它以簡潔的界面設計、快速的瀏覽速度和強大的安全性能而聞名。谷歌瀏覽器支持多種操作系統&#xff0c…

垂直電商供應鏈平臺:重構產業生態,驅動數字化增長

垂直電商供應鏈平臺&#xff1a;重構產業生態&#xff0c;驅動數字化增長 在電商行業競爭日益激烈的當下&#xff0c;垂直電商供應鏈平臺憑借對細分領域的深度聚焦與數字化能力&#xff0c;成為產業升級的關鍵引擎。本文圍繞垂直電商供應鏈平臺的架構、價值及生態構建展開&…

VSCode 插件 Remote - SSH:開啟高效遠程開發之旅

在當今的軟件開發領域&#xff0c;遠程開發已經成為了一種越來越流行的工作方式。無論是分布式團隊協作&#xff0c;還是需要在不同環境中進行開發&#xff0c;遠程開發都能為開發者帶來極大的便利。而 VSCode 的 Remote - SSH 插件&#xff0c;就是一款能夠幫助開發者實現高效…

亞矩陣云手機+Whatnot:直播電商的自動化增長引擎

在直播電商蓬勃發展的今天&#xff0c;Whatnot作為北美領先的收藏品和潮流商品拍賣平臺&#xff0c;吸引了大量賣家和收藏愛好者。然而&#xff0c;高效運營多個賬號、管理直播場次、優化出價策略等挑戰&#xff0c;讓許多商家難以規模化經營。??亞矩陣云手機??與??Whatn…

關于vue.mixin與vue.use的用法分析

背景。源碼不會讀&#xff0c;不清楚的問大模型。特別是對平常開發太會用到的情形。 vue.mixin。是將每一個頁面注入mixin的內容。會對頁面中注入$uStore而不是方便獲取狀態信息。 vue.use。按裝的插件。用于封裝完整的功能&#xff0c;如UI庫&#xff0c;路由攔截器等&…

MySQL 8.x配置MGR高可用+ProxySQL讀寫分離(二):ProxySQL配置MySQL代理及讀寫分離

#作者&#xff1a;stackofumbrella 文章目錄 ProxySQL簡介ProxySQL架構ProxySQL的安裝與配置在不同層次間移動配置 ProxySQL簡介 ProxySQL是基于MySQL的一款開源的中間件的產品&#xff0c;是一個靈活的MySQL代理層&#xff0c;可以實現讀寫分離&#xff0c;支持Query路由功能…