tulerfeng/Video-R1: Video-R1: Reinforcing Video Reasoning in MLLMs [🔥the first paper to explore R1 for video]
1. 引述
在強化微調中,像 GRPO、DAPO 這樣的方法都是對文本或者圖片進行微調思考,所以這類微調方法不對時序信息做處理,因此無法很好的遷移到視頻的強化微調中。
雖說目前有不少視頻理解的工作,但是都沒有加上強化微調的方法。也就是說,針對視頻數據的強化微調很稀缺。
于是幾個大學(港大+清華+中科大)聯合搞了一個 Video-R1,提出 T-GRPO,實現對視頻進行思考。
2. T-GRPO
T-GRPO 的核心思路如上圖。
相比 GRPO,T-GRPO 的創新在于使大模型微調的時候,能關注時序信息。做法就是將視頻數據復制一份,并將這一份的視頻幀打亂,打亂視頻幀的視頻就沒有時序信息了。
于是,設置獎勵,使得模型在分析視頻內容時,要求對有時序信息的視頻幀分析正確,對亂序的視頻幀分析錯誤。寫成公式如下:(這里的??設置為 0.3)
于是乎,T-GRPO 的核心獎勵如下:
其中,?代表問題是否回答正確。這個公式的意思就是說,如果有時序信息的視頻幀的分析效果比亂序的更好,那么獎勵就是?
除此之外,還對模型輸出長度通過獎勵做了限制。如果輸出長度少,還有額外獎勵:
最小長度??被設置為 320,最大長度?
?被設置為 512