[2504.09641] TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning
1. 引述
繼之前的一篇 Video-R1 的工作,一篇新的關于視頻推理的工作很快就上傳到 Arxiv 上 “占坑” 了,這個工作是關于使用小參數(3B)的 LLM 進行視頻推理。
之前那篇 Video-R1 的工作:【論文筆記】【強化微調】T-GRPO:對視頻數據進行強化微調-CSDN博客
為什么說是 “占坑” 呢?這篇論文采用 GRPO 作為微調方法,并未說明為什么不采用 T-GRPO,而只是在其第 5 節 Conclusion and Future Work 提了一句當前微調方法有局限,未來慢慢改進。
其原文如下:
Currently, TinyLLaVA-Video-R1 employs the GRPO algorithm for training. However, this approach exhibits notable limitations. To enhance its effectiveness in video reasoning tasks, we plan to refine the algorithm by addressing the key challenges observed in our experiment.
縱觀整篇論文,其核心目的是探索小模型的推理能力,而得到的結果是這樣的小模型也能很好推理,并且能在強化微調后能比肩 7B 模型。下圖就是 Qwen-7B 和強化微調后的 Qwen-3B 的對比實驗:
有這篇論文作為依據,后續的研究就可以采用 3B 小模型,也不吃資源算力了。
2. 獎勵設置
這篇論文是微調小參數 LLM,用的算法是傳統 GRPO,因此方法核心點就在于獎勵的設計上了。論文的獎勵設計有三點:
- 格式獎勵:格式是否正確
- 思考獎勵:鼓勵正確的長思考
- 準確獎勵:回答問題正確給獎勵
首先是格式獎勵,論文要求 LLM 輸出結果得有思考過程 <think> 和輸出答案 <answer>,并且每次輸出只能有一對 <think></think> 和一對 <answer></answer>,格式正確之后給予??的獎勵。
然后是思考獎勵,論文鼓勵 LLM 進行長文本的思考,<think> 的長度 ?越長,則獎勵越多,最大為
,但是存在一個上限?
,這是為了防止 LLM 無腦堆文本。思考獎勵呈線性,寫成公式如下:
論文定義格式獎勵包含了思考獎勵,也就是說格式獎勵的公式如下:
最后是正確性獎勵,回答正確給予??的得分,答錯不給分。而正確答案的得分?
?和格式最大得分?
?是一致的,也就是說?
,這是為了讓答案得分和格式得分具有相同的權重。公式如下:
最終的模型獎勵如下:
也就是說,當格式且答案正確時,得分是正確性獎勵??和格式獎勵?
?的總和;當答案錯誤時,你的思考過程被試做全錯,此時給予懲罰?
,如果你的 <think> 文本越長,懲罰越重;當格式都錯誤時,給予最大懲罰。