【論文筆記】【強化微調】TinyLLaVA-Video-R1:小參數模型也能視頻推理

[2504.09641] TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

1. 引述

繼之前的一篇 Video-R1 的工作,一篇新的關于視頻推理的工作很快就上傳到 Arxiv 上 “占坑” 了,這個工作是關于使用小參數(3B)的 LLM 進行視頻推理。

之前那篇 Video-R1 的工作:【論文筆記】【強化微調】T-GRPO:對視頻數據進行強化微調-CSDN博客

為什么說是 “占坑” 呢?這篇論文采用 GRPO 作為微調方法,并未說明為什么不采用 T-GRPO,而只是在其第 5 節 Conclusion and Future Work 提了一句當前微調方法有局限,未來慢慢改進。

其原文如下:

Currently, TinyLLaVA-Video-R1 employs the GRPO algorithm for training. However, this approach exhibits notable limitations. To enhance its effectiveness in video reasoning tasks, we plan to refine the algorithm by addressing the key challenges observed in our experiment.

縱觀整篇論文,其核心目的是探索小模型的推理能力,而得到的結果是這樣的小模型也能很好推理,并且能在強化微調后能比肩 7B 模型。下圖就是 Qwen-7B 和強化微調后的 Qwen-3B 的對比實驗:

有這篇論文作為依據,后續的研究就可以采用 3B 小模型,也不吃資源算力了。

2. 獎勵設置

這篇論文是微調小參數 LLM,用的算法是傳統 GRPO,因此方法核心點就在于獎勵的設計上了。論文的獎勵設計有三點:

  • 格式獎勵:格式是否正確
  • 思考獎勵:鼓勵正確的長思考
  • 準確獎勵:回答問題正確給獎勵

首先是格式獎勵,論文要求 LLM 輸出結果得有思考過程 <think> 和輸出答案 <answer>,并且每次輸出只能有一對 <think></think> 和一對 <answer></answer>,格式正確之后給予?r_0?的獎勵。

然后是思考獎勵,論文鼓勵 LLM 進行長文本的思考,<think> 的長度 Len?越長,則獎勵越多,最大為 r_1,但是存在一個上限?ML,這是為了防止 LLM 無腦堆文本。思考獎勵呈線性,寫成公式如下:

LR = \min \left(1, \frac{\mathrm{Len}}{ML} \right) \times r_1.

論文定義格式獎勵包含了思考獎勵,也就是說格式獎勵的公式如下:

FR=LR+r_0

最后是正確性獎勵,回答正確給予?r_2?的得分,答錯不給分。而正確答案的得分?r_2?和格式最大得分?r_0+r_1?是一致的,也就是說?r_2=r_0+r_1,這是為了讓答案得分和格式得分具有相同的權重。公式如下:

AR=r_2=r_0+r_1

最終的模型獎勵如下:

R = \begin{cases} AR + FR, & \text{if } FR > 0 \text{ and } AR = r_2 \\ -FR, & \text{if } FR > 0 \text{ and } AR = 0 \\ -(r_0 + r_1 + r_2), & \text{if } FR = 0 \end{cases}

也就是說,當格式且答案正確時,得分是正確性獎勵?AR?和格式獎勵?FR?的總和;當答案錯誤時,你的思考過程被試做全錯,此時給予懲罰?-FR,如果你的 <think> 文本越長,懲罰越重;當格式都錯誤時,給予最大懲罰。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/88315.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/88315.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/88315.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于元學習的回歸預測模型如何設計?

1. 核心設計原理 目標&#xff1a;學習一個可快速適應新任務的初始參數空間&#xff0c;使模型在少量樣本下泛化。數學基礎&#xff1a; MAML框架&#xff1a; min ? θ ∑ T ~ p ( T ) [ L T ( f θ ? η ? θ L T ( f θ ( D T t r a i n ) ) ( D T t e s t ) ) ] \min…

MyBatis Plus與P6Spy日志配置

前言 在開發基于Spring Boot和MyBatis Plus的項目時&#xff0c;日志功能是調試和優化SQL查詢的核心工具。通過合理配置日志輸出&#xff0c;開發者可以直觀查看生成的SQL語句、執行時間、參數值以及潛在的性能瓶頸。 一、MyBatis Plus日志配置 1.1 基礎配置&#xff1a;直接…

SpringCloudGateway(spel)漏洞復現 Spring + Swagger 接口泄露問題

環境配置 gateway Spring Cloud &#xff1a; 這個就是分布式的微服務組件 微服務 &#xff1a; 一般指的是獨立的&#xff0c;專注于一項功能的服務 Gateway 這個其實是個云端的網關配置&#xff08;他的作用就是對訪問web的流量進行防護比如一些爬蟲的阻截&#xff0…

服務器手動安裝并編譯R環境庫包:PROJ→RGDAL

目錄 方式1&#xff1a;conda-forge安裝錯誤&#xff1a;缺乏libnsl.so.1? 方法一&#xff1a;查找系統中是否已有此庫替補方案&#xff1a;采用libnsl.so.3鏈接 libnsl.so.1? 方法二&#xff1a;系統中沒有安裝 libnsl.so.1 → 手動安裝? 方法三&#xff1a;使用 Conda 安裝…

教育技術學讀計算機論文的提示詞

角色: 你是一位經驗豐富的計算機專業教授,擅長用通俗易懂的語言向初學者解釋復雜概念。我現在正在學習閱讀計算機科學領域的算法論文,但我的基礎比較薄弱(了解編程基礎如變量、循環、函數,了解一點數據結構和算法概念如數組、鏈表、排序,但對高級術語和數學證明不熟悉)。…

棋盤格標定板和圓形標定板的優劣性

來源&#xff1a;deepseek 在相機標定中&#xff0c;棋盤格標定板和圓形標定板&#xff08;或圓點陣列標定板&#xff09;是最常用的兩種類型。它們各有優劣&#xff0c;選擇哪種取決于具體的應用場景、需求以及使用的標定算法。以下是它們的主要優劣對比&#xff1a; &#…

2025年UDP洪水攻擊防御指南:從7.3Tbps攻防戰看原理與實戰

45秒37.4TB流量&#xff01;一場刷新歷史紀錄的DDoS攻擊正在顛覆傳統防御體系 一、什么是UDP洪水攻擊&#xff1f; UDP洪水攻擊&#xff08;UDP Flood&#xff09;是一種利用用戶數據報協議&#xff08;UDP&#xff09; 的無連接特性發起的分布式拒絕服務&#xff08;DDoS&…

一種集成統計、視覺和基于規則方法的新型可解釋醫學圖像分類人工智能框架|文獻速遞-最新論文分享

Title 題目 A novel explainable AI framework for medical image classificationintegrating statistical, visual, and rule-based methods 一種集成統計、視覺和基于規則方法的新型可解釋醫學圖像分類人工智能框架 01 文獻速遞介紹 人工智能&#xff08;AI&#xff09;…

洛谷 P10113 [GESP202312 八級] 大量的工作溝通-普及/提高-

題目描述 某公司有 N N N 名員工&#xff0c;編號從 0 0 0 至 N ? 1 N-1 N?1。其中&#xff0c;除了 0 0 0 號員工是老板&#xff0c;其余每名員工都有一個直接領導。我們假設編號為 i i i 的員工的直接領導是 f i f_i fi?。 該公司有嚴格的管理制度&#xff0c;每位…

數組題解——移除元素?【LeetCode】

27. 移除元素 快慢指針法 算法思路 使用雙指針&#xff08;fast和slow&#xff09;遍歷數組。 fast指針遍歷每一個元素。slow指針指向下一個將被保留的位置。 如果nums[fast] ! val&#xff0c;就把nums[fast]賦值到nums[slow]&#xff0c;并將slow向前移動一位。遍歷結束后…

ubuntu20.04安裝多版本python時,如何使用sudo python3.10

sudo 命令只會加載基本的path和動態庫&#xff0c;自己定義的不會加入&#xff0c;因此會出現使用sudo運行多版本python出現奇怪的現象&#xff0c;進行如下操作就可以使用 sudo vi ~/.bashrc alias sudosudo env PATH$PATH LD_LIBRARY_PATH$LD_LIBRARY_PATH 使用 sudo visud…

統計學純基礎(1)

?統計分析分為統計描述與統計推斷&#xff0c;統計推斷分為總體估計與假設檢驗 &#x1f3c2;16&#xff1a;45 醫學研究--基礎研究、轉化醫學研究、臨床研究 臨床研究--病因學研究、診斷準確性試驗、預后研究、療效研究 一般認為3個月以內的預后屬于近期預后&#xff0c;…

接口自動化測試之pytest 運行方式及前置后置封裝

&#x1f345; 點擊文末小卡片&#xff0c;免費獲取軟件測試全套資料&#xff0c;資料在手&#xff0c;漲薪更快 一、Pytest 優點認知 1.可以結合所有的自動化測試工具 2.跳過失敗用例以及失敗重跑 3.結合allure生產美觀報告 4.和Jenkins持續集成 5.很多強大的插件 pytest-htm…

利用folium實現全國高校分布地圖顯示

智匯中國 | 揭秘!一張地圖帶你遨游全國高校殿堂 大家好,這期我們來利用folium模塊實現全國高校分布的地圖顯示。 什么是Folium Folium為Python用戶提供了便捷的方式來利用Leaflet.js的強大地圖可視化功能,而無需直接編寫JavaScript代碼。它允許開發者以Pythonic的方式處理…

【和春筍一起學C++】(二十二)C++函數新特性——函數重載

目錄 函數重載的含義 重載函數使用注意事項 幾種特殊情況 函數重載的含義 函數重載使得能夠用不同的參數列表調用多個同名的函數。可以通過函數重載設計一系列函數,它們完成相同的工作,但使用不同的參數列表。 函數重載的關鍵是函數的參數列表——也被稱為函數特征標。如…

CrewAI多智能體框架的實操教程-旅行規劃-2

1、創建一個新的 CrewAI 項目 surprise_trip crewai create crew surprise_trip 選擇模型廠商和模型 生成.env MODELgpt-4o OPENAI_API_KEY你的api_keySERPER_API_KEY你的SERPER api_key 2、探索項目結構 3、配置代理 修改 agents.yaml文件。 # 個性化活動規劃師 Agent p…

vue腳手架與前后端交互

前言 。Vue.js作為一種流行的前端框架&#xff0c;提供了豐富的功能和靈活的架構&#xff0c;方便了開發者進行高效的開發。為了更好地使用Vue&#xff0c;Vue CLI&#xff08;腳手架工具&#xff09;成為了開發者進行項目創建和管理的重要工具。本文將結合Vue腳手架的使用場景…

【麻省理工】《how to speaking》筆記

【【麻省理工】《如何說話》一節課教你成為表達的王者】 開始 在演講最開始的時候&#xff0c;你要告訴觀眾&#xff0c;在接下來的15分鐘或一個小時之內&#xff0c;他們將會學到什么東西。這會讓觀眾集中注意力去傾聽。 PPT 你的幻燈片上的字要越少越好。因為聽眾的大腦一…

ESP32-HTML-08

一、html顯示圖片 1.工程包含Html需要顯示的圖片 2、CMakeLists.txt包含圖片資源 舉例&#xff1a; idf_component_register(SRCS main.cEMBED_FILES root.html favicon.ico) 3.html中圖片的標簽 <img src"motus.ico"> 4.后臺代碼的添加 static esp_e…

前端后端文件下載防抖實現方案

在 Vue 3 中實現下載文件防抖&#xff0c;可以通過封裝一個防抖函數來控制下載請求的觸發頻率。以下是完整的實現方案&#xff1a; 1. 封裝防抖工具函數 javascript 復制 下載 // utils/debounce.js export function debounce(func, delay) {let timer null;return funct…