R1-Omni

一、Omni概述

Omni = 文本+視頻+音頻，全模態。

R1+Omni = 強化學習+全模態。

humanOmni：以人體姿態和人物交互為中心的全模態模型。

冷啟動 +?Reinforcement Learning with Verifiable Reward (RLVR)

冷啟動：少量（帶COT）樣本的sft。為了確保強化學習訓練（RLVR）的穩定性，R1-Omni采用了一種冷啟動（Cold Start）策略，旨在通過少量標注數據為模型賦予初步的推理能力。
可驗證獎勵的強化學習RLVR+組相對策略優化GRPO：與傳統的基于人類反饋的強化學習（RLHF）不同，RLVR通過直接利用驗證函數來評估輸出，從而消除了中間獎勵建模的需求。RLVR的核心在于簡化獎勵機制，同時確保與任務的內在正確性標準保持一致。
- reward 函數：格式+正確性，總獎勵公式為：R=Racc?+Rformat?
- 準確率獎勵（RaccRacc?：若情感標簽與真實值一致，獎勵為1，否則為0。
- 格式獎勵（RformatRformat?：若輸出嚴格符合<think>和<answer>標簽格式，獎勵為1，否則為0。
組相對策略優化（GRPO）
與傳統方法如近端策略優化（PPO）不同。GRPO通過直接比較生成的響應組來評估候選策略的相對質量，從而簡化了訓練過程。

具體來說，GRPO首先為給定輸入問題q生成G個不同的響應{o1?,o2?,…,oG?}，然后根據預定義的獎勵函數評估這些響應的獎勵{r1?,r2?,…,rG?}。為了確定每個響應的相對質量，GRPO通過計算均值和標準差來歸一化獎勵。

1.如何理解訓練中僅對answer進行reward，大模型可以學習調整think內容？

①在sft冷啟動時，我們讓大模型監督學習的內容包含<think>和<answer>，可以讓大模型迅速的get到我們想要表達的業務邏輯。

②在強化學習過程中，僅對answer進行reward，此時需要發揮語言大模型自身的邏輯能力，對answer調整的同時match到相應的think。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/904783.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/904783.shtml
英文地址，請注明出處：http://en.pswp.cn/news/904783.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！