一、Omni概述
Omni = 文本+視頻+音頻,全模態。
R1+Omni = 強化學習+全模態。
二、Omni舉例-humanOmni
humanOmni:以人體姿態和人物交互為中心的全模態模型。
- visual projector有3個,分別負責人臉標簽、姿態檢測、人和物交互。有點像moe。
- text encoder 對visual projector進行fusion加權,通過文本區分不同的任務,對不同的視覺組件進行激活。
三、訓練流程
冷啟動 +?Reinforcement Learning with Verifiable Reward (RLVR)
- 冷啟動:少量(帶COT)樣本的sft。為了確保強化學習訓練(RLVR)的穩定性,R1-Omni采用了一種冷啟動(Cold Start)策略,旨在通過少量標注數據為模型賦予初步的推理能力。
- 可驗證獎勵的強化學習RLVR+組相對策略優化GRPO:與傳統的基于人類反饋的強化學習(RLHF)不同,RLVR通過直接利用驗證函數來評估輸出,從而消除了中間獎勵建模的需求。RLVR的核心在于簡化獎勵機制,同時確保與任務的內在正確性標準保持一致。
- reward 函數:格式+正確性,總獎勵公式為:R=Racc?+Rformat?
- 準確率獎勵(RaccRacc?:若情感標簽與真實值一致,獎勵為1,否則為0。
- 格式獎勵(RformatRformat?:若輸出嚴格符合
<think>
和<answer>
標簽格式,獎勵為1,否則為0。
- 組相對策略優化(GRPO)
與傳統方法如近端策略優化(PPO)不同。GRPO通過直接比較生成的響應組來評估候選策略的相對質量,從而簡化了訓練過程。
具體來說,GRPO首先為給定輸入問題q生成G個不同的響應{o1?,o2?,…,oG?},然后根據預定義的獎勵函數評估這些響應的獎勵{r1?,r2?,…,rG?}。為了確定每個響應的相對質量,GRPO通過計算均值和標準差來歸一化獎勵。
四、其它
1.如何理解訓練中僅對answer進行reward,大模型可以學習調整think內容?
①在sft冷啟動時,我們讓大模型監督學習的內容包含<think>和<answer>,可以讓大模型迅速的get到我們想要表達的業務邏輯。
②在強化學習過程中,僅對answer進行reward,此時需要發揮語言大模型自身的邏輯能力,對answer調整的同時match到相應的think。