擴散模型與強化學習(0):專欄匯總與導航
前言:最近強化學習在Diffusion Models得到了越來越多廣泛的應用,本專欄將系統性地介紹當前Diffusion Models中實用且前沿的技術進展。這篇博客介紹字節最新的視頻生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的強化學習技術。
目錄
反饋數據收集
獎勵模型
基模型反饋學習
超分RLHF框架
反饋數據收集
我們從訓練數據集和在線用戶中收集提示,并對提示進行數據平衡和信息過濾,以丟棄重復和模糊的提示。我們收集了用于人類偏好標注的高質量視頻數據對,包括我們模型不同階段生成的合成視頻。實驗結果表明,多源視覺材料的融入可以進一步提升RM模型的領域容量,擴大RM的偏好上界,增強泛化能力。我們在標注過程中采用了多維標注的方法,即在特定的標注維度下選擇最好和最差的視頻,同時保證最好的視頻在其他維度上不劣于最差的視頻。
獎勵模型
為了全面提升模型性能,我們設計了一個復雜的獎勵制度,包括三個專門的獎勵模型:基礎獎勵模型,運動獎勵模型和美學獎勵模型。這些維度特定的獎勵模型,加上視頻定制的RLHF優化策略,可以在多個方面對模型能力進行綜合改進,如圖7所示。基礎獎勵模型側重于增強基礎模型能力,如圖像-文本對齊和結構穩定性。我們采用視覺-語言模型作為這個獎勵模型的架構。運動獎勵模型有助于減輕視頻偽影,同時增強運動幅度和生動性。考慮到視頻美學主要來源于關鍵幀,受Seedream的啟發,我們設計了基于圖像空間輸入的美學獎勵模型,并將數據源修改為使用視頻中的關鍵幀。
基模型反饋學習
獎勵反饋學習已被廣泛應用于現在的擴散模型中。在Seedance 1.0中,我們在訓練過程中模擬視頻推理管道,在獎勵模型( Reward Model,RM )充分評估視頻質量的情況下,直接預測x0 (生成干凈的視頻)。該優化策略直接最大化來自多個RM的復合獎勵。針對DPO / PPO / GRPO的對比實驗表明,我們的報酬最大化方法是最有效的方法,綜合提高了文本-視頻對齊、運動質量和美觀性。此外,我們在擴散模型和RM之間進行多輪迭代學習。這種方法提高了RLHF過程的性能界限,并且更加穩定和可控
超分RLHF框架
如圖8所示,我們還將RLHF應用在我們的擴散refiner上,它可以看作是一個基于擴散的條件生成模型。在訓練過程中,低分辨率的VAE隱空間表示作為超分辨率模型的條件輸入,而生成的高分辨率視頻則由多個獎勵模型進行評估。我們直接最大化這些獎勵信號的線性組合。值得注意的是,我們的方法將RLHF直接應用于加速refiner模型,在保持計算效率的同時,有效地提高了低NFE場景下的運動質量和視覺保真度。