擴散模型與強化學習(1):字節Seedance中的人類偏好優化實踐

擴散模型與強化學習(0):專欄匯總與導航

前言:最近強化學習在Diffusion Models得到了越來越多廣泛的應用,本專欄將系統性地介紹當前Diffusion Models中實用且前沿的技術進展。這篇博客介紹字節最新的視頻生成模型Seedance 1.0: Exploring the Boundaries of Video Generation Models中所用到的強化學習技術。

目錄

反饋數據收集

獎勵模型

基模型反饋學習

超分RLHF框架


反饋數據收集

我們從訓練數據集和在線用戶中收集提示,并對提示進行數據平衡和信息過濾,以丟棄重復和模糊的提示。我們收集了用于人類偏好標注的高質量視頻數據對,包括我們模型不同階段生成的合成視頻。實驗結果表明,多源視覺材料的融入可以進一步提升RM模型的領域容量,擴大RM的偏好上界,增強泛化能力。我們在標注過程中采用了多維標注的方法,即在特定的標注維度下選擇最好和最差的視頻,同時保證最好的視頻在其他維度上不劣于最差的視頻。

獎勵模型

為了全面提升模型性能,我們設計了一個復雜的獎勵制度,包括三個專門的獎勵模型:基礎獎勵模型,運動獎勵模型和美學獎勵模型。這些維度特定的獎勵模型,加上視頻定制的RLHF優化策略,可以在多個方面對模型能力進行綜合改進,如圖7所示。基礎獎勵模型側重于增強基礎模型能力,如圖像-文本對齊和結構穩定性。我們采用視覺-語言模型作為這個獎勵模型的架構。運動獎勵模型有助于減輕視頻偽影,同時增強運動幅度和生動性。考慮到視頻美學主要來源于關鍵幀,受Seedream的啟發,我們設計了基于圖像空間輸入的美學獎勵模型,并將數據源修改為使用視頻中的關鍵幀。

基模型反饋學習

獎勵反饋學習已被廣泛應用于現在的擴散模型中。在Seedance 1.0中,我們在訓練過程中模擬視頻推理管道,在獎勵模型( Reward Model,RM )充分評估視頻質量的情況下,直接預測x0 (生成干凈的視頻)。該優化策略直接最大化來自多個RM的復合獎勵。針對DPO / PPO / GRPO的對比實驗表明,我們的報酬最大化方法是最有效的方法,綜合提高了文本-視頻對齊、運動質量和美觀性。此外,我們在擴散模型和RM之間進行多輪迭代學習。這種方法提高了RLHF過程的性能界限,并且更加穩定和可控

超分RLHF框架

如圖8所示,我們還將RLHF應用在我們的擴散refiner上,它可以看作是一個基于擴散的條件生成模型。在訓練過程中,低分辨率的VAE隱空間表示作為超分辨率模型的條件輸入,而生成的高分辨率視頻則由多個獎勵模型進行評估。我們直接最大化這些獎勵信號的線性組合。值得注意的是,我們的方法將RLHF直接應用于加速refiner模型,在保持計算效率的同時,有效地提高了低NFE場景下的運動質量和視覺保真度。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/910393.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/910393.shtml
英文地址,請注明出處:http://en.pswp.cn/news/910393.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【內存】Linux 內核優化實戰 - vm.max_map_count

目錄 vm.max_map_count參數全面解析一、參數定義與核心作用二、默認值與關鍵調整場景1. 默認限制與不足場景2. 典型報錯案例 三、操作指南:查看與修改方法四、場景化建議值與配置示例五、關鍵注意事項六、延伸知識:內存映射的底層邏輯 vm.max_map_count參…

組件之間的雙向綁定:v-model

🤍 前端開發工程師、技術日更博主、已過CET6 🍨 阿珊和她的貓_CSDN博客專家、23年度博客之星前端領域TOP1 🕠 牛客高級專題作者、打造專欄《前端面試必備》 、《2024面試高頻手撕題》、《前端求職突破計劃》 🍚 藍橋云課簽約作者、…

GetX 實現 MVVM 架構, 高效 路由管理 和 狀態管理

GetX是Flutter中的一個高效的狀態管理與路由管理框架,結合MVVM架構能簡化代碼邏輯。以下是使用GetX實現MVVM架構,并完成路由和狀態管理的核心思路與實踐: 一、MVVM架構在GetX中的映射 MVVM(Model-View-ViewModel)與G…

Qt項目,記事本

一、項目說明 項目功能: (1)打開文件:點擊打開文件按鈕彈出對話框,選擇文本文件后,在主窗口編輯界面顯示內容。 (2)關閉文件:關閉打開的文件,并詢問是否保存…

【全開源】填表問卷統計預約打卡表單系統+uniapp前端

一.系統介紹 填表問卷統計預約打卡表單系統是ThinkPHPUniApp開發的一款集信息填表、預約報名,簽到打卡、活動通知、報名投票、班級統計等功能的自定義表單統計小程序。 二.搭建環境 系統環境:CentOS、 運行環境:寶塔 Linux 網站環境&…

開源 python 應用 開發(一)python、pip、pyAutogui、python opencv安裝

最近有個項目需要做視覺自動化處理的工具,最后選用的軟件為python,剛好這個機會進行系統學習。短時間學習,需要快速開發,所以記錄要點步驟,防止忘記。 鏈接: 開源 python 應用 開發(一&#x…

SpringCloud + Zookeeper + Feign整合及Feign原理

知其然 SpringCloud Zookeeper Spring Cloud 與 Zookeeper的整合只需要添加相關的starter依賴和增加相關注解即可完成。 pom.xml 如下&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.…

深入探索 OpenCV 圖像識別:從基礎到深度學習

在當今數字化時代&#xff0c;圖像識別技術已經滲透到我們生活的方方面面&#xff0c;從智能手機中的拍照翻譯功能到自動駕駛汽車的目標檢測系統&#xff0c;圖像識別的應用無處不在。作為一名算法工程師&#xff0c;我有幸深入研究并實踐了 OpenCV 在圖像識別領域的強大功能。…

Hadoop部署(HA)高可用集群

一、準備工作 1.把集群全部停掉 在三臺節點上都做&#xff08;在xshell通過右鍵----> 發送輸入到--->所有會話&#xff09; 2..在/export/servers下創建HA目錄 sudo mkdir -p /export/servers/HA 3.創建用戶和設置所屬主和所屬組 #創建用戶 sudo adduser ygre #設置…

STM32 CAN位同步、錯誤處理

一、接收方數據采樣 CAN總線沒有時鐘線&#xff0c;總線上的所有設備通過約定波特率的方式確定每一個數據位的時長發送方以約定的位時長每隔固定時間輸出一個數據位接收方以約定的位時長每隔固定時間采樣總線的電平&#xff0c;輸入一個數據位理想狀態下&#xff0c;接收方能依…

django serializer __all__中 額外添加外鍵里的某一個屬性

在Django中使用序列化器&#xff08;Serializer&#xff09;時&#xff0c;你可能會遇到需要將模型&#xff08;Model&#xff09;中的外鍵字段轉換成其關聯對象的一部分屬性的情況。默認情況下&#xff0c;序列化器會自動序列化外鍵字段&#xff0c;但如果你想要在序列化結果中…

Redis快的原因

Redis 高性能的核心原因 Redis 之所以能達到極高的性能&#xff08;10萬 QPS&#xff09;&#xff0c;主要源于以下幾個關鍵設計&#xff1a; 1. 純內存操作 核心優勢&#xff1a;所有數據存儲在內存中&#xff0c;避免了磁盤 I/O 瓶頸 內存訪問速度比磁盤快 10萬倍以上&am…

【大模型微調】6.模型微調實測與格式轉換導出

引言 本文繼續研究 LLaMA-Factory 微調數據的流程&#xff0c;側重于微調結果與模型導出。 數據集準備 首先參考 LLaMA-Factory 核心開發者的文章[1]&#xff0c;下載用于微調的公開的商品文案數據集 AdvertiseGen。 下載地址&#xff1a;https%3A//cloud.tsinghua.edu.cn/…

3085. 成為 K 特殊字符串需要刪除的最少字符數

3085. 成為 K 特殊字符串需要刪除的最少字符數 給你一個字符串 word 和一個整數 k。 如果 |freq(word[i]) - freq(word[j])| < k 對于字符串中所有下標 i 和 j 都成立&#xff0c;則認為 word 是 k 特殊字符串。 此處&#xff0c;freq(x) 表示字符 x 在 word 中的出現頻…

分布式系統中的 Kafka:流量削峰與異步解耦(二)

Kafka 在分布式系統中的應用案例 電商訂單系統 在電商領域&#xff0c;訂單系統是核心業務模塊之一&#xff0c;涉及多個復雜的業務環節和系統組件之間的交互。以常見的電商購物流程為例&#xff0c;當用戶在電商平臺上下單后&#xff0c;訂單創建服務會首先接收到用戶的訂單…

從事登高架設作業需要注意哪些安全事項?

從事登高架設作業&#xff08;如腳手架搭設、高空維修、外墻清洗等&#xff09;屬于高風險特種作業&#xff0c;必須嚴格遵守安全規范。以下是關鍵安全注意事項&#xff0c;涵蓋作業前準備、作業中操作、應急處理三大環節&#xff0c;符合國家《高處作業安全技術規范》&#xf…

RA4M2開發IOT(6)----涂鴉模組快速上云

RA4M2開發IOT.6--涂鴉模組快速上云 概述視頻教學樣品申請硬件準備參考程序涂鴉官網鏈接創建一個項目選擇對應產品產品基本配置添加標準功能APP界面配置硬件選擇產品配置硬件詳情PCB原理圖涂鴉調試文件下載進入調試涂鴉模塊串口協議心跳檢測查詢產品信息查詢工作模式AP配網APP鏈…

AI時代SEO關鍵詞革新

內容概要 在人工智能&#xff08;AI&#xff09;技術快速發展的背景下&#xff0c;搜索引擎優化&#xff08;SEO&#xff09;關鍵詞策略正經歷根本性變革。本文將系統闡述AI如何重塑關鍵詞研究、優化及效果評估的全流程。具體而言&#xff0c;首先解析智能研究方法在挖掘用戶意…

JavaEE初階第三期:解鎖多線程,從 “單車道” 到 “高速公路” 的編程升級(一)

專欄&#xff1a;JavaEE初階起飛計劃 個人主頁&#xff1a;手握風云 目錄 一、認識線程 1.1. 概念 1.2. 為什么要使用線程 1.3. 進程和線程的關系 1.4. 多線程模型 二、多線程的創建 2.1. 繼承Thread類 2.2. 實現Runnable接口 2.3. 匿名內部類 2.4. lambda表達式 一、…

【StarRocks系列】建表優化

目錄 一、數據模型選擇 (核心優化) 二、分區與分桶策略 (數據分布優化) 三、字段類型與壓縮 四、索引策略 五、高級特性應用 六、建表示例&#xff08;關鍵優化整合&#xff09; 參考官網 優化性能 | StarRocks 在 StarRocks 中創建表時&#xff0c;合理的表設計是性能優…