摘要:視頻生成技術已經取得了顯著進展,有望成為交互式世界探索的基礎。然而,現有的視頻生成數據集并不適合用于世界探索訓練,因為它們存在一些局限性:地理位置有限、視頻時長短、場景靜態,以及缺乏關于探索和世界的注釋信息。在本文中,我們介紹了Sekai(日語中意為“世界”),這是一個高質量的、第一人稱視角的全球視頻數據集,含有豐富的世界探索注釋信息。該數據集包含來自全球100多個國家和地區、750多個城市的超過5000小時的行走或無人機視角(FPV和UVA)視頻。我們開發了一個高效且有效的工具箱,用于收集、預處理和注釋視頻,注釋信息包括位置、場景、天氣、人群密度、字幕以及相機軌跡。實驗證明了該數據集的質量。此外,我們使用數據集的一個子集來訓練一個交互式視頻世界探索模型,命名為YUME(日語中意為“夢想”)。我們相信Sekai將有益于視頻生成和世界探索領域,并推動有價值的應用發展。Huggingface鏈接:Paper page,論文鏈接:2506.15675
研究背景和目的
研究背景
隨著視頻生成技術的飛速發展,其在構建交互式世界探索模型中的應用前景日益廣闊。然而,現有的視頻生成數據集在支持世界探索訓練方面存在諸多局限,如地理位置有限、視頻時長短、場景靜態以及缺乏探索和世界相關的注釋信息。這些局限限制了視頻生成技術在世界探索領域的應用和發展。
研究目的
本研究旨在解決上述問題,通過引入一個高質量、第一人稱視角的全球視頻數據集——Sekai(日語中意為“世界”),為視頻生成和世界探索領域提供豐富的數據支持。Sekai數據集包含來自全球100多個國家和地區、750多個城市的超過5000小時的行走或無人機視角視頻,并配有詳細的注釋信息,如位置、場景、天氣、人群密度、字幕和相機軌跡等。通過這一數據集,本研究期望推動視頻生成技術在世界探索領域的應用和發展,為構建交互式世界探索模型提供堅實的基礎。
研究方法
數據收集與預處理
- 數據收集:
- 從YouTube手動收集高質量的行走和無人機視角視頻,并使用相關關鍵詞(如行走、無人機、HDR、4K)進行擴展搜索。
- 從視頻游戲《Lushfoil Photography Sim》中收集視頻,該游戲使用Unreal Engine 5構建,展示了逼真的視覺效果,適合收集合成數據。
- 數據預處理:
- 對YouTube視頻進行修剪,去除開頭和結尾部分,并進行鏡頭邊界檢測,使用TransNetV2進行檢測,并對代碼進行GPU加速優化。
- 對每個鏡頭進行剪輯提取和轉碼,標準化視頻編碼配置,目標為720p、30fps的H.265 MP4格式,比特率為4Mbps。
- 應用亮度過濾、質量過濾、字幕過濾和相機軌跡過濾,確保視頻質量并去除不合適的片段。
數據注釋
- 位置注釋:
- 使用Google YouTube Data API獲取視頻標題和描述,利用GPT-4o提取格式化位置信息,并使用區間樹高效匹配視頻剪輯到對應章節。
- 類別和字幕注釋:
- 采用兩階段策略對視頻進行分類和字幕生成。第一階段對視頻進行場景類型、天氣、時間和人群密度的分類;第二階段利用預測的類別標簽、位置信息和視頻幀生成詳細的字幕描述。
- 相機軌跡注釋:
- 實驗了多種相機軌跡注釋方法,包括視覺里程計方法DPVO、深度視覺SLAM框架MegaSaM和3D轉換器VGGT。通過比較和優化,選擇MegaSaM作為基準注釋方法,并進行調整以提高注釋準確性和效率。
數據采樣
- 質量采樣:
- 根據美學質量和語義質量對視頻剪輯進行采樣,使用COVER工具獲得質量分數,并采樣最高分數的視頻剪輯。
- 多樣性采樣:
- 通過內容多樣性、位置多樣性、類別多樣性和相機軌跡多樣性四個模塊進行平衡采樣,確保采樣視頻的多樣性和代表性。
研究結果
- 數據集規模與多樣性:
- Sekai數據集包含來自全球101個國家和地區、750多個城市的超過5000小時的行走或無人機視角視頻,視頻時長從1分鐘到39分鐘不等,平均時長為2分鐘。
- 數據集涵蓋了多種天氣條件、時間、動態場景以及不同的文化、活動、建筑和景觀,為視頻生成和世界探索提供了豐富的數據支持。
- 注釋質量:
- 所有視頻都進行了詳細的注釋,包括位置、場景類型、天氣、人群密度、字幕和相機軌跡等。YouTube視頻的注釋質量高,而游戲視頻的注釋被視為地面真相。
- 模型訓練與應用:
- 使用Sekai數據集的一個子集訓練了一個交互式視頻世界探索模型YUME(日語中意為“夢想”),該模型能夠接收圖像輸入,并允許用戶通過鍵盤和鼠標進行無限制的探索。
研究局限
- 訓練資源有限:
- 由于計算資源的限制,本研究僅使用了Sekai-Real-HQ數據集的一小部分進行模型訓練,這可能影響了模型的性能和泛化能力。
- 相機軌跡注釋不足:
- 對于Sekai-Real數據集,僅對部分數據進行了相機軌跡注釋,這限制了相機軌跡在模型訓練中的應用。
未來研究方向
- 擴展數據集規模:
- 未來可以進一步擴展Sekai數據集的規模,包括收集更多的地理位置、場景類型和天氣條件的視頻,以提高數據集的多樣性和代表性。
- 改進注釋方法:
- 研究更高效的注釋方法,特別是對于相機軌跡的注釋,以提高注釋的準確性和效率。可以考慮使用自動化或半自動化的注釋工具來減少人工工作量。
- 優化模型訓練:
- 利用更多的計算資源進行模型訓練,以提高模型的性能和泛化能力。可以嘗試使用更先進的模型架構和訓練技術,如遷移學習、強化學習等,來進一步提升模型的交互性和探索能力。
- 探索更多應用場景:
- 除了視頻生成和世界探索外,Sekai數據集還可以應用于其他領域,如視頻理解、導航、視頻音頻協同生成等。未來可以探索這些領域的應用潛力,并開發相應的算法和模型。
- 跨領域合作:
- 加強與計算機視覺、自然語言處理、機器人技術等相關領域的合作,共同推動視頻生成和世界探索技術的發展。可以通過聯合研究、數據共享和算法優化等方式來實現跨領域的合作與交流。
綜上所述,本研究通過引入一個高質量、第一人稱視角的全球視頻數據集Sekai,為視頻生成和世界探索領域提供了豐富的數據支持。盡管存在一些局限,但未來可以通過擴展數據集規模、改進注釋方法、優化模型訓練和探索更多應用場景等方式來進一步提升研究的深度和廣度。