【AI論文】Sekai:面向世界探索的視頻數據集

摘要:視頻生成技術已經取得了顯著進展,有望成為交互式世界探索的基礎。然而,現有的視頻生成數據集并不適合用于世界探索訓練,因為它們存在一些局限性:地理位置有限、視頻時長短、場景靜態,以及缺乏關于探索和世界的注釋信息。在本文中,我們介紹了Sekai(日語中意為“世界”),這是一個高質量的、第一人稱視角的全球視頻數據集,含有豐富的世界探索注釋信息。該數據集包含來自全球100多個國家和地區、750多個城市的超過5000小時的行走或無人機視角(FPV和UVA)視頻。我們開發了一個高效且有效的工具箱,用于收集、預處理和注釋視頻,注釋信息包括位置、場景、天氣、人群密度、字幕以及相機軌跡。實驗證明了該數據集的質量。此外,我們使用數據集的一個子集來訓練一個交互式視頻世界探索模型,命名為YUME(日語中意為“夢想”)。我們相信Sekai將有益于視頻生成和世界探索領域,并推動有價值的應用發展。Huggingface鏈接:Paper page,論文鏈接:2506.15675

研究背景和目的

研究背景

隨著視頻生成技術的飛速發展,其在構建交互式世界探索模型中的應用前景日益廣闊。然而,現有的視頻生成數據集在支持世界探索訓練方面存在諸多局限,如地理位置有限、視頻時長短、場景靜態以及缺乏探索和世界相關的注釋信息。這些局限限制了視頻生成技術在世界探索領域的應用和發展。

研究目的

本研究旨在解決上述問題,通過引入一個高質量、第一人稱視角的全球視頻數據集——Sekai(日語中意為“世界”),為視頻生成和世界探索領域提供豐富的數據支持。Sekai數據集包含來自全球100多個國家和地區、750多個城市的超過5000小時的行走或無人機視角視頻,并配有詳細的注釋信息,如位置、場景、天氣、人群密度、字幕和相機軌跡等。通過這一數據集,本研究期望推動視頻生成技術在世界探索領域的應用和發展,為構建交互式世界探索模型提供堅實的基礎。

研究方法

數據收集與預處理
  1. 數據收集
  • 從YouTube手動收集高質量的行走和無人機視角視頻,并使用相關關鍵詞(如行走、無人機、HDR、4K)進行擴展搜索。
  • 從視頻游戲《Lushfoil Photography Sim》中收集視頻,該游戲使用Unreal Engine 5構建,展示了逼真的視覺效果,適合收集合成數據。
  1. 數據預處理
  • 對YouTube視頻進行修剪,去除開頭和結尾部分,并進行鏡頭邊界檢測,使用TransNetV2進行檢測,并對代碼進行GPU加速優化。
  • 對每個鏡頭進行剪輯提取和轉碼,標準化視頻編碼配置,目標為720p、30fps的H.265 MP4格式,比特率為4Mbps。
  • 應用亮度過濾、質量過濾、字幕過濾和相機軌跡過濾,確保視頻質量并去除不合適的片段。
數據注釋
  1. 位置注釋
  • 使用Google YouTube Data API獲取視頻標題和描述,利用GPT-4o提取格式化位置信息,并使用區間樹高效匹配視頻剪輯到對應章節。
  1. 類別和字幕注釋
  • 采用兩階段策略對視頻進行分類和字幕生成。第一階段對視頻進行場景類型、天氣、時間和人群密度的分類;第二階段利用預測的類別標簽、位置信息和視頻幀生成詳細的字幕描述。
  1. 相機軌跡注釋
  • 實驗了多種相機軌跡注釋方法,包括視覺里程計方法DPVO、深度視覺SLAM框架MegaSaM和3D轉換器VGGT。通過比較和優化,選擇MegaSaM作為基準注釋方法,并進行調整以提高注釋準確性和效率。
數據采樣
  1. 質量采樣
  • 根據美學質量和語義質量對視頻剪輯進行采樣,使用COVER工具獲得質量分數,并采樣最高分數的視頻剪輯。
  1. 多樣性采樣
  • 通過內容多樣性、位置多樣性、類別多樣性和相機軌跡多樣性四個模塊進行平衡采樣,確保采樣視頻的多樣性和代表性。

研究結果

  1. 數據集規模與多樣性
  • Sekai數據集包含來自全球101個國家和地區、750多個城市的超過5000小時的行走或無人機視角視頻,視頻時長從1分鐘到39分鐘不等,平均時長為2分鐘。
  • 數據集涵蓋了多種天氣條件、時間、動態場景以及不同的文化、活動、建筑和景觀,為視頻生成和世界探索提供了豐富的數據支持。
  1. 注釋質量
  • 所有視頻都進行了詳細的注釋,包括位置、場景類型、天氣、人群密度、字幕和相機軌跡等。YouTube視頻的注釋質量高,而游戲視頻的注釋被視為地面真相。
  1. 模型訓練與應用
  • 使用Sekai數據集的一個子集訓練了一個交互式視頻世界探索模型YUME(日語中意為“夢想”),該模型能夠接收圖像輸入,并允許用戶通過鍵盤和鼠標進行無限制的探索。

研究局限

  1. 訓練資源有限
  • 由于計算資源的限制,本研究僅使用了Sekai-Real-HQ數據集的一小部分進行模型訓練,這可能影響了模型的性能和泛化能力。
  1. 相機軌跡注釋不足
  • 對于Sekai-Real數據集,僅對部分數據進行了相機軌跡注釋,這限制了相機軌跡在模型訓練中的應用。

未來研究方向

  1. 擴展數據集規模
  • 未來可以進一步擴展Sekai數據集的規模,包括收集更多的地理位置、場景類型和天氣條件的視頻,以提高數據集的多樣性和代表性。
  1. 改進注釋方法
  • 研究更高效的注釋方法,特別是對于相機軌跡的注釋,以提高注釋的準確性和效率。可以考慮使用自動化或半自動化的注釋工具來減少人工工作量。
  1. 優化模型訓練
  • 利用更多的計算資源進行模型訓練,以提高模型的性能和泛化能力。可以嘗試使用更先進的模型架構和訓練技術,如遷移學習、強化學習等,來進一步提升模型的交互性和探索能力。
  1. 探索更多應用場景
  • 除了視頻生成和世界探索外,Sekai數據集還可以應用于其他領域,如視頻理解、導航、視頻音頻協同生成等。未來可以探索這些領域的應用潛力,并開發相應的算法和模型。
  1. 跨領域合作
  • 加強與計算機視覺、自然語言處理、機器人技術等相關領域的合作,共同推動視頻生成和世界探索技術的發展。可以通過聯合研究、數據共享和算法優化等方式來實現跨領域的合作與交流。

綜上所述,本研究通過引入一個高質量、第一人稱視角的全球視頻數據集Sekai,為視頻生成和世界探索領域提供了豐富的數據支持。盡管存在一些局限,但未來可以通過擴展數據集規模、改進注釋方法、優化模型訓練和探索更多應用場景等方式來進一步提升研究的深度和廣度。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/86019.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/86019.shtml
英文地址,請注明出處:http://en.pswp.cn/web/86019.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

websocket服務端開發

websocket技術在服務端實時消息的推送和im聊天系統中得到了廣泛應用。作為一名后端研發人員,這其中又有哪些需要了解和注意的問題點呢?接下來,我一一進行闡明。 SpringBoot項目中引入依賴 引入依賴 <!--websocket支持包--> <dependency> <…

學歷信息查詢API (IVYZ9A2B) 的對接實戰 | 天遠API

摘要 本文是天遠API學歷信息查詢API&#xff08;接口代碼&#xff1a;IVYZ9A2B&#xff09;的深度技術解析文檔。作為一名開發者&#xff0c;我將從實際應用場景出發&#xff0c;詳細介紹該接口的調用方法、數據結構和最佳實踐。無論您是在開發招聘系統、教育管理平臺&#xf…

2025年- H84-Lc192--75.顏色分類(技巧、三路指針排序)--Java版

1.題目描述 2.思路 3.代碼實現 class Solution {public void sortColors(int[] nums) {int low 0; // 下一個 0 應該放的位置int mid 0; // 當前檢查的位置int high nums.length - 1; // 下一個 2 應該放的位置while (mid < high) {if (nums[mid] …

使用markRaw實例化echarts對象

在Vue 3中&#xff0c;markRaw 函數用于標記一個對象&#xff0c;使其永遠不會轉換為響應式代理。在 this.chart markRaw(echarts.init(chartDom)); 這行代碼中&#xff0c;加與不加 markRaw 的主要區別在于Vue是否會將ECharts實例轉換為響應式對象。以下是詳細分析&#xff1…

硬件-DAY08(中斷)

一、蜂鳴器學習&#xff08;中斷&#xff09; 二、BSP工程管理 利用BSP工程管理&#xff0c;使文檔顯示不雜亂&#xff1b; 將這些文件分為4類&#xff0c;并保存到4個不同的文件夾里。 首先在新的工程文件夾里創建一個之后我們編寫的類似led驅動&#xff0c;clk驅動等等外設驅…

【Datawhale組隊學習202506】YOLO-Master task04 YOLO典型網絡模塊

系列文章目錄 文章目錄 系列文章目錄前言4.1 DFL 模塊4.1.1 DFL的核心思想 4.2 SPP 模塊4.2.1 核心思想 4.3 SPPF 模塊4.3.1 核心思想 總結 前言 Datawhale是一個專注于AI與數據科學的開源組織&#xff0c;匯集了眾多領域院校和知名企業的優秀學習者&#xff0c;聚合了一群有開…

springboot中表是以int為主鍵id的,寫了一個生成不重復id的方法

【初衷】 由于系統改造&#xff0c;之前的單應用改成了分布式應用&#xff0c;但是系統底層在搭建的時候部分關聯id定義為了int類型&#xff0c;導致分布式id生成的long類型無法插入到int中&#xff0c;且由于是多系統部署&#xff0c;為了把損失降到最低&#xff0c;故此決定…

天氣查詢API集成指南

天氣查詢API集成指南 引言 在互聯網和移動應用快速發展的今天&#xff0c;天氣查詢API已經成為開發人員構建各種應用程序時不可或缺的工具之一。無論是為用戶提供日常出行建議、幫助農民規劃農作時間&#xff0c;還是支持物流行業優化配送路線&#xff0c;實時且準確的天氣信息…

AI 產品部署和交付的基礎設施——全景解析

當然可以&#xff01;以下是對“AI產品部署和交付的基礎設施”主題的詳細內容擴展&#xff0c;適合介紹給同事&#xff0c;幫助大家系統性理解AI落地的全流程和關鍵要素。 AI產品部署和交付的基礎設施——全景解析 各位同事&#xff0c;隨著AI技術的飛速發展&#xff0c;AI產品…

Linux C 目錄基本操作

需要引用的頭文件 #include <unistd.h> unistd.h 為程序提供了對POSIX操作系統API的訪問接口&#xff0c;主要用于提供與系統調用相關的功能。 char *getcwd(char *buf, size_t size); 用于獲取當前工作目錄&#xff08;Current Working Directory&#xff09;的絕對…

關于二分和分治的詳細講解(從屬于GESP五級)

本章內容 二分 分治 當你把疑惑一劈為二&#xff0c;困境就只剩下一半。 一、二分查找 1. 何謂“二分”&#xff1f; “二分”本質是一種 對單調現象反復折半 的搜索思想。 單調現象&#xff1a;隨變量增大&#xff0c;目標狀態只會保持“假→真”或“真→假”一次性躍遷…

程序猿成長之路之數據挖掘篇——聚類算法介紹

作為無監督學習算法的基礎&#xff0c;學好聚類算法很關鍵&#xff0c;我之前介紹過kmeans聚類算法&#xff0c;現在系統的介紹一下聚類算法 1. 什么是分類 日常生活中我們會經常見到分類的情況&#xff0c;如家里大掃除時給物品歸類&#xff0c;超市貨架上商品分類等。分類就…

PostgreSQL 性能優化與集群部署:PGCE 認證培訓實戰指南

&#xff5c;深夜被數據庫報警驚醒&#xff1f; &#xff5c;海量數據查詢卡死業務&#xff1f; &#xff5c;主庫宕機導致服務中斷&#xff1f; 如果你正被這些PostgreSQL生產難題困擾&#xff0c;是時候系統掌握數據庫內核優化與高可用架構了&#xff01;深度求索聯合PG分會…

Java 對象映射 數據庫表映射 工具類 兩個對象/表實現映射轉換

場景&#xff1a;需要將一個對象的各個字段中的數據映射到另一個對象的字段數據中&#xff0c;或將一個數據庫表映射到另一張表中。 本文使用泛型編程實現了一個對象映射功能的工具類。 需要源對象&#xff0c;映射關系map&#xff0c;目標類。由于是動態的類&#xff0c;所以…

Linux離線搭建Jenkins

Linux離線搭建Jenkins(centos7) Jenkins簡介: Jenkins只是一個平臺&#xff0c;真正運作的都是插件。這就是jenkins流行的原因&#xff0c;因為jenkins什么插件都有&#xff0c;Hudson是Jenkins的前身&#xff0c;是基于Java開發的一種持續集成工具&#xff0c;用于監控程序重…

從零學習linux(2)——管理

一.用戶管理 1.用戶屬性 用戶名、口令、用戶ID&#xff08;UID&#xff09;、用戶主目錄&#xff08;HOME&#xff09;、用戶shell 2. 3. 4.adduser添加用戶 語法&#xff1a;adduser 用戶名 如# adduser superw 添加用戶名為superw的新用戶 5.deluser刪除用戶 語法&am…

《貴州棒壘球》有什么國家級比賽·棒球1號位

中國國家級棒球比賽盤點 | 小白入門指南 3月 | 中國棒球聯賽 (China Baseball League) 國內最高水平職業聯賽&#xff0c;各省市職業隊角逐冠軍&#xff01; 英文&#xff1a;Top-tier professional event with teams nationwide. 5月 | 全國青年棒球錦標賽 (National Youth …

該項目名為“EduPal“,AI推薦

## 完整代碼實現 ### 后端代碼 (app.py) python import os import json import uuid import requests from datetime import datetime from flask import Flask, render_template, request, jsonify from dotenv import load_dotenv # 加載環境變量 load_dotenv() app …

C++法則15:匹配失敗并不是一種錯誤(Substitution Failure Is Not An Error)。

C法則15&#xff1a;匹配失敗并不是一種錯誤(Substitution Failure Is Not An Error)。 應用例子&#xff1a; SFINAE &#xff1a;關于is_class&#xff0c;is_base_of&#xff0c;C編譯器的魔法器&#xff0c;如何實現&#xff0c;is_class&#xff0c;is_base_of。_c is cl…

Ollama客戶端 + Docker搭建本地知識庫(Mac系統)

一、環境準備 1. 安裝Ollama客戶端 官網下載&#xff1a;https://ollama.com 驗證安裝&#xff1a; ollama --version2. 安裝Docker Desktop 下載地址&#xff1a;https://www.docker.com/products/docker-desktop 安裝后確保Docker狀態為"Running" 二、基礎搭建…