【AI论文】Sekai:面向世界探索的视频数据集

发布于:2025-06-25 ⋅ 阅读:(22) ⋅ 点赞:(0)

摘要:视频生成技术已经取得了显著进展,有望成为交互式世界探索的基础。然而,现有的视频生成数据集并不适合用于世界探索训练,因为它们存在一些局限性:地理位置有限、视频时长短、场景静态,以及缺乏关于探索和世界的注释信息。在本文中,我们介绍了Sekai(日语中意为“世界”),这是一个高质量的、第一人称视角的全球视频数据集,含有丰富的世界探索注释信息。该数据集包含来自全球100多个国家和地区、750多个城市的超过5000小时的行走或无人机视角(FPV和UVA)视频。我们开发了一个高效且有效的工具箱,用于收集、预处理和注释视频,注释信息包括位置、场景、天气、人群密度、字幕以及相机轨迹。实验证明了该数据集的质量。此外,我们使用数据集的一个子集来训练一个交互式视频世界探索模型,命名为YUME(日语中意为“梦想”)。我们相信Sekai将有益于视频生成和世界探索领域,并推动有价值的应用发展。Huggingface链接:Paper page,论文链接:2506.15675

研究背景和目的

研究背景

随着视频生成技术的飞速发展,其在构建交互式世界探索模型中的应用前景日益广阔。然而,现有的视频生成数据集在支持世界探索训练方面存在诸多局限,如地理位置有限、视频时长短、场景静态以及缺乏探索和世界相关的注释信息。这些局限限制了视频生成技术在世界探索领域的应用和发展。

研究目的

本研究旨在解决上述问题,通过引入一个高质量、第一人称视角的全球视频数据集——Sekai(日语中意为“世界”),为视频生成和世界探索领域提供丰富的数据支持。Sekai数据集包含来自全球100多个国家和地区、750多个城市的超过5000小时的行走或无人机视角视频,并配有详细的注释信息,如位置、场景、天气、人群密度、字幕和相机轨迹等。通过这一数据集,本研究期望推动视频生成技术在世界探索领域的应用和发展,为构建交互式世界探索模型提供坚实的基础。

研究方法

数据收集与预处理
  1. 数据收集
  • 从YouTube手动收集高质量的行走和无人机视角视频,并使用相关关键词(如行走、无人机、HDR、4K)进行扩展搜索。
  • 从视频游戏《Lushfoil Photography Sim》中收集视频,该游戏使用Unreal Engine 5构建,展示了逼真的视觉效果,适合收集合成数据。
  1. 数据预处理
  • 对YouTube视频进行修剪,去除开头和结尾部分,并进行镜头边界检测,使用TransNetV2进行检测,并对代码进行GPU加速优化。
  • 对每个镜头进行剪辑提取和转码,标准化视频编码配置,目标为720p、30fps的H.265 MP4格式,比特率为4Mbps。
  • 应用亮度过滤、质量过滤、字幕过滤和相机轨迹过滤,确保视频质量并去除不合适的片段。
数据注释
  1. 位置注释
  • 使用Google YouTube Data API获取视频标题和描述,利用GPT-4o提取格式化位置信息,并使用区间树高效匹配视频剪辑到对应章节。
  1. 类别和字幕注释
  • 采用两阶段策略对视频进行分类和字幕生成。第一阶段对视频进行场景类型、天气、时间和人群密度的分类;第二阶段利用预测的类别标签、位置信息和视频帧生成详细的字幕描述。
  1. 相机轨迹注释
  • 实验了多种相机轨迹注释方法,包括视觉里程计方法DPVO、深度视觉SLAM框架MegaSaM和3D转换器VGGT。通过比较和优化,选择MegaSaM作为基准注释方法,并进行调整以提高注释准确性和效率。
数据采样
  1. 质量采样
  • 根据美学质量和语义质量对视频剪辑进行采样,使用COVER工具获得质量分数,并采样最高分数的视频剪辑。
  1. 多样性采样
  • 通过内容多样性、位置多样性、类别多样性和相机轨迹多样性四个模块进行平衡采样,确保采样视频的多样性和代表性。

研究结果

  1. 数据集规模与多样性
  • Sekai数据集包含来自全球101个国家和地区、750多个城市的超过5000小时的行走或无人机视角视频,视频时长从1分钟到39分钟不等,平均时长为2分钟。
  • 数据集涵盖了多种天气条件、时间、动态场景以及不同的文化、活动、建筑和景观,为视频生成和世界探索提供了丰富的数据支持。
  1. 注释质量
  • 所有视频都进行了详细的注释,包括位置、场景类型、天气、人群密度、字幕和相机轨迹等。YouTube视频的注释质量高,而游戏视频的注释被视为地面真相。
  1. 模型训练与应用
  • 使用Sekai数据集的一个子集训练了一个交互式视频世界探索模型YUME(日语中意为“梦想”),该模型能够接收图像输入,并允许用户通过键盘和鼠标进行无限制的探索。

研究局限

  1. 训练资源有限
  • 由于计算资源的限制,本研究仅使用了Sekai-Real-HQ数据集的一小部分进行模型训练,这可能影响了模型的性能和泛化能力。
  1. 相机轨迹注释不足
  • 对于Sekai-Real数据集,仅对部分数据进行了相机轨迹注释,这限制了相机轨迹在模型训练中的应用。

未来研究方向

  1. 扩展数据集规模
  • 未来可以进一步扩展Sekai数据集的规模,包括收集更多的地理位置、场景类型和天气条件的视频,以提高数据集的多样性和代表性。
  1. 改进注释方法
  • 研究更高效的注释方法,特别是对于相机轨迹的注释,以提高注释的准确性和效率。可以考虑使用自动化或半自动化的注释工具来减少人工工作量。
  1. 优化模型训练
  • 利用更多的计算资源进行模型训练,以提高模型的性能和泛化能力。可以尝试使用更先进的模型架构和训练技术,如迁移学习、强化学习等,来进一步提升模型的交互性和探索能力。
  1. 探索更多应用场景
  • 除了视频生成和世界探索外,Sekai数据集还可以应用于其他领域,如视频理解、导航、视频音频协同生成等。未来可以探索这些领域的应用潜力,并开发相应的算法和模型。
  1. 跨领域合作
  • 加强与计算机视觉、自然语言处理、机器人技术等相关领域的合作,共同推动视频生成和世界探索技术的发展。可以通过联合研究、数据共享和算法优化等方式来实现跨领域的合作与交流。

综上所述,本研究通过引入一个高质量、第一人称视角的全球视频数据集Sekai,为视频生成和世界探索领域提供了丰富的数据支持。尽管存在一些局限,但未来可以通过扩展数据集规模、改进注释方法、优化模型训练和探索更多应用场景等方式来进一步提升研究的深度和广度。


网站公告

今日签到

点亮在社区的每一天
去签到