ICCV 2025|可灵团队新作 ReCamMaster:从单视频到多视角生成,多角度看好莱坞大片

发布于:2025-08-05 ⋅ 阅读:(16) ⋅ 点赞:(0)

导读

2025年7月,Kuaishou Technology团队发布了论文《ReCamMaster: Camera-Controlled Generative Rendering from A Single Video》——一种利用预训练文本到视频模型,通过巧妙的视频注入机制和高质量多摄像机同步数据集,实现对单条视频动态场景进行新相机轨迹下再渲染的创新框架。本文结合业界现状,深入浅出地阐述相机运动在视频创作中的重要性,梳理传统视频生成与可控视频生成任务的发展脉络,并剖析ReCamMaster在数据构建、条件注入、训练策略等方面的核心技术亮点。
author

论文基本信息

  • 论文标题:ReCamMaster: Camera-Controlled Generative Rendering from A Single Video
  • 作者:Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang
  • 作者单位:浙江大学; 快手科技Kling团队; 香港中文大学; 华中科技大学
  • 发布时间:2025年7月9日
  • 论文来源:https://arxiv.org/abs/2503.11647
  • 代码与数据集:https://github.com/KwaiVGI/ReCamMaster

点击阅读原文,获取更多前沿咨询

摘要

ReCamMaster提出了一种基于单条输入视频,生成新相机轨迹下再渲染目标视频的生成框架。核心在于将源视频和目标视频的潜在表示按帧维度拼接,充分利用Transformer跨帧-跨空间的自注意力机制,通过简单而高效的视频条件注入,重用预训练文本到视频模型的强大生成能力。为弥补真实视频多视角数据稀缺,作者使用Unreal Engine 5构建了136K条多摄像机同步视频,覆盖40个高质量三维场景和122K种相机运动轨迹,并设计多种训练策略(噪声调度、T2V/I2V联合训练、仅微调3D注意力层等)提升模型对“野外”视频的泛化。实验包含与GCD、Trajectory-Attention、DaS等方法在视觉质量、相机精度与源-目标同步性上的量化对比,以及消融研究与实际任务验证,全面展示ReCamMaster在视频稳定、超分辨与扩展填充等应用中的潜力。

研究背景及相关工作

研究背景

相机运动是影视制作的灵魂元素,通过镜头推拉、俯仰、轨道等手法对观众关注点、情绪和叙事节奏施加微妙影响。然而,业余视频爱好者往往因硬件抖动、拍摄视角受限,难以获得专业级相机运动效果。近年来,随着文本到视频(T2V)及图像到视频(I2V)扩散模型的兴起,研究者开始尝试将相机参数合入生成模型,实现可控视频合成。但大多数方法依赖模拟环境数据、摄像机同步多视角或优化过高,难以在真实视频上大规模应用。

相关工作

  1. 相机控制视频生成:MotionCtrl、CameraCtrl等方法将6DoF外参注入扩散Transformer,通过微调全模型或引入额外LoRA层实现相机轨迹条件生成,但对训练数据要求高且泛化能力受限。
  2. 视频到视频生成:GCD利用Kubric模拟器合成多视角视频对训练,Trajectory-Attention和DaS等通过3D点跟踪提取动态结构再生成,虽能保持一定同步性,但在真实场景下常见运动伪影与失真。
  3. 高质量数据集构建:公开多视角视频集(如Human3.6M、Panoptic Studio)多聚焦人体动作,缺少多样场景和丰富相机轨迹;因此,合成数据成为填补真实数据空白的必要之举。

主要贡献

ReCamMaster的核心创新及贡献可归纳如下:

  • 高质量多视角合成数据集:基于Unreal Engine 5自动化渲染136K条同步视频,涵盖40个3D环境、13.6K动态场景与122K相机轨迹,实现像真实拍摄般的多样性与同步性,有效弥补真实多视角数据不足。

  • 帧维度条件注入机制:首次提出将源视频与目标视频的潜在表示在帧维度展开拼接,无需额外注意力模块即可通过Transformer自注意力层完成时空信息交互,显著优于通道维度和视图维度拼接策略。

  • 灵活高效训练策略:仅微调3D注意力层并结合噪声调度、T2V与I2V联合训练,在保持预训练模型能力的基础上提升泛化;支持多任务(T2V、I2V、V2V)训练而无需额外优化。

  • 全面实验与实际应用:在WebVid测试集与VBench指标下,与GCD、Trajectory-Attention、DaS等最先进方法对比,ReCamMaster在FID、FVD、RotErr、Mat.Pix.等指标上均有大幅提升;并展示在视频稳定、超分与扩展填充等场景的创新应用。

研究方法与基本原理

问题定义与总体架构

给定源视频 V _ s ∈ R f × c × h × w V\_s\in\mathbb{R}^{f\times c\times h\times w} V_sRf×c×h×w 和目标相机序列 c a m t ∈ R f × 3 × 4 camt\in\mathbb{R}^{f\times3\times4} camtRf×3×4,ReCamMaster旨在生成目标视频 V t V_t Vt,既保持源视频动态场景一致,又遵循新轨迹视觉效果。总体框架基于预训练文本到视频潜在扩散模型,由3D VAE编码器 E \mathcal{E} E、Transformer扩散主干与3D VAE解码器 D \mathcal{D} D 组成,如图中所示。

Overview of ReCamMaster.

帧维度视频条件注入

以往方法在通道或视图维度拼接源-目标潜在表示,导致时空信息难以充分交互。ReCamMaster将 z s = E ( V s ) , z t = E ( V t ) z_s=\mathcal{E}(V_s), z_t=\mathcal{E}(V_t) zs=E(Vs),zt=E(Vt) token化后,沿帧维度拼接:
x = [ p a t c h i f y ( z s ) , p a t c h i f y ( z t ) ] f r a m e ∈ R b × 2 f × s × d x=[\mathrm{patchify}(z_s),\mathrm{patchify}(z_t)]_{frame}\in\mathbb{R}^{b\times2f\times s\times d} x=[patchify(zs),patchify(zt)]frameRb×2f×s×d
无需额外视图注意力层,通过Transformer自注意力即可实现跨帧跨空间信息融合,在多种复杂运动场景下均保持同步与一致。实验证明帧拼接在FID、Mat.Pix.等指标上显著优于其他注入方式。

相机位姿注入

仅在Transformer每层的3D注意力前融入目标相机外参,通过线性编码器 E c E_c Ec 3 × 4 3\times4 3×4 矩阵映射为 d d d 维特征并加到视觉特征上:
F i = F o + E c ( c a m t ) F_i=F_o+E_c(camt) Fi=Fo+Ec(camt)
在推理阶段覆盖真实视频时仅需估计目标外参,无需提供源视频外参或内参,易于实用。

数据集构建

采用Unreal Engine 5,在40个真实感3D环境中放置多主体动画和多摄像机,自动化批量生成13.6K动态场景下122K条自然相机轨迹,最终获得136K条时序同步视频用于训练。

Illustration of the dataset construction process.

训练策略

  1. 仅微调3D注意力层:冻结VAE和Transformer其他模块,保留预训练能力。
  2. 视频潜在噪声调度:在200-500步噪声内对条件源视频latent施加噪声,减小合成与真实分布差距。
  3. T2V/I2V联合任务:20%概率全帧噪声生成T2V,20%概率除首帧外噪声生成I2V,提高可见性增强与场景补全能力。

论文正文

实验设置与评价指标

  • 训练配置:384×672分辨率,批量40,学习率1e-4,训练1万步。
  • 评价指标:视觉质量(FID、FVD、CLIP-T/F)、相机精度(RotErr、TransErr)、视图同步(Mat.Pix.、FVD-V、CLIP-V)、VBench综合。
  • 测试集:1000条WebVid视频,10种基础相机轨迹。

与最先进方法对比

Table 1显示,在FID(↓57.10 vs 63.25/69.21/72.83)、FVD(↓122.74)、RotErr(↓1.22)等指标上全面领先;Mat.Pix.(↑906.03)和CLIP-V(↑90.36)体现优秀同步性。VBench结果同样表明ReCamMaster在美学、成像质量和背景一致性方面优于GCD、Trajectory-Attention和DaS。

消融研究

  • 注入方式对比:Channel、View、Frame三种方案对比,Frame拼接在视觉质量与同步性上优势明显(FID从74.09→57.10,Mat.Pix.从521.10K→906.03K)。
  • 训练策略有效性:逐步添加噪声调度、3D注意力微调与丢帧策略使FID从66.67降至57.10,Aesthetic Quality提升2.68点。

实际应用示例

  • 视频稳定:对DeepStab抖动视频输入平滑轨迹,即可获得稳定效果。
  • 局部超分辨:输入“Zoom-in”参数实现中心区域细节增强。
  • 视频扩展填充:“Zoom-out”轨迹生成画面外区域,完成序列化出镜范围拓展。

Applications of ReCamMaster.

总结与展望

总结

本文系统剖析了ReCamMaster通过帧维度视频条件注入、高质量多视角合成数据及高效训练策略,实现了单视频在新相机轨迹下的高保真再渲染。与现有方法相比,在视觉质量、相机精度与动态同步性方面均有显著提升,并且在视频稳定、超分辨、扩展填充等任务中具备可落地应用价值。

展望

  1. 计算效率优化:帧拼接策略带来更大计算开销,可尝试轻量化方案或可分层拼接减少内存占用;
  2. 真实数据融合:引入少量真实多视角视频微调,进一步缩小合成与真实域差距;
  3. 多模态可控:结合文本、语义或深度条件,实现更丰富的场景与运动控制。

代码实现

ReCamMaster仓库已开源。克隆后使用命令:

git clone https://github.com/KwaiVGI/ReCamMaster.git
cd ReCamMaster
pip install -r requirements.txt

主要目录:dataset/(合成数据)、models/(VAE与扩散)、train_utils/(训练脚本)、inference/(推理示例)。

关注下方《AI前沿速递》🚀🚀🚀
各种重磅干货,第一时间送达
码字不易,欢迎大家点赞评论收藏


网站公告

今日签到

点亮在社区的每一天
去签到