字节跳动&伯克利推出AI视频模型Magic-Me-易微帮

01 Magic-Me项目介绍

Magic-Me是字节跳动和伯克利大学合作研发的特定身份视频生成的AI模型，该模型可以生成高质量且稳定的视频内容，同时准确保持主体的身份特征。区别于Sora、Lumiere、Gen-2等现有的文本到视频生成模型，Magic-Me可以使用个人的照片，如家人、朋友或宠物，来生成高度个性化的视频内容。通过对这些图片进行深度学习嵌入的训练，Magic-Me能够生成包含用户亲密关系人物特征的定制化视频，从而实现更加个性化和情感化的内容创造。

02创新性身份识别的研究方法

在现实应用中，尤其是在如电影制作等领域，经常需要根据文本描述的指引来生成具有明确身份的内容。在广告产业中，其中产品标识需要在不同的环境或背景下保持一致性。这一需求被称作特定身份生成，它在为某个角色创建执行特定动作的动画时格外重要。但实际操作中存在诸多问题，现有的视频生成框架通常依赖一个预训练的运动模块来确保帧与帧之间的一致性，动模块可能会在生成时间连贯的视频帧方面遇到困难。

该研究团队致力于开发一种能够在不同动作和场景下为主体生成动画的定制化内容，同时保持主体身份的一致性。他们成功实现了在保留特定身份和引入变化之间的平衡。团队开发的身份(ID)模块显著优化了ID令牌信息与主体身份之间的对齐。通过将身份特征压缩成几个紧凑的文本令牌嵌入——即扩展的ID令牌——该模块大幅降低了所需的参数数量，相比于SVDiff，减少了约105倍（从1.7MB减少到16KB）。ID令牌的优化专注于对象的组成部分，并采用了prompt-to-segmentation子模块来区分身份和背景。

此外，团队引入了一种创新的三维高斯噪声先验方法，旨在建立输入帧之间的相关性。这一方法无需训练，从而在推理阶段确保了初始化的一致性。这种创新方法为视频生成领域中特定身份内容的创建开辟了新途径，并解决了在控制人类相关场景中对象身份时遇到的挑战。

02视频自定义扩散的技术创新

视频自定义扩散（VCD）技术致力于产生主题身份可控的视频内容。该框架通过采用一组通过图像定义的特定主体ID，显著增强了身份信息的提取。在视频的初始化阶段，VCD通过注入逐帧的关联性，不仅实现了视频输出的稳定性，还在很大程度上保留了身份特征。

针对生成视频进行更细致控制的需求，研究团队引入了数种创新方法。"Tune-a-Video"采用单个文本-视频对对文本到图像（T2I）扩散模型进行微调，使得视频内容在保持运动连贯性的同时得以修改。同时，"Text2Video-Zero"与"Runway Gen"结合了可训练的运动动态模块和预训练的Stable Diffusion，实现了不依赖任何配对文本视频数据的文本、姿势、边缘或图像引导的视频合成。最新的"AnimateDiff"在其运动模块训练中提炼出合理的运动先验，赋予了现有个性化文本到图像模型以动画处理的能力。

03 VCD框架的设计与应用

研究团队开发了一个名为视频自定义扩散（VCD）的框架，包括预处理模块、身份(ID)模块、运动模块以及一个可选的ControlNet Tile模块，后者用于视频的上采样和提升内容的高分辨率，如图2所示。此框架利用了AnimateDiff的成熟运动模块，并通过引入一种新颖的三维高斯噪声先验来提升视频生成的稳定性和质量。ID模块采用了扩展ID令牌，能够有效地屏蔽缺失信息并实现提示分割，从而在视频中精准保持主体身份。

此外，团队还设计了两种视频到视频（V2V）的VCD流程：面部VCD和平铺VCD，以适应不同的视频生成需求。这些集成的方法开辟了根据文本描述生成视觉上吸引人的定制视频的新途径，同时确保了主体身份的准确性和视频内容的高品质。