清华大学联合IDEA推出GUAVA:单幅图像生成实时可动画3D上半身,渲染速度突破0.1秒,可实现实时表情与动作同步。

发布于:2025-06-25 ⋅ 阅读:(26) ⋅ 点赞:(0)

由清华大学深圳国际研究生院、国际数字经济学院(IDEA)联合提出的 一个用于快速可动画的上半身 3D 高斯形象重建框架GUAVA,对于每张图像,GUAVA 可以在亚秒级时间内通过前馈推理重建 3D 上身高斯头像,从而实现 512*512 分辨率的实时表现动画和新颖的视图合成。

相关链接

  • 论文:https://arxiv.org/pdf/2505.03351v1

  • 项目:https://eastbeanzhang.github.io/GUAVA/

  • 代码:即将开源

论文介绍

从单幅图像重建具有富有表现力的面部和手部动作的高质量、可动画的 3D 人体形象因其广泛的应用潜力而备受关注。3D 人体形象重建通常需要多视角或单目视频以及针对个体 ID 的训练,这既复杂又耗时。此外,受限于 SMPLX 的表现力,这些方法通常侧重于身体运动,而难以处理面部表情。

为了应对这些挑战,论文首先引入了一个富有表现力的人体模型 (EHM) 来增强面部表情能力并开发一种精确的跟踪方法。基于该模板模型,论文提出了 GUAVA,这是第一个用于快速可动画的上半身 3D 高斯形象重建框架。利用逆纹理映射和投影采样技术从单幅图像推断 Ubody(上半身)高斯分布。渲染后的图像通过神经细化器进行细化。实验结果表明,GUAVA 在渲染质量方面明显优于以前的方法,并且速度显著提高,重建时间在亚秒范围内( 0.1 秒),并支持实时动画和渲染。

方法概述

给定源图像和目标图像,我们首先通过跟踪获取 EHM 模板模型的形状、表情和姿态参数。然后,将源图像输入图像编码器,提取外观特征图。利用这些特征和跟踪到的 EHM,一个分支预测模板高斯函数,另一个分支预测 UV 高斯函数。这些函数组合起来,在正则空间中形成 Ubody 高斯函数,然后使用目标图像中跟踪到的参数将其变形到姿态空间。最后,使用神经细化器渲染并细化粗略特征图,生成最终图像。

实验结果

自我重现的定性比较结果。与其他方法相比,该方法在动画过程中更好地保持了身份的一致性,同时捕捉了更详细的面部表情和手势。

与基于二维的方法相比,交叉重现的定性结果。该方法在保持不同姿势下的身份一致性方面表现出色,并且能够更准确地捕捉目标动作的面部表情和手势。

结论

论文提出了 GUAVA,这是一个快速框架,用于从单幅图像重建富有表现力的 3D 上半身高斯模型,并支持实时动画和渲染。为了增强面部表情、形状和姿势的追踪,论文引入了 EHM 和一种精确的追踪方法。 论文进一步提出了逆纹理映射和投影采样来重建由 UV 高斯和模板高斯组成的 Ubody 高斯,其中 UV 高斯增强了纹理细节。大量实验表明, GUAVA 能够提供精确的动画、高质量的渲染和卓越的效率。


网站公告

今日签到

点亮在社区的每一天
去签到