AutoSDF

发布于:2022-12-03 ⋅ 阅读:(856) ⋅ 点赞:(0)

摘要

强大的先验允许我们在信息不足的情况下进行推理。在本文中,我们提出了一种三维形状的自回归先验算法来解决形状完成、重建和生成等多模态三维任务。我们将三维形状上的分布 建模为离散的、低维的、符号网格状三维形状潜在表示的非顺序自回归分布。这使我们能够根据来自任意一组空间锚定查询位置的信息来表示3D形状上的分布,从而在这种任意设置中执行形状补全(例如生成一种完整的椅子,只能看到椅背)。我们还表明,学习到的自回归先验可以用于条件任务,如单视图重建和基于语言的生成。这是通过学习任务特定的“幼稚”条件句来实现的,这些条件句可以通过训练的轻量级模型来近似实现我们也最小的配对数据。我们通过定量和定性的评估验证了所提方法的有效性,并表明所提方法优于针对个别任务训练的最先进的专门方法。可以在https://yccyenchicheng.github.io/AutoSDF/上找到带有代码和视频可视化的项目页面。

 简介

3D表示对于机器人、自动驾驶、虚拟/增强现实和在线市场的应用是必不可少的。这导致越来越多的不同任务依赖于有效的3D表示——一个机器人可能需要预测它遇到的物体的形状,一个艺术家可能想要想象一个“薄沙发”会是什么样子,或者一个木工可能想要探索可能的桌面设计来匹配他们雕刻的腿。处理这些任务(如3D完成或单视图预测)的常见做法是利用特定于任务的数据,为每个任务训练单个系统,这需要大量的计算和数据资源。虽然形状完成或图像条件预测等任务看起来不同,但它们需要类似的输出——在相应输入条件下合理的3D结构上的分布。对“桌子”的大致概念,无论是从左半部分预测完整的形状,还是想象“高圆桌”可能是什么样子,都是有用的。在这项工作中,我们操作了这一观察,并表明一个通用的形状先验可以利用这些不同的推理任务。特别地,我们建议从大量可用的原始3D数据中学习具有表现力的自回归形状先验。这种先验可以帮助增强需要成对训练数据(例如语言形状对)的任务特定条件分布,并在难以获得成对数据时显著提高性能。

直接在三维形状的连续高维空间中学习这样的先验在计算上是难以处理的。受最近克服图像合成类似挑战的方法的启发,我们首先利用离散表示学习来计算3D形状的离散和低维表示。这不仅保留了解码高质量输出的基本信息,而且使自回归模型的训练易于处理。此外,为了学习一组广泛任务的先验,如形状完成,其中可能观察到任意子集,例如椅子的4条腿,我们建议学习一个“非顺序的”自回归先验,即能够使用随机子集作为条件反射的先验。为了实现这一点,我们还强制学习先验的离散元素是独立编码的。然后,我们提出了一个通用框架,用于利用我们学习到的先验条件生成任务,例如单视图重构或语言引导生成(见图1)。我们没有直接对复杂的条件分布建模,而是提议将其近似为先验条件和特定于任务的“幼稚”条件的产物,后者无需大量训练数据即可学习。结合丰富而富有表现力的形状,我们发现这种统一而简单的方法比特定于任务的最先进的方法更好。

相关工作

自回归建模。自回归模型[20,21]将结构化输出上的联合分布分解为条件分布(p(x)= Πp(x|x<xi))的乘积。与GANs[15]不同的是,它们可以作为强大的密度估计器[32],在训练过程中更稳定[25,32],并且可以很好地对采出数据进行泛化。它们已成功地用于跨领域的建模分布,如图像[8,20,25,33]、音频[21]、视频[18]或语言[45],我们的工作在广泛的3D生成任务中探索了它们的好处。继他们最近在自回归建模方面取得的成功[3,6,23,45]之后,我们的工作采用了基于transformer的[34]架构。虽然这些方法通常假设顺序采样顺序,但更接近我们的工作,Tulsiani和Gupta[30]扩展了这些方法,允许非顺序条件作用,这对完成等任务很重要。然而,由于他们在低像素上建模分布,由于变压器的二次复杂度,他们的方法不能合成高分辨率输出。因此,我们建议首先将高维三维形状简化为低维离散表示(摘要::我们将三维形状上的分布 建模为离散的、低维的、符号网格状三维形状潜在表示的非顺序自回归分布),并学习在这个潜在空间上的自回归先验。我们建立在van den Oord等人[22]的工作基础上,他们提出了一种使用矢量量化变分自动编码器(VQ-VAE)学习图像量化和压缩潜在表示的方法,后来还引入了分级版本[24]。

受Esser等人[12]的启发,他们学习了离散VQ-VAE表示的自回归生成,我们的这项工作将这些想法扩展到3D形状领域。与这些先验方法不同的是,我们在修改VQ-VAE体系结构以独立编码符号的同时学习了一个非顺序自回归先验,并表明该先验可用于下游条件推断任务。

形状完成。从部分输入完成完整的形状,例如离散部件,或单视图3D,是整个机器人和越来越重要的任务图形。最近的方法[1,7,29,47-49]阐述了它作为在点云上执行补全,可以推断出合理的全局形状,但在捕捉细粒度细节、约束稀疏输入或生成不同的样本方面有困难。我们的非顺序自回归先验为形状补全提供了另一种方法。给定对3D形状的任意(可能是稀疏的)子区域的观察,我们可以从我们学习到的分布中采样不同的和高质量的形状,我们表明,这种通用方法的性能相对较好,如果不是比以前的专门方法更好的话。与我们的工作同时,Yan等人[44]提出了VQDIF来获取局部点云的稀疏表示,并采用ShapeFormer来输出完整的形状。

图2。自回归建模概述。(上)我们使用VQ-VAE提取三维形状的低维离散表示。使用补丁式编码器可以独立编码本地上下文,并允许使用部分观察结果进行下游任务。(下)我们学习了一个基于变压器的自回归模型的潜在表现。使用随机抽样顺序允许学习一个“非顺序的”自回归形状先验,可以条件任意集的部分潜在观察。

单一视图重建。从a推断出3D形状单一的图像本身就是一项不恰当的任务——一张从椅背看的椅子图像并不能消除座椅形状的模糊性。几种方法是否显示了令人印象深刻的单视图重建结果使用体素[10、14、31、38、39],点云[13、19、41],网格[36,37],以及最近的3D曲面隐式表示,如sdf [17,43], udf[9]和CSPs[35]。然而,这些通常在本质上是确定的,只生成3D单一输出。通过将基于图像的预测作为条件分布,可以结合一个一般自回归先验,我们的工作提供了一种简单而优雅的方法来推断多个似是而非的输出,同时也产生了经验改进。

基于语言的一代。语言是描述真实世界的形状和物体的一种非常有效和简洁的方式。Chen等人[5]提出了一种学习联合文本形状嵌入的方法,随后提出了一种基于GAN[15]的生成器,用于从文本合成3D。然而,从文本生成形状基本上是一项多模式任务,基于gan的方法很难捕获多种输出模式。相比之下,从文本中学习天真语言引导的条件分布,旨在消除形状[2]的歧义,并将这些与通用先验相结合,我们的工作可以生成各种各样的、似是而非的形状。

 

方法

我们提出了一种自回归方法来学习p(X)在可能的3D形状X上的分布。我们的方法使用一个体积截断符号距离场(T-SDF)来表示一个3D形状,并学习一个基于Transformer的自回归模型。然而,由于变压器的计算复杂度随输入维数的增加呈二次增长,我们首先将高维三维形状映射到相应的低维离散隐空间然后,我们在这个压缩的离散表示上学习了一个“非顺序的”自回归先验,并表明这种学习到的先验可以在不同的条件生成任务中利用。

 图3。条件生成概述。提出的自回归先验可用于不同的条件生成任务。对于每个任务,我们使用特定于领域的编码器,然后使用3D上卷积来学习特定于任务的条件分布。在推理过程中,我们可以从预测条件和学习到的自回归先验的乘积分布中进行抽样。

三维形状的离散隐空间我们的目标是将高维连续三维形状表示简化为低维离散潜在空间。为此,我们采用了VQ-VAE[22]框架,学习了一个3DVQ-VAE,它的编码器Ew可以计算所需的低维表示,解码器Dy可以将这个潜在空间映射回3D形状。给定一个三维形状X,空间维度为D3,我们有要学习一个有效的自回归模型,

其中VQ是矢量量化步骤,它将矢量映射到码本Z中最近的元素,这是在训练VQ- vae[22]时共同学习的。因此,潜在表示Z是来自码本元素的3D网格,可以等价地认为是参考相应码本条目的索引网格。我们用zi表示网格Z中位置i处的潜变量。上面的框架允许学习一个紧凑的量化潜在空间,编码器联合处理一个输入形状,因此可以使用一个大的接受场来编码每个潜在符号。不幸的是,对于形状完成等任务,这不是理想的属性 ,编码的部分形状的潜码可能与编码的完整形状的潜码有显著差异——因此,对形状的部分观察可能不对应于对潜变量的部分观察。为了克服这一挑战,我们提出了Patch-wise Encoding VQ-VAE或P-VQ-VAE,它们独立编码局部形状区域,同时联合解码它们——这允许离散编码只依赖于局部上下文,同时仍然允许解码器在生成3D形状时进行更全局的推理。我们在图2中可视化了这个提议的架构,并使用van den Oord等人提出的三种损失的组合来训练它:重构损失、矢量量化目标和承诺损失

非时序的自回归建模潜在空间Z是代表原始3D形状的符号组成的3D网格。因此,我们可以将学习连续三维形状上的分布的任务简化为学习p(Z),这是一个在低维离散空间上的分布。假设潜在变量的某种排序。对于光栅扫描,典型的自回归模型可以通过将其分解为位置特定条件的乘积来近似该分布:

但是,这种分解假设观察/生成标记的顺序是固定的。更具体地说,这种因式分解意味着在预测“下一个”符号zi之前,我们需要知道所有z<i。然而,这种条件作用并不总是可能的。例如,如果我们只观察一辆汽车的轮子,相应的符号就不会是预定义序列中的前k个元素,而是占据了一些空间上的任意位置。为了在我们的自回归模型中允许这种任意条件作用,我们提出了一个自回归模型,它可以预测在随机输入序列条件下标记的分类分布,并使用术语“非顺序”自回归模型来强调这种能力。

我们遵循[30]的观察结果,联合分布P(Z)可以分解为形式的项p(iO),其中O为观测变量的随机集合。如图2所示,我们没有使用栅格化采样顺序,而是使用潜变量Zg1, Xg2, Xg3的随机排列序列,)用于自回归建模分布 

我们使用基于变压器的体系结构对分布po(ziO)进行建模,该体系结构参数化为9,采用已知位置的观测潜变量的任意集合O = ([gj)-1),并预测任意查询位置i的分类分布。我们通过简单地最大化编码潜表示的对数似然来学习该模型,使用随机顺序进行自回归生成。非顺序自回归网络对潜变量Z的分布进行建模,可以将其映射为完整的三维形状X = Dy(Z)。详见附录。

有条件的代给定用于预测3D形状潜在表示的分布的自回归模型,我们可以利用它来解决各种条件预测任务,如形状完成,或基于图像和语言等模态的生成。

形状完成。建议的P-VQ-VAE独立地对当地区域进行编码。这使我们能够将部分观察到的形状Xp映射到相应的观察到的潜在变量O = (g1, g2,, gk。尽管这些观测数据可以位于任意空间位置,但我们基于变压器的自回归模型经过专门训练,可以处理此类输入。特别地,我们可以将形状补全的任务表述为:

根据上述公式,我们可以直接使用3.2节中的模型进行自回归样本完全潜码从部分观察。然后,这些可以通过P-VQ-VAE解码器转换为3D形状。

近似通用的有条件的分布。而形状补全可以简化为条件推理部分观察到的潜在代码,这种减少不适用于其他生成任务。更一般地,我们感兴趣的是推断形状分布p(XIC),其中C表示一些条件,如图像或文本描述。我们的目标是学习p(ZIC)的模型,将其近似为潜伏空间上的分布。一种可能的方法是对全联合分布p(ZIC) =的项进行建模Πip (zilz <我,C)。然而,在缺乏丰富训练数据的情况下,学习这种复杂的联合分布可能是不可行的。我们没有对这个复杂的分布进行建模,而是简化假设,并建议将这个联合分布建模为形状先验的乘积,加上独立的“幼稚”条件项,这些条件项弱地捕获了对条件条件C的依赖:

这种分解对应于假设一个因子图,其中条件条件C与每个潜在变量zi相连,只有一个成对的潜在变量p(zilC)。虽然这是更一般情况的近似,但它能够实现高效的学习和推断。 

幼稚条件分布这种逐位置分布直观地对应于潜在表示中的每个变量的独立的“幼稚条件分布”。例如,如果语言描述的是“瘦椅子”,这个术语可能反映了我们对腿周围结构的期望。学习的条件。我们使用h参数化的神经网络对这种分布进行建模,并可以使用任务特定的成对监督来训练该网络。特别是,给定(X, C)对,我们通过最大化编码形状z中每个变量的对数似似对数pφ(zilC)来学习φ。如图3所示,我们的任务特定网络(p)由特定领域的编码器组成(例如,用于图像的ResNet [16];BERT[11]用于语言等),然后是向上卷积解码器来预测元素的条件分布Zi.e. pφ(zilC).

Prior-guided条件推理。利用学习到的任务特定网络对幼稚分布Pφ(ziC)进行建模,我们可以使用它结合我们的自回归之前,以获得一个条件分布的形状,可以用于多模态生成。

 图4。形状补全比较结果。给定部分输入,我们将不同方法生成的结果可视化。我们的方法产生了更多不同的代,同时也更好地保留了最初观察到的结构。例如,在第一行中,给定椅子的4个斜腿,一些MPC代使它们在完整的点云中变得更直,而在我们的方法中保留了它们

图5。形状完成的定性结果。我们提出的方法能够生成与部分输入一致的各种合理的三维形状。生成的形状在视觉上与真实的形状一致,即使有明显的缺失部分(红色) 

单一视图三维预测

我们接下来展示了学习先验可以用于单视图三维重建任务。为了获得每个位置的图像条件,我们使用训练数据集中的成对图像和相应的编码3D模型来训练一个改进的ResNet[16]。

评估设置我们在ShapeNet渲染图像[10]和现实世界中对所提出的方法进行了评价评估设置。

 基准Pix3D[27],使用裁剪和分割的图像作为重建的输入。对于ShapeNet,我们使用Xu等人[43]提供的相同的列/测试分割,并对Choy等人[10]提供的体素化模型进行评估。对于Pix3D,我们使用椅子类别提供的火车/测试分割。在其他类别没有官方分割的情况下,我们将数据集随机分割为不相交的3D形状,用于训练和测试。我们在Pix3D中对所有的方法进行实地真实体素的评估,并遵循官方实现,将所有预测下采样到323个体素中进行评估。我们使用3D IoU、倒角距离(CD)和F-score@1%[28]作为度量指标,来衡量不同方法的性能。

图6。单一视图的三维重建。(上)我们展示了使用我们的方法和其他基线的单视图重建示例,我们的形状先验帮助生成的形状更全局一致。(下)给定输入图像,我们将根据我们的方法预测的多个形状可视化。我们在未观察到的区域观察到有意义的形状变化,如左图中的椅子前面。

 表2中的定量结果表明,我们提出的方法在几乎所有类别中都表现良好。请参见图6,我们展示了一些具有代表性的结果,并与竞争方法进行了比较(附加结果在补充中)。结果。更关键的是,如图6的第二行所示,与基线不同,我们的方法可以在给定输入图像的情况下生成多个似是而非的形状。例如,给定一张椅子背面的图像,我们的模型在未观察到的区域产生不同的重构结果,其中有意义的变化,如不同形状的扶手或靠垫。

language-guided Generation

Achlioptas等人[2]发布了一个包含文本话语的数据集,描述了Shapenet[4]中目标椅子和两个干扰物之间的区别。我们重新利用这些数据来训练一个文本条件生成模型,如第3.3节所述。当这个条件的分布与我们的自回归先验相结合时,允许我们在给定的语言描述下生成不同的形状。在文本引导的3D形状生成任务中,我们将我们的方法与Text2Shape (T2S)[5]方法进行了比较。虽然T2S最初被训练为根据文本描述生成颜色和形状,但在数据集[2]上对其进行微调后,我们只使用生成的形状进行比较。此外,我们还将我们的方法与在[2]上训练的基于变压器的编码器模型(JE)进行比较,共同预测P(SilS<i, T)这是学习联合分布的基准与我们的因式分解方法相反。我们的方法结合了两个因素:一个通用的先验因素和一个依赖于输入方式的条件因素。后者可能是潜在的弱,这取决于输入方式的简约性和可用的训练数据量。

图7。语言生成条件。结果表明,我们的方法可以有意义地估计输入描述和相应似是而非的形状之间的相关性,同时生成生成它们所需的缺失上下文。 

未来方向

我们提出了一种学习3D形状的一般非顺序自回归先验的方法,该方法对多模态生成非常有用,可用于不同的任务集,例如形状完成、单视图重建和语言引导合成。我们发现令人鼓舞的是,我们的统一方法在这些不同的任务中产生了令人信服的结果,并且与专门设计的基线具有竞争力。然而,我们的条件推断公式的一个限制是,它只能近似联合分布——尽管这在低配对数据状态下有帮助,但对于大规模特定于任务的数据,这将是次优的。此外,我们的方法只适用于空间结构的3D表示,如TSDF或体素,我们的自回归建模框架是否适用于其他3D表示,如网格或神经隐式函数[26],目前尚不明显。其次,提出的方法也可能是敏感的形状对齐。最后,我们学习到的形状先验倾向于具有大量可用的CAD模型的人工类别,并且不能用于这些以外的3D生成。

本文含有隐藏内容,请 开通VIP 后查看

网站公告

今日签到

点亮在社区的每一天
去签到