标题:# Deformable Beta Splatting
项目:https://semanticsplat.github.io/
文章:https://arxiv.org/pdf/2506.09565
文章目录
项目:https://rongliu-leo.github.io/beta-splatting/
来源:南加州大学
3DGS通过实时光渲染技术,显著提升了辐射场的重建效果。然而,由于其对几何形状依赖高斯核和颜色编码使用低阶球谐函数(SH),这限制了它在捕捉复杂几何结构和多样化颜色方面的能力。为此,我们提出了可变形贝塔喷溅(DBS),这是一种既可变形又紧凑的方法,能够增强几何形状和颜色的表示。 DBS使用可变形贝塔核替代高斯核,具有有限的支持范围和自适应频率控制,能够在保持更高保真度的同时实现更好的内存效率,从而捕捉更精细的几何细节 。此外,我们 将贝塔核扩展到颜色编码,这有助于更准确地表示漫反射和镜面反射成分 ,与基于SH的方法相比,DBS的表现更为出色。与以往依赖高斯属性的密集化技术不同,我们从数学上证明,仅通过调整正则化不透明度即可确保分布保持的马尔可夫链蒙特卡洛(MCMC)方法,且与喷溅核类型无关。实验结果表明,DBS不仅实现了最先进的视觉质量,而且仅使用45%的参数,渲染速度比3DGSMCMC快1.5倍,突显了DBS在实时辐射场渲染中的卓越性能。
一、Beta Kernel
Beta Kernel 源自贝塔分布(Johnson等,1995),定义为输入 x x x及其反射值 ( 1 − 𝑥 ) (1−𝑥) (1−x)的幂(其中B为归一化所用的Beta函数,𝛼和𝛽 > 0是控制形状的参数):
简化的Beta核函数(为获得钟形曲线以提升三维视觉一致性,我们将𝛼固定为1,仅聚焦于反射分量,并移除归一化项):
然而,直接优化𝛽会使核偏向低频表示,因为当𝛽趋近于零时,Beta核会强调低频成分,而高频形状需要 β → ∞ β→∞ β→∞ 。为了在保持𝛽合理取值范围的同时实现无偏优化,我们采用指数激活函数对𝛽进行重新参数化:𝛽(𝑏)=𝑒𝑏。此外,我们希望Beta核初始时呈现类高斯形态,随后逐步适应学习不同的几何形状。为此,我们计算常数𝑐=4,使得当𝑏=0时, ∫ 0 1 ( 1 − 𝑥 ) 𝑐 𝑒 𝑏 𝑑 𝑥 ≈ ∫ 0 1 𝑒 − 9 2 𝑥 𝑑 𝑥 ∫₀^1(1−𝑥)^{𝑐𝑒^𝑏}𝑑𝑥≈∫₀¹𝑒^{-\frac {9}{2𝑥}}𝑑𝑥 ∫01(1−x)cebdx≈∫01e−2x9dx。这确保了当𝑏初始化为零时,核函数以类高斯函数开始。
因此, 将Beta核参数化为:
这种参数化确保Beta核在𝑏初始化为零时以类高斯形状开始,并能在优化过程中自适应调整形状。
二、三维椭球 Beta基元
将三维椭球贝塔基元定义为一组参数:
其中几何参数𝝁、𝑜、𝒒和𝒔与3D高斯泼溅(3DGS)中的参数相对应。具体而言,𝝁∈R³表示三维空间中基元的中心位置,𝑜∈[0,1]代表不透明度,𝒒∈[−1,1]⁴通过四元数定义旋转,𝒔∈[0,∞)³决定椭球形状的缩放比例。
参数 𝑏 ∈ R 𝑏∈R b∈R,用于控制beta核的形状。如图2所示,改变𝑏会使核形状发生形变——当𝑏=0时,所得函数几乎与高斯函数完全相同。这个新增参数以极小的计算开销实现了自适应形状调控,使得核函数能在优化过程中动态调整:既保持类高斯函数的特性,又能演变为可捕捉锐利边缘和平坦区域的形态。
外观建模中,每个基元都携带一个特征向量 𝑓 ∈ R 𝑑 𝑓 ∈ R^𝑑 f∈Rd,编码了视角依赖的颜色信息,对于复杂光照交互至关重要。
像素𝒙 ∈ R²的渲染过程如下展开:每个三维椭球贝塔基元通过视角变换𝑾投影至二维成像平面,得到二维投影中心𝝁′ ∈ R²及对应的二维协方差矩阵𝚺′ = 𝑱𝑾𝚺𝑾⊤𝑱⊤(其中Σ = 𝑅𝑆𝑆⊤𝑅⊤,旋转矩阵𝑅与缩放矩阵𝑆分别由四元数与尺度参数导出)。随后计算该像素与各基元中心的距离:
将重叠图元按照相对于摄像机的深度排序后(记为有序集合 N = N = N= { 𝐵 1 , . . . , 𝐵 𝑁 𝐵_1, ..., 𝐵_𝑁 B1,...,BN}),使用Beta核函数合成最终像素颜色𝑪(𝒙):
三、Spherical Beta 球形贝塔
3DGS采用球谐函数(SH)进行视角相关颜色编码。 对于𝑁阶球谐函数,特征维度按3(𝑁+1)²比例增长,导致参数呈二次方增加。为在实际应用中实现实时性能,3DGS被限制使用低阶SH(如𝑁=3),这仅能提供平滑的视角相关颜色,难以有效建模锐利的高光效果。为此,
Phong反射模型 [Phong 1975]具有启发性:
其中 𝐴 𝑚 𝐴_𝑚 Am表示环境光, 𝐷 𝑚 𝐷_𝑚 Dm 和 ( R ^ 𝑚 ⋅ V ^ ) α 𝑚 𝑐 𝑚 ( \hat{R}_𝑚 · \hat{V} ) ^{α_𝑚}𝑐𝑚 (R^m⋅V^)αmcm分别模拟光源 𝑚 𝑚 m的漫反射分量与镜面反射分量。 R ^ 𝑚 \hat{R}_𝑚 R^m为归一化反射方向向量, V ^ \hat{V} V^表示归一化视线方向向量, α 𝑚 α_𝑚 αm是控制镜面反射强度的shininess coefficient, 𝑐 𝑚 𝑐_𝑚 cm代表光源颜色。反射向量 R ^ 𝑚 \hat{R}_𝑚 R^m由表面法线及对应光源方向计算得出。
球形Beta 将环境光与漫反射合并为单一基色,随后通过可学习的有界贝塔核函数直接建模镜面反射波瓣(specular lobes):
其中𝑐₀表示Beta基元的漫反射或基础颜色。每个3D Beta基元有 𝑀 = ∣ M ∣ 𝑀 = |M| M=∣M∣个SB lobes来模拟 outgoing reflected radiance。lobes 𝑚 ∈ M由反射方向 R ^ 𝑚 \hat{R}_𝑚 R^m、颜色 𝑐 𝑚 𝑐_𝑚 cm和光泽度 𝑏 𝑚 𝑏_𝑚 bm参数化定义。其特征维度按3 + 6𝑀的比例缩放,随着反射 lobes 数量的增加而线性增长,这使得它比球谐函数更高效。
球形Beta与球面高斯在模拟镜面反射方面具有相似性,但实现了多项改进。不同于具有无限支撑集、需进行截断处理的球面高斯分布(当视角与反射方向正交时会导致辐射度不连续),Beta核函数天然具有有界性。其输入范围被严格限制在[0,1]区间,当ˆ𝑅𝑚·ˆ𝑉=0时能确保辐射度自然衰减至零。这一特性消除了因截断操作产生的伪影,同时保持了辐射场的连续性。
图3展示了不同𝑏𝑚值下的镜面高光及对应反射 lobes,证明了球形贝塔对高频与低频镜面反射的建模能力。通过整合有限的support与自适应shininess的特性,球形贝塔分布在减少参数量的同时,增强了复杂光照交互与镜面特效的建模能力,从而同步提升了视觉保真度与计算效率。
四、Kernel-Agnostic Markov Chain Monte Carlo
3DGS的一项关键创新在于其采用密度化策略进行优化,该策略利用启发式梯度阈值对图元进行克隆、分割和剪枝。此外,3DGS-MCMC通过将每个基元的不透明度视为概率,将高斯泼溅优化重新定义为马尔可夫链蒙特卡洛(MCMC)过程。该方法能识别出"死亡"基元——即不透明度低于剪枝阈值的基元,并通过基于不透明度值的多项式采样将其重新定位到活跃高斯分布上实现重生。通过同步调整不透明度与缩放比例,该技术在稠密化过程中保持了基础概率分布,从而确保流程稳定性。此外,位置噪声的引入促进了参数空间的探索,有效防止了过拟合现象。
3DGS-MCMC如何应用MCMC?
在3DGS中,传统方法使用启发式梯度阈值进行基元(高斯函数)的克隆、分裂和剪枝。而 3DGS-MCMC 将优化过程重新定义为MCMC,具体步骤如下:
(1)概率化基元
透明度(opacity)作为概率:每个高斯基元的透明度 α 被视作其存在的概率,即 α ∈ [0,1] 表示该基元对渲染结果的贡献概率。
目标分布:所有基元的透明度联合分布,反映场景的几何结构。
(2)MCMC优化流程
剪枝(Pruning):
将透明度 α < τ(阈值)的基元标记为“死亡”(无效)。
这些基元对渲染贡献极小,直接移除会导致信息丢失。
重生(Respawn):
多项式采样:根据存活基元的透明度值 {α₁, α₂, …} 进行加权采样,选择高透明度的基元作为“父节点”。
重新定位:将“死亡”基元移动到父节点附近,并随机调整其位置、尺度和透明度。
提议分布:新状态通过高斯扰动(如位置偏移、尺度调整)生成。
接受/拒绝:
计算新状态的渲染误差(如与目标图像的差异)。
根据Metropolis准则决定是否接受新配置(保留改进的配置,以一定概率接受较差配置以避免局部最优)。
(3)分布保持与稳定化
透明度与尺度调整:通过MCMC的细致平衡条件(detailed balance),确保重生后的基元分布与原分布一致,避免优化过程中的偏差。
动态平衡:剪枝和重生形成闭环,维持基元数量稳定,同时探索更优的空间覆盖。
然而,这些启发式策略与尺度调整本质上都与高斯函数的特性紧密相关,导致其难以直接适用于任意核函数。 为突破这一局限,我们在3DGS-MCMC[Kheradmand等人2024年提出]的框架基础上,提出了核函数无关的马尔可夫链蒙特卡洛方法。
优化。为鼓励探索并防止过拟合,采用噪声项 Font metrics not found for font: .在优化过程中对基元位置进行扰动。基元位置Font metrics not found for font: .的更新:
将3DGS-MCMC中的逻辑噪声函数替换为Beta核函数,以获得更紧凑且定义明确的噪声函数。此处 λ ϵ λ_\epsilon λϵ控制噪声项的影响强度,确保基元不仅通过损失函数的反向传播进行优化,同时探索替代方案以获得更优表征。 λ l r λ_{lr} λlr表示学习率,Σ𝜂为采样噪声。 B ( 𝑜 𝑖 ; 𝑏 ′ ) B(𝑜𝑖;𝑏') B(oi;b′)是Beta核分量,其根据各基元的不透明度对噪声进行缩放,其中𝑏′=ln(25)以模拟原始逻辑函数的衰减特性。
Beta基元的训练,采用复合损失:
λ o ∑ ∣ o i ∣ λ_o\sum{|o_i|} λo∑∣oi∣是不透明度正则化项;第𝑖个基元的协方差矩阵 Σ 𝑖 Σ_𝑖 Σi的特征值 e i g 𝑗 ( Σ 𝑖 ) eig_𝑗 (Σ_𝑖) eigj(Σi)被用于正则化项 λ Σ ∑ ∑ ∣ e i g j ( Σ i ) ∣ λ_Σ\sum\sum|\sqrt{eig_j (Σ_i)} | λΣ∑∑∣eigj(Σi)∣。该正则化项与不透明度正则化项共同促使基元消失并重生。
稠密化。假设存在一个由splat 核𝑓(𝑥)定义的基元,其不透明度为𝑜且将被复制𝑁次。[Robust Gaussian Splatting;赫拉德曼德等人,2024]的研究表明
证明:
(1) 透光率(Transmittance)
在体积渲染中,透光率 TT 表示光线穿过某段距离而不被吸收的概率。对于单个高斯椭球,透光率为: T = 1 − O T=1-O T=1−O
(2) N 个复制高斯的联合透光率
如果原始高斯被复制 N 次,且这些复制高斯在空间上重叠(如稠密化后的情况),则光线需要穿过所有 N 个高斯椭球。假设它们独立作用,联合透光率为: T ′ = ( 1 − o ) N T'=(1-o)^N T′=(1−o)N
(3) 调整后的不透明度 o ′ o' o′
为了使复制后的 N 个高斯椭球的整体光学行为与原始单个高斯一致,我们需要调整每个复制高斯的不透明度 o ′ o' o′,使得它们的联合透光率与原始单个高斯的透光率相同:
当给定一个正则化的较小的 𝑜 𝑜 o值时,我们通过泰勒展开式来近似计算𝑜′:
densified distribution:
由于 o N f ( x ) \frac {o}{N}f(x) Nof(x)很小,可以应用二项式近似:
这与原始分布 𝑜 ⋅ 𝑓 ( 𝑥 ) 𝑜·𝑓(𝑥) o⋅f(x)相匹配
采用不透明度正则化器来维持较小的参数值时,误差项 O ( o 2 ) O(o²) O(o2)变得可以忽略。因此,无论复制次数 N N N和溅射核 f ( x ) f(x) f(x)如何,通过正则化不透明度都能有效缩小原始分布与密集化分布之间的差异。
五、实验
在多样化的真实场景和合成数据集上评估了可变形Beta样条(DBS)方法,测试数据集包括Mip-NeRF 360[Barron等人2021]、Tanks and Temples[Knapitsch等人2017]、Deep Blending[Hedman等人2018]以及NeRF Synthetic数据集。结果表明其视觉质量和渲染效率均优于现有最先进技术,如表1。
实现基于3DGSMCMC框架,并对GSplat库进行了改进。默认每个基元在球面Beta组件中使用两个光源(即𝑠𝑏=2),初始化𝑏设为零。实验发现,不同场景在默认30,000次迭代训练中表现出差异化的收敛速度。为此,我们在框架中集成了灵活终止策略(容忍10k次迭代),提供两种训练模式:(Ours,30K)与(Ours,Full)。
图5中的定性视觉对比显示:Zip-NeRF倾向于产生悬浮伪影,3DGS-MCMC在渲染锐利镜面反射时存在困难,而DBS在平滑区域和高细节区域均保持高保真度,能有效捕捉复杂的光照交互与几何细节。
速度。在单个NVIDIA RTX 6000 Ada Generation GPU上的模型尺寸。表2总结了效率指标,更多单场景细节见附录B。研究发现,在相同基元数量下,DBS不仅重建质量更优,渲染速度也比3DGS-MCMC快1.5倍。当sb=2时,本方法存储内存用量不足基于3DGS方法的一半,却在所有指标上达到最优水平。附录E提供了应用压缩技术进一步降低存储需求的细节。这些结果凸显了DBS在提升计算效率的同时实现高质量渲染的有效性。
利用Beta核的可变形特性,我们的框架实现了训练后几何结构与光照的双重解耦 。这一能力源于Beta核在编码体积化溅射与视角相关色彩信息时的双重作用。
几何分解。Beta核参数𝑏本质上控制着每个基元的几何频率表征。较低的𝑏值对应低频基元,主要捕捉场景的基本几何结构;反之,较高的𝑏值则封装了高频细节,如纹理和细微表面变化。
通过基于𝑏参数设置掩码,我们可以根据基元的频率贡献进行选择性隔离。此外,我们还能基于阈值(例如所有基元𝑏值的均值)进行简单二元分割:𝑏值低于阈值的基元主要表征场景的实体几何结构,而𝑏值高于阈值的基元则提供高频纹理细节。
图4展示了Beta核如何在真实世界数据集中将几何结构与纹理分离。在"treehill"场景中,树皮纹理通过具有beta参数𝑏的图元进行表示;同理在"garden"场景中,桌面上的细节纹理被去除,同时完整保留了桌子的整体几何结构。
光照分解。由于Beta Splatting集成了可学习的冯氏反射模型[Phong 1975],我们可以通过仅提取基底颜色𝑐0来获得漫反射分量。反之,仅启用镜面反射分量则能呈现视角依赖的镜面光照效果。为便于对比,我们仅启用球谐函数的零阶分量表现漫反射色彩,而使用非零阶分量表现镜面反射效果。
图6中的结果展示了该方法的有效性。在"自行车"场景中,黑色长凳与白色高光区域被成功分离,这一效果是高斯泼溅技术无法实现的。同样地,在"盆景"场景中,Beta泼溅技术成功重建了盆景容器明亮的反光部分,而高斯泼溅则未能捕捉到这类极端视角依赖的细节特征。
图6.光线分解:如图示所示,与基于低阶球谐函数的三维高斯泼溅方法相比,我们的球面Beta色彩编码能更有效地分解漫反射与镜面反射成分。