让 3DGS动起来的Gaussian-Flow,实现真正的时空重建!

论文标题:

Gaussian-Flow: 4D Reconstruction with Dynamic 3D Gaussian Particle

论文作者:

Youtian Lin, Zuozhuo Dai, Siyu Zhu, Yao Yao

项目地址:

https://nju-3dv.github.io/projects/Gaussian-Flow

\\ 关于作者//
本文由原paper一作林尤添博士全权翻译写作,林尤添博士就读于南京大学(NJU-3DV),师从姚遥副教授,其研究方向为4D和3D的重建以及生成,代表作为 Gaussian-Flow (CVPR 2024 Highlight)、Direct3D。目前有多篇论文发表在国际顶会上。

导读:

近期3D Gaussian Spatting (3DGS) 通过点云泼溅渲染的技术大幅度提升了静态场景的重建和渲染,因此我们希望通过扩展3DGS 来实现更快速且高质量的动态重建与渲染。为此我们提出了针对高斯点云的双域时间运动模型(DDDM),通过结合了时域和频域来同时对每个高斯粒子的运行进行建模,Gaussian-Flow可以在维持与3DGS相当的渲染速度的前提下,进一步提升动态场景重建的质量。©️【深蓝AI】

1. 背景简介

在数字场景合成领域,尤其是虚拟现实(VR)回放等应用中,实现高质量重建和实时渲染之间的平衡至关重要,因为这类应用需要即时反馈和沉浸式体验。神经辐射场(NeRFs)已经成为重建并渲染复杂场景的一种热门方法。然而,尽管NeRFs能够产生视觉效果惊人的结果,但它们需要在每条光线上多个点进行大量的采样以及神经网络的计算。因此,巨大的计算需求导致了NeRFs的快速重建以及实时渲染的能力。虽然目前有尝试加速NeRFs的渲染过程的方法,比如直接使用体积表示和三平面结构,但实现高保真实时渲染仍然是一个挑战。更重要的是,当需要把此类方法扩展至动态场景的重建和渲染时,因为在表征上多引入了一个时间的维度,因此渲染速度慢的问题变得更加严重。

由于神经辐射场和可微渲染的发展,动态NeRF建模近年来成为一个热门的研究课题。通过将时间作为NeRF的扩展输入维度,很多方法成功实现了高质量的基于图像的4D场景渲染。其中为了进一步提高重建质量并结合运动和结构的先验知识,通过构建了一个标准空间,然后对NeRF中每一个采样点进行光流或者位移场建模,从而得到其转移到每一帧的结果。然而,这需要较长的训练时间,无法满足实时渲染的要求。

最近,三维高斯泼溅(3D Gaussian Splatting, 3DGS)通过使用基于泼溅渲染的光栅化方法替代基于NeRF的体渲染方法,使得3DGS能够比NeRF快两个数量级地渲染图像。该方法也迅速被应用于通过单独的每帧3DGS优化扩展至四维场景重建。然而,这种直接的扩展需要大量存储,并且不适用于通过单目视频输入来重建整个动态场景。一些其他的同期工作尝试将显式的基于点的3DGS和隐式神经场混合用于动态信息建模,然而,这需要神经网络的前向传递计算量大,显著降低了原始3DGS的渲染速度。

2. 方案提出

我们所提出的Gaussian-Flow,是一种专门为3DGS设计的显式基于粒子的变形模型,用于在不使用任何神经网络的情况下对动态场景建模。Gaussian-Flow能够从输入的视频中恢复高保真度的4D场景,同时仍保持原始3DGS的超快训练和渲染速度。具体来说,我们将4D场景表述为一组可变形的3D高斯点。我们提出了一种新颖的双域变形模型(DDDM),以显式地对每个高斯点的属性(包括位置、旋转和辐射度)随时间的变化进行建模。对一个3DGS中每一个可以随时间变化的属性,我们使用了联合多项式和傅里叶级数拟合来对其在时间变化中的残差进行拟合。这种紧凑且简单的动态表示大大降低了运动模型的计算成本,这是保持3DGS渲染速度的关键。值得注意的是,我们的离散点基4D表示自然支持静态和动态3D场景的编辑,展示了在动态3D重建和渲染相关的各种下游应用中释放潜力的可能性。

在这里插入图片描述
图1|Gaussian-Flow渲染动态场景展示©️【深蓝AI】

在这里插入图片描述
图2|Gaussian-Flow的整体框架©️【深蓝AI】

3. 方法详析

我们目标是通过将每个属性拟合到一个时间依赖的曲线上,直接对每个3D高斯点的动态进行建模。在不同的方法中,时间域中的多项式拟合和频率域中的傅里叶级数拟合是两种最广泛使用的方法,因为它们简单且有效。然而,每种方法都有其优点和缺点:用多项式描述高斯粒子的运动可以在多项式阶数较小时很好地拟合平滑运动,但如果假设较高阶的多项式,则容易对剧烈运动过拟合,导致拟合轨迹中出现不合理的振荡。而傅里叶级数在捕捉剧烈运动的变化方面表现出色,但在处理平滑运动时需要手动降低阶数。

在这里插入图片描述
图3|DDDM拟合能力的对比©️【深蓝AI】

在这项工作中,我们的关键见解是使用双域变形模型(DDDM)来拟合场景动态,该模型将时域多项式和频域傅里叶级数集成到一个统一的拟合模型中。我们假设一个3D高斯粒子的旋转 qq q 、辐射 cc c 和位置 μ\mu μ 随时间变化,而缩放 ss s 和不透明度 α\alpha α 保持不变。具体来说,我们将每个粒子属性的变化概念化为其在参考时间帧 t0t_0 t 0 (通常设置为第一帧)时的基本属性 S∈{ μ0,c0,q0}S \in \{\mu_0, c_0, q_0\} S { μ 0 , c 0 , q 0 } ,叠加在一个时间相关的属性残差 D(t)D(t) D ( t ) 上。为简化起见,我们用小写字符表示 SS S 中的单个属性。每个属性的时间相关残差通过时域多项式拟合和频域傅里叶级数拟合进行建模,表示为:

S(t)=S0+D(t)S(t) = S_0 + D(t) S ( t ) = S 0 + D ( t )

其中 D(t)=PN(t)+FL(t)D(t)=P_N(t)+F_L(t) D ( t ) = P N ( t ) + F L ( t ) ,由多项式 PN(t)P_N(t) P N ( t ) 和傅里叶级数 FL(t)F_L(t) F L ( t ) 组合而成。多项式 PN(t)P_N(t) P N ( t ) 的系数为 a={ a}n=0N{a}=\{a\}^{N}_{n=0} a = { a } n = 0 N ,傅里叶级数 FL(t)F_L(t) F L ( t ) 的系数为 f={ fsinl,fcosl}l=0L{f} = \{f^{l}_{sin},f^{l}_{cos}\}^{L}_{l=0} f = { f s in l , f cos l } l = 0 L 。它们分别表示为:

PN(t)=∑n=0NantnP_N(t) = \sum_{n=0}^{N}{a_n}{t^n} P N ( t ) = n = 0 N a n t n
FL(t)=∑l=1L(fsinlcos⁡(lt)+fcoslsin⁡(lt))F_L(t) = \sum_{l=1}^{L} \left( f^l_{sin} \cos(lt) + f^l_{cos} \sin(lt) \right) F L ( t ) = l = 1 L ( f s in l cos ( lt ) + f cos l sin ( lt ) )

需要注意的是,我们假设属性的不同维度在时间上是独立变化的。因此,我们为属性的每个维度分配了不同的 D(t)D(t) D ( t ) 。例如,我们使用 { Dμi(t)}i=03\{D_{\mu_i}(t)\}_{i=0}^3 { D μ i ( t ) } i = 0 3 描述一个三维位置 μ\mu μ 的运动。

图3中展示了使用多项式、傅里叶级数和提出的联合DDDM函数进行轨迹拟合的比较分析。图中突显了DDDM方法在捕捉复杂运动轨迹(由采样数据点表示)方面的优越拟合能力。

4. 实验结果与分析

4.1 实验设置

我们在多视角和单目数据集上评估我们的方法,以展示我们方法在两种设置下的有效性。 Plenoptic Video数据集:该数据集使用21台摄像机以27042028的分辨率捕捉,每台摄像机记录了10秒的视频。这个数据集公开提供了其中的六个场景。为了公平比较,在我们的实验中,我们将图像降采样到了13521014的分辨率,以保持与4D Gaussian这类同期工作的相同设置。HyperNeRF数据集:这个数据集使用单目摄像头(如iPhone)记录真实世界的运动,包括真实的刚体和非刚体变形场景,例如一个人分开饼干的过程。由于存在大幅度的运动、复杂的光照条件和细小的物体结构,该数据集具有相当大的挑战性。为了确保公平比较,我们在实验中将图像降采样到了540960,并使用了数据集设置的训练集和验证集摄像机的划分方式。即在四个“vrig”场景上进行了实验。

4.2 数值对比定量实验

表1我们展示了不同方法的训练时间、渲染帧率和新视角合成的 PSNR 比较结果。以往的 基于 NeRF 的方法需要至少30分钟来训练场景,并且无法实现动态场景的实时渲染。相比之下,我们的方法只需7分钟的训练时间,就能实现实时渲染,速度比以前的方法快得多。此外,我们的方法在 PSNR 方面也比此前SOTA的方法表现更好。

在这里插入图片描述
表1|根据HyperNeRF数据集的场景级定量比较,结果来自于相应方法的论文。我们的方法在新视角合成方面实现了最快的训练时间、最高的渲染帧率以及最高的PSNR分数©️【深蓝AI】

表2中我们在Plenoptic Video数据集上评估了各种方法,比较主要集中在训练时间效率和图像质量上,通过PSNR和SSIM进行评估。我们的方法在训练效率方面取得了显著进展,仅需22.5分钟,与基于NeRF的方法所需的几个小时相比,显著减少。这种效率对于实际应用至关重要。在图像质量方面,我们的方法在30K步时实现了30.5的PSNR,虽然不是最高的,但与领先方法的表现相当。然而,我们的方法在SSIM评分上达到了0.97,高于K-Planes的0.96领先分数。这表明在训练效率和保留图像结构细节能力之间存在潜在的权衡。

在这里插入图片描述
表2|对Plenoptic Video数据集的定量比较。我们的训练速度比之前领先方法快了5个数量级。此外,我们在所有方法中获得了最高的PSNR分数。

4.3 渲染结果对比定性实验

在这里插入图片描述
图4|HyperNeRF数据集的渲染定性结果对比©️【深蓝AI】

在这里插入图片描述
图5|Plenoptic Video 数据集的渲染定性结果对比©️【深蓝AI】

4.4 DDDM的消融分析

DDDM运动模型是Gaussian-Flow的核心方法。因此我们设置两个消融实验以验证DDDM的有效性。

由于DDDM由傅里叶级数和多项式函数组成,因此我们首先分别研究傅里叶级数和多项式函数。我们仅将傅里叶级数或多项式函数作为运动模型使用。如图6所示,傅里叶级数包含比多项式函数更多的高频成分,因此傅里叶级数具有更锐利的图像细节,但会导致更多伪影。多项式函数比傅里叶级数更平滑,因此产生的伪影较少,但会导致场景渲染模糊。最后,混合DDDM函数能够生成更锐利的细节并减少伪影。

在这里插入图片描述
图6|不同运动模型的消融对比。从左到右依次是多项式函数拟合,傅里叶级数拟合,以及我们提出的DDDM拟合。提出的双域变形拟合在定性上实现了最佳的渲染质量©️【深蓝AI】

此外,我们在DDDM中研究了多项式和傅里叶级数函数的阶数,这些阶数与场景的复杂性相关,并且对最终性能至关重要。如图7所示,我们的方法的性能随着傅里叶级数阶数的增加而提高,但在超过32阶后开始下降,这可能与DDDM模型的过度参数化有关。

在这里插入图片描述
图7|在不同顺序的DDDM上进行消融对比。我们发现当阶数设置为16的时候在HyperNeRF数据集中导致了最佳的新视角渲染结果。

5. 总结

我们提出了名为Gaussian-Flow的新型框架,其用于利用基于点的可微渲染方法进行动态场景的快速重建以及实时渲染。我们创新的核心在于提出了对高斯粒子在时间域和频率域进行运动建模的DDDM运动模型。这一方法使我们在动态场景的训练速度、每秒渲染帧数和新视角合成质量方面确立了新的技术水平。我们进行了大量实验和消融研究,证明了提出的Gaussian-Flow在多个数据集上的有效性。尤其在训练速度和渲染性能方面,我们显著改进了现有方法。能够在处理动态场景时不增加神经网络计算开销,标志着该领域的重大进步。

虽然我们的方法在渲染速度和训练效率方面表现出色,但在保持最终渲染中高保真度的细小结构方面仍有改进空间。如图4所展示的,当前的变形模型可能无法捕捉细小结构的精细细节,从而导致图像质量的一定损失。这种限制在具有复杂运动模式的场景中尤为明显。未来的工作可以集中在通过使用更精细的运动模型或更合理的正则化方法来增强重建速度与图像细节保留之间的平衡。

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态。