最新综述！3D Gaussian Splatting

3D视觉工坊

2024年05月08日 18:57

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

读者个人理解

本文对Gaussian Splatting技术进行了深入的探讨，总结了该技术在3D重建和视图合成领域的最新进展和应用情况。具体来说，文章首先回顾了Gaussian Splatting技术的基本原理和优势，然后详细讨论了该技术在处理动态和可变形对象、文本生成、优化和速度、渲染和阴影方法以及压缩等方面的最新进展。同时，文章也分析了该技术的挑战，如计算复杂性、内存使用、边缘伪影以及性能与准确性的权衡等。最后，文章总结了Gaussian Splatting技术的应用领域，并展望了该技术的未来发展方向。

3D重建与新视角合成

传统方式：包括点云、网格和体素。这些传统的3D数据表示方式在计算机图形学和计算机视觉中很常见。
新型方式：包括神经网络/多层感知机(MLP)和Gaussian Splats。这些新型表示方式利用深度学习技术，能够更好地捕捉和表达3D对象或场景的细节。

Gaussian Splatting模型通常需要包含多个姿态的稠密图像场景。这些场景的相机姿态通常是未知的，需要通过结构光(SFM)方法使用COLMAP库计算出来。
原始Gaussian Splatting论文使用了Mip-NeRF360、Tanks&Temples和Deep Blending等数据集，这些数据集包含了不同场景的多张图片，可以用来训练和测试Gaussian Splatting模型。

3D重建和视点合成技术主要经历了传统算法、深度学习算法以及神经辐射场(NeRF)和Gaussian Splatting等方法的发展。这些方法通过学习图像中的3D几何和外观信息，提高了重建和视点合成的效率和质量。

3DGS的基本原理和核心要素

Gaussian Splatting使用大量3D高斯或粒子来表示3D场景，每个粒子都带有位置、方向、缩放、不透明度和颜色信息。为了渲染这些粒子，它们首先转换到2D空间，然后以最优的方式进行组织。

图4展示了Gaussian Splatting算法的架构。在原始算法中，需要执行以下步骤：

SfM：使用SfM从图像中计算出点云，使用COLMAP库进行处理。
转换为Gaussian Splats：将每个点转换为Gaussian Splats，以便进行栅格化处理。
训练：通过随机梯度下降等类似神经网络的训练方法来优化Gaussian Splats的参数，以达到高质量的表示。
可微分Gaussian栅格化：使用可微分Gaussian栅格化方法将Gaussian Splats投影到2D图像中，并按照深度进行排序，然后通过正向和反向传播来优化每个像素。

这一部分详细介绍了Gaussian Splatting技术中使用的数学表示方法以及渲染过程。Gaussian Splatting是一种用于3D重建和视点合成的技术，其核心思想是通过使用大量的3D高斯函数（称为Splats）来表示3D场景，并通过这些Splats来生成新的视图。

3D高斯的参数化：
- 均值：一个三维向量，表示高斯函数的中心位置。
- 协方差：一个3x3矩阵，描述了高斯函数的形状，决定了高斯函数在空间中的扩散程度。
- 颜色：一个三维向量，表示高斯函数的颜色。
- 透明度：一个标量，表示高斯函数对渲染图像的影响程度。

高斯函数的投影：
- 将3D高斯函数的均值通过透视投影转换到摄像机坐标系中，得到。
- 将转换到像素坐标系中，得到。
- 为了近似地计算高斯函数的协方差在像素空间中的转换，使用泰勒级数的一阶展开。

高斯函数的深度合成：
- 对于每个像素，计算每个参与合成的高斯函数的权重，即乘以每个高斯函数的透明度乘以其贡献的叠加。

透明度的计算基于高斯函数在像素中心与高斯函数中心的偏移量。

采用在线方式计算，即从前景高斯函数到背景高斯函数的顺序计算。

总的来说，这一部分内容详细阐述了Gaussian Splatting中使用的数学表示方法以及渲染过程，是理解Gaussian Splatting技术的基础。

这一部分介绍了Gaussian Splatting中常用的质量评估指标，用于评估生成的图像质量并与真实图像进行比较。这些评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和感知图像补丁相似度(LPIPS)。

峰值信噪比(PSNR)：
- PSNR是一个无参考的质量评估指标，用于比较两个图像的质量。
- 计算公式为：
- 其中，是图像中的最大像素值，是图像的像素值与真实图像的像素值之间的均方误差。

结构相似性指数(SSIM)：
- SSIM是一个全参考的质量评估指标，用于比较两个图像的结构相似性。
- 计算公式为：
- 其中，和分别是图像和的局部统计平均值，和分别是图像和的局部统计方差，是图像和的局部协方差，和是常数。

感知图像补丁相似度(LPIPS)：
- LPIPS是一个全参考的质量评估指标，它使用学习的卷积特征来评估两个图像的相似度。
- 计算公式为：
- 其中，和分别是原始图像和生成图像在特征层中的特征值，和分别是特征层的宽度和高度。

这些质量评估指标可以帮助研究人员和开发者评估Gaussian Splatting技术的性能，并指导算法的优化和改进。

最新进展

这些进展涵盖了从提高渲染效率和质量到扩展应用领域的各个方面。具体来说，这些进展可以分为以下几个方面：

主要讨论了Gaussian Splatting技术在动态场景和可变形物体建模方面的进展。这一部分着重于通过修改Gaussian Splatting的原始表示，以更好地捕捉动态变化和形变。具体来说，这一部分包括以下几个方面：

运动和跟踪：
- 动态场景：在动态场景中，所有参数的3D高斯矩阵都依赖于输入图像，以捕获动态场景。然而，为了捕获动态，一些参数（如位置）与时间或时间步有关。例如，位置可以通过下一个帧在时间上连续更新。
- 动态3D高斯：一些方法直接扩展原始Gaussian Splatting表示，其中每个点绑定到运动系数，这些系数强制共享基轨迹。这允许独立控制场景运动，产生新的运动组合。

表达或情绪变化和可编辑的数字人像：
- 表达变化：一些方法使用稀疏控制点来学习紧凑的6DoF变换基，然后使用隐式变换来表示形变。例如，Huang等人使用3D高斯函数和变换MLP来捕捉表达变化。
- 可编辑的数字人像：这些方法允许用户通过简单的控制信号实时处理场景中的元素，无需预先计算控制信号。例如，Yu等人提出的Controllable Gaussian Splatting (CoGS) 方法。

非刚性或可变形物体：
- 3D高斯和形变场：一些方法使用3D高斯函数和形变场来表示动态场景中的变形物体。例如，Yang等人提出的Deformable 3D Gaussians方法。
- 神经参数化高斯：一些方法使用神经参数化高斯来捕捉非刚性物体的运动。例如，Das等人提出的NPGs方法。

主要讨论了Gaussian Splatting技术如何结合扩散模型，以从文本描述中生成3D对象。这一部分主要探讨了以下几个方面：

文本生成：这一方向关注于如何使用Gaussian Splatting技术来生成3D对象，这些对象可以从文本描述中生成。具体方法包括使用扩散模型来生成初始3D点云，然后使用Gaussian Splatting将点云转换为高斯球，最后将高斯球渲染为3D图像。
去噪和优化：这一方向关注于如何使用Gaussian Splatting技术来提高3D对象生成的质量。具体方法包括使用扩散模型来指导Gaussian Splatting的优化过程，以及使用新的去噪技术来提高生成质量。

总体而言，主要阐述了如何将Gaussian Splatting技术与其他深度学习方法相结合，以实现从文本描述中生成3D对象的目标。这种结合充分利用了Gaussian Splatting在3D建模方面的优势，以及扩散模型在生成高质量3D对象方面的能力。

具体来说，扩散模型是一种能够从噪声输入生成图像的神经网络。通过与Gaussian Splatting相结合，可以生成具有细节的高质量3D对象。例如，Li等人提出的GaussianDiffusion框架，通过将Gaussian Splatting与Langevin动力学扩散模型相结合，实现了更高质量的3D对象生成。

此外，一些方法还探索了如何优化扩散模型，以提高生成质量。例如，Yang等人提出的统一框架，通过优化去噪得分，提高了扩散模型在3D对象生成方面的性能。总的来说，主要阐述了了如何通过结合Gaussian Splatting技术和扩散模型，实现从文本描述中生成3D对象的目标，从而拓展了Gaussian Splatting的应用范围。

详细阐述了Gaussian Splatting技术在优化和加速方面的进展。这一部分主要关注如何提高Gaussian Splatting的训练和推理速度，从而使得其在实时应用中更加可行。具体来说，这一部分包括以下几个方面：

优化和压缩：这一方向着重于如何通过减少Gaussian Splatting中的高斯点数量和压缩几何属性，来减少内存使用并提高渲染速度。具体方法包括使用学习到的掩码策略来减少高斯点数量，以及使用编码本和网格表示来压缩几何属性。
快速训练和推理：这一方向关注于如何使用Gaussian Splatting技术来提高训练和推理速度。具体方法包括使用结构化噪声和变分Gaussian Splatting模型来减少收敛问题和去噪问题，以及使用网格表示和变分模型来提高渲染速度。

总体而言，主要描述了通过减少高斯点数量、压缩几何属性和使用高效的数据结构，来提高Gaussian Splatting的训练和推理速度的方法。这些进展使得Gaussian Splatting技术在实时应用中更加可行，并有望推动其在各种领域的应用。

具体来说，一些研究通过使用学习到的掩码策略来减少高斯点数量，从而降低了内存使用和渲染时间。例如，Lee等人提出的Compact 3D Gaussian Representation框架。此外，一些研究还探索了如何使用网格表示和变分模型来提高渲染速度。例如，Navaneet等人提出的基于K-means的向量量化方法。

主要阐述了Gaussian Splatting技术在渲染和着色方法方面的进展。这一部分主要关注如何通过修改Gaussian Splatting的原始表示和优化方法，来提高渲染质量和速度。具体来说，这一部分包括以下几个方面：

渲染和着色：这一方向着重于如何改进Gaussian Splatting的渲染和着色方法，以提高渲染质量和速度。具体方法包括添加新的滤波器、使用更复杂的着色模型以及通过混合3D高斯函数来实现更逼真的渲染效果。
实时渲染：这一方向关注于如何使用Gaussian Splatting技术来实现实时渲染。具体方法包括使用更高效的着色模型、更快速的渲染算法以及通过混合3D高斯函数来实现更逼真的渲染效果。
物理基础渲染：这一方向关注于如何使用Gaussian Splatting技术来实现物理基础的渲染效果。具体方法包括使用不同的着色模型和更高效的渲染算法来实现更逼真的渲染效果。

总体而言，主要描述了通过修改Gaussian Splatting的原始表示和优化方法，来提高渲染质量和速度的各种方法。这些进展使得Gaussian Splatting技术在实时应用中更加可行，并有望推动其在各种领域的应用。

具体来说，一些研究通过添加新的滤波器（如3D平滑滤波器和2D Mip滤波器）来改善渲染质量。例如，Yu等人提出的Mip-Splatting方法。此外，一些研究还探索了如何使用更复杂的着色模型（如反射率模型）来实现物理基础的渲染效果。例如，Gao等人提出的Relightable 3D Gaussian方法。

在文档的IV. FUNCTIONAL ADVANCEMENTS部分中，E. COMPRESSION详细解释了Gaussian Splatting技术在压缩方面的进展。这一部分主要关注如何通过减少Gaussian Splatting中的高斯点数量和压缩几何属性，来减少存储需求并提高渲染速度。具体来说，这一部分包括以下几个方面：

存储压缩：这一方向着重于如何通过减少Gaussian Splatting中的高斯点数量和压缩几何属性，来减少存储需求。具体方法包括使用学习到的掩码策略来减少高斯点数量，以及使用编码本和网格表示来压缩几何属性。
快速渲染：这一方向关注于如何通过减少高斯点数量和压缩几何属性，来提高渲染速度。具体方法包括使用结构化噪声和变分Gaussian Splatting模型来减少收敛问题和去噪问题，以及使用网格表示和变分模型来提高渲染速度。

总体而言，描述了通过减少高斯点数量、压缩几何属性和使用高效的数据结构，来减少存储需求并提高渲染速度的方法。这些进展使得Gaussian Splatting技术在实时应用中更加可行，并有望推动其在各种领域的应用。

具体来说，一些研究通过使用学习到的掩码策略来减少高斯点数量，从而降低了存储需求和渲染时间。例如，Fan等人提出的LightGaussian方法。此外，一些研究还探索了如何使用编码本和网格表示来压缩几何属性，从而减少了存储需求并提高了渲染速度。例如，Navaneet等人提出的基于K-means的向量量化方法。

应用案例

详细描述了Gaussian Splatting技术在不同领域的应用案例。这一部分主要关注Gaussian Splatting技术在数字人像、SLAM（同步定位与映射）和网格提取与物理仿真等方面的应用。具体来说，这一部分包括以下几个方面：

数字人像：这一方向关注于如何使用Gaussian Splatting技术来创建虚拟数字人像。具体方法包括使用Gaussian Splatting来捕捉人类从少数视角的姿态，并创建3D模型。例如，Zielonka等人使用Gaussian Splatting来表示人体，实现了实时渲染。Jena等人扩展了底层的SMPL几何结构，可以将其皮肤放置在任意位置，以模拟人体变形。Lei等人提出了GART方法，使用混合的移动3D高斯来显式近似变形主体的形状和外观。

SLAM（同步定位与映射）：这一方向关注于如何使用Gaussian Splatting技术来实现实时定位和映射。具体方法包括使用Gaussian Splatting来表示3D场景，并通过不同的优化方法来实时定位和映射。例如，Yan等人提出了GS-SLAM方法，利用Gaussian Splatting来表示3D场景，并通过不同的优化方法实现实时定位和映射。Keetha等人提出了SplaTAM方法，实现了高保真度的重建。

网格提取与物理仿真：这一方向关注于如何使用Gaussian Splatting技术来进行网格提取和物理仿真。具体方法包括使用Gaussian Splatting来表示3D场景，并通过不同的优化方法来提取网格和进行物理仿真。例如，Xie等人提出了一种方法，使用连续力学和偏微分方程来驱动Gaussian kernels的演化，实现运动生成，同时生成逼真的渲染效果。Guedon等人提出了一种方法，通过正则化项鼓励高斯与场景表面的对齐，然后使用泊松重建算法进行快速和可扩展的网格提取。

这些应用案例展示了Gaussian Splatting技术在数字人像、SLAM和网格提取与物理仿真等领域的广泛应用潜力。这些应用案例为Gaussian Splatting技术的进一步发展提供了有价值的实践经验和应用场景。

在编辑方面的进展：这一部分主要关注如何通过修改Gaussian Splatting的原始表示和优化方法，来实现对3D场景的编辑和点操作。具体来说，这一部分包括以下几个方面：

编辑算法：这一方向着重于如何通过修改Gaussian Splatting的原始表示和优化方法，来实现对3D场景的编辑。具体方法包括使用Gaussian Splatting来表示3D场景，并通过修改高斯参数来实现对场景的编辑。
点操作：这一方向关注于如何使用Gaussian Splatting技术来实现对场景中的点的操作。具体方法包括使用Gaussian Splatting来表示3D场景，并通过修改高斯参数来实现对场景中点的操作。

总体而言，这部分描述了通过修改Gaussian Splatting的原始表示和优化方法，来实现对3D场景的编辑和点操作的方法。这些进展使得Gaussian Splatting技术在实时应用中更加可行，并有望推动其在各种领域的应用。

具体来说，一些研究通过修改高斯参数来实现对3D场景的编辑，如Chen等人提出的GaussianEditor方法。此外，一些研究还探索了如何使用Gaussian Splatting技术来实现对场景中点的操作，如Cen等人提出的SAGA方法。

相关讨论

对Gaussian Splatting技术的现状、挑战和未来发展方向进行了深入讨论。具体来说，这一部分主要包括以下几个方面：

技术优势：
- 优化与渲染：Gaussian Splatting技术通过使用3D高斯表示进行优化，实现了高质量的视觉质量和竞争性的训练时间。此外，该技术通过分块化的渲染解决方案，实现了实时渲染的高质量。

动态与可变形对象处理：
- 原始表示改进：Gaussian Splatting技术通过修改原始表示来处理动态和可变形对象。这包括引入时间依赖的参数，如3D位置、旋转、缩放因子等，以及使用球谐系数来表示颜色和透明度。这些改进使得Gaussian Splatting能够更准确地捕捉动态场景和可变形物体的变化。

文本生成：
- 结合扩散模型：Gaussian Splatting技术与扩散模型的结合，为生成基于文本的3D对象提供了强大的技术支持。通过利用扩散模型学习图像生成，结合Gaussian Splatting的3D表示，可以实现从文本描述到高质量3D资产的转换。

优化与速度：
- 结构化噪声、变分模型、积分匹配：研究人员为了提高Gaussian Splatting的训练和推理速度，开发了多种技巧。这些技巧包括结构化噪声、变分Gaussian Splatting模型、积分匹配等。这些进展使得Gaussian Splatting技术在处理动态和可变形对象、文本生成等方面更加高效。

渲染与阴影方法：
- 滤波器、编辑、光线追踪：研究人员为改进Gaussian Splatting的渲染和阴影效果，开发了多种技巧。这些技巧包括使用不同的滤波器、支持编辑和光线追踪等。这些改进使得Gaussian Splatting技术在渲染和阴影效果方面更加逼真和可控。

压缩：
- 知识蒸馏、向量量化：研究人员为了压缩Gaussian Splatting的表示，开发了多种技巧。这些技巧包括知识蒸馏、向量量化等。这些进展使得Gaussian Splatting技术在处理大规模场景时，能够更加高效地利用计算资源。

总体而言，详细讨论了Gaussian Splatting技术的现状、挑战和未来发展方向。作者认为Gaussian Splatting技术在处理动态和可变形对象、文本生成、优化和速度、渲染和阴影方法以及压缩等方面取得了显著进展。然而，该技术仍面临一些挑战，例如计算复杂性、内存使用、边缘伪影以及性能与准确性的权衡等。未来研究方向可能包括改进优化方法、压缩技术、以及与其他渲染技术的集成等。通过这些研究，Gaussian Splatting技术有望在计算机图形学、虚拟现实、机器人等领域发挥更大的作用。

总结

Gaussian Splatting技术在实时渲染和动态场景表示方面表现突出，为计算机生成图像、虚拟现实/增强现实、机器人、电影动画、汽车设计、零售、环境研究和航空航天等领域提供了有效的解决方案。尽管该技术在某些方面取得了显著进展，但它在达到照片级真实感方面与NeRF等其他方法存在一定的差距，且在处理复杂场景时可能面临计算资源需求高、渲染质量有限等挑战。

展望了Gaussian Splatting技术的未来发展方向，包括实时3D重建技术的应用，以实现实时探索3D场景或模型、动态场景的实时渲染等能力，以及在实时图形与交互、模拟和训练环境、增强现实和虚拟现实等领域的实际应用中发挥重要作用。通过进一步的研究和改进，Gaussian Splatting技术有望在计算机图形学、虚拟现实、机器人等领域发挥更大的作用，推动相关领域的发展。

参考

[1] Gaussian Splatting: 3D Reconstruction and Novel View Synthesis, a Review

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉学习知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

cv34372463

分享至

投诉或建议