A Survey on 3D Gaussian Splatting
论文:https://arxiv.org/abs/2401.03890

一、文章概述

1.问题导向

基于图像的3D场景重建时机器理解现实世界环境复杂性的基础,促进了3D 建模和动画、机器人导航、历史保存、增强/虚拟现实和自动驾驶等广泛应用。3D 高斯抛雪球被视为下一代3D重建和表示的潜在游戏规则改变者,开辟了大量的应用程序,具有巨大的潜能与应用价值值得人们探索。

2.目标

概述3DGS领域的最新发展和关键贡献,对3DGS模型进行分析与评估、挖掘潜力,促进进一步探索与发展。

3.摘要

三维高斯抛雪球技术是近年来在显式辐射场和计算机图形学领域出现的一种变革性技术。这一创新方法的特点是利用了数百万可学习的3D高斯球,它与主流的神经辐射场方法有很大的不同,后者主要使用隐式的、基于坐标的模型来将空间坐标映射到像素值。3D GS以其清晰的场景表示和可区分的渲染算法,不仅保证了实时渲染能力,而且引入了前所未有的可编辑性。这将3DGS定位为下一代3D重建和表示的潜在游戏规则改变者。在这篇论文中,我们首次系统地概述了3DGS领域的最新发展和关键贡献。我们首先详细探索3DGS出现的基本原理和驱动力,为理解其意义奠定基础。我们讨论的一个焦点是3DGS的实用性,通过实现前所未有的渲染速度,3D GS打开了从虚拟现实到交互式媒体等众多应用程序。此外,还对领先的3DGS模型进行了比较分析,并对各种基准任务进行了评估,以突出其性能和实用价值。调查最后确定了当前的挑战,并为这一领域的未来研究提出了潜在的途径。通过这次调查,我们的目标是为新手和经验丰富的研究人员提供有价值的资源,促进在适用和明确的辐射场表示方面的进一步探索和进步。

4.文章结构

  1. Introduction:问题引入
  2. Background:提供有关问题表述、术语和相关研究领域的简要背景。
  3. Principles: 介绍 3D GS 的基本原理,包括 3D 高斯的新颖视图合成以及 3D GS 的优化细微差别。
  4. Directions:提出了几个富有成果的方向,旨在提高原始 3D GS 的功能。
  5. Application Areas&Tasks:揭示了 3D GS 产生重大影响的多样化应用领域和任务,展示了其多功能性。
  6. Performance Comparison:进行性能比较和分析。
  7. Future Research Directions:需要进一步研究的开放性问题
  8. Conclusion:总结工作

    二、Background

    2.1 什么是辐射场

    2.1.1 辐射场

    辐射场是光在三维空间中分布的表示,它捕捉到光如何与环境中的表面和材料相互作用。辐射场可以通过隐式或显式表示来封装,每种表示在场景表示和渲染方面都有特定的优势。在计算机图形学中,渲染是将3D模型转换为2D图像的过程,其中包括模型的几何形状、表面材质和光照等信息的计算和呈现。辐射场描述了在场景中的各个点上的光照强度及其分布情况,这对于生成逼真的图像至关重要。辐射场的计算通常涉及光线追踪、阴影处理、反射和折射等光学效应的模拟,以及光照模型的应用。

    2.1.2 隐式辐射场

    隐式辐射度场表示场景中的光线分布,而不显式定义场景的几何体。在深度学习时代,人们经常使用神经网络来学习连续的体场景表示,例如NeRF可以表示为任意点的辐射度不是显式存储的,而是通过查询MLP动态计算的

    2.1.3 显式辐射场

    显式辐射场直接表示离散空间结构中的光分布,例如体素、格网、一组点。该结构中的每个元素存储其各自在空间中的位置的辐射信息。这种方法允许更直接且往往更快地访问辐射数据,但代价是更高的内存使用量和潜在的较低分辨率。显式辐射场表示的一般形式可写为:
    其中DataStructure可以是体素、点云的格式

    2.1.4 高斯抛雪球

    3DGS抛雪球是一种显式辐射场,具有隐式辐射场的优点。通过利用可学习的3D高斯作为一种灵活而有效的表示。这些高斯球在多视角图像的监督下进行优化,以准确地表示场景。这种基于3D高斯的可微分管道结合了基于神经网络的优化和显式、结构化数据存储的优点。这种混合方法能够实现复杂场景高质量的渲染,公式可表达为

    其中G是高斯函数,μ_i是均值,Σ_i是协方差

    2.2术语

    2.2.1 场景重建与渲染

    场景重建涉及从图像或其他数据的集合创建场景的 3D 模型。
    渲染是一个更具体的术语,专注于将计算机可读信息(例如场景中的 3D 对象)转换为基于像素的图像。

    2.2.2 神经渲染和辐射场

    神经渲染是将深度学习与传统图形技术相结合,创建逼真的图像。辐射场表示一个函数,描述通过空间中每个点向各个方向传播的光量。 NeRF使用神经网络(通常是 MLP)来对辐射场进行建模,从而实现详细且逼真的场景渲染。

    2.2.3 体积表达与射线行进

    体积表达:不仅将物体和场景表达为表面,还表达为填充了材料或空空间的“体”。这样可以对如雾、烟或半透明材料进行更精确的渲染。
    射线行进:是体积表达渲染图像的技术,通过增量跟踪穿过“体”的光线来渲染图像。NeRF引入重要性采样和位置编码增强合成图像的质量。但这一方法计算量大。

    2.2.4 基于点的渲染

    基于点的渲染使用点而非传统的多边形可视化3D场景,对复杂、无结构或稀疏几何数据的渲染非常高效。点可以使用可学习神经描述符增强特征。但这一方法会导致渲染中出现孔或混叠现象。3D GS通过使用各向异性高斯进行更连贯的场景表达。

    三、Principles

    高斯抛雪球的原理查看如下链接
    https://www.guyuehome.com/46809

    四、Directions

    3DGS领域取得了重大进展,作者提出了一些可优化方向

    4.1数据高效的3DGS

    3DGS一个值得注意的问题是在观测数据不足的地区出现了伪影。这一挑战是辐射场绘制中普遍存在的,在辐射场绘制中,稀疏数据经常导致重建不准确。从有限的视角重建场景具有重要意义,因为它以最少的输入增强真实感。
    对于数据高效的3DGS,主要使用两种策略:
  • 引入了额外的约束,如深度信息,以增强细节和全局一致性。如利用预先训练好的单目深度估计器提取的深度信息来校正几何形状,并在不改变形状的情况下优化了高斯基元的位置,确保了细节颜色外观和连贯的场景几何之间的平衡。
  • 通过使用深度神经网络生成3D高斯图,无需优化即可直接用于渲染。该方法通常需要用于训练的多个视图,但可以仅用一个输入图像来重建3D场景。

    4.2节省内存的3DGS

    在大规模场景下,3DGS的计算和内存需求大幅上升,迫切需要在训练阶段和模型存储期间优化内存利用。有两个主要方向可以减少内存使用量:
  • 减少高斯球的数量,修建无关紧要的高斯球。
  • 压缩3D高斯属性的内存使用。例如将颜色和高斯参数压缩到紧凑的码本中,使用用于有效量化和微调的灵敏度测量

    4.3真实感3DGS

    现有算法容易导致高斯的深度/混合顺序发生剧烈变化,增强真实渲染的关键点如下
  1. 3D GS在处理不同分辨率时容易出现锯齿,从而导致边缘模糊或锯齿。引入了多尺度3D GS,其中场景使用不同大小的高斯来表示。
  2. 实现反光材质的真实感渲染是三维场景重建中一个长期存在的难题。将简化的着色函数与3D Gaussians相集成,增强了具有反射表面的场景的神经渲染
  3. 3DGS的一个局限性是忽略了基本的场景几何和结构,特别是在复杂场景和变化的视图和照明条件下。Scaffold-GS引入了锚点的稀疏网格来组织本地3D高斯图,根据观察者的视角和距离动态调整不透明度和颜色等属性。该方法通过场景几何信息的层次结构增强了场景的表示能力。

    4.4改进的优化算法

    在改进3DGS优化方面,有三个主要方向。
  • 3DGS经常面临过度重建的挑战,其中稀疏的、大型的3DGaussians由于在高方差区域的表示而导致模糊和伪影。
  • 在解决3DGS中规模和结构不均匀的挑战
  • 减弱优化中的约束。依赖外部工具/算法可能会引入错误并限制系统的性能潜力。例如,在初始化过程中常用的运动结构(SFM)容易出错,并且难以处理复杂的场景。

    4.5 3D高斯的更多潜力

    3D Gauss被设计为仅用于新视图合成。通过增加3D高斯的附加属性,如语言、语义/实例和时空属性,3D GS展示了其相当大的潜力来革命性地改变各个领域。
  1. 语言嵌入场景:由于当前嵌入语言的场景表示对计算和存储的要求很高,Shih等人。提出了一种用简化的语言嵌入代替原来的高维嵌入来增强三维高斯的量化方案。该方法以不确定性值为指导,平滑不同视点间的语义特征,减少了语义歧义,提高了开放词汇查询的精度。
  2. 场景理解和编辑。Feature-3DGS将3DGS与来自2D基础模型的特征场蒸馏相结合。通过学习低维特征场并应用轻量级卷积解码器进行上采样,Feature 3DGS实现了更快的训练和渲染速度,同时实现了高质量的特征场蒸馏,支持语义分割和语言制导编辑等应用。
  3. 时空建模。为了捕捉3D场景的复杂空间和时间动态,Yang等人。[97]将时空概念化为一个统一的实体,并使用4D高斯的集合来近似动态场景的时空体积。提出的四维高斯表示和相应的渲染流水线能够在空间和时间上模拟任意旋转,并允许端到端的训练。

    4.6具有结构化信息的3D GS

    展示3D GS与特殊设计的结构化信息的各种引人入胜的用途。
  • 面部表情建模。考虑到在稀疏视点条件下创建高保真3D头像的挑战,GaussHead Avatar引入了可控3D高斯场和基于MLP的变形场确保了细节的保真度和表情的准确性。
  • 时空建模。Yang等人提出用可变形的三维高斯函数重构动态场景。
  • 风格转移。Saroha等人提出了一种用于实时神经场景风格化的方法。为了在不影响渲染速度的情况下在多个视图中保持内聚的风格化外观,他们使用了预训练的3D高斯模型,加上多分辨率散列网格和小型MLP来生成风格化视图。如此快速、一致的管道使其特别适合AR/VR应用。

    五、Application Areas&Tasks

    5.1 同时定位和建图(SLAM)

    SLAM是机器人和自主系统的核心计算问题。它涉及机器人或设备在了解其在未知环境中的位置同时绘制环境布局的挑战。
    3D GS作为一种创新的场景表示方法进入SLAM领域。传统的SLAM系统通常使用点云或体素网格来表示环境。相比之下,3D GS利用各向异性高斯来更好地表示环境。

    5.2 动态场景重建

    动态场景重建是指捕捉和再现场景随时间变化的三维结构和外观的过程。这包括创建一个数字模型,准确地反映场景中物体的几何形状、运动和视觉方面。
    为了将3D GS的概念扩展到动态场景,一个简单的方法是结合时间维度,允许随时间变化的场景的表示和渲染。

    5.3 ai生成内容(AIGC)

    AIGC指的是由人工智能系统自主创建或显著改变的数字内容,特别是在计算机视觉、自然语言处理和机器学习领域。AIGC的特点是能够模拟、扩展或增强人类生成的内容,使应用程序从现实的图像合成到动态的叙事创作。
    3D GS的这种性质促进了实时渲染能力和前所未有的编辑控制水平。3D GS的显式场景表示和可微分渲染算法完全符合AIGC对生成高保真、实时和可编辑内容的要求,这对虚拟现实、互动媒体等应用至关重要。

    5.4 自动驾驶

    自动驾驶旨在让车辆在没有人为干预的情况下进行导航和操作。这些车辆配备了一系列传感器,包括摄像头、光探测和测距(激光雷达)和雷达,并结合了先进的算法、机器学习模型和强大的计算能力。其核心目标是感知环境,做出明智的决策,并安全有效地执行机动。
    实时准确地重建场景对安全导航至关重要,但由于所涉及元素的复杂性和可变性,这一任务具有挑战性。在自动驾驶中,3D GS可以通过将数据点(例如从LiDAR等传感器获得的数据点)混合成一个内聚和连续的表示来重建场景。这对于处理不同密度的数据点和确保场景中静态背景和动态对象的平滑和准确重建特别有用。

    5.5 手术三维重建

    手术三维重建是机器人辅助微创手术领域的一项基本任务,旨在通过对动态手术场景的精确建模来增强术中导航、术前规划和教学模拟。
    从内镜视频中重建可变形组织的即时性和精确性,对于推动机器人手术朝着减少患者创伤和增强现实应用的方向发展至关重要,最终培育出更直观的手术环境,并培养手术自动化和机器人熟练程度的未来。

    5.6 医学成像

    在医学成像领域,x射线是利用电磁辐射捕捉人体内部结构图像的基础技术。3D GS可以直接用于x射线新视图合成,只需对高斯属性进行少量修改,即从球面谐波到其他函数来表示x射线辐射的吸收。

    六、PERFORMANCE COMPARISON

    在本节中,我们通过展示我们之前讨论的几种3D GS算法的性能来提供更多的经验证据。
  • 定位:基于3D高斯的SLAM方法能超过基于NeRF的密集视觉SLAM。
  • 静态场景渲染:基于3D高斯的方法能超过基于NeRF的方法。
  • 动态场景渲染:3D GS能大幅超过基于NeRF的SotA。但静态版本的3D GS对动态场景的重建是失败的。
  • 驾驶场景渲染:3D GS方法能大幅超过基于NeRF的方法。
  • 人体重建:基于3D GS的方法能在渲染质量和速度上均有优势。

    七、Future Research Directions

    3D GS未来的改进空间。
  • 物理和语义感知的场景表示:它有可能通过设计物理和语义感知的3D GS系统,为场景重建和理解的同步进步铺平道路。
  • 面向机器人的3D高斯:3D GS不仅仅用于环境的语义和结构分析;它还包括动态方面,提供了一个全面的了解如何场景演变和对象交互随着时间的推移。这对于负责导航和操纵周围环境的机器人来说至关重要。
  • 物体内部结构的三维建模:尽管3D GS能够产生高度逼真的效果图,但在当前的GS框架内对物体的内部结构建模是一个显着的挑战。
  • 3D大规模场景重建:直接使用3D GS进行大规模场景重建是不切实际的,因为:i)在现有框架内重建大规模场景对于硬件来说是不可行的;ii)呈现如此多的高斯函数会带来大量的计算负载。
  • 用于自动驾驶仿真的3D GS:为自动驾驶收集真实世界的数据集既昂贵又具有物流挑战性,但对于训练有效的基于图像的感知系统至关重要。为了缓解这些问题,模拟作为一种经济有效的替代方案出现,能够在不同的环境中生成合成数据集。虽然用3D GS重建城市/街道场景的早期努力令人鼓舞,但就其全部功能而言,它们只是冰山一角。还有许多关键方面有待探索,用户定义的对象模型的集成,物理感知场景变化的建模(例如,车辆车轮的旋转),以及可控性和现实性的增强。

    八、总结

    据我们所知,这项调查提出了3D GS的第一个全面概述,这是一项突破性的技术,彻底改变了显式辐射场,计算机图形学和计算机视觉。它描述了从传统的基于NeRF的方法的范式转变,突出了3D GS在实时渲染和增强可编辑性方面的优势。我们的详细分析证明了3D GS在实际应用中的优势,特别是在对延迟高度敏感的应用中。我们对该领域的原理、未来的研究方向和尚未解决的挑战提供见解。总体而言,3D GS是一项变革性技术,将对3D重建和表示的未来发展产生重大影响。该调查旨在作为基础资源,推动这一快速发展领域的进一步探索和进展。