0. 简介

没有预先计算相机姿态的情况下训练神经辐射场(NeRF)是具有挑战性的。最近在这个方向上的进展表明,在前向场景中可以联合优化NeRF和相机姿态。然而,这些方法在剧烈相机运动时仍然面临困难。我们通过引入无畸变单目深度先验来解决这个具有挑战性的问题。这些先验是通过在训练期间校正比例和平移参数生成的,从而能够约束连续帧之间的相对姿态。这种约束是通过我们提出的新型损失函数实现的。对真实世界室内和室外场景的实验表明,我们的方法可以处理具有挑战性的相机轨迹,并在新视角渲染质量和姿态估计精度方面优于现有方法。本文《NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior》的项目页面是https://nope-nerf.active.vision

1. 主要贡献

综上所述,我们提出了一种方法来联合优化摄像机的姿势和来自具有大量摄像机运动的图像序列的NeRF。我们的系统是由三个方面的贡献促成的。

  1. 我们提出了一种新的方法,通过明确地模拟比例和位移失真,将单深度整合到无姿势的NeRF训练中。

  2. 我们通过使用未扭曲的单深度地图的帧间损失,为摄像机-NeRF联合优化提供相对位置。

  3. 我们通过一个基于深度的表面渲染损失来进一步规范我们的相对姿势估计。

2. 详细内容

文中解决了在无姿态NeRF训练中处理大型相机运动的挑战。考虑到给定一系列图像,相机内参和它们的单目深度估计,我们的方法同时恢复相机姿态和优化NeRF。我们假设相机内参在图像元块中可用,并运行一个现成的单目深度网络DPT[7]来获取单目深度估计。在不重复单目深度的好处的情况下,我们将围绕单目深度的有效集成到无posed-NeRF训练中展开。
训练是NeRF、相机姿态和每个单目深度地图的畸变参数的联合优化。通过最小化单目深度地图与从NeRF渲染的深度图之间的差异来监督畸变参数,这些深度图是多视角一致的。反过来,无畸变深度地图有效地调解了形状-辐射(shape-radiance)的歧义,从而简化了NeRF和相机姿态的训练
具体来说,无畸变深度地图提供了两个约束条件。我们通过在无畸变深度地图中反投影出的两个点云之间的基于Chamfer距离的对应来提供相邻图像之间的相对姿态,从而约束全局姿态估计。此外,我们通过将无畸变深度视为表面,使用基于表面的光度一致性来规范相对姿态估计

3. NeRF与Pose

3.1 NeRF

Neural Radiance Field(NeRF)[24] 将场景表示为一个映射函数 F_Θ:(x,d)→(c,σ),其中 x ∈ \mathbb{R}^3 为 3D位置, d ∈ \mathbb{R}^3 为视角方向, c ∈ \mathbb{R}^3为辐射颜色,σ 为体密度值。该映射通常是由参数化的神经网络 F_Θ 实现的。给定 N 张图像 I = {I_i | i = 0 . . . N − 1} 及其相机姿态 Π = {π_i | i = 0 . . . N − 1},可以通过最小化合成图像 \hat{I} 与捕获图像 I 之间的光度误差 L_{rgb} = \sum^ N_i | I_i − hat{I}_i|^2_2 来优化 NeRF。

在这里,\hat{I}_i是通过聚合相机射线r(h) = o + hd上的辐射颜色在近界和远界h_nh_f之间渲染的。更具体地说,我们使用体积渲染函数来合成\hat{I}_i

其中,T(h) = exp(−\int^h_{h_n} σ(r(s))ds) 是沿着一条射线累积的透射率。更多细节请参见[24]。

3.2 联合优化姿态和 NeRF

之前的研究 [12、18、45] 表明,可以通过在 Eq. (2) 中使用相同的体积渲染过程,在最小化上述光度误差 L_{rgb} 的同时估计相机参数和 NeRF。
关键在于将相机光线投射的条件设置为可变的相机参数 Π,因为相机光线 r 是相机姿态的函数。数学上,这种联合优化可以表示为:

其中,符号\hat{\Pi}表示在优化过程中更新的相机参数。请注意,公式(1)和公式(3)之间的唯一区别在于公式(3)将相机参数视为变量。
一般来说,相机参数\Pi包括相机内参、姿态和镜头畸变。本文只考虑估计相机姿态,例如,第i帧图像的相机姿态是一个变换T_i=[R_i|t_i],其中R_i\in SO(3)表示旋转,t_i\in \mathbb{R}^3表示平移。

3.3. 单目深度的校正

使用现成的单目深度网络(如DPT [28]),我们从输入图像生成单目深度序列D = {D_i | i = 0 . . . N-1}。不出所料,单目深度图并不是多视角一致的,因此我们的目标是恢复一系列多视角一致的深度图,这些深度图进一步在我们的相对位姿损失项中得到利用。

具体而言,我们为每个单目深度图考虑两个线性变换参数,从而得到所有帧的变换参数序列Ψ = {(α_i,β_i) | i = 0 . . . N-1},其中α_iβ_i分别表示比例因子和偏移量。在NeRF的多视角一致性约束下,我们的目标是恢复D_i的多视角一致深度图D^∗_i

通过联合优化α_iβ_i以及NeRF,来实现这种联合优化,主要是通过在未畸变的深度图D^∗_i和通过NeRF渲染的深度图\hat{D}_i之间强制实现一致性来实现的。这种一致性通过深度损失来实现:

其中

式(5)对NeRF和单目深度图都有好处。一方面,单目深度图为NeRF训练提供了强的几何先验,降低了形状-辐射度模糊性。另一方面,NeRF提供了多视角一致性,因此我们可以恢复一组多视角一致的深度图用于相对姿态估计。

3.4 相对位姿约束

上述的无姿态 NeRF 方法 [12、18、45] 独立地优化每个相机姿态,导致过度拟合到具有错误姿态的目标图像。对帧间姿态的错误进行惩罚有助于将联合优化约束为平稳收敛,尤其是在复杂的相机轨迹中。因此,我们提出了两种约束相对姿态的损失函数。

点云损失:我们使用已知的相机内参将无畸变深度图 D^∗ 反投影到点云 P^∗ = {P^∗_i | i = 0 . . . N − 1} 中,并通过最小化点云损失 L_{pc} 优化连续点云之间的相对姿态:

其中,T_{ji} = T_j T^{-1}_i表示将点云P^__i转换为P^__j的相关姿势,元组(i,j)表示相邻的两个实例的索引,l{cd}表示Chamfer距离:

基于表面的光度损失:虽然点云损失L_{pc}提供了3D-3D匹配方面的监督,但我们观察到基于表面的光度误差可以减轻不正确的匹配。在光度一致性假设的基础上,该光度误差惩罚了相关像素之间的外观差异。通过将点云P^∗_i投影到图像Ii和Ij上建立关联。

那么基于表面的光度损失可以定义为:

其中(i)表示对图像的采样操作,K_i为第i_{th}个摄像机的投影矩阵。

3.5. 整体培训渠道

将所有损失项组合起来,得到总体损失函数:

其中,λ_1λ_2λ_3为各损失项的权重因子。通过最小化损失L的组合:

我们的方法返回优化的NeRF参数Θ,相机姿势Π4和失真参数Ψ

4. 参考链接

https://mp.weixin.qq.com/s/OHVm9B068eyAhr1dwg-KCA