0. 简介

在真实的SLAM场景中,我们会发现在遇到大量动态障碍物的场景时候,特别容易造成跟丢的问题。传统的解决方法是通过将动态障碍物滤除,而本文《RigidFusion: Robot Localisation and Mapping in Environments with Large Dynamic Rigid Objects》中提到将动态物体看做刚体进行跟踪。虽然这篇文章创新点并不是很足,但是研究现状总结的很好。目前这篇文章的代码没有开源,但是有视频讲解。文中提出一种新的RGB-D SLAM方法,可以同时分割、跟踪和重建静态背景和可能遮挡相机视野主要部分的大型动态刚性物体。之前的方法将场景的动态部分视为异常值,因此局限于场景中的少量变化,或依赖场景中所有对象的先验信息,以实现鲁棒的摄像机跟踪。本文提出将所有动态部件视为一个刚体,同时分割和跟踪静态和动态部件。因此,在动态对象造成大遮挡的环境中,能够同时定位和重建静态背景和刚性动态组件。

[video(video-tLVSKktU-1666767246055)(type-bilibili)(url-https://player.bilibili.com/player.html?aid=219431753)(image-https://img-blog.csdnimg.cn/img_convert/726e63540c866e806dc9045b2cb0a9b9.jpeg)(title-RigidFusion: Robot Localisation and Mapping inEnvironments with Large Dynamic Ri)]

1. 文章贡献

在无人仓库中搬运和运输物体这些任务需要机器人的移动操作,要求机器人在移动的静态环境中定位,同时对动态物体的干扰具有鲁棒性,并跟踪他们需要操纵的物体。虽然这两个问题之前被单独解决。但是同时解决这两个任务是很少的。

  • 一个新的SLAM框架,使用RGB-D摄像头,在整个SLAM框架中同时分割、跟踪和重建场景,通过具有潜在漂移的运动先验来完成静态背景和一个动态刚体的构建。

  • 使用稠密SLAM建图的方法,对视觉输入中的大型动态遮挡(超过视野的65%)具有鲁棒性。同时该SLAM模型不依赖静态和动态模型的初始化;

  • 提供一个新的RGB-D SLAM数据集,数据集中包括具有在场景中造成大遮挡的动态对象和真实轨迹。

2. 详细内容

本文提出一种SLAM框架,将动态部件视为单个刚体,利用运动先验分割静态部件和动态部件。利用分割后的图像对摄像机进行跟踪,重建背景和目标模型。

下图展示了该方法的重建流程,首先需要连续两个RGBD关键帧A和B,以及静态和动态物体的先验信息,静态和动态物体的先验信息即为\tilde{ξ}_s\tilde{ξ}_d是属于se(3)的,此外还需要前一帧的语义分割信息\tilde{\Gamma}_A\in \mathbb{R}^{w\times h}。首先根据运动先验信息检测物体是否为动态物体;然后,当物体运动时,基于帧间对齐,我们联合估计分割\tilde{\Gamma}_B和刚体运动\tilde{ξ}_s\tilde{ξ}_d。这些片段用于重建静态环境和动态对象,并利用帧与模型的对齐实现摄像机的定位。

2.1 图像聚合

类似于文献[4],每个新的强度和深度图像(I,D) ∈ \mathbb{R}^{W×H}对通过使用K-均值聚类(g K-Means),被分割成K个几何簇V ={V_i| i = 1,··· ,K}。假设每个簇满足刚性条件,每个刚体可以通过簇的组合来近似。同时文中还为每个集群分配一个分数γ_i ∈ [0,1]表示簇属于静态刚体的概率:γ_i=0表示动态簇,而γ_i=1表示静态簇。对于RGB-D帧A,我们将总体分数表示为γ_A∈ \mathbb{R}^K

2.2 距离判断

如果两个运动先验之间的差||\tilde{ξ}_s− \tilde{ξ}_d||^2小于阈值\hat{d},则将图像中的所有聚类视为静态和运动分割。否则,将共同优化当前帧的分数γ_B以及静态和动态刚体的相对运动ξ_sξ_d

2.3 图像分割

然后从聚类和分数中计算像素级分割\tilde{\Gamma}_B\in \mathbb{R}^{w\times h}。与静态融合类似,我们从分割中计算静态和动态刚体的加权RGB-D图像\tilde{\Gamma}_B。这些加权图像用于重建背景和动态目标的模型,并通过帧-模型对齐来细化估计的相机姿态(第V节)。

2.4 坐标系转换

我们分别将world- frame、camera- frame和object-frame表示为F_WF_CF_O(下图)。与[18]文类似,我们使用T_{XY}∈SE(3)将坐标系F_Y中某个点的齐次坐标转换为F_X。在图像帧A中,相机和物体的姿态分别是T_{WC_A}T_{WO_A}。考虑两个图像帧ABξ_s与摄像机位姿的关系为:T(ξ_s) = T^{−1}_{WC_A} T_{WC_B} = T_{C_AC_B},这一块就是求得机器人移动的信息, ξ_d与摄像机位姿的关系为:T(ξ_d) = T^{−1}_{WC_A} T_{WO_A}T^{−1}_{WO_B} T_{WC_B} =T_{C_AO_A}T^{-1}_{C_BO_B},最后就转化为相机和物体的相对运动关系。其中\tilde{ξ}_s\tilde{ξ}_d可以由本体感觉传感器提供,如车轮里程计和手臂正向运动学。

在本文中,静态运动先验\tilde{ξ}_s是通过车轮里程计或通过在相机地面真值轨迹上添加模拟漂移来计算的。通过模拟对象真值轨迹上的漂移来生成\tilde{ξ}_d

3. 参考链接

https://arxiv.org/pdf/2010.10841.pdf