0. 简介

自动驾驶中的高精地图对于车辆的定位而言是非常重要的,一般来说高精地图需要耗费大量的时间完成。而随着深度学习的发展,使用深度学习来完成地图的矢量化是非常有用的一个操作。矢量化高精度(HD)地图对于自动驾驶而言至关重要,其为高级感知和规划提供了详细且精确的环境信息。然而,当前的地图矢量化方法经常出现偏差,并且现有的地图矢量化评估指标缺乏足够的灵敏度来检测这些偏差。

为了解决这些限制,《Online Map Vectorization for Autonomous Driving: A Rasterization Perspective》提出了将栅格化的思想集成到地图矢量化中。具体而言,文中引入一种新的基于栅格化的评估指标,其具有卓越的灵敏度,并且更适合现实世界自动驾驶场景。此外,本文提出了MapVR(基于栅格化的地图矢量化),这是一种新型的框架,其将可微分的栅格化应用于矢量化输出,然后对栅格化的高精度地图进行精确和几何感知的监督学习。

相关的代码已经在Github上开源了。这类文章开源的较少,如果做这方面的同学可以好好看看这篇文章

图1. (a) 地图栅格化通过鸟瞰视图(BEV)中的语义分割生成高清语义地图作为输出。(b) 地图矢量化直接预测紧凑且实例级别的矢量化地图元素,更适用于实际的自动驾驶系统。(c) MapVR采用可微分栅格化来连接矢量化和栅格化的高清地图表示,为可靠的自动驾驶提供更精确和准确的矢量化高清地图。

1. 主要贡献

VectorMapNet [30]和MapTR [22]都使用了稀疏点集表示,其中每个地图元素被参数化为等距采样点的固定长度向量,并应用L1损失来监督回归预测。虽然这种方法简单直观,但我们经验证明,由于几个原因,它通常不是最优的。首先,如图2所示,稀疏点集表示在精度上常常不够,特别是在处理急转弯或地图结构的复杂细节时,导致显著的参数化误差。其次,使用等距点作为回归目标进行学习会导致模型的监督不明确,因为中间点通常缺乏清晰的视觉线索。第三,仅依靠L1损失进行回归监督会导致模型忽视细粒度的几何变化,产生过于平滑的预测结果,对局部偏差不敏感。同样,当前的评估指标依赖于点集之间的Chamfer距离,往往会忽视细微的偏差和几何细节。对于自动驾驶来说,精度是生死攸关的问题,现有的地图矢量化方法和评估指标仍然不足够。

图2. 稀疏等距点集参数化导致的地图元素不准确

为了解决这些限制,我们重新引入了栅格化的理念到地图矢量化中,以恢复高精度地图建模的优势,同时保持矢量化输出的优点。我们相信栅格化可以为地图矢量化提供互补的好处。本文的贡献总结如下:

1)本文提出一种新型的基于栅格化的地图矢量化评估指标,该指标对微小偏差的敏感性增加,从而在现实世界驾驶场景中对地图矢量化性能进行更精确、合理的评估;

2)本文提出MapVR(基于栅格化的地图矢量化),这是一种将可微分栅格化与现有的地图矢量化方法无缝结合的新型框架。MapVR显著提高了地图矢量化的精度,针对不同的地图元素展现出强大的可扩展性,并且在推理过程中不会产生额外的计算开销;

3)本文所提出的MapVR框架和评估指标为自动驾驶应用的未来研究和改进铺平了道路,展现了栅格化与地图矢量化之间的互补优势。

2. 基于栅格化的地图矢量化评估指标

2.1 基于Chamfer距离的评估指标回顾

地图矢量化需要进行实例级别的评估,类似于目标检测[3, 8, 25, 57–61, 65]。因此,当前的地图矢量化方法[7, 18, 22, 30]采用平均精度(AP)来评估地图构建的准确性,使用Chamfer距离来确定预测的地图元素与真实地图元素是否匹配。 具体而言,Chamfer距离D_{Chamfer}(·, ·)是两个无序点集之间的不相似度度量,它量化了一个集合中每个点到另一个集合中最近点的平均距离。可以表示为:

其中PQ分别表示预测地图元素和真实地图元素的点集,|P||Q|表示点集PQ的基数,|p − q|^2表示点pq之间的欧氏距离。

尽管这个度量方法简单且能够提供公正的评估结果,但以下限制使其在自动驾驶等高要求场景下不足以使用:1)它不具有尺度不变性;对于较小的地图元素(如停车线),Chamfer距离误差始终很小,无法提供有意义的评估。2)Chamfer距离仅依赖于无序点集距离,完全忽视地图元素的形状和几何细节,因此在许多实际场景中产生不合理的结果,如图4所示。这些缺点要求开发出更强大和准确的评估度量方法,以满足自动驾驶地图矢量化的严格要求。

图4. 基于Chamfer距离的度量方法与我们提出的基于栅格化的度量方法在几个实际案例中的评估质量比较。我们的度量方法能够产生更合理的评估结果,适用于自动驾驶应用。

2.2 提出的基于栅格化的评估指标

为了解决上述限制,我们引入了一种基于栅格化的评估指标,该指标对微小偏差更敏感,更适用于真实世界的驾驶场景。虽然我们仍然使用AP作为我们的测量标准,但我们采用栅格化来精确确定预测和地面真实地图元素之间的匹配关系。如图3所示,我们使用线状地图元素(例如车道和路边)来演示我们的指标。首先,地面真实元素和预测元素都被栅格化成高清地图中的折线。在我们的设置中,考虑到y轴上±30m和x轴上±15m的感知范围,我们将高清地图的空间尺寸设置为480×240,使得每个像素代表0.125m,满足自动驾驶的高精度要求。为了更好地适应具有细长几何形状的预测不准确性,我们在每一侧将栅格化的折线膨胀2个像素,从而引入适当的容差。最后,为了确定地面真实元素和预测地图元素是否匹配,我们计算它们各自栅格化的高清表示的交并比(IoU)。类似于MS-COCO的指标[25],我们在多个IoU阈值下计算AP。对于线状元素,我们将阈值设置为0.25:0.50:0.05

值得注意的是,高清地图通常包含除了线以外的其他元素,例如人行横道、交叉口和停车场。这些元素可以抽象为多边形。为了对多边形状的地图元素进行适当的评估,我们采用了专门设计的多边形栅格化而不是线状栅格化,并在0.50:0.75:0.05上计算AP。

图3. 展示了基于栅格化的方法来确定地面真实数据与预测的矢量化地图元素之间的匹配。

3. MapVR

3.1 框架概述

如图1(c)所示,MapVR(通过栅格化进行地图矢量化)是一种新颖且通用的地图矢量化学习框架,它结合了栅格化技术,以利用从栅格化的高清地图中获得的细粒度监督信号,同时保留了矢量化表示的优势。MapVR是无参数的,因此可以轻松地与各种网络架构集成进行地图矢量化(例如,MapTR [22])。 图5展示了MapVR的整体框架。在训练过程中,基础地图矢量化模型首先为每个地图元素生成矢量化表示。然后,MapVR通过一个特别设计的可微分栅格化器将矢量化元素渲染成高清地图。最后,基于分割的损失可以直接应用于渲染的高清地图上,对地图元素的形状和几何结构提供更细粒度的监督,从而得到更精确的结果。

图5. MapVR的学习流程。MapVR利用基础模型进行矢量地图生成,然后使用定制的可微分栅格化器生成高清地图,对其进行细粒度的、几何感知的监督,以提高矢量元素的精确性。

3.3 可微分栅格化:连接矢量化表示和高清语义地图 (重点内容)

栅格化在矢量化表示和高清地图之间起着重要的桥梁作用。通常,由于决定像素是否被任何形状基元覆盖的二进制分配,栅格化是不可微分的。受到[6, 17, 19, 27]的启发,为了能够直接从高清地图中获得细粒度的监督信号,我们引入了栅格化的软可微渲染,它将每个矢量化地图元素渲染成一个高清遮罩,同时保持整个框架的可微性。 具体而言,对于由有序点集P表示的线状地图元素,我们计算其软渲染的遮罩I_{line} ∈ [0, 1]^{H×W},其中HW表示高度和宽度。

D(x, y; P)表示从像素(x, y)到折线P的所有线段的最近距离,而软度τ控制着栅格化的平滑度。较大的τ会在折线和空白区域之间产生更平滑的过渡,而较小的τ会导致更锐利、更明显的线条边界。 对于像交叉口这样的多边形地图元素,渲染的掩码I_{polygon}的计算方式为

其中,D(x, y; P)是像素点(x, y)到多边形P的任意边界线段的最近距离,而C(x, y; P) ∈ {−1, +1}表示像素点(x, y)是否在多边形内部(+1)或外部(−1)σ(·)表示sigmoid函数。类似地,软度τ控制了在多边形边界区域的栅格化值的过渡平滑程度。我们的可微分栅格化器(方程2和3)以无需参数的方式将每个矢量化地图元素转换为栅格化的高清遮罩表示,从而通过对这些栅格化的高清遮罩进行直接监督,实现对细粒度形状和几何细节的学习。

图6. 在线高清地图矢量化结果的可视化。我们提出的MapVR在构建更准确的地图方面表现出卓越的能力,尤其是对于复杂的地图元素和精细的细节。