可变形卷积从概念到实现过程

三景页三景页

发布时间 2022.01.19阅读数 4185 评论数 0

上期回顾

什么是可变形卷积？

可变形卷积是指卷积核在每一个元素上额外增加了一个参数方向参数，这样卷积核就能在训练过程中扩展到很大的范围。

上图来自论文Deformable Convolutional Networks
上图中

（a）是传统的标准卷积核，尺寸为3x3（图中绿色的点）；
（b）就是我们今天要谈论的可变形卷积，通过在图（a）的基础上给每个卷积核的参数添加一个方向向量（图b中的浅绿色箭头），使的我们的卷积核可以变为任意形状；
（c）和（d）是可变形卷积的特殊形式。

为什么要可变形卷积？

我们知道卷积核的目的是为了提取输入物的特征。我们传统的卷积核通常是固定尺寸、固定大小的（例如3x3，5x5，7x7.）。这种卷积核存在的最大问题就是，对于未知的变化适应性差，泛化能力不强。

卷积单元对输入的特征图在固定的位置进行采样；池化层不断减小着特征图的尺寸；RoI池化层产生空间位置受限的RoI。网络内部缺乏能够解决这个问题的模块，这会产生显著的问题，例如，同一CNN层的激活单元的感受野尺寸都相同，这对于编码位置信息的浅层神经网络并不可取，因为不同的位置可能对应有不同尺度或者不同形变的物体，这些层需要能够自动调整尺度或者感受野的方法。再比如，目标检测虽然效果很好但是都依赖于基于特征提取的边界框，这并不是最优的方法，尤其是对于非网格状的物体而言。

解决上述问题最直观的想法就是，我们的卷积核可以根据实际情况调整本身的形状，更好的提取输入的特征。

可变形卷积结构形式？

我们知道了可变形卷积的概念和意义，下一步就是它的实现过程。
我们先上图，有个只管概念：

上图是可变形卷积的学习过程，首先偏差是通过一个卷积层获得，该卷积层的卷积核与普通卷积核一样。输出的偏差尺寸和输入的特征图尺寸一致。生成通道维度是2N，分别对应原始输出特征和偏移特征。这两个卷积核通过双线性插值后向传播算法同时学习。

事实上，可变形卷积单元中增加的偏移量是网络结构的一部分，通过另外一个平行的标准卷积单元计算得到，进而也可以通过梯度反向传播进行端到端的学习。加上该偏移量的学习之后，可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整，其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化，从而适应不同物体的形状、大小等几何形变。然而，这样的操作引入了一个问题，即需要对不连续的位置变量求导。作者在这里借鉴了之前Spatial Transformer Network和若干Optical Flow中warp操作的想法，使用了bilinear插值将任何一个位置的输出，转换成对于feature map的插值操作。同理，类似的想法可以直接用于 (ROI) Pooling中改进。

可变形卷积网络与传统网络结构上的区别如下图所示：

可变形卷积的学习过程？

图a是标准卷积的采样过程，图b是可变形卷积的采样过程。

我们一层层的看：

最上面的图像是在大小不同的物体上的激活单元。
中间层是为了得到顶层激活单元所进行的采样过程，左图是标准的3x3方阵采样，右图是非标准形状的采样，但是采样的点依然是3x3.
最下面一层是为了得到中间层进行的采样区域。明显发现，可变形卷积在采样时可以更贴近物体的形状和尺寸，而标准卷积无法做到这一点。

可变形卷积如何实现？

上面我们说过，可变形卷积是在传统卷积的基础上，增加了调整卷积核的方向向量，使的卷积核的形态更贴近特征物。那么这个过程是如何实现的？下面我们详细说一下这个过程。

① 我们一开始，和正常的卷积神经网络一样，根据输入的图像，利用传统的卷积核提取特征图。

②我们把得到的特征图作为输入，对特征图再施加一个卷积层，这么做的目的是为了得到可变形卷积的变形的偏移量。

③偏移层是2N，是因为我们在平面上做平移，需要改变x xx值和y yy值两个方向。

④在训练的时候，用于生成输出特征的卷积核和用于生成偏移量的卷积核是同步学习的。其中偏移量的学习是利用插值算法，通过反向传播进行学习。

上图就是可变形卷积核的计算思想。真可谓是简单而不简约。

参考文章
可变形卷积Deformable Convolution Net（DCN）理解
 论文阅读-可变形卷积网络：Deformable Convolutional Networks
deformable convolution（可变形卷积）算法解析及代码分析
 可变形的卷积网络

建模仿真机器学习深度学习卷积

打赏 0

上一篇：深度学习：GAN 对抗网络原理详细解析（零基础必看）

下一篇：深度学习：对抗网络GAN的代码实现流程详细解读（超详细，必看）

可变形卷积从概念到实现过程

三景页三景页

什么是可变形卷积？

为什么要可变形卷积？

可变形卷积结构形式？

可变形卷积的学习过程？

可变形卷积如何实现？

为你推荐

深度神经网络（DNN）的正则化

自然语言处理从入门到应用——自然语言处理的基本问题：文本分类（Text Classification, Text Categorization）

精选浅析扩散模型与图像生成【应用篇】(四)——Palette

精选langchain主要模块(五)：Agent以及Wandb

在Arm板（NVIDIA AGX Xavier）配置深度学习环境+安装llvm/llvmlite/numba

决策树原理以及在sklearn中的使用

关于作者

三景页三景页

25

0

0

2

深度学习：GAN 对抗网络原理详细解析（零基础必看）

深度学习之RNN

深度学习：AE自编码器详细解读（图文并茂，值得一看）

相关推荐

NanoDet代码逐行精读与修改（零）Architecture

精选自然语言处理从入门到应用——自然语言处理的基础任务：语义分析（Semantic Analysis）

【强化学习与最优控制】笔记（七） Rollout 与 Policy Improvement

Paper 1. A Review of Motion Planning for HighwayAutonomous Driving

FCOS算法的原理与实现

Python实现最近邻数自动寻优的KNN算法

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

可变形卷积从概念到实现过程

三景页三景页

什么是可变形卷积？

为什么要可变形卷积？

可变形卷积结构形式？

可变形卷积的学习过程？

可变形卷积如何实现？

为你推荐

深度神经网络（DNN）的正则化

自然语言处理从入门到应用——自然语言处理的基本问题：文本分类（Text Classification, Text Categorization）

精选浅析扩散模型与图像生成【应用篇】(四)——Palette

精选langchain主要模块(五)：Agent以及Wandb

在Arm板（NVIDIA AGX Xavier）配置深度学习环境+安装llvm/llvmlite/numba

决策树原理以及在sklearn中的使用

评论（0）

关于作者

三景页三景页

25

0

0

2

深度学习：GAN 对抗网络原理详细解析（零基础必看）

深度学习之RNN

深度学习：AE自编码器详细解读（图文并茂，值得一看）

相关推荐

NanoDet代码逐行精读与修改（零）Architecture

精选自然语言处理从入门到应用——自然语言处理的基础任务：语义分析（Semantic Analysis）

【强化学习与最优控制】笔记（七） Rollout 与 Policy Improvement

Paper 1. A Review of Motion Planning for HighwayAutonomous Driving

FCOS算法的原理与实现

Python实现最近邻数自动寻优的KNN算法

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板