（三十）通俗易懂理解——R-CNN

梦里寻梦

发布时间 2022.05.08阅读数 2782 评论数 0

（三十）通俗易懂理解——R-CNN

本篇没有将所有细节全部扣清楚，希望看的时候了解以下整体的流程。

R-CNN这是一篇比较早的Object Detection算法，发表在2014年的CVPR，也是R-CNN系列算法的开山之作，网上可以搜到很多相关的博客讲解，本篇博文没有按论文顺序来讲述，而是结合自己经验来看这个算法，希望给初学者一个直观的感受，细节方面不需要太纠结，因为很多部分在后来的算法中都改进了。

论文：Rich feature hierarchies for accurate object detection and semantic segmentation

一、解决的问题

本文主要讲R-CNN（Regions with CNN features）这个算法，该算法是用来做object detection的经典算法，2014年提出。object detection的问题简单讲就是两方面：localization和recognition，即知道object在哪，以及这个object是什么。

R-CNN在pascal VOC 2012数据集上取得了mAP 53.3%的成绩，在当时已经很不错了。

二、算法简述

本文数据集采用pascal VOC，这个数据集的object一共有20个类别。首先用select search方法在每张图像上选取约2000个region proposal，region proposal就是object有可能出现的位置。然后根据这些region proposal构造训练和测试样本，注意这些region proposal的大小不一，另外样本的类别是21个（包括了背景）。然后是预训练，即在ImageNet数据集下，用AlexNet进行训练。然后再在我们的数据集上fine-tuning，网络结构不变（除了最后一层输出由1000改为21），输入是前面的region proposal进行尺寸变换到一个统一尺寸227*227，保留f7的输出特征2000*4096维。针对每个类别（一共20类）训练一个SVM分类器，以f7层的输出作为输入，训练SVM的权重4096*20维，所以测试时候会得到2000*20的得分输出，且测试的时候会对这个得分输出做NMS（non-maximun suppression），简单讲就是去掉重复框的过程。同时针对每个类别（一共20类）训练一个回归器，输入是pool5的特征和每个样本对的坐标即长宽。

三、算法详解

训练过程：

1、准备region proposal。对于训练集中的所有图像，采用selective search方式来获取，最后每个图像得到2000个region proposal。

候选区域生成

使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下：

- 使用一种过分割手段，将图像分割成小区域

- 查看现有小区域，合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置

- 输出所有曾经存在过的区域，所谓候选区域

候选区域生成和后续步骤相对独立，实际可以使用任意算法进行。

合并规则

优先合并以下四种区域：

- 颜色（颜色直方图）相近的

- 纹理（梯度直方图）相近的

- 合并后总面积小的

- 合并后，总面积在其BBOX中所占比例大的

第三条，保证合并操作的尺度较为均匀，避免一个大区域陆续“吃掉”其他小区域。

例：设有区域a-b-c-d-e-f-g-h。较好的合并方式是：ab-cd-ef-gh -> abcd-efgh -> abcdefgh。

不好的合并方法是：ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

第四条，保证合并后形状规则。

例：左图适于合并，右图不适于合并。

上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来，速度较快。

多样化与后处理

为尽可能不遗漏候选区域，上述操作在多个颜色空间中同时进行（RGB,HSV,Lab等）。在一个颜色空间中，使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果，在去除重复后，都作为候选区域输出。

下图是selective search在图片上提取侯选区域的过程:

特征提取

预处理

使用深度网络提取特征之前，首先把候选区域归一化成同一尺寸227×227。
此处有一些细节可做变化：外扩的尺寸大小，形变时是否保持原比例，对框外区域直接截取还是补灰。会轻微影响性能。

测试过程

输入一张多目标图像，采用selective search算法提取约2000个建议框；

先在每个建议框周围加上16个像素值为建议框像素平均值的边框，再直接变形为227×227的大小；

先将所有建议框像素减去该建议框像素平均值后【预处理操作】，再依次将每个227×227的建议框输入AlexNet CNN网络获取4096维的特征【比以前的人工经验特征低两个数量级】，2000个建议框的CNN特征组合成2000×4096维矩阵；

将2000×4096维特征与20个SVM组成的权值矩阵4096×20相乘【20种分类，SVM是二分类器，则有20个SVM】，获得2000×20维矩阵表示每个建议框是某个物体类别的得分；

分别对上述2000×20维矩阵中每一列即每一类进行非极大值抑制剔除重叠建议框，得到该列即该类中得分最高的一些建议框；

分别用20个回归器对上述20个类别中剩余的建议框进行回归操作，最终得到每个类别的修正后的得分最高的bounding box。

解释分析

selective search

采取过分割手段，将图像分割成小区域，再通过颜色直方图，梯度直方图相近等规则进行合并，最后生成约2000个建议框的操作，具体见博客。

为什么要将建议框变形为227×227？怎么做？

本文采用AlexNet CNN网络进行CNN特征提取，为了适应AlexNet网络的输入图像大小：227×227，故将所有建议框变形为227×227。

那么问题来了，如何进行变形操作呢？作者在补充材料中给出了四种变形方式：

① 考虑context【图像中context指RoI周边像素】的各向同性变形，建议框像周围像素扩充到227×227，若遇到图像边界则用建议框像素均值填充；

② 不考虑context的各向同性变形，直接用建议框像素均值填充至227×227；

③ 各向异性变形，简单粗暴对图像就行缩放至227×227；

④ 变形前先进行边界像素填充【padding】处理，即向外扩展建议框边界，以上三种方法中分别采用padding=0，padding=16；

经过作者一系列实验表明采用padding=16的各向异性变形即下图第二行第三列效果最好，能使mAP提升3-5%。

2、准备正负样本。如果某个region proposal和当前图像上的所有ground truth中重叠面积最大的那个的IOU大于等于0.5，则该region proposal作为这个ground truth类别的正样本，否则作为负样本。另外正样本还包括了Ground Truth。因为VOC一共包含20个类别，所以这里region proposal的类别为20+1=21类，1表示背景。简单说下IOU的概念，IOU是计算矩形框A、B的重合度的公式：IOU=(A∩B)/(A∪B)，重合度越大，说明二者越相近。

为什么要进行非极大值抑制？非极大值抑制又如何操作？

在测试过程完成到第4步之后，获得2000×20维矩阵表示每个建议框是某个物体类别的得分情况，此时会遇到下图所示情况，同一个车辆目标会被多个建议框包围，这时需要非极大值抑制操作去除得分较低的候选框以减少重叠框。

具体怎么做呢？

① 对2000×20维矩阵中每列按从大到小进行排序；

② 从每列最大的得分建议框开始，分别与该列后面的得分建议框进行IoU计算，若IoU>阈值，则剔除得分较小的建议框，否则认为图像中存在多个同一类物体；

③ 从每列次大的得分建议框开始，重复步骤②；

④ 重复步骤③直到遍历完该列所有建议框；

⑤ 遍历完2000×20维矩阵所有列，即所有物体种类都做一遍非极大值抑制；

⑥ 最后剔除各个类别中剩余建议框得分少于该类别阈值的建议框。【文中没有讲，博主觉得有必要做】

3、预训练。这一步主要是因为检测问题中带标签的样本数据量比较少，难以进行大规模训练。采用的是Krizhevsky在2012年的著名网络AlexNet来学习特征，包含5个卷积层和2个全连接层，在Caffe框架下利用ILSVRC 2012的数据集进行预训练，其实就是利用大数据集训练一个分类器，这个ILSVRC 2012数据集就是著名的ImageNet比赛的数据集，也是彩色图像分类。

4、fine-tuning。将2中得到的样本进行尺寸变换，使得大小一致，这是由于2中得到的region proposal大小不一，所以需要将region proposal变形成227*227。本文中对所有不管什么样大小和横纵比的region proposal都直接拉伸到固定尺寸。然后作为3中预训练好的网络的输入，继续训练网络，继续训练其实就是迁移学习。另外由于ILSVRC 2012是一个1000类的数据集，而本文的数据集是21类（包括20个VOC类别和一个背景类别），迁移的时候要做修改，将最后一个全连接层的输出由1000改成21，其他结构不变。训练结束后保存f7的特征。

fine-tuning

AlexNet是针对ImageNet训练出来的模型，AlexNet的卷积部分可以作为一个好的特征提取器，后面的全连接层可以理解为一个好的分类器。这里把AlexNet的softmax层替换为一个N+1神经元的输出层(N为存在物体的种类,即正样本；1为背景，即负样本)。然后做微调训练。

5、针对每个类别训练一个SVM的二分类器。输入是f7的特征，f7的输出维度是2000*4096，输出的是是否属于该类别，训练结果是得到SVM的权重矩阵W，W的维度是4096*20。这里负样本的选定和前面的有所不同，将IOU的阈值从0.5改成0.3，即IOU<0.3的是负样本，正样本是Ground Truth。IOU的阈值选择和前面fine-tuning不一样，这里链接3的解释是：前面fine-tuning需要大量的样本，所以设置成0.5会比较宽松。而在SVM阶段是由于SVM适用于小样本，所以设置0.3会更严格一点。

6、回归。用pool5的特征6*6*256维和bounding box的ground truth来训练回归，每种类型的回归器单独训练。输入是pool5的特征，以及每个样本对的坐标和长宽值。另外只对那些跟ground truth的IOU超过某个阈值且IOU最大的proposal回归，其余的region proposal不参与。具体参考链接3。详细说一下：对于某个region proposal：R，以及其对应的Ground truth：G，我们希望预测结果是：P，那么我们肯定希望P尽可能接近G。这里通过对pool5层的特征X做线性变换WX得到变换函数F（X），这些变换函数作用于R的坐标达到回归的作用（包括对x，y的平移以及对w，h的缩放）。因此损失函数可以表达为：R和G的差距减去P和G的差距要尽可能小。

为什么要采用回归器？回归器是什么有什么用？如何进行操作？

首先要明确目标检测不仅是要对目标进行识别，还要完成定位任务，所以最终获得的bounding-box也决定了目标检测的精度。

这里先解释一下什么叫定位精度：定位精度可以用算法得出的物体检测框与实际标注的物体边界框的IoU值来近似表示。

如下图所示，绿色框为实际标准的卡宴车辆框，即Ground Truth；黄色框为selective search算法得出的建议框，即Region Proposal。即使黄色框中物体被分类器识别为卡宴车辆，但是由于绿色框和黄色框IoU值并不大，所以最后的目标检测精度并不高。采用回归器是为了对建议框进行校正，使得校正后的Region Proposal与selective search更接近，以提高最终的检测精度。论文中采用bounding-box回归使mAP提高了3~4%。

那么问题来了，回归器如何设计呢？

测试过程：

1、输入一张图像，利用selective search得到2000个region proposal。

2、对所有region proposal变换到固定尺寸并作为已训练好的CNN网络的输入，得到f7层的4096维特征，所以f7层的输出是2000*4096。

3、对每个类别，采用已训练好的这个类别的svm分类器对提取到的特征打分，所以SVM的weight matrix是4096*N，N是类别数，这里一共有20个SVM，N=20注意不是21。得分矩阵是2000*20，表示每个region proposal属于某一类的得分。

4、采用non-maximun suppression（NMS）对得分矩阵中的每一列中的region proposal进行剔除，就是去掉重复率比较高的几个region proposal，得到该列中得分最高的几个region proposal。NMS的意思是：举个例子，对于2000*20中的某一列得分，找到分数最高的一个region proposal，然后只要该列中其他region proposal和分数最高的IOU超过某一个阈值，则剔除该region proposal。这一轮剔除完后，再从剩下的region proposal找到分数最高的，然后计算别的region proposal和该分数最高的IOU是否超过阈值，超过的继续剔除，直到没有剩下region proposal。对每一列都这样操作，这样最终每一列（即每个类别）都可以得到一些region proposal。

5、用N=20个回归器对第4步得到的20个类别的region proposal进行回归，要用到pool5层的特征。pool5特征的权重W是在训练阶段的结果，测试的时候直接用。最后得到每个类别的修正后的bounding box。

缺点

R-CNN流程较多，包括region proposal的选取，训练卷积神经网络（softmax classifier，log loss），训练SVM（hinge loss）和训练 regressor（squared loss），这使得训练时间非常长（84小时），占用磁盘空间也大。在训练卷积神经网络的过程中对每个region proposal都要计算卷积，这其中重复的太多不必要的计算，试想一张图像可以得到2000多个region proposal，大部分都有重叠，因此基于region proposal卷积的计算量太大，而这也正是之后Fast R-CNN主要解决的问题

文章1：https://blog.csdn.net/u014380165/article/details/72851035

文章2：https://blog.csdn.net/WoPawn/ar

机器学习深度学习神经网络卷积神经网络 CNN

打赏 0

上一篇：（二十九）通俗易懂理解——转置（反）卷积+FCN+UNet

下一篇：（十九）通俗易懂理解——无人驾驶概述

（三十）通俗易懂理解——R-CNN

梦里寻梦

特征提取

预处理

为你推荐

【深度学习-模型eval+模型导出】使用Tensorflow Slim对训练的模型进行评估+导出模型

神经网络从0到1（六）——搭建神经网络（下）

机器学习笔记-初学集成模型与随机森林

Zotero软件与ChatGPT连用模版

Machine Learning-L8-SVM：支持向量机全面解析

精选语义实例分割1-00：snake(实时实例分割)-目录-史上最新无死角讲解

关于作者

梦里寻梦

40

0

0

3

（三十五）通俗易懂理解——Faster R-CNN及Mask R-CNN

（十三）通俗易懂理解——Adaboost算法原理

（二十七）通俗易懂理解——Resnet残差网络

相关推荐

深度学习六：Keras sequential 模型训练时出现 RuntimeError：

2019 CVPR oral 去模糊论文"DAVANet: Stereo Deblurring with View Aggregation"阅读笔记

（九）演员-评论员算法

Tensorflow学习实战之多变量预测

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation（自动驾驶领域轻量级模型）

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：性能评价测度

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

（三十）通俗易懂理解——R-CNN

梦里寻梦

特征提取

预处理

为你推荐

【深度学习-模型eval+模型导出】使用Tensorflow Slim对训练的模型进行评估+导出模型

神经网络从0到1（六）——搭建神经网络（下）

机器学习笔记-初学集成模型与随机森林

Zotero软件与ChatGPT连用模版

Machine Learning-L8-SVM：支持向量机全面解析

精选语义实例分割1-00：snake(实时实例分割)-目录-史上最新无死角讲解

评论（0）

关于作者

梦里寻梦

40

0

0

3

（三十五）通俗易懂理解——Faster R-CNN及Mask R-CNN

（十三）通俗易懂理解——Adaboost算法原理

（二十七）通俗易懂理解——Resnet残差网络

相关推荐

深度学习 六 ：Keras sequential 模型训练时出现 RuntimeError：

2019 CVPR oral 去模糊论文"DAVANet: Stereo Deblurring with View Aggregation"阅读笔记

（九）演员-评论员算法

Tensorflow学习实战之多变量预测

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation（自动驾驶领域轻量级模型）

深入理解机器学习——类别不平衡学习（Imbalanced Learning）：性能评价测度

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

深度学习六：Keras sequential 模型训练时出现 RuntimeError：

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板