重磅！恺明大神 Mask R-CNN 超实用教程

知行编程网 2022-04-13 18:00 知行编程网 | 隐藏边栏 | 抢沙发 | 55 0

文章评分 0 次，平均分 0.0 ：

作　者 | Adrian Rosebrock

来源 | AI科技评论

翻　译 | 天字一号（郑州大学）、李美丽（华南师范大学）、had_in（电子科技大学）、nengdaiper（北京科技大学）

在此教程中，你将学习如何在opencv中使用Mask R-CNN。

使用Mask R-CNN，你可以自动分割和构建图像中每个对象的像素级MASK。我们将应用Mask R-CNN到图像和视频流。

在上周的博客文章中，你学习了如何使用Yolo物体探测器来检测图像中物体（https://www.pyimagesearch.com/2018/11/12/yolo-object-detection-with-opencv/）。对象检测器，如yolo、faster r-cnn和ssd，生成四组（x，y）坐标，表示图像中对象的边界框。

从获取对象的边界框开始挺好的，但是边界框本身并不能告诉我们（1）哪些像素属于前景对象，（2）哪些像素属于背景。

这就引出了一个问题：

是否可以为图像中的每个对象生成一个MASK，从而允许我们从背景分割前景对象？

这样的方法可能吗？

答案是肯定的：我们只需要使用Mask R-CNN架构执行实例分割。

要了解如何利用opencv的Mask R-CNN应用于图像和视频流，继续看下去吧！

正在查找此博客的源代码？直接跳到下载（https://www.pyimagesearch.com/2018/11/19/mask-r-cnn-with-opencv/#）。

Mask R-CNN with OpenCV

在本教程的第一部分中，我们将讨论图像分类、对象检测、实例分割和语义分割之间的区别。

这里，我们将简要回顾Mask R-CNN架构及其与Faster R-CNN的关系。

然后，我将向您展示如何在图像和视频流上应用Mask R-CNN与OpenCV。

开始吧！

实例分割 vs. 语义分割

图1：图像分类(左上)，目标检测(右上)，语义分割(左下)，实例分割(右下)。在本教程中，我们将使用Mask R-CNN执行实例分割。（来源：https://arxiv.org/abs/1704.06857）

解释传统的图像分类、目标检测、语义分割和实例分割之间的区别，最好是用可视化方法。

在执行传统的图像分类时，我们的目标是预测一组标签来表示输入图像的内容(左上角)。

目标检测建立在图像分类的基础上，但这一次需要我们对图像中每个对象定位。图像的表征如下：

每个目标边界框的坐标(x, y)
每个边界框关联的类别标签

左下角是一个语义分割的例子。语义分割算法要求我们将输入图像中的每个像素与一个类别标签(包括一个用于背景的类标签)关联起来。

注意关注我们语义分割的可视化——注意每个目标是如何分割的，但每个“cube”目标都有相同的颜色。

虽然语义分割算法能够对图像中的所有目标进行标记，但它们无法区分同一类的两个对象。

特别是同一个类别的两个目标是相互遮挡时，问题更加明显，我们不知道一个对象的边界在哪里结束以及哪里开始，如图上两个紫色立方体所示,我们无法说清楚一个立方体边界的开始和结束。

另一方面，实例分割算法为图像中的每个对象计算像素级mask，即使对象具有相同的类别标签(右下角)。在这里，您可以看到每个立方体都有自己独特的颜色，这意味着我们的实例分割算法不仅定位了每个独立的立方体，而且还预测了它们的边界。

而在本教程，我们将要讨论的Mask R-CNN架构就是一个实例分割算法的示例。

什么是 Mask R-CNN？

Mask R-CNN算法是何凯明等人在2017年发表的论文中提出的，Mask R-CNN（https://arxiv.org/abs/1703.06870）。

Mask R-CNN是基于之前的目标检测工作R-CNN(2013)、Fast R-CNN(2015)、Faster R-CNN(2015)，均由Girshick等人完成。

为了理解Mask R-CNN，让我们简要回顾一下R-CNN的变体，从原始的R-CNN开始:

图2：初始的R-CNN架构(来源：Girshick等人，2013)

最初的R-CNN算法分为四个步骤：

步骤1：向网络输入图像。

步骤2：提取区域proposals(即，可能包含对象的图像区域)算法，如选择性搜索算法（http://www.huppelen.nl/publications/selectiveSearchDraft.pdf）。

步骤3：利用迁移学习进行特征提取，使用预先训练的CNN计算每个proposals的特征(这实际上是一个ROI)。

步骤4：使用支持向量机(SVM)对提取的特征进行分类。

这种方法之所以有效，是因为CNN学习的特征的鲁棒性和可鉴别性。

然而，R-CNN方法的问题在于它非常慢。此外，我们实际上并没有学习如何通过深度神经网络进行定位，我们只是在有效地构建一个更高级的HOG +线性SVM检测器（https://www.pyimagesearch.com/2014/11/10/histogram-oriented-gradients-object-detection/）。

为了改进原有的R-CNN, Girshick等人发表了Fast R-CNN算法：

图3：Fast R-CNN架构(来源：Girshick et al.， 2015)。

与原始的R-CNN相似，Fast R-CNN仍然使用选择性搜索来获取区域建议；然而，本文的新贡献是感兴趣区域(ROI)池化模块。

ROI池化的工作原理是从特征map中提取一个固定大小的窗口，并使用这些特征获得最终的类别标签和边界框。这样做主要好处是，网络现在可以有效地端到端地进行训练：

我们输入一个图像和对应的实际的边界框
提取图像的特征map
应用ROI池化，得到ROI特征向量
最后, 使用两组全连接层来获得(1)类别标签预测(2)每个proposal的边框位置。

虽然网络现在是可以端到端训练的，但是由于依赖于选择性搜索算法，在推断时性能仍受到了极大的影响。

为了使R-CNN的架构更快，我们需要直接利用R-CNN获得区域proposal：

图4：Faster R-CNN架构(来源：Girshick et al.， 2015)

Girshick等人的Faster R-CNN论文将 区域proposals网络(RPN)引入到神经网络架构中，减少了对选择性搜索算法的需求。

总的来说，Faster R-CNN架构能够以大约7-10帧每秒的速度运行，这是通过深度学习实现实时目标检测的一大进步。

Mask R-CNN算法建立在Faster R-CNN架构的基础之上，主要有两个贡献：

用更精确的ROI align模块替换ROI Pooling模块
从ROI align模块中插入一个额外的分支

这个额外的分支的输入为ROI align模块的输出，然后将其输入到两个CONV层。

CONV层的输出即是掩摸(mask)本身。

我们可以将Mask R-CNN架构可视化如下图所示：

图5：He等人的Mask R-CNN工作用一个更精确的ROI align模块替换ROI Polling模块。然后将ROI模块的输出送入两个CONV层。CONV层的输出即是掩摸(mask)本身。

注意两个CONV层的分支来自ROI Align模块——我们实际生成掩摸由该模块生成。

我们知道，Faster R-CNN/Mask R-CNN架构利用区域proposal网络(RPN)生成可能包含对象的图像区域。

这些区域都是根据它们的“可能是目标的评分”(即，给定区域可能包含目标的可能性)，然后保留最可能的前N个目标区域。

在原来Faster R-CNN论文中，Girshick等人设置N= 2000，但在实践中，我们可以用一个小得多的N，比如N={10,100, 200,300}，仍然可以得到很好的结果。

He等人在他们的论文（https://arxiv.org/abs/1703.06870）中设置N=300，这也是我们这里使用的值。

所选的300个ROIs中的每一个都要经过网络的三个并行分支:

类别标签预测
边界框预测
掩摸预测

上面的图5显示了这些分支。

在预测时,300个ROIs都会经过非极大值抑制算法（https://www.pyimagesearch.com/2014/11/17/non-maximum-suppression-object-detection-python/），然后仅保存可能性前100的检测框,使得最终得到一个四维的100 x L x 15 x 15张量，L为数据几种类别标签的数量，15 x 15是每个类别L的掩摸(mask)的大小。

我们今天使用的掩模R-CNN是在COCO数据集上训练的（http://cocodataset.org/#home），它有L=90个类，因此掩模R CNN掩模模块的最终体积大小是100 x 90 x 15 x 15。

Mask R-CNN的可视化过程，请看下图:

图6：Mask R-CNN过程的可视化，先生成一个15 x 15的掩摸，遮罩改变到图像的原始尺寸，最后将掩摸覆盖到原始图像上。(来源：Python深度学习计算机视觉，ImageNet Bundle)

这里你可以看到，我们从我们的输入图像开始，并通过我们的Mask R-CNN网络，最终获得我们的掩摸预测。

预测的掩模只有15 x 15的像素，因此我们将掩模的大小调整回原始输入图像的尺寸。

最后，调整大小后的掩模可以覆盖在原始输入图像上。要了解更多关于Mask R-CNN工作原理的详细讨论，请参考:

由何等人发表的Mask R-CNN论文（https://arxiv.org/abs/1703.06870）
我的书, Deep Learning for Computer Vision with Python（https://www.pyimagesearch.com/deep-learning-computer-vision-python-book/），在这本书里，我将更详细地讨论Mask R-CNNs，包括如何根据自己的数据从零开始训练自己的Mask R-CNNs。

项目结构

我们今天的项目主要由两个脚本组成，还有其他几个重要的文件。

我已经按照如下方式构建了这个项目(直接在终端上的tree命令输出):

基于OpenCV的Mask R-CNN----Shell

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利