分类 目标检测 下的文章

YOLOv2的backbone架构是Darknet-19,由19个卷积层和5个最大化池化层构成。与YOLOv1相似,在$3\times3$卷积层之间利用$1\times1$卷积层减少参数的数量。除此之外,还使用batch normalization加快模型收敛速度。如表1所示,YOLOv2的网络架构。YOLOv2对每个单元格预测5个有界boxes,可见图1所示。每个boxes对应5个预测值和20个类别概率,可见图2所示。

- 阅读剩余部分 -

图片金字塔特征能够提高目标检测器的性能,可见图(1.a)所示,但是由于内存的限制往往导致训练不可行,因此一般不采用这种特征抽取方法。深度卷积神经网络的发展,带来了抽取特征的高效性,不仅能够表示高阶语义信息,也能够应对图片规模的变化。因此,基于卷积神经网络的特征抽取是很自然的方法。

- 阅读剩余部分 -

R-CNN是第一篇把CNN用于目标检测的算法。在把CNN用于目标检测时,有两大问题需要解决,分别是利用深度网络定位目标和利用少量的标注数据训练高容量模型。

对于目标定位,若把定位问题当作回归问题来处理,有研究结果表明基于DNN方式的效果并不好;若采用滑动窗口的方式,探测器很难处理不同尺寸的对象。

因此,R-CNN没有利用CNN定位对象,只是利用CNN算法提取特征。该算法主要分为四步,分别是:

- 阅读剩余部分 -