漫谈YOLO系列算法的演进四
YOLOR与YOLOv4属于同一个研究团队发布的模型。该团队开发了一个多任务学习方式,以学习一个通用表示和利用子网络学习任务特定表示的方式创建一个适用于各种任务的模型。
YOLOR与YOLOv4属于同一个研究团队发布的模型。该团队开发了一个多任务学习方式,以学习一个通用表示和利用子网络学习任务特定表示的方式创建一个适用于各种任务的模型。
YOLOv4试图找到bag-of-freebies和bag-of-specials之间的平衡。其中,bag-of-freebies只增加训练策略但不增加推理成本,例如:数据增强;bag-of-specials只稍增加推理成本,但大幅度提升性能,例如:扩大感受野、结合特征、以及后处理。
YOLOv2的backbone架构是Darknet-19,由19个卷积层和5个最大化池化层构成。与YOLOv1相似,在$3\times3$卷积层之间利用$1\times1$卷积层减少参数的数量。除此之外,还使用batch normalization加快模型收敛速度。如表1所示,YOLOv2的网络架构。YOLOv2对每个单元格预测5个有界boxes,可见图1所示。每个boxes对应5个预测值和20个类别概率,可见图2所示。
目标检测是计算机视觉领域重要任务之一。在深度学习时代,YOLO算法属于主流算法之一。
图片金字塔特征能够提高目标检测器的性能,可见图(1.a)所示,但是由于内存的限制往往导致训练不可行,因此一般不采用这种特征抽取方法。深度卷积神经网络的发展,带来了抽取特征的高效性,不仅能够表示高阶语义信息,也能够应对图片规模的变化。因此,基于卷积神经网络的特征抽取是很自然的方法。
R-CNN是第一篇把CNN用于目标检测的算法。在把CNN用于目标检测时,有两大问题需要解决,分别是利用深度网络定位目标和利用少量的标注数据训练高容量模型。
对于目标定位,若把定位问题当作回归问题来处理,有研究结果表明基于DNN方式的效果并不好;若采用滑动窗口的方式,探测器很难处理不同尺寸的对象。
因此,R-CNN没有利用CNN定位对象,只是利用CNN算法提取特征。该算法主要分为四步,分别是: