
摘要:作者引入了YOLO9000,一种最先进的、可以检测超过9000种物体类别的实时的目标检测系统。首先我们提出了许多YOLO检测的提升方式,与之前的工作类似也有不同(both novel and drown from prior work)。改进的模型YOLO v2在标准的检测任务集如PASCAL VOC和COCO上是很先进的。运用新奇的、多规模的例如YOLOv2的训练方法可以在各种大小的训练集上面运行,并且在速度和准确性方面也有不错的均衡。YOLO v2在保证运行速度的同时效果也比Faster R-CNN和SSD要好。最后,作者提出了联合训练算法(joint training algorithm)来做目标检测和分类。运用这种方法同时在COCO和ImageNet数据集上训练了YOLO9000。
一、简介
通常,目标检测的目的要快、准确、识别性高。当前的目标检测的数据集与分类和tagging的数据集相比是有限的。作者的目的是检测和分类的规模水平是相似的。然而检测数据集赋予标签代价要比分类和tagging赋予标签代价要高。因此在不久的将来检测数据集和分类数据集的规模水平相近是不太可能的。
作者提出了一种新的方式以扩展现有的检测系统并将其与分类数据相结合:物体分类的分层观点,可以把不同的数据集结合在一起。作者也提出了联合训练算法。联合训练算法的基本思路是:同时在检测数据集和分类数据集上训练物体检测器,用检测数据集上的数据学习准确定位物体的位置;用分类数据集提升准确性和鲁棒性。在这种方法的基础上改进了原有的YOLO,提升版本为YOLO v2 ,后来在9000种类别的物体上训练新的模型:YOLO9000。
二、Better
与现有的先进的检测系统相比,YOLO的缺点是显而易见的。与Fast R-CNN相比,YOLO有很多定位错误,而且YOLO低recall。要改善性能,作者的关注点是保证分类的准确性的同时提高recall和定位的准确度。计算机视觉的趋势是更大更深的网络。要想得到比较好的性能,通常是合并大的神经网络或者是把多个模型合并在一起。YOLO v2的目的是快速、准确性高。作者没有扩大网络的规模而是进行了简化,很多提高性能的想法如表2:
Batch Normalization:主要是改善网络的收敛性。在YOLO中所有的卷积层增加batch normalization的数目,可以使mAP增加2%。而且Batch normalization也是模型正则化。在避免过拟合的情况下除去了dropout。
High Resolution Classifier:所有的先进的检测方法都在ImageNet上使用分类预训练。从AlexNet开始,大多数的分类器都是在小于256x256的输入图片上操作。YOLO输入图片的规模是224x224,检测提高分辨率为448x448。这就意味着网络需要适应新的输入分辨率。
YOLO v2作者在ImageNet调整分类网络为448x448进行fine tune,并且fine tune10个epoch。这给了网络时间调整迭代器(filters)可以在高分辨率的输入效果很好。High resolution classifier增加mAP4%的性能。
Convolutional With Anchor Boxes: YOLO 在每一个特征图上使用FC layers直接给出bounding boxes的坐标。Faster R-CNN则只用卷积层和region proposal network(RPN)预测anchor box的偏置值和置信度。预测偏置值而不是坐标值可以简化问题,也使得网络学习起来更简单。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-70848-1.html
敌人要到你头上拉屍
撞也不好撞