Multi-Scale Training:原始YOLO输入是448x448。经过anchor boxes之后分辨率改为了416x416。作者希望YOLO v2保持鲁棒性,能在不同大小的图片上运行,就把这一想法训练在模型中。
作者没有固定输入的图片大小,作者每次迭代都改变次网络。每10个batches网络随机选择一个图片维度的大小。因为下采样的值是32,作者选的都是32的倍数{320,352…..608}。最小的是320*320,最大的是608*608。网络自动改变尺寸大小并继续进行训练过程。
这个策略让网络在不同的输入尺寸上都能有很好的结果。这就意味着同样的网络可以在不同的分辨率上预测结果。网络也可以在更小的尺寸上跑得更快。YOLO v2在速度和精确度上给出更好的平衡。
低分辨率时YOLO v2代价低,精确度可靠。
高分辨率YOLO v2是最先进的检测器,在VOC2007上保证实时性的同时有78.6mAP。
Further Experiments:在VOC 2012上训练YOLO v2。
三、Faeter
大多数检测框架是基于VGG-16的。VGG-16十分强大,分类精确度高但十分复杂。YOLO基于GoogleNet的框架,比VGG-16快,但是精度不如VGG-16。
Darknet-19:基于YOLO v2作者提出了一个新的分类模型。跟VGG-16相似,作者使用3*3的filters,每次pooling之后都增加一倍channel的数目。Pooling的方式是全局平均(global average pooling)。使用batch normalization稳定训练,加速收敛,规范化模型。
最终的模型是Darknet-19,19个卷积层,5个maxpooling层。
四、Stronger
作者提出了分类数据和检测数据上联合训练的机制,他们的方法是使用已经做好标签的检测图片来学习检测专用的信息,比如bounding box坐标预测以及如何分类相似物体。

在训练过程中作者把检测和分类的数据集混合在一起。当网络遇到了一个检测数据集的图片和标签信息,作者基于YOLO v2损失函数计算反向传播过程。当网络遇到一个分类数据集的图片的时候,作者就只使用架构中分类部分计算反向损失。
这个方法带来了一些改变。检测数据集只有一些公共的物体和标签,比如“猫”、“狗”之类的。分类数据集的标签更多,层次更深。ImageNet有超过1000种狗的类别。如果要在两种数据集上训练的话就要把这些标签融合在一起。
大多数分类方法都采用softmax layer计算每个类别的最终概率分布。而使用softmax就意味着各个类别之间是相互独立的。也可以使用multi-label的模型把不相互独立的数据集结合起来,这样就忽视了已知数据的所有结构。
Hierarchical classification:ImageNet的标签是从WordNet得到的。WordNet是一种构成了概念和他们相关联的语言数据集。WordNet是一种直接图表(direct graph),而不是树形结构,因为语言十分复杂。比如狗同时属于“犬科”和“家畜”两个类别,但是在WordNet中这两个词是同义词,所以不能用树形结构。作者简化了问题,从ImageNet的概念中建立了一个分级树(hierarchical tree)。
为了建立这个树作者检查了ImageNet中的视觉名词并且找到他们在WordNet图中到达根节点的路径,在这里设所有的根节点为实体对象(physical object)。许多同义词集在图中仅有一条路径,因此首先作者把这些路径加到树中。然后迭代地检查剩下的概念并把这些路径加到树中,但是要保证树尽可能地小。所以如果有一个概念有两条到达根节点的路径,一条路径在树上加3条边,另一条只加一条边,那么选择最短的路径。两个坐标中心点(就是如果有多条路径,选最短的,保证树最小)
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-70848-3.html
支持你
不过他这招如果用在另外一个大国面前应该会凑效
紧张什么