首页 > 操作系统 >

两个坐标中心点论文学习：YOLO9000: Better, Faster, Stronger(3)

电脑杂谈　发布时间：2018-02-10 23:36:10　来源：网络整理

Multi-Scale Training：原始YOLO输入是448x448。经过anchor boxes之后分辨率改为了416x416。作者希望YOLO v2保持鲁棒性，能在不同大小的图片上运行，就把这一想法训练在模型中。

作者没有固定输入的图片大小，作者每次迭代都改变次网络。每10个batches网络随机选择一个图片维度的大小。因为下采样的值是32，作者选的都是32的倍数{320，352…..608}。最小的是320*320，最大的是608*608。网络自动改变尺寸大小并继续进行训练过程。

这个策略让网络在不同的输入尺寸上都能有很好的结果。这就意味着同样的网络可以在不同的分辨率上预测结果。网络也可以在更小的尺寸上跑得更快。YOLO v2在速度和精确度上给出更好的平衡。

低分辨率时YOLO v2代价低，精确度可靠。

高分辨率YOLO v2是最先进的检测器，在VOC2007上保证实时性的同时有78.6mAP。

Further Experiments：在VOC 2012上训练YOLO v2。

三、Faeter

大多数检测框架是基于VGG-16的。VGG-16十分强大，分类精确度高但十分复杂。YOLO基于GoogleNet的框架，比VGG-16快，但是精度不如VGG-16。

Darknet-19：基于YOLO v2作者提出了一个新的分类模型。跟VGG-16相似，作者使用3*3的filters，每次pooling之后都增加一倍channel的数目。Pooling的方式是全局平均（global average pooling）。使用batch normalization稳定训练，加速收敛，规范化模型。

最终的模型是Darknet-19，19个卷积层，5个maxpooling层。

四、Stronger

作者提出了分类数据和检测数据上联合训练的机制，他们的方法是使用已经做好标签的检测图片来学习检测专用的信息，比如bounding box坐标预测以及如何分类相似物体。

一个中心两个基本点_两个坐标中心点_四川中心点坐标

在训练过程中作者把检测和分类的数据集混合在一起。当网络遇到了一个检测数据集的图片和标签信息，作者基于YOLO v2损失函数计算反向传播过程。当网络遇到一个分类数据集的图片的时候，作者就只使用架构中分类部分计算反向损失。

这个方法带来了一些改变。检测数据集只有一些公共的物体和标签，比如“猫”、“狗”之类的。分类数据集的标签更多，层次更深。ImageNet有超过1000种狗的类别。如果要在两种数据集上训练的话就要把这些标签融合在一起。

大多数分类方法都采用softmax layer计算每个类别的最终概率分布。而使用softmax就意味着各个类别之间是相互独立的。也可以使用multi-label的模型把不相互独立的数据集结合起来，这样就忽视了已知数据的所有结构。

Hierarchical classification：ImageNet的标签是从WordNet得到的。WordNet是一种构成了概念和他们相关联的语言数据集。WordNet是一种直接图表（direct graph），而不是树形结构，因为语言十分复杂。比如狗同时属于“犬科”和“家畜”两个类别，但是在WordNet中这两个词是同义词，所以不能用树形结构。作者简化了问题，从ImageNet的概念中建立了一个分级树（hierarchical tree）。

为了建立这个树作者检查了ImageNet中的视觉名词并且找到他们在WordNet图中到达根节点的路径，在这里设所有的根节点为实体对象（physical object）。许多同义词集在图中仅有一条路径，因此首先作者把这些路径加到树中。然后迭代地检查剩下的概念并把这些路径加到树中，但是要保证树尽可能地小。所以如果有一个概念有两条到达根节点的路径，一条路径在树上加3条边，另一条只加一条边，那么选择最短的路径。两个坐标中心点（就是如果有多条路径，选最短的，保证树最小）

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-70848-3.html