首页 > 操作系统 >

两个坐标中心点论文学习：YOLO9000: Better, Faster, Stronger(4)

电脑杂谈　发布时间：2018-02-10 23:36:10　来源：网络整理

最终得到了WordTree，是视觉概念的分层模型。要计算一个节点的绝对概率，就从这个节点一直到根节点把整条路径的概率相乘。要想得到分类的目的，就假设图片包含一个实体对象，Pr（physical object）=1.

为了验证这个方法，作者在WordTree训练Darknet-19模型，使用1000个类的ImageNet进行训练。为了建立WordTree 1k，作者从1000个标签空间扩展到了1369。要计算条件概率模型预测了一个1369个值的向量，计算所有同义词集的softmax值。

如果和之前的训练参数一样，分层模型Darknet-19 top-1有71.9%的准确率，top-5达到90.4%。虽然加了369个额外的概念，预测树形结构准确率略微下降。这种方法的好处是对未知的物体类别进行预测时，性能下降地很优雅（gracefully）。比如，网络看见了一个狗的图片但是不知道是什么类型的狗，网络会给出高置信度是狗，种类的同义词给低置信度。

公式在检测方面也有不错的效果。

Dataset combination with WordTree：利用WordTree把多个数据集结合起来，把数据集中类别映射到树中的同义词。Figure 6是WordTree把ImageNet和COCO结合起来。

Joint classification and detection：既然可以用WordTree把数据集结合起来，就可以在分类和检测上训练联合模型。作者想要训练一个极其大的scale detector，就用COCO检测集和ImageNet的top 9000个类结合成新的数据集。对应的WordTree中有9418个类。ImageNet数据集很大，作者通过采样COCO数据集中的数据使COCO和ImageNet中数据集比例是4:1。

在这个数据集上训练了YOLO9000，使用YOLO v2架构，但是用的先验值是3不是5，主要是限制输出的大小。网络看到一个检测图片的时候，就正常地反向传播。遇见分类的数据集图片时，只使用分类的loss功能反向传播。作者假设IOU最少是3，基于这些假设反向传播。

使用联合训练法，YOLO9000使用COCO数据集学习检测图片中的物体，用ImageNet数据学习在大数据集中分类。作者在ImageNet detection task进行验证。

YOLO9000取得了19.7mAP

在未学习过的156物体类别上进行分类，取得了16mAP

YOLO9000 Map比DPM高，YOLO9000能同时检测9000个物体类别，保证实时

虽然YOLO9000对于动物的识别效果很好，但对于“sunglasses”或者“swimming trunks”这些物体识别效果不是很好。