最终得到了WordTree,是视觉概念的分层模型。要计算一个节点的绝对概率,就从这个节点一直到根节点把整条路径的概率相乘。要想得到分类的目的,就假设图片包含一个实体对象,Pr(physical object)=1.
为了验证这个方法,作者在WordTree训练Darknet-19模型,使用1000个类的ImageNet进行训练。为了建立WordTree 1k,作者从1000个标签空间扩展到了1369。要计算条件概率模型预测了一个1369个值的向量,计算所有同义词集的softmax值。
如果和之前的训练参数一样,分层模型Darknet-19 top-1有71.9%的准确率,top-5达到90.4%。虽然加了369个额外的概念,预测树形结构准确率略微下降。这种方法的好处是对未知的物体类别进行预测时,性能下降地很优雅(gracefully)。比如,网络看见了一个狗的图片但是不知道是什么类型的狗,网络会给出高置信度是狗,种类的同义词给低置信度。
公式在检测方面也有不错的效果。
Dataset combination with WordTree:利用WordTree把多个数据集结合起来,把数据集中类别映射到树中的同义词。Figure 6是WordTree把ImageNet和COCO结合起来。
Joint classification and detection:既然可以用WordTree把数据集结合起来,就可以在分类和检测上训练联合模型。作者想要训练一个极其大的scale detector,就用COCO检测集和ImageNet的top 9000个类结合成新的数据集。对应的WordTree中有9418个类。ImageNet数据集很大,作者通过采样COCO数据集中的数据使COCO和ImageNet中数据集比例是4:1。
在这个数据集上训练了YOLO9000,使用YOLO v2架构,但是用的先验值是3不是5,主要是限制输出的大小。网络看到一个检测图片的时候,就正常地反向传播。遇见分类的数据集图片时,只使用分类的loss功能反向传播。作者假设IOU最少是3,基于这些假设反向传播。
使用联合训练法,YOLO9000使用COCO数据集学习检测图片中的物体,用ImageNet数据学习在大数据集中分类。作者在ImageNet detection task进行验证。
YOLO9000取得了19.7mAP
在未学习过的156物体类别上进行分类,取得了16mAP
YOLO9000 Map比DPM高,YOLO9000能同时检测9000个物体类别,保证实时
虽然YOLO9000对于动物的识别效果很好,但对于“sunglasses”或者“swimming trunks”这些物体识别效果不是很好。
五、总结
作者提出YOLO v2和YOLO9000,实时的检测系统。YOLO v2是最先进的、比其他检测系统快,而且可以在速度和精确度上相均衡。
YOLO9000是一个实时框架,允许可以实时检测9000种物体分类。使用WordTree结合来自不同资源的训练数据,并用联合优化技术同时在ImageNet和COCO上进行训练。YOLO9000缩小了检测数据集和分类数据集之间的差距。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-70848-4.html
当下中国需要有一次强击的胆魄
小小百姓又要上哪里去买呢