DeepSRDCF是VOT2015的第二名,将SRDCF中的HOG特征替换为CNN中单层卷积层的深度特征(也就是卷积网络的激活值),效果有了极大提升。这里用imagenet-vgg-2048 network,VGG网络的迁移能力比较强,而且MatConvNet就是VGG组的,MATLAB调用非常方便。论文还测试了不同卷积层在目标跟踪任务中的表现:
<img src="https://pic2.zhimg.com/50/v2-15eaa1e7a50c7ad671fb84a42c7bfc20_hd.jpg" data-caption="" data-rawwidth="447" data-rawheight="218" class="origin_image zh-lightbox-thumb" width="447" data-original="https://pic2.zhimg.com/v2-15eaa1e7a50c7ad671fb84a42c7bfc20_r.jpg">
第1层表现最好,第2和第5次之。由于卷积层数越高语义信息越多,但纹理细节越少,从1到4层越来越差的原因之一就是特征图的分辨率越来越低,但第5层反而很高,是因为包括完整的语义信息,判别力比较强(本来就是用来做识别的)。
<img src="https://pi.zhimg.com/50/v2-926b5cc8b7c2951abc9ae04ff021a4b7_hd.jpg" data-caption="" data-rawwidth="482" data-rawheight="89" class="origin_image zh-lightbox-thumb" width="482" data-original="https://pi.zhimg.com/v2-926b5cc8b7c2951abc9ae04ff021a4b7_r.jpg">
注意区分这里的深度特征和基于深度学习的方法,深度特征来自ImageNet上预训练的图像分类网络,没有fine-turn这一过程,不存在过拟合的问题。而基于深度学习的方法大多需要在跟踪序列上end-to-end训练或fine-turn,如果样本数量和多样性有限就很可能过拟合。
Ma C, Huang J B, Yang X, et al. Hierarchical convolutional features for visual tracking [C]// ICCV, 2015.
<img src="https://pi.zhimg.com/50/v2-2a92edb85f02fb35de56e0fc327d7da1_hd.jpg" data-caption="" data-rawwidth="460" data-rawheight="267" class="origin_image zh-lightbox-thumb" width="460" data-original="https://pi.zhimg.com/v2-2a92edb85f02fb35de56e0fc327d7da1_r.jpg">
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-60218-20.html
我必犯人”
即使是后面一条