论文阅读:SiamPF

论文阅读:SiamPF

Abstract

Because AlexNet is too shallow to form a strong feature representation, the tracker based on the Siamese network have an accuracy gap compared with state-of-the-art algorithms. To solve this problem, this paper proposes a tracker called SiamPF. Firstly, the modified pre-trained VGG16 network is fine-tuned as the backbone. Secondly, an AlexNet-like branch is added after the third convolutional layer and merged with the response map of the backbone network to form a preliminary strong feature representation. And then, a channel attention block is designed to adaptively select the contribution features. Finally, the APCE is modified to process the response map to reduce interference and focus the tracker on the target. Our SiamPF only used ILSVRC2015-VID for training, but it achieved excellent performance on OTB-2013 / OTB-2015 / VOT2015 / VOT2017, while maintaining the real-time performance of 41FPS ontheGTX 1080Ti.

背景:由于 AlexNet 太浅无法形成强大的特征表示(feature representation),基于 Siamese 的 tracker 在精度上仍与目前最先进的有差距。

贡献:提出了一个新 tracker - SiamPF

  • 将改进的预训练VGG16网络作为骨干网进行微调
  • 在第三卷积层之后添加一个类似于AlexNet的分支,并将其与骨干网络的响应图合并以形成初步的强特征表示
  • 设计了一个通道关注模块,去自适应地选择贡献特征
  • 修改APCE\(^{[1]}\)去处理响应图(response map)以减少干扰并将跟踪器聚焦在目标上

注: [1] APCE: Average Peak-to Correlation Energy, 后面会提到。

Introduction

视觉跟踪(visual tracking)作为计算机视觉中最基本的任务,大家研究了很多方法,其中最主要的还是相关滤波(correlation filter)和深度学习(deep learning)。SiamFC 使用全卷积(fully-connected)网络来获得模板图像(template image)在搜索图像(search image)上的分数。尽管SiamFC的原理简单,但它以超帧率的速率运行,实现了最先进的性能。受转移学习(transfer learning)的启发,作者利用了在ImageNet上预训练的VGG16作为骨干网络,并在不同阶段微调以获得深层语义信息(deep semantic information)和多层特征(multi-layer features)。接着,作者设计了一个通道关注模块(channel attention block)去强迫 Siamese 网络专注与物体相似性度量(object similarity metric)。最后,和 CF trackers(即 correlation filter trackers)中做的那样,作者使用修改后的APCE(APCEP)去抑制干扰。

Siamese Network Trackers

Siamese 有两个分支,分别是模板(template)分支和实例分支(instance),被用于处理相似度匹配问题(similarity matching problem)。一些观点把视觉跟踪看作是一次相似度度量(one-shot\(^{[1]}\) similarity learning)。SiamFC 是将 Siamese 网络用于解决跟踪问题的第一个方法。后续的有 CFNet, DSiam, SA-Siam(在两个分支间增加一些操作),SiamRPN(引入两个额外分支去做分类和回归)。

Average Peak-to Correlation Energy (APCE)

在Correlation Filter跟踪器中,仅以高置信度(confidence coefficient)进行更新,以防止模型被污染。为了评估跟踪对象的置信度(confidence)并反映响应图(response map)的波动性(volatility),APCE 被提出了来。如今,它已在某些CF跟踪器中用作响应图的后处理(post-process),以检测跟踪失败。 APCE

Proposed Method

本文的主要思想是在没有大量训练数据的情况下构建强大的特征提取模型。

网络结构介绍:

  • modified VGG16 的第三个卷积层后添加一个 AlexNet-like 分支
  • 在训练阶段,将 modified VGG16 中除了最后两层外的所有层冻结
  • AlexNet-like 分支中设计了一个通道关注模块,去自适应地选择贡献特征

接着,分别在 modified VGG16 分支中和 AlexNet-like 分支中对模板特征图(template feature map)和实例特征图(instance feature map)进行互相关操作(cross-correlation)。最后,将两个分支得到的 17x17 两个得分图(score map)结合起来去组成最后的得分图(疑问:两个得分图具体是怎么组合起来的?)。

Analysis of SiamFC

SiamFC采用一种特殊的方式来获取标注。如下面的公式所示,如果最终响应图的元素y[𝑢]于中心 c 的半径R(考虑网络的步长是k)内,则认为它们属于正例。

这样,尽管每个对象都有不同的大小,但它们会得到相同大小的真值框(ground-truth box)。如下图所示:

从上图可以看出,SiamFC并不关心边缘信息,它只关注于预测对象的中心点并且提取的特征不太具有代表性,从而降低了整个网络的特征提取效率。

根据上述分析,SiamFC中的这种操作无法充分利用当前的训练数据,并且难以满足出色的性能。为了获得强大的特征表示,作者选择预训练模型作为主干网络。基于深度学习的主要跟踪器使用经过修改的AlexNet作为主干。作为一项匹配任务,AlexNet不够深入,无法获得较高的语义;而对于像ResNet这样的深层网络中,诸如填充之类的操作会导致对象位置偏爱。因此,作者利用在ImageNet上预训练的改进VGG16网络并在不同阶段进行微调来获得包括语义和外观信息在内的多层特征。作者在最后两层微调已修改的VGG16,并在已修改的VGG16的第三层之后添加另一个类似AlexNet的分支。修改后的VGG16和类似AlexNet的分支的结构如表1所示。

注: [1] One-shot: 在迁移学习中,由于传统深度学习的学习能力弱,往往需要海量数据和反复训练才能修得泛化神功。为了 “多快好省” 地通往炼丹之路,炼丹师们开始研究 Zero-shot Learning / One-shot Learning / Few-shot Learning。爱上一匹野马(泛化能力),可我的家里没有草原(海量数据)。

  • Zero-shot Learning(零次学习):成品模型对于训练集中没有出现过的类别,能自动创造出相应的映射。(既要马儿跑,还不让马儿吃草)
  • One-shot Learning(一次学习):训练集中,每个类别都有样本,但都只是少量样本,有时候 One-shot Learning 也被称为 Few-shot Learning。(既要马儿跑,还不让马儿多吃草)
  • Traditional Learning(传统深度学习的海量数据+反复训练的模式):家里一座大草原,马儿你随便吃。

(节选自:深度学习: Zero-shot Learning / One-shot Learning / Few-shot Learning