目标跟踪中的群智能优化方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 特征提取

特征描述方法的选择在一定程度上决定了跟踪的成败。一般来说,视觉特征最理想的特性是具有唯一性,这样就可以很容易地在特征空间中区分对象。特征选择与对象表示密切相关。目前,特征可分为人工特征和深度学习特征。

常用的人工特征包括SIFT(Scale-Invariant Feature Transform)特征[133]、SURF (Speeded Up Robust Features)特征[134]和HOG特征等。通常,基于SIFT特征表示直接利用对象区域内的SIFT特征来描述对象外观的结构信息。Zhou等人[135]建立了基于SIFT特征的表示方法,并将该特征表示与均值漂移相结合,利用两者的相互支持机制实现了跟踪性能的一致性和稳定性。然而,该方法可能会受到背景杂波的影响,导致决策失败。Tang等人[136]使用基于SIFT的属性构建关系图来表示对象。该图基于稳定的SIFT特征,但这种特征不太可能在复杂的情况下存在,如形状变形和光照变化。建立SIFT特征描述向量的计算量较大,为了减少计算,Bay等人[134]提出了SURF点特征描述算法,它在重复性、独特性和健壮性方面与基于SIFT特征的方法相似,但计算速度要快得多。HOG是在2005年CVPR会议上,法国国家计算机科学及自动控制研究所的Dalal等人[54]提出的一种解决人体目标检测的图像描述子,是一种对图像局部重叠区域的密集型区域的描述符。HOG特征对光照变化等不敏感,性能很稳定,因此后来被广泛使用。KCF[53]使用了单元格大小为4的HOG,在跟踪过程中,在新的帧中裁剪一个图像补丁,计算该补丁的HOG特征,并在傅里叶域中采用点乘的方式代替域中的卷积操作,得到响应图。Bertinetto等人[137]提出STAPLE(Sum of Template And Pixel-Wise LEarners)算法,将HOG特征和全局颜色直方图用于表示目标。在每个输入帧中都提取一个以之前估计位置为中心的搜索区域,并将其HOG特征与CF进行卷积,得到一个密集的模板响应。目标位置由模板和直方图响应得分作为线性组合估计,最终的估计位置由得分较多的模型确定。Abdechiri等人[138]在MIL (Multiple Instance Learning)中提出了混沌理论,利用最优维数的HOG特征和分布域(DF)特征进行目标表示。Zhao等人[139]提出了PF框架下的PSO算法,以增加粒子的多样性,实现了基于HOG特征和颜色直方图特征向量的视频序列跟踪。

近年来,深度学习在目标跟踪领域得到越来越多的关注[16]。与人工特征相比,深层特征具有许多优点,具有更多的潜力来编码多层次的信息,并且对目标外观变化表现出更多的不变性。目前,已经有多种深层特征提取方法,如卷积神经网络(Convolutional Neural Networks,CNN)[140]、残差网络(Residual Networks,RN)[141]和自动编码器[142]等。

由深度神经网络提取的目标特征,是一种从简单到复杂、具有结构性的特征。底层的某些网络对图像的一小部分进行理解,随着网络逐渐加深,对特征的抽象层次越来越高、范围越来越大、内容也越来越丰富,最后提取出整个目标的特征,是一个由底层到高层的结构性抽象过程。在解决单目标跟踪问题时,深层次的卷积层会提取出更抽象的特征,包含更丰富的语义信息,它们区分不同种类物体的能力较强,而且对形变和遮挡问题的适应性强,但在区分同类物体的不同个体时,判别能力稍弱;浅层次的卷积层将会提供更具体的局部特征,它们区分同类物体的不同个体的能力更强,但对急剧的外观变化问题难以适应。因此,使用者可根据不同的情况进行特征层次选择。Ma等人[143]利用将CF表示为CF2开发了层次化卷积特征,从VGGNet的conv3-4层、conv4-4层和conv5-4层中提取层次卷积特征开发目标外观,使用双线性插值将深度特征调整为相同大小。Ma等人[144]还提出了基于层次相关特征的跟踪器(Hierarchical Correlation Feature Based Tracker,HCFT),它是CF2的扩展,融合了对目标的再检测和尺度估计。Qi等人[145]利用多层CNN特征,提出了HDT(Hedged Deep Tracking)算法,使用VGGNet计算出图像的6个深度特征,用于CF计算响应映射。Bertinetto等人[68]提出了SiameseFC网络,利用卷积嵌入函数和相关层来集成目标和搜索补丁的深度特征图。Chen等人[146]利用浅层和深层特征计算搜索区域和目标之间的相似度图,提出了一种端到端的学习方法YCNN。