基于KCF算法的足球运动员体能录像跟踪技术研究

2018-08-06毛丽娟

上海体育学院学报 2018年4期

李震, 毛丽娟, 盛斌, 孟夏

(1. 上海体育学院体育教育训练学院，上海 200438；2. 上海交通大学计算机科学与工程系，上海 200240)

足球比赛中运动员的体能是影响运动表现的主要因素，如何对比赛中运动员移动距离进行分析记录是揭示运动员体能特征的关键。相对径赛项目，足球比赛中运动员的活动方式多种多样，无明显的规律性。基于足球比赛中多影响因素的复杂性，许多研究试图通过评估比赛中运动员跑动的距离和强度的变化对体能的要求进行阐述[1-3]。早期足球比赛中的体能分析以时间-运动分析法(time-motion analysis)为主[1-2,4-5]。随着科技的进步，新的评价足球比赛中运动员跑动距离的方法开始出现，其中包括了多角度录像跟踪系统[3,6-8]和GPS系统[9-11]。

1990年以后，影像处理跟踪系统开始出现，它是通过采取固定的摄像头覆盖整个球场记录影像数据的[12]。该跟踪系统最初仅仅是通过场地标记后的x、y轴获取运动员的位置，并通过相对x、y轴的平移计算移动距离。首个商业化的跟踪系统Amisco在1998年由Vediosports公司发布，之后通过影像处理的跟踪系统得到了快速发展。目前，跟踪系统多采用调频连续波(frequency modulated continuous wave，FMCW)技术进行位置跟踪，其中最具代表性的是GPS系统。该系统基于运动员身上携带的信号发射器，通过场外特定系统进行信号接收确定运动员的位置。Edgecomb等[10]对GPS系统和基于视频跟踪系统进行比较发现，在一场比赛中，GPS系统统计运动员移动距离的误差为4.8%，而录像跟踪系统的误差为5.8%。尽管FMCW系统的精确性更高，接收速度更快，但国际足联规定它只能用于训练，不能用于正式比赛。本文从提高录像跟踪系统的目标跟踪准确性出发，提出了一种新的算法，分析每名运动员的动作行为和相互关系，以提高对每位队员位置录像定位跟踪的精确性，从而达到准确分析运动员活动方式及距离的目的。

1 目标跟踪技术在足球录像跟踪系统中的运用

在计算机视觉领域，目标跟踪是一个热点研究领域，然而优秀的算法非常稀少。这是因为跟踪目标的外形、运动状态、背景、遮挡等方面的变化范围太广泛，既要保证处理的速度，又要保证算法的强大性及准确性非常困难。在早期，跟踪算法未与目标检测等结合，导致跟踪目标在遮挡丢失之后很难跟踪准确。经过改造的背景差分方法可以在背景变化非常微小的情况下准确识别目标，但要在视频中连续识别目标才能达到跟踪的效果。由于足球比赛场地的开阔性及室外场地的特性，阳光、云层导致球场背景变化幅度很大，使得该算法在这种场景下的效果一般。在Tracking-Learning-Detection算法[13]出现后，计算机跟踪算法中融入实时目标检测的算法，使得跟踪精确度和抗遮挡能力进一步加强。目前，目标跟踪算法比较主流的思想还是基于目标检测跟踪，而在以目标为中心的基础上提取正样本，然后基于目标周边的图像提取负样本，即正样本标签为1，负样本标签为0。标记正负样本方法的局限性在于无法区分负样本的权重，因为负样本统一为0的情况下将离目标远处的样本和近处的样本同等对待：离目标越近，权重就越接近1；离目标越远，就越接近0。核化相关滤波器算法(kernelized correlation filter，KCF)[14]就采用了这种方法，该标记方法相对简单地定义负样本为0有更好的效果。KCF算法采用快速傅里叶变换等傅式空间的操作，能大幅提高运算速度。其测试样本集时通常采用的方法是最小二乘法：

(1)

式中：ω为权重系数(列向量)，可通过最小二乘法求解；λ用于控制系统的结构复杂性，即VC维以保证分类器的泛化性能。

最小二乘法能够做到快速处理信息，同时结合贝叶斯方法不断地用新的观测值和信息予以修正：

(2)

式中：事件A的概率为P(A)；事件B的概率为P(B)；事件B已发生条件下事件A的概率为P(A|B)；事件A发生条件下事件B的概率为P(B|A)。

将目标跟踪问题看作一个对目标可能位置的概率估计问题，预测跟踪框(bounding-box)的位置。在KCF算法基础上进行改进的Hierarchical Convolutional Features算法[15]，即CF2算法，结合了KCF运算快速的优点，并且采用深度学习框架来提取特征，进一步提高了跟踪精度。

在足球录像跟踪系统中采用的跟踪算法，必须要具有以下特点：①有一定的跟踪速度，对于单目标而言，TLD算法[13]的处理速度为28帧/s，而应用到针对22个球员和球的多目标跟踪时，它的处理速度还远远达不到系统的要求。②对于多目标跟踪而言，算法需要对多个目标同时进行跟踪，且在目标相互接近时的干扰容易使机器学习算法学习到错误的负样本，因此,相似干扰对多目标跟踪的效果也非常显著。Henriques等[14]提出的KCF算法虽然在速度上有了很大提升，且在同样的测试集上，准确率高于struck和TLD，但它也存在一定的缺点，即运动过程中出现的大量遮挡过程不可避免，在多目标比较相似时会出现一定的漂移。因此，本文采用结合了KCF算法和深度学习的CF2算法，并将KCF中的采样部分替换为卷积神经网络(CNN)[16]特征，以提高跟踪精度。结合KCF算法以及深度学习改进的CF2算法，针对足球比赛视频的特殊情况，将算法扩展成了多目标跟踪的算法，并且结合了多视角的优势，利用多视点采集的信息进一步提高对球员跟踪的精准度以及抗遮挡能力。

2 单视角下的足球目标跟踪

对于比赛中的球而言，其在球场中颜色固定，形状也并不会因为旋转而改变，相对背景也有着较好的分离性和辨识度。因此，跟踪足球的难度不大。对于足球运动员而言，情况则会发生改变。足球运动员在足球赛场上并不是一个刚体目标，他会有许多不同的动作与状态，导致跟踪过程中其形态不断变化。由于球员并不总是朝向某一个方向，因此，需要考虑到球员360°旋转体态与姿势问题。早年的目标跟踪算法，由于缺乏机器自我学习的特性，对于实际的可形变物品的跟踪一直不能很好地进行。后来采用机器学习的方法才得以改进，此类方法对于物品的形变、背景的变化有着较好的稳定性。由于足球比赛数据的处理与分析需要一定的时效性，以及足球比赛中录像跟踪系统赛后即时提供数据的实践需求，作为整个系统最消耗处理时间的部分，目标跟踪算法的处理速度显得格外重要，并且必须足够准确，因此单目标跟踪主要采用了KCF算法。从速度与准确度进行综合考虑，KCF算法是最好的选择。本算法跟踪效果好、速度快，符合快速开发的要求。

2.1 一般目标跟踪算法的步骤 (1) 在It帧中，在当前位置Pt附近采样，训练一个回归器。该回归器能计算一个小窗口采样的响应。

(2) 在It+1帧中，在前一帧位置Pt附近采样，用前述回归器判断每个采样的响应。

(3) 将响应最强的采样作为本帧位置Pt+1。

2.2 KCF算法步骤训练采用脊回归，设训练样本集为(xi,yi)，则其线性回归函数为

f(xi)=ωTxi(3)

则该算法的优化可通过最小二乘法求解

λ‖ω‖2

(4)

其矩阵形式为

λ‖ω‖2

(5)

其中X的每一行分别表示一个向量，y是列向量。令导数为0，可得

ω=(XTX+λI)-1XTy

(6)

式中，I为单位矩阵。

KCF中所有的训练样本都是基于目标样本循环位移得到的，如图1所示采样窗口的位移。

图1 样本循环位移Figure 1 Samples’cycling displacement

(7)

经过一系列变换，可得：

(8)

而根据傅式空间变换，有如下公式：

式中，F-1为反变换。

3 多视角下的足球目标跟踪

单视角下的多目标跟踪在一定程度上能够缓解不同球员的遮挡性问题。在实际运用中会由于足球比赛的同场对抗性而出现多人拥挤在狭小空间的画面内，球员之间相互遮挡，个人与场地的区分不够明显。因此，仅用单视角的比赛视频实时跟踪会大大降低跟踪的准确性。基于此，采用了多视角下(多摄像头)的跟踪方式，一旦在某个方向看上去的视频中球员出现遮挡，则通过另外的角度跟踪队员。多视角只是单视角比赛跟踪的一种扩展，通过avgPoint方法把2个视角的数据结合起来，可以提高跟踪的准确度，进一步加强跟踪的稳定性。研究所采用的多个视角如图2所示。

图2 不同视角同时刻的球员争抢Figure 2 Different viewpoints of seizing control at same moment

在图2(a)视角中，队员在画面里产生了重叠，即便跟踪算法能够准确跟踪，也是跟踪在距离摄像机较近的队员身上，因此会导致一定的误差。由图2(b)和图2(c)中可见，在这2个视角下球员不会产生重叠。因此，本文利用avgPoint方法，基于多视角的优势，将遮挡情况进行抵消(图3)。

图3 多视角综合定位Figure 3 Comprehensive positioning in multi-view

由图3可见，在进行了二维平面坐标转换之后，采用了与距离成反比例的加权平均法，用以整合多视点跟踪坐标数据，因此计算球员加权平均位置的算法流程如下所示：

for 每个视角视频中的A球员位置Pangle；

计算得到摄像机离A球员的距离：

至此，可以得到经过加权平均之后的球员坐标位置，该位置是二维平面图上球员的最终位置，从而得出运动员在场上的精确位置。

4 基于深度学习的KCF算法改进

单视角下多目标跟踪采用的KCF算法的最大优点是处理速度快，其较高的准确率能够满足多目标跟踪的需要；但是，仅依靠普通机器学习方法，利用图像的RGB信息处理遮挡问题，作用有限，对于多目标重叠、遮挡严重的情况，跟踪准确率会有所降低。因此，本文采用基于深度学习的目标跟踪算法CF2进一步优化多目标跟踪的准确率。

通常的图像检索方法是采用HOG特征，KCF便是从灰度特征转变到采用HOG特征进行优化的。由于算法跟踪框为矩形，势必会包括其他像素点，当追踪框内的目标外观变化较大时，颜色特征与模型差异变大,背景可能会造成干扰，容易导致跟踪失败。在目标检测领域中，采用卷积神经网络(CNN)[16]提取的物体特征具有较好的性能，因此，将CNN引入Tracking领域中。

CF2算法的基本跟踪框架即KCF，而主要区别是把KCF中使用的HOG特征换成了深度卷积神经网络。随着深度增加，使用CNN提取的特征，其语义信息加强，但空间信息减弱。因此，在CF2算法中，将CNN的3、4、5层卷积层作为特征，本算法中使用的特征和其他常用CNN算法不同，没有使用全连接层输出作为特征提取层，而是只使用了中间3层，然后对3个置信图融合得到最终目标位置。

在该算法中，相比于KCF算法，添加5层卷积层。首先利用第1帧的已知数据进行采样，得到对应的Conv3、Conv4、Conv5的目标位置的特征，训练得到3个相关滤波器。在之后的第t帧，以t-1帧的预测结果为中心，获取该位置的Conv3、Conv4、Conv5，将特征做插值并通过3个相关滤波器预测出二维的置信分数，从Conv5层的滤波器结果开始，算出confidence score上最大的响应点，作为第t帧时预测的位置，之后以该位置约束下一层的搜索范围，逐层向下做更细粒度的位置预测，以最低层的预测结果作为最后输出。因此，CF2跟踪算法基本流程如下所示：input 目标初始位置p0

output 估测跟踪目标位置pt=(xt,yt)

for 视频序列的每一帧图像:

以第t帧跟踪目标(xt-1,yt-1)为中心搜索窗口；

提取具有空间信息的卷积特征；

利用公式插值计算；

for 每层卷积层的特征：

计算置信度fi；

end

粗略估计在响应图集{fi}中的新位置(xi,yi) ；

设置新的pt=(xt,yt)为中心；

用插值提取卷积特征；

for 每个卷积层：

end

该算法是基于KCF算法的跟踪框架进行改进的，因此也继承了KCF算法的优点，如相比其他深度学习算法，处理速度大大提升。由于使用了深度学习框架优化特征选择，具有更明显的特征。因此，效果也较为出众；在跟踪单一目标时不会出现漂移现象，并且及时调整的跟踪框位置也能较好地在后续帧图中对目标进行精准跟踪。

5 足球目标跟踪测试

5.1 跟踪速度测试运用KCF算法和CF2算法对单目标和多目标(以跟踪3个目标为基准)跟踪的信息处理速度进行测试，设备包括显卡(英伟达1080)、CPU(i7-6700k)。测试实验录像视频时长4 s，共100帧，测试结果如下：进行单目标跟踪时，KDF方法消耗20 s，平均每帧为0.2 s，处理1 s比赛视频需要5 s；CF2方法消耗93 s，平均每帧0.93 s，处理1 s比赛视频需要23 s。进行多目标跟踪时，KDF方法消耗22 s，平均每帧为0.22 s，处理1 s比赛视频需要5.5 s；CF2方法消耗178 s，平均每帧1.78 s，处理1 s比赛视频需要44.5 s。

从测试结果看，在单目标跟踪时，KCF的跟踪速度具有绝对性的优势，因为不需要加载权重，且计算次数较少，同时与两者所在的平台有关。在单目标与多目标的速度测试对比中发现，由于CF2算法属于深度学习算法，对于计算机性能要求较高且计算次数较多，因此，速度显著慢于KCF算法。随着计算机技术的更新及硬件配置的升级，辅之GPU加速、并行运算等技术，CF2算法的速度有望得到大幅提高。

5.2 跟踪框范围影响测试在实验测试中，依据跟踪框的实际大小进行控制变量测试，测试实验录像视频共4 s，100帧，测量了3组单个球员和3组发生遮挡的2名攻守球员。

对100帧视频进行不同跟踪范围(图4)的单目标跟踪，结果显示：对于小范围(30 mm×43 mm)目标，KCF的跟踪准确率为79%，CF2的跟踪准确率为77%；对于中等范围(35 mm×91 mm)目标，KCF的跟踪准确率为70%，CF2的跟踪准确率为68%；对于大范围(52 mm×117 mm)目标，KCF的跟踪准确率为86%，CF2的跟踪准确率为87%。

图4 测试跟踪有效区域比较Figure 4 Comparison of tracking effective area

对100帧视频选择2名球员进行不同跟踪范围的多目标跟踪。KCF算法对小范围(30 mm×43 mm)目标的平均跟踪准确率为51%，对中等范围(35 mm×91 mm)目标的平均跟踪准确率为63%，对大范围(52 mm×117 mm)目标的平均跟踪准确率为89.7%。CF2算法对小范围(30 mm×43 mm)目标的平均跟踪准确率为98%，对中等范围(35 mm×91 mm)目标的平均跟踪准确率为100%，对大范围(52 mm×117 mm)目标的平均跟踪准确率为100%。

从测试结果中可见，跟踪框范围对于单目标跟踪而言精确度有一定提升，而多目标跟踪会进一步提升系统的抗遮挡能力。这是因为如果跟踪框很大，就会将球员及球员周边更多的区域当作正样本区域，当球员移动时，其背景区域也就被纳入特征中，能够很好地规避因球员快速移动而造成的漂移问题，对于抗遮挡能力也同样会有提升。

5.3 跟踪准确率测试通过研究3组球员遮挡时的跟踪框跟踪情况以及针对目标跟踪的抗漂移能力、抗遮挡能力和抗相似干扰能力的测试发现：KCF算法对攻守球员的跟踪准确帧数分别为287和202，平均为81.5%；而CF2算法对攻守球员的跟踪准确帧数分别为300和197，平均为83%。

从以上结果看，KCF算法已经拥有比较高的准确率，而基于KCF算法并融合深度学习的CF2算法准确率也有所提高，但是由于每次测试中均有部分时间两跟踪目标重叠，因此没有一个算法可达到100%的跟踪准确率。

6 结束语

研究多种跟踪算法，且扩展成了多目标跟踪，跟踪效果较好，能够减少漂移次数。KCF算法融入了实时目标检测的算法，使得跟踪精确度和抗遮挡能力进一步增强，与以往目标跟踪采用的背景差分及TLD方法相比效果较好，能够减少漂移次数。依据足球比赛的多人数对抗特征结合多视角跟踪，对比赛中的遮挡情况进行多视角平均，能够缓冲遮挡带来的误差。改进后的深度学习跟踪算法CF2能够更好地解决跟踪框的易漂移问题。研究还存在需要改进之处，例如：KCF算法在应对单目标跟踪时效果较好，在扩展成多目标跟踪之后，具有一定的处理速度上的优势；但当发生遮挡时，特别是在同队队员互相遮挡时，会导致跟踪精度降低。今后可通过调整学习率的方式，设置训练器学习的阈值，改善抗遮挡能力。此外，由于KCF算法训练器需要通过正负样本训练，以提高目标跟踪的准确率，球场上的跟踪框大小也对KCF算法的准确率有一定影响。相较而言，CF2算法能够较好地解决多目标的遮挡问题，但在运算速度上有着一定的局限性。随着计算机技术的更新及硬件配置的升级，辅之GPU加速、并行运算等技术的改进，CF2算法的速度有望得到进一步提高。