APP下载

基于深度学习与超像素的乒乓球运动轨迹检测*

2022-11-16胡小鹏赵永杰黄可心项彦澍梁冬泰冯永飞

机械制造 2022年8期
关键词:置信度乒乓球轨迹

□ 胡小鹏 □ 赵永杰 □ 黄可心 □ 项彦澍 □ 梁冬泰 □ 冯永飞 □ 梁 丹

1.宁波大学 机械工程与力学学院 浙江宁波 315211 2.宁波诺丁汉大学 航空学院 浙江宁波 315154 3.宁波诺丁汉大学 机械、材料与制造工程学院 浙江宁波 315154

1 研究背景

乒乓球是一项兼具竞技性与观赏性的体育运动,研究乒乓球的相关参数,对分析运动员发球习惯、设计乒乓球机器人等相关辅助设备具有重要意义。在乒乓球相关研究中,轨迹检测一直是重点和难点。对于乒乓球运动轨迹检测,通常有初始目标定位、后续目标追踪两个子任务。在初始目标定位子任务中,传统的研究方法主要为通过摄像机采集运动过程视频,根据乒乓球的颜色、轮廓进行检测[1-3]。根据乒乓球颜色进行检测指通过乒乓球目标与背景之间的像素颜色差实现定位,根据乒乓球轮廓进行检测指通过相邻帧之间的像素位置差获取乒乓球的轮廓。以上方法计算量较小,计算速度较快,但是对环境背景的颜色一致度及背景与目标的对比度要求较高。在实际应用场景中,常常存在身穿各种颜色衣服的观众及各种形状、颜色的条幅等,因此以上方法难以应用。为改善上述问题,外设传感器[4-5]被逐渐应用于乒乓球检测,但是会增加设备负担,实际应用有限。在后续目标追踪子任务中,同样有基于颜色、轮廓的检测,以及应用外设传感器。另一方面,随着神经网络的普及,越来越多的研究者采用神经网络进行乒乓球轨迹追踪。Zhao Hongtu等[6]提出一种基于比例共轭梯度的神经网络,可以应用于乒乓球目标轨迹追踪,同时通过设置阈值,保存隐含层权重矩阵,对方法进行改进,获得了较好的试验结果。Sheng Xinjun等[7]采用YOLOv3算法卷积神经网络进行乒乓球检测,准确率达到97.1%。Lin Hsien’i等[8]提出使用反向传播神经网络检测乒乓球轨迹的方案,准确率为88%。以上方法准确率较高,但严重依赖于数据集的采集与制作,难以适应复杂多变的实际应用场景。

为了解决现有检测方法无法在复杂环境下对乒乓球进行有效检测这一问题,笔者提出一种基于深度学习与超像素的乒乓球运动轨迹检测方法。这一方法采用基于注意力机制YOLOv5s算法获取目标的候选区域,针对候选区域采用简单线性迭代聚类方法进行区域分割,构造候选区域的超像素特征,得到置信度图,结合粒子滤波方法对乒乓球运动轨迹进行追踪。这一方法对乒乓球运动轨迹的检测精度与速度相比原有方法均有明显提升。

2 图像预处理

图像预处理主要包括制作训练集时的数据扩增与乒乓球检测前的图像增强两部分。

2.1 数据扩增

采集到的数据集背景较为单一,相似度较高,深度学习算法进行模型训练时需要大量乒乓球数据。为避免数据集不足而造成训练过程中产生的过拟合现象,通过对高度、对比度进行调节、旋转、缩放,以及添加噪声等方法,实现对原有数据集的扩增,得到4 235张乒乓球图像数据。另一方面,使用LabelImg标注软件进行乒乓球区域的人工标注,以制作乒乓球定位阶段的最终训练集。

2.2 图像增强

考虑到现场采集时的光线问题,需要对图像数据进行预处理。采用限制对比度的自适应直方图均衡化方法对亮度进行调整,以达到图像增强的目的。传统的自适应直方图均衡化方法在处理乒乓球图像时存在明显块效应,限制对比度的自适应直方图均衡化方法是对自适应直方图均衡化方法的改进,通过使用对比度限幅克服自适应直方图均衡化方法噪声过度放大、产生块状效应等问题[9]。限制对比度的自适应直方图均衡化方法的关键是在直方图均衡化的基础上对直方图中大于设定阈值的区域进行裁剪,并将其均匀分布于整个灰度空间。限制对比度的自适应直方图均衡化方法如图1所示。

▲图1 限制对比度的自适应直方图均衡化方法

3 乒乓球定位

YOLOv5算法以自身轻便型的特点而得到广泛应用。YOLOv5算法的网络结构与YOLOv4算法较为相似,包含输入端、骨干网络、颈部、输出端四个部分。根据不同的网络深度和宽度,YOLOv5算法可以分为四种算法基本网络结构:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,四种算法网络结构模型的尺寸依次增大,参数依次增多[10]。考虑到乒乓球检测的实时应用性要求,重点对YOLOv5s算法网络结构进行改进设计。根据YOLOv5s算法网络结构的特点,在骨干网络的第一个卷积层后引入卷积块注意模块,形成基于注意力机制的YOLOv5s算法网络结构,提高对乒乓球运动轨迹的检测定位能力。基于注意力机制的YOLOv5算法网络结构如图2所示。

检测对象是运动过程中的乒乓球,涉及大背景中的小目标,背景对检测结果的影响较大。根据这一特点,引入卷积块注意模块用于强调乒乓球特征,进而抑制背景信息。注意力机制在本质上与人类视觉选择性关注目标相似,都是从众多信息中选择当前任务更需要关注的信息。注意力机制包含通道注意力机制与空间注意力机制,通道注意力机制主要关注输入特征图中的目标信息,空间注意力机制主要关注特征图之间的空间关系。卷积块注意模块对通道注意力机制和空间注意力机制进行级联,在融合两者优点的同时实现较大的性能改进,并且空间占比较小[11]。卷积块注意模块结构如图3所示。

4 乒乓球轨迹追踪

如果仅仅使用定位信息进行追踪,那么会出现定位不精确的情况。对此,在追踪过程中使用超像素对结果进行更正。超像素是由位置相邻且轮廓、纹理、亮度等特征相似的像素组成的小区域,自文献[12]提出以来,已经得到广泛应用。笔者使用简单线性迭代聚类算法[13]对乒乓球图像进行分割,以提取相关纹理,并引入K-均值聚类算法[14]进行超像素聚类,以准确提取目标区域。

4.1 超像素分割

简单线性迭代聚类算法通常采用K-均值聚类生成大小、形状类似的超像素块。与其它超像素聚类相比,简单线性迭代聚类算法具有运行速度快、存储效率高等特点[15]。

采用简单线性迭代聚类算法,在图像中随机选取k个点作为超像素中心点Zk:

Zk=[lk,ak,bk,xk,yk]T

(1)

式中:lk为像素点的亮度;ak为像素点从红色到绿色的程度;bk为像素点从黄色到蓝色的程度;(xk,yk)为像素点在图像中的坐标。

▲图2 基于注意力机制的YOLOv5s算法网络结构

▲图3 卷积块注意模块结构

由此,相邻超像素的距离d可以表示为:

(2)

式中:N为图像中像素的总数。

可以根据需求选取超像素数量,笔者选取超像素数量为500,使超像素足够多,以提高精确度。

简单线性迭代聚类算法通过不断迭代计算颜色与空间的欧氏距离,将每个像素点分配给最近的超像素中心点,进而获得完整的目标图像超像素。

4.2 基于超像素的追踪模型

基于深度学习与超像素的乒乓球运动轨迹检测方法通过划定感兴趣区域,获取由改进的YOLOv5s算法检测到的目标乒乓球候选区域。

(3)

使用简单线性迭代聚类算法将第t帧训练样本中的乒乓球及其周围正方形区域分割为Nt个超像素,并且将该正方形区域边长设置为1.5[S(Xt)]1/2,使该正方形区域的面积足够大,能够覆盖整个追踪目标,同时可以适应目标在图像中因角度变化而引起的大小变化,S(Xt)为候选区域的面积。提取前3帧中所有超像素的特征,并使用K-均值聚类算法将前3帧的超像素集形成的特征池聚类,聚类总数为n。给每一个聚类i分配一个满足[-1,1]的目标—背景置信度值Cic,用于指示聚类的超像素块是否属于目标或背景。对此,需要计算每个聚类中所对应的目标区域的面积S+(i)和背景区域的面积S-(i),关系式为:

(4)

置信度越接近1或-1,聚类的超像素块越有可能属于目标或背景。聚类中心fc(i)、聚类半径rc(i)、聚类成员ftr、聚类置信度Cic构成初始外观模型。

对于新帧候选区域,需要通过单个超像素的置信度计算该帧的置信度图。单个超像素的置信度取决于所属的聚类和在特征空间中与对应聚类中心的距离,前者反映聚类所包含的超像素属于目标或背景的可能性,后者反映超像素属于聚类的可能性[16]。由此,需要引入权重ω来计算第t帧第r个超像素的置信度值Ctr,为:

(5)

∀r=1,…,Nt;i=1,…,n

(6)

通过以上方法,可以计算当前帧中每个超像素的置信度。

计算完成后,可以为超像素中的每个像素赋予相同的置信度,超像素周围区域的像素置为-1,即不属于该超像素块。

由于前后帧的时间较短,因此前后帧外观模型具有极大相似度。根据前一帧得到的置信度图,使用粒子滤波进行采样,用加权粒子集对当前帧进行最大后验估计,以获取最佳目标。在得到置信度图后,对新帧所有候选图像区域进行归一化处理,并对每个采样粒子所对应的超像素置信度进行求和等操作,计算最有可能代表目标区域的粒子,进而得到目标区域,计算式为:

(7)

基于超像素的追踪过程如图4所示。

▲图4 基于超像素的追踪过程

4.3 遮挡处理

乒乓球运动轨迹检测中存在遮挡问题,即乒乓球被背景中的干扰物遮挡。针对遮挡问题,通过设置阈值以判断在t时刻状态Xt的遮挡。若超出设定阈值,则认为发生遮挡,此时直接将前一帧的置信度结果作为当前帧的估计结果。

5 试验

为了验证基于深度学习与超像素的乒乓球运动轨迹检测方法的有效性,采集20组不同光照下的乒乓球视频制作数据集,采用不同方法进行检测,对比结果。数据处理平台中,中央处理器型号为英特尔酷睿i3-9100,图形处理器型号为英伟达精视GTX 1080Ti。

5.1 乒乓球定位

结合各种乒乓球比赛视频制作乒乓球定位模块的训练集。为提高乒乓球定位模块的检测精度和训练速度,使用分布训练的方式获取最佳的训练权重。

为定量分析乒乓球定位效果,选取1 000张图像。将基于深度学习与超像素的乒乓球运动轨迹检测方法与其它方法进行检测准确率和检测时间对比,结果见表1。由表1可见,在进行乒乓球定位时,基于深度学习与超像素的乒乓球运动轨迹检测方法准确率达到98.1%,大幅高于传统方法,特别是与传统YOLO算法相比,准确率有明显提升。基于颜色与轮廓的检测方法专注于检测目标外观,忽略了背景,使设定的相关阈值难以适应实时变化的环境。基于深度学习与超像素的乒乓球运动轨迹检测方法更专注于目标周围的有效信息,因此检测结果更佳。

表1 乒乓球定位方法对比

在检测时间方面,传统方法凭借较小的模型能够获得较快的检测速度。Faster区域卷积神经网络检测准确率与速度相比传统YOLO算法较低。基于深度学习与超像素的乒乓球运动轨迹检测方法检测时间仅长于YOLOv5s算法,准确率相比YOLOv5s算法则有显著提升,表明基于深度学习与超像素的乒乓球运动轨迹检测方法能够满足乒乓球快速准确检测的需求。

5.2 乒乓球追踪

为验证基于深度学习与超像素的乒乓球运动轨迹检测方法在不同光照、不同场景追踪乒乓球,以及处理遮挡问题时的有效性,选择YOLOv4算法、YOLOv5s算法、Faster区域卷积神经网络作为对比方法。乒乓球追踪方法对比如图5、表2所示。

▲图5 乒乓球追踪方法对比

表2 乒乓球追踪方法对比

从追踪结果看,基于深度学习与超像素的乒乓球运动轨迹检测方法相较于主流深度学习算法能够正确追踪兵乓球,误识别、不识别情况较少,并且在处理模糊等问题时效率较高,未出现对目标区域外的目标误识别情况,定位精度、准确率都较高。可能会遇到的问题是制作数据集时容易将一些模糊的目标变为训练集的一部分,导致深度学习检测器学习错误信息,反映在检测结果上是定位了相似却错误的目标。

在处理遮挡问题时,追踪器能够利用检测特性处理大面积的遮挡,在小数量的遮挡帧内进行检测,在遮挡帧后及时复位。当发生严重遮挡时,追踪器能够更好地找到目标位置。

在目标中心位置像素误差方面,基于超像素的追踪相较于其它方法能够更有效地检测乒乓球的具体位置。虽然检测速度不如YOLOv5s算法,但是视频素材帧率一般为30帧/s,因此完全可以满足乒乓球运动轨迹实时检测的需求。

6 结束语

笔者针对乒乓球检测时易受环境影响的问题,提出了基于深度学习与超像素的乒乓球运动轨迹检测方法。构建乒乓球数据集,对数据集图像进行预处理,通过改进的YOLOv5s算法获取乒乓球候选区域,对候选区域通过K-均值聚类获取超像素置信度图,结合粒子滤波对乒乓球运动轨迹进行追踪,由此实现基于改进YOLOv5s算法的乒乓球初始目标定位和基于超像素的乒乓球后续目标追踪。试验结果表明,基于深度学习与超像素的乒乓球运动轨迹检测方法与其它方法相比,精度与速度都有明显提升,中心位置像素误差控制在12像素,检测速度达到65帧/s,能够适应不同的应用场景,可以有效实现对乒乓球运动轨迹的快速、准确检测。

猜你喜欢

置信度乒乓球轨迹
乒乓球悬浮术
硼铝复合材料硼含量置信度临界安全分析研究
轨迹
轨迹
跳舞的乒乓球
乒乓球瘪了怎么办
正负关联规则两级置信度阈值设置方法
靠拢的乒乓球
轨迹
进化的轨迹(一)——进化,无尽的适应