基于计算机视觉技术的乒乓球技术动作AI评分系统研究与设计
2023-08-20刘晓林胡建华李贞晶石晓莉
刘晓林 胡建华 李贞晶 石晓莉
摘 要:鉴于目前乒乓球教学中存在学生挥拍动作不规范、个性化施教不足及教學效率相对较低的三大问题,基于AI(人工智能)计算机视觉技术设计乒乓球技术动作AI评分系统。该系统结合广东科学技术职业学院乒乓球精品课程建设,以乒乓球八个基本技术动作构建AI模型,使用目标检测、姿态估计、动作识别算法对学生的实际动作进行AI评分。实验结果表明,使用乒乓球技术动作AI评分系统有利于开展个性化教学,提高了教学效率,还能支持远程教学,可以在乒乓球教学中推广应用。
关键词:乒乓球;技术动作教学;动作AI评分;计算机视觉;人工智能
中图分类号:TP27.4 文献标志码:A
0 引言(Introduction)
在我国,乒乓球运动是群众基础非常好并且竞技水平非常高的一项运动,并且近50年来,我国乒乓球队取得了100多个世界冠军,并且囊括了4届世乒赛、2次奥运会的全部金牌。随着乒乓球运动在全国日益普及,乒乓球运动也成为学生进行锻炼的有力工具,乒乓球教学也迅速地走进了大学校园,成为大学公共体育教育不可缺少的一部分。大多数学校的乒乓球教学都是采用大班集中上课模式[1],这种模式存在以下问题:一是学生学练挥拍动作与标准动作存在差异,不规范;二是个性化施教不足;三是乒乓球技术动作教学效率比较低。针对这三个主要问题,契合学校教育信息化时代发展背景,本文设计了乒乓球技术动作AI识别评分系统,利用人工智能技术代替传统的感官经验,动态捕捉挥拍动作轨迹,精准分析学生学练挥拍动作与标准动作的差异,帮助学生精准练习,规范其挥拍动作;智能评价,实时反馈个体学练情况,及时查找不足,满足针对性练习需求,实现个性化教学。本系统的应用对体育课程“互联网+数字化”改革建设具有引领示范作用和一定的应用推广价值。
1 传统乒乓球技术动作训练(Traditional tabletennis technical movement training)
很多学校采用的乒乓球教学模式主要是大班集中上课。一位体育教师要同时给50名学生上课,这种上课模式存在以下问题:一是学生学练挥拍动作不规范。97%以上的授课对象从未经过系统、专业的乒乓球运动技术学习,多数学生的乒乓球运动技术基础较为薄弱,挥拍动作不规范问题凸显。二是个性化施教不足。学习个体差异较大,学练多元化需求急迫。目前,该课程教学中,通常采用教师集体指导与逐一指导相结合的方式组织教学[2]。乒乓球课程中,通常一半的时间由教师集中指导,剩余一半时间由教师对班级的学生逐一指导,教师指导学生的人均时间为1 min左右,这种传统的讲练方式导致全面实施个性化教学效果不足。三是教学效率低下。运动技能的形成规律是由泛化、分化、固化再到自动化逐步发展。传统教学方式对学练反馈不及时,致使多数学生运动技能长时间停留在泛化阶段,技术技能掌握欠佳,教学效率相对较低。
2 乒乓球技术动作AI评分系统设计(Design ofAI scoring system for table tennis technicalmovements)
乒乓球技术动作AI评分系统的核心功能包括用手机拍摄学生的实时训练视频,通过目标检测算法获得学生的有效姿态识别区域,再使用姿势估计算法为每个检测到的人预测出姿势,通过动作识别算法对学生的乒乓球动作进行比较评分,评分完成后反馈识别动作序列及评分分数[3]。乒乓球技术动作AI评分系统的核心评分功能结构图如图1所示。
2.1 数据采集
首先,利用手机拍摄训练中学生的乒乓球技术动作视频。使用手机拍摄的好处是对教学设备的要求大大降低,不需要专门安装拍摄设备,在不同的乒乓球场地可以随时开展乒乓球技术动作的教学;其次,对拍摄的原始视频进行视角校正、去反光及压缩等预处理,使用视频能快速完成上传,为AI评分提供高质量的输入,从而提高AI评分的准确率与效率;最后,将乒乓球技术动作视频上传到平台进行AI评分,上传处理使用了本地缓存与失败重传机制,从而保证视频可靠地完成上传,不会丢失。
2.2 目标检测
目标检测方面,系统使用了YOLOv7神经网络算法将图像中学练的学生检测出来[4]。首先找到学生的有效姿态识别区域,然后对有效姿态识别区域进行处理,这种方式提高了系统对学生的乒乓球技术动作AI评分的准确率。
YOLO算法(You Only Look Once)作为目前最先进的目标检测算法,它已经经过了7次迭代(YOLOv1、YOLOv2和YOLOv7)。YOLOv1作为YOLO算法的基石,主要实现思想为输入某张待检测图片,将图片分解成S×S 个网格,当某个目标中心落在此网格中时,网格就会预测该目标,其核心是使用损失函数(loss function)进行目标预测,该函数主要由三个部分组成,分别为坐标预测、置信度(confidence)预测和类别预测。整个乒乓球技术动作目标检测过程如图2所示。
2.3 姿态估计
使用目标检测算法对人进行定位,根据定位的区域进行深度学习姿态估计,这样能够精确地实现对目标物体的关键点检测,得到骨骼关节点动作序列数据[5]。由于普通的模型只能取一张裁剪过的图像,所以很难估计每个关键点的绝对相机中心坐标。为了解决此问题,许多姿态估计方法都是使用人体的某一个关节点,如中心关节点(即骨盆)做参考,但是在实际测试中,姿态估计效果一般。
在人体的姿态估计方面,本系统使用了DetectNet、RootNet以及PoseNet三种算法[6]。第一步,使用DetectNet人体检测网络检测图像中学生的所在区域;第二步,使用RootNet算法检测人体骨盆所在的位置;第三步,使用PoseNet3D单人姿势估计网络根据人体骨盆位置预测每个检测到的学生的乒乓球动作姿态。使用此算法进行乒乓球技术动作姿态识别效果如图3所示。
2.4 动作比较评分
目前,虽然动作识别领域的相关研究已经较为成熟,但是对于一个动作的打分还仅建立在该动作的数据集上,数据集决定了识别出的动作准确度,而数据集的获取与制作是一大难点,使想任意比较两个不同动作变得很困难。为了解决这个问题,可以先使用卡尔曼滤波算法修正关节点,再使用基于动态时间规整(Dynamic Time Warping,DTW)的动作比较算法,具体过程如下。
使用卡尔曼滤波算法对关节点进行修正[7]。卡尔曼滤波算法被普遍应用于状态最优估计问题,其基本思想是最小方差无偏估计,即根据系统的历史观测值,建立系统状态模型,使模型的后验概率达到最大。卡尔曼滤波采用递归方法解决线性滤波问题,包括预测阶段和校正阶段两个阶段。预测阶段即建立合适的运动模型,通过历史观测值预测目标下一时刻的位置;校正阶段即每获得一个新的观测值,都将其与预测值进行对比,从而继续修正模型,对新的观测值进行校正,使其接近真实值。卡尔曼滤波算法每一步的计算量较小且计算步骤清晰,非常适合计算机处理。
利用卡尔曼滤波对预测的关节点位置进行重新修正的过程如图4所示。
利用卡尔曼滤波方法对比标准动作与被测试者的动作,如图5所示,由于动作表现为一个时间序列,在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,这是因为被测试者完成乒乓动作所需要的时间不同,所以会出现图5中所示的两个动作序列出现一定的飘移,最简单的相似度计算方法是计算两个时间序列的欧氏距离。欧氏距离属于锁步度量,如果直接用欧氏距离计算相似度,有可能存在时间步不对齐、序列长短不一等问题,因此本文使用DTW 算法比较动作。
DTW 算法主要是针对序列匹配提出的,尤其是当序列出现一定的飘移时,欧氏距离度量就会失效[8]。如果有两个序列X 和Y,假设标准动作序列X=[2,3,4,7,9,2,1,2,1],被测试者动作序列Y=[1,1,1,1,2,3,3,4,7,8,9,1,1,1,1],绘制在图6的坐标轴上。由于两个序列存在横轴上的飘移,所以两个序列的欧氏距离很长。使用DTW 算法将两个序列在某些时点上进行压缩,实现两个序列之间的欧氏距离最短。DTW 算法的本质是寻找一条从X[0]、Y[0]到X[N]、Y[M ]的最短路径。对于序列X 和Y,找到的压缩路径是[(0,0),(0,1),(0,2),(0,3),(0,4),(1,5),(1,6),(2,7),(3,8),(3,9),(4,10),(5,11),(6,11),(6,12),(6,13),(6,14),(7,14),(8,14)]。对应的压缩关系如图6所示。
由于两个序列存在横轴上的飘移,所以两个序列的欧氏距离很长。使用DTW 算法将两个序列在某些时点上进行压缩,实现两个序列之间的欧氏距离最短。DTW 算法本质是寻找一条从X[0]、Y[0]到X[N]、Y[M ]的最短路径。要做到全局最小,这个全局要通过一条路径累积得到。整个累积是通过不同阶段逐步累积得到的。所以,在不同阶段(时间t)中,要保存所有的可能性事件的累积距离。从当前的时间t 到下一个阶段t+1,通过之前的累积状态,计算出当前各种不同事件的累积距离。逐步将这个累积距离往前推,得到最后时间t;在各个不同时间的累积距离中,选出距离最小值。通过累积距离最小,反推出它的路径,对于序列X 和Y,找到的压缩路径是[(0,0),(0,1),(0,2),(0,3),(0,4),(1,5),(1,6),(2,7),(3,8),(3,9),(4,10),(5,11),(6,11),(6,12),(6,13),(6,14),(7,14),(8,14)]。对应的序列距离最短路径如图7所示。
本文分别采用目标检测、姿态识别对标准动作以及被测试者动作进行人体定位、骨骼关键点检测,得到两个乒乓球动作数据序列,采用动态时间规整算法比较两个动作的相似度,并得出评分,最后将姿态识别效果、评分等信息进行数据可视化。打分流程如图8所示[9]。
流程处理步骤如下:①在智能手机上运行系统的手机端,拍摄学生的乒乓球技术动作视频;②上传拍摄的动作视频,如果不成功,则再次尝试上传,如果成功,则进入下一步;③对收到的动作视频采用YOLOv7神经网络算法进行目标检测,有效地检测出画面中人的信息;④使用基于PoseNet3D姿态估计算法进行动作姿态估计;⑤使用卡尔曼滤波算法进行关节点修正;⑥使用基于动态时间规整算法进行动作比较,得到评分;⑦反馈AI评分结果,包括动作序列数据与分数;⑧展示评分结果;⑨如果继续拍摄下一个动作,就回到步骤①继续拍摄,否则流程结束。
4 数据分析与展示(Data analysis and display)
本研究将大数据可视化分析创新性地运用到乒乓球运动训练中。在运动练习中,通过对学生的运动数据包括动作序列与得分的分析得出学生动作训练的薄弱点,帮助学生明确自身不足,针对性地练习弱项。学生的动作评分详情如图10所示。
对学生不同时间段的数据进行分析,得出学生的进步率,方便教师实施个性化教学;学习训练前后效果对比如图11所示。
系统可以对班级训練情况统计分析,辅助教师进行班级教学情况诊断,进而优化教学内容和方式,提升教学质量。以学生学练正手平击发球技术动作前后为例,统计全班得分情况,如图12所示[10]。
5 结论(Conclusion)
乒乓球技术动作AI识别评分系统利用手机摄像头采集学生的乒乓球技术动作训练视频,经过目标检测算法、姿态估计算法及动作比较算法完成学生的乒乓球技术动作AI评分,并且提供可视化数据分析与展示[11]。这套系统现已应用于广东科学技术职业学院计算机工程技术学院的教学中,效果显著,学院开设的乒乓球课程荣获“省职业院校教学能力比赛一等奖”。本系统应用前景广阔,可以在乒乓球技术动作教学中推广。此外,其他场景的肢体动作教学也有类似的需求,例如空乘礼仪姿势教学、羽毛球教学、太极拳教学等,都可利用本系统的相关技术原理并结合特定场景需求开发相应的教学AI评分系统。
参考文献(References)
[1] 李庆,黄嘉君. 乒乓球发球技术的训练研究[J]. 当代体育科技,2019,9(32):28,30.
[2] MERCHANT Z,OETZ E T,CIFUENTES L,et al. Effectivenessof virtual reality-based instruction on students' learningoutcomes in K-12 and higher education: a meta-analysis[J].Computers & Education,2014,70:29-40.
[3] 管练武,丛晓丹,张庆,等. 基于微惯性与Unity3D的室內滑雪教学与训练可视化系统设计[J]. 实验技术与管理,2021,38(10):152-156.
[4] 赵琼,李宝清,李唐薇. 基于改进YOLO v3 的目标检测算法[J]. 激光与光电子学进展,2020,57(12):313-321.
[5] WU S Z,RUPPRECHT C,VEDALDI A. Unsupervisedlearning of probably symmetric deformable 3D objects fromimages in the wild [C]∥Conference on Computer Visionand Pattern Recognition (CVPR). 2020 IEEE/CVF Conferenceon Computer Vision and Pattern Recognition. Seattle,WA:IEEE,2020:1-10.
[6] LIU R C,WANG Z L,SHI X,et al. Table tennis stroke recognitionbased on body sensor network[C]∥MONTELLA R,CIARAMELLA A,FORTINO G,et al. International Conferenceon Internet and Distributed Computing Systems.Cham:Springer,2019:1-10.
[7] 娄泰山,王晓乾,赵良玉,等. 自适应快速弱敏无迹Kalman滤波算法[J]. 控制与决策,2022,37(2):506-512.
[8] 周驰,李智,徐灿. 基于DTW 算法的空间目标结构识别研究[J]. 计算机仿真,2019,36(9):98-102.
[9] 朱航标,吉龙龙,张瑛秋. 信息技术与乒乓球发球判罚教学深度融合的理论与实践[J]. 北京体育大学学报,2021,44(11):99-109.
[10] 张学锋,陈雪瑞. 乒乓球挥拍动作识别方法研究[J]. 重庆工商大学学报(自然科学版),2021,38(1):62-69.
[11] 张毅,赵杰煜,王翀,等. 时域注意力Dense-TCNs在多模手势识别中的应用[J]. 计算机工程,2020,46(9):101-109.
作者简介:
刘晓林(1978-),男,硕士,高级工程师。研究领域:软件工程,移动应用开发。
胡建华(1984-),男,硕士,高级工程师。研究领域:图像视频处理,视频编解码,深度学习。本文通信作者。
李贞晶(1982-),女,硕士,副教授。研究领域:乒乓球运动教学与训练,体育人文社会学。
石晓莉(1993-),女,硕士。研究领域:体育教学方法,乒乓球运动训练。