APP下载

基于CBAM-DCNN-BiLSTM的蹴球动作识别与评估

2022-09-02王志佳蓝雯飞张潇侯志涛金宁

关键词:卷积注意力传感器

王志佳,蓝雯飞*,张潇,侯志涛,金宁

(1 中南民族大学 计算机科学学院,武汉430074;2 中南民族大学 体育学院,武汉430074)

蹴球是全国少数民族传统体育运动会的正式比赛项目之一,因为比赛规则与台球比赛类似,蹴球被喻为“用脚踢的斯诺克”[1].蹴球运动历史悠久,并且包含显著的民族文化特征,是中国传统体育中的瑰宝[2].在蹴球基本技术的日常训练中,教练和运动员都需要清晰地掌握技术动作的实际完成情况,并避免运动过程中错误动作造成身体上的损伤.目前还没有专门的技术对蹴球运动的技能动作进行识别与评估,主要依赖教练员的个人经验,缺乏数据化的科学训练手段[3].因此,用一种简便的方式来精准识别蹴球运动员的技能动作有着重要的应用需求.

在人体动作识别领域,目前主要有基于视频分析的人体运动识别方法和基于传感器数据的人体运动识别方法.基于视频分析的人体运动识别方法应用较为成熟[4],是体育科学家和专业教练用来研究运动中各种动作生物力学的主要方法.DU 等[5]提出了一个双层网络体系结构,通过将光流作为运动信息附加到输入通道,提升了网络模型在人体动作识别上的准确性.李元祥等[6]提出一种基于深度运动图和密集轨迹的人体行为识别算法,利用卷积神经网络训练深度运动图数据并提取静态特征表示,使用密集轨迹作为动态特征信息,最后将静态和动态特征串联作为整体特征行为表示,取得了良好的识别结果.上述基于视频分析的人体运动识别方法虽然取得了较好的效果,但缺点是识别结果受光线影响较大,并且设备昂贵、计算成本高,在感知范围上也有一定的局限.

随着技术的发展,集成多传感器的智能穿戴设备在人体动作识别领域已经成为一个新的研究热点,它能有效解决计算机视觉技术上的不足,避免了环境对动作识别的影响,广泛应用于羽毛球[7]、高尔夫、足球和排球[8]等运动.JAIN 等[9]使用智能手机内置的传感器获取加速度和角速度信号,采用梯度直方图和傅立叶变换从这些信号中进行特征提取,通过支持向量机和K最近邻算法进行运动行为的识别.ZHANG 等[10]采用支持向量回归机模型对人体步行和跑步任务期间步距、步幅、速度和间隔等特征进行分析,提出了一种基于步态参数的状态估计方法.上述传统的机器学习方法需要人工提取特征,非常依赖于专家的体育背景和研究经验.随着深度学习技术的发展,神经网络逐渐取代了传统的人工提取特征,它可以自动从原始的非线性数据中获得高维特征,具有良好的泛化性,并已经开始应用于人 体 动 作 识 别 领 域.ORDÓÑEZ 等[11]提 出 了DeepConvLSTM 模型,是动作识别领域最流行的深度学习模型之一,该模型融合了卷积神经网络和LSTM 循环神经网络,其中的卷积单元对传感器中的原始数据进行高维特征提取,LSTM 单元进一步对提取后的特征进行时间依赖关系建模.通过在公开数据集OPPORTUNITY 和SKODA 上与其他传统机器学习模型和同类神经网络模型进行对比实验,证 明 了 该 模 型 性 能 的 优 越 性.XI 等[12]在DeepConvLSTM 模型的基础上进行了改进,提出了一种新的人类动作识别深度学习框架D2CL,该模型由扩张卷积神经网络和递归神经网络组成,在公开数据集OPPORTUNITY 和PAMAP2 上的平均准确率达到了92.59%.

针对现有网络模型对于传感器数据中重要特征表达能力不强、时间信息利用不充分的问题,本文结合注意力机制和空洞卷积提出了CBAM-DCNNBiLSTM 网络模型.通过引入空洞卷积来替代传统的池化与上采样操作,避免部分信息丢失,然后利用CBAM 注意力模块对提取到的重要特征进行加权,以提升在蹴球动作识别与评估任务中的检测性能.

1 数据采集与处理

1.1 数据采集

本文采集蹴球动作信号所使用的传感器主要由板面开关、电源、无线电收发器DA14583 以及运动传感芯片BMI160 构成,如图1 所示.整个惯性传感器的尺寸为10.3 mm×8.7 mm×2 mm,重量为2 g,采集频率为50 Hz,通过佩戴在脚踝上方来获取击球动作过程中产生的三轴加速度和角速度数据.

图1 传感器构造及佩戴位置Fig.1 The structure of sensor and the wearing position

按照蹴球的动作方式,蹴球动作可分为蹴击和挤压两种动作[13]:

(1)蹴击球.蹴球脚以脚跟先着地,由脚掌触及球面,稳定后髋关节做屈、膝关节做伸的运动,用力向前蹴动,蹴出的球为前滚球.蹴击球技术常在攻击远距离目标球时使用;

(2)挤压球.蹴球脚以脚跟先着地,由脚掌触及球面,稳定后前脚掌向前下方挤压球将球蹴出,蹴出的球为回旋球.挤压球技术常在攻击近距离的目标球时或攻击边线目标球而且需要保证本球不出界时使用.

数据采集在图2 所示的标准蹴球体育场进行,共8名参与者,包含4名蹴球专业运动员以及4名蹴球业余爱好者.8 名参与者按图1(c)方式将传感器佩戴于右脚脚踝内侧,每人分别进行150 次蹴击球动作和挤压球动作,参与者信息如表1所示.

图2 蹴球场地及击球路径Fig.2 The court and hitting path of Cuqiu

表1 参与者信息Tab.1 Participant information

通过对击球动作规范进行介绍后,开始进行数据采集,图2 展示了数据采集过程中的击球点和目标点,每名参与者都必须以场地中心的停球区为击球点朝着中心圆上的x 位置以直线方式向前击球,否则认定当次击球为无效击球.将无效击球数据删除后,最终从8 人中采集到两种动作共2030 条有效样本数据,如表2所示.

表2 各动作对应有效样本数Tab.2 Number of effective samples for each action

1.2 数据处理

通过传感器获取的动作信号通常含有一定的噪声干扰,这些干扰信号主要来源于实验者自身晃动、传感器硬件固有噪声以及信号数据传输过程中产生的噪声.在信号分析前,需要对采集到的信号进行滤波处理,减小噪声对实验的干扰.

本文实验选择常用的滑动均值滤波法对信号进行预处理,该方法的原理是用某时刻窗口内信号的均值来表示该时刻的信号,通过使用该方法可以有效解决异常信号干扰的问题,该方法在本文的应用如下.

给定原始时序信号F={f1,f2,…,fn},设滑动窗口大小为ws,经滑动均值滤波后的数据F"={x1,x2,…,xn},xm为窗口内所有数据的平均值,即:

本实验中,滑动窗口大小ws设为7,其中d=3.传感器数据经过滑动滤波处理后,对每个通道进行归一化处理,最后用1.2 s 的固定宽度窗口对数据进行分割(窗口大小为70),并对标签进行标注.

由于传感器信号为一维结构,通过传统的一维卷积可以获取一定的时间依赖性,但对于不同传感器以及同一传感器不同时间节点的空间依赖性则无法充分利用.因此,本文将每个窗口内的六轴传感数据转换为一张六维动作图,以更加充分地利用不同轴之间的时空依赖性来提高识别性能,如图3所示.

图3 动作图构造流程Fig.3 Construction process of activity image

2 DCNN-BiLSTM与CBAM结构

2.1 DCNN-BiLSTM

本文提出的网络模型主要由空洞卷积神经网络和双向长短期记忆循环神经网络串联构成,其中空洞卷积单元用来初步提取动作图中的高维特征,然后输入至循环单元获取特征中的双向时间依赖关系,其网络结构如图4所示.

为实现湖区社会经济又好又快发展,2014年湖南、湖北省政府联合报请国务院批复了《洞庭湖生态经济区规划》。2015年以来,根据新的形势和要求,湖南省会同湖北省编制了《洞庭湖生态经济区水环境综合治理实施方案》,突出将生态环境整治作为洞庭湖区生态经济区建设的重中之重。

图4 DCNN-BiLSTM网络结构Fig.4 DCNN-BiLSTM network structure

网络的输入为6 张7×10 大小的动作图,每个卷积层包含64 个尺寸为3×3 卷积核,步长为1,采用修正线性单元(Rectified Linear Unit,ReLU)作为卷积层的非线性激活函数来抑制模型的过拟合问题.由于使用池化层可能会使动作图中的部分信息丢失,CHEN 等[14]在2018 年提出了用空洞卷积替代池化层,在保留图像细节的同时增大感受野.因此,本文采用空洞卷积替换常用的全卷积神经网络结构,从而在动作图中获取更多的信息.如图5所示,从左至右是扩张率分别为1、2、3 的空洞卷积核,在3×3 的卷积核下获得大小分别为3×3、5×5、7×7的感受野.

图5 空洞卷积示意图Fig.5 Schematic of dilated convolution

通过空洞卷积单元提取的高维特征图进一步输 入 至BiLSTM 层,BiLSTM 由 前 向LSTM 与 后 向LSTM 结合而成,属于LSTM[15]的变体算法,对数据中的前后依赖关系利用得更加充分,其结构如图6所示.前向层负责对输入数列的正向时间依赖进行建模,表达为:

图6 BiLSTM结构Fig.6 The structure of BiLSTM

反向层对输入数列的逆向时间依赖进行建模,表达为:

BiLSTM 最终的输出向量由两层LSTM 输出的状态向量进行拼接而得,表达为:

其中:xt为时刻t的输入量,ht与rt为前向层与反向层在时刻t的输出量,W1与W3为输入层向前向层与反向层计算的权重矩阵,W2与W5为前向层与反向层上一时刻向当前时刻计算的权重矩阵,W4与W6为前向层与反向层向输出层计算的权重矩阵,σ为前向层与反向层的激活函数,γ为输出层的激活函数,yt为输出层在时刻t的输出.

本文提出的模型中,BiLSTM 层包含128 个神经元,同时设置失活率为0.5 的Dropout[16]来增加模型的泛化能力.

2.2 CBAM

在基于传感器的动作识别中,不同的轴向以及同一轴向中不同的时刻对于动作识别的重要性是不同的,为了使模型能更好地关注动作信号中的重要信息,通过引入注意力机制来对模型进行改进.注意力机制最先应用于图像识别领域,通过模仿人类注意力的特点,对研究对象的重要特征给予更多的关注,减少其他信息的干扰.在本文模型中,采用了WOO 等[17]在2018 年提出的卷积块注意力模块(Convolutional Block Attention Module,CBAM),该模块是一种由空间注意力机制和通道注意力机制混合而成的注意力模型.CBAM 目前是一种通用的轻量级模块,可以方便地在各种网络中进行添加,能有效提升模型的性能.如图7 所示,CBAM 模块首先对输入的特征图F进行通道注意力建模,对各通道赋予不同的权重得到F";然后进一步对特征图F"的空间注意力建模,使模型对各特征图感兴趣的区域给予更多关注,得到F"".将特征图F与得到的权重系数F""相乘得到最终的输出特征.

图7 CBAM注意力机制模块Fig.7 CBAM attention mechanism module

为了测试CBAM模块的插入位置对模型性能的影响,本文测试了4 种添加方式:在输入层插入CBAM 模块(Input)以及在不同卷积层(Conv-1、Conv-2、Conv-3)插入CBAM 模块,将这4种方式与未插入CBAM 模块的模型(Baseline)进行性能对比,以得到网络模型的最优性能.

3 实验与结果分析

3.1 实验设置

实验使用的GPU 配置为Tesla V100,32 GB 显存,编程语言为Python 3.7,机器学习框架为PaddlePaddle 2.2.1.实验数据集使用传感器收集的2030 条蹴球动作有效样本,按6∶2∶2 的比例划分为训练集、验证集和测试集.在模型训练时,每一轮会从训练集中取出12条样本作为模型的输入,模型采用ADAM优化算法,学习率设置为0.0001,最大迭代轮次为100.

实验中分别对原始CNN-BiLSTM 模型、加入CBAM 注意力模块的模型、加入空洞卷积的模型以及同时加入注意力机制和空洞卷积的模型进行训练.实验过程中使用精确率Pre、召回率Rec、F1 分数F1_score以及计算速度CS(Calculation Speed)作为评估模型性能优劣的指标,各评价指标均采用重复10次实验后得到的平均值.精确率、召回率、F1分数的定义如下:

其中,TP代表真阳性,FP代表假阳性,TN代表真阴性,FN代表假阴性,计算速度表示模型每训练一轮的平均消耗时间.

3.2 实验结果及分析

为了验证CBAM模块及空洞卷积对网络模型性能的影响,首先进行一系列的消融实验.模型消融实验结果如表3 所示,首先可以看出引入注意力机制后的模型在精确率、召回率以及F1分数均有不同程度的提升,而计算速度则因为引入额外的网络结构有所减慢;其次,由于使用空洞卷积可以提升感受野的大小,减少信息的损失,对各模型性能均有一定的改善;最后,相比于只添加注意力机制或空洞卷积,两者相结合时性能有显著提升.在第二层卷积单元(Conv-2)后添加CBAM 模块的DCNNBiLSTM 模型,相比原始CNN-BiLSTM 模型,精确率提升至99.05%,召回率提升至99.04%,F1 分数提升至99.04%.

表3 模型消融实验Tab.3 Model ablation experiment

本文进一步将其与动作识别领域广泛使用的其他模型进行对比实验,包括DeepConvLSTM 和D2CL,实验结果如表4 所示.从表4 可以看出,现有的动作识别算法在蹴球动作识别与评估任务中均有不错的分类效果,与DeepConvLSTM 和D2CL 相比,本文提出的模型具有更高的识别性能,在精确率上分别提升了0.60%和0.44%,在召回率上分别提升了0.62%和0.45%,在F1 分数上分别提升了0.62%和0.44%.

表4 改进后的模型与其他动作识别模型的对比Tab.4 Comparison between the improved model and other motion recognition models

为了能更直观地定量分析实验结果,本文根据模型在测试集上的实验结果分别绘制了DeepConvLSTM、D2CL 以及CBAM-DCNN-BiLSTM 的混淆矩阵图,如图8所示.

图8 3种模型的混淆矩阵Fig.8 Confusion matrix of three models

图8中,横轴表示模型预测的标签值,纵轴表示实际标签值(KA表示业余蹴击球动作,KP表示专业蹴击球动作,SA 表示业余挤压球动作,SP 表示专业挤压球动作).在蹴球动作识别与评估任务中,目的是尽量准确地识别出击球动作的技术类型,由图可知,对于正例样本,DeepConvLSTM 模型预测正确个数为400,D2CL 模型预测正确个数为401,而本文提出的CBAM-DCNN-BiLSTM 模型预测正确个数为403,比前述两者分别多出3 个和2 个,表明CBAMDCNN-BiLSTM 在蹴球数据集上的识别性能优于其他同类模型.

综合来看,本文提出的CBAM-DCNN-BiLSTM网络模型对数据中的时空信息利用得更加充分,相较于现有算法拥有更高的识别性能,证明了该网络模型在蹴球动作识别与评估任务上有着更好的表现.

4 总结

本文提出了CBAM-DCNN-BiLSTM 网络模型用于对蹴球动作进行识别与评估,首先通过DCNNBiLSTM 获取数据中的高维特征以及双向时间依赖关系,然后通过CBAM 注意力模块对重要特征进行加权处理.在蹴球动作数据集上与其他同类模型进行对比实验,结果表明:本文提出的网络模型在蹴球动作识别与评估任务中的精确率、召回率、F1 分数评价指标上分别达到了99.05%、99.04% 和99.04%,均好于其他同类模型,表明在蹴球运动训练领域可以实现由经验驱动到数据驱动的转变,并且未来可以扩展到分析其他与脚相关的运动上.

猜你喜欢

卷积注意力传感器
让注意力“飞”回来
康奈尔大学制造出可拉伸传感器
一种基于卷积神经网络的地磁基准图构建方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
一种并行不对称空洞卷积模块①
氧传感器的基本检测
简述传感器在物联网中的应用
从滤波器理解卷积
跟踪导练(三)2
A Beautiful Way Of Looking At Things