基于机器学习的青少年运动员新冠肺炎疫情应对能力分析与预测
2020-06-09叶春明赵圣文杨秀红刘海韵
叶春明,赵圣文,杨秀红,刘海韵
(1.烟台市国民体质监测中心,山东 烟台 264003;2.滨州医学院 公共卫生与管理学院,山东 烟台 264003;3.滨州医学院 临床医学院,山东 烟台 264003;4.烟台市疾病预防控制中心,山东 烟台 264003)
2019年12月,湖北省武汉市发现多起由未知病毒感染的肺炎病例,后被证实为新型冠状病毒感染引起的新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19,以下简称“新冠肺炎”)[1],随后疫情迅速向全国各地传播引起全世界的关注[2-3]。我国青少年体育运动学校普遍实行训练、文化教育、食宿“三集中”管理模式,具有人员高度聚集、以集体活动为主的特殊性,分析青少年运动员防控疫情应对能力状况及其影响因素,并探索适用于青少年运动员疫情应对能力快速准确分类的有效方法,既可以针对性制订居家学习计划,更能为复学复训后相关部门做好疫情防控措施提供依据。
用于疾病影响因素分析的广义线性回归模型如线性回归、泊松回归、Logistic回归等对于特征变量间的复杂非线性关系处理能力有限[3-4],同时,由于疫情突发时期的防控资源有限,与影响因素的可解释性分析相比,对高危人群的快速识别对于提高科学决策质量而言具有更重要的现实意义。机器学习在疾病识别、分类及影响因素分析中已经被广泛应用[5-8],且目前已应用于新冠肺炎发病预测、分类及药物疗效领域,并显示出极大的优越性[9-12]。为了解决样本数据有限、非线性及高维度模式识别问题,本研究采用BP神经网络、支持向量机和多元自适应回归样条3种机器学习算法进行建模分类和预测,并与经典的 Logistic回归进行对比,为疫情下青少年运动员应对能力快速准确分类提供新的思路。
1 研究对象与方法
1.1 研究对象
随机选取山东省烟台市6所体育运动训练学校,依据日常训练项目采用随机整群抽样方法抽取 1 699名7~17岁青少年运动员,于2020年2月17-21日开展调查,回收有效问卷1 699份。
1.2 调查方法
利用“问卷星”在线调查平台开展调查。调查问卷共45个题项,主要内容包括:(1)基本情况(4项),包括地区、性别、年龄、训练项目等;(2)新冠肺炎防护知识(14项),包括临床症状、传播途径、潜伏期、密切接触者定义、预防措施等;(3)防护行为(27项),包括疫情发生后采取的各种应对措施、训练计划执行情况以及心理焦虑状况等,其中焦虑状况测量来自焦虑自评量表(SAS)[13]。应对能力包括防护知识和防护行为两部分各50分,总分为100分。
1.3 质量控制
由统一培训合格的教练员作为质控员,并配备工作指导手册,质控员负责告知调查对象注意事项,监督调查对象独立完成问卷,提醒家长不得对答案进行辅导或暗示。
1.4 统计分析
1)问卷信效度检验。(1)信度分析采用内部一致性系数法,分别计算 Spearman-Brown分半系数和Cronbach'sα系数作为信度评价。(2)结构效度检验采用探索性因子分析,以因子载荷度>0.50作为问卷题项的剔除条件,选择最大方差法进行因子旋转,计算KMO值并进行Bartlett球形检验。
2)对不同地区、性别、年龄段、学段及训练项目之间的应对能力得分利用T检验或F检验进行单因素分析。
3)采用 kmeans( )函数进行 K-means动态聚类分析,将应对能力分为高级响应与低级响应两个级别。
4)以响应级别为二分类因变量,以地区、性别、实际年龄、学段和训练项目为影响因素,采用randomForest函数包的randomForest( )函数建立随机森林模型,其中,通过which.min( )函数优化决策树数量,通过tuneRF( )函数优化每棵树引入的自变量个数,通过importance( )函数计算Gini不纯度下降值(MDG)用于度量各类影响因素的重要性。
1.5 建立预测模型
以应对能力响应级别为目标变量,以差异有统计学意义的影响因素为输入特征,建立 BP神经网络(BPN)、支持向量机(SVM)与多元自适应回归样条(MARS)3种机器学习模型,采用混淆矩阵评价模型预测准度,采用曲线下方面积即AUC值(AUC)以及灵敏度和特异度评价模型分类性能,并与 Logistic回归模型进行对比分析。采用10折交叉验证法训练模型,即按9︰1的比例将总样本随机分为10份,轮流将其中9份用于训练建模(训练集),1份用于模型预测效果评价(测试集)。
1)BPN模型:采用AMORE函数包的newff( )函数,利用经验公式估计隐含层神经元个数(其中,a表示输入特征变量个数,b表示目标变量个数,m表示隐含层神经元个数)[14],建立单隐含层和双隐含层神经网络;输入层和输出层均选择双曲正切传递函数,采用含有动量的自适应梯度下降法修正连接权重;神经元学习率为0.01,动量参数为0.01。
2)SVM模型:采用e1071函数包的svm( )函数,分别采用线性、多项式、径向基以及 sigmoid核函数用于训练模型;采用tune.svm( )函数优化模型参数。
3)MARS模型:采用earth函数包的earth( )函数,分别建立没有交互项的加法模型和存在最多2个交互项的乘法模型;每个输入特征仅使用1次铰链函数。
4)采用glm( )函数建立二元Logistic回归模型。
1.6 统计软件
问卷信效度检验采用SPSS 22.0进行分析,采用R version 3.6.2进行建模;计量资料以±s表示,检验水平α为0.05。
2 结果与分析
2.1 信效度检验
信度分析显示,问卷总体的Cronbach'sα系数为0.71,分半系数为 0.76,提示问卷内部一致性较好。结构效度检验结果显示,KMO值为 0.89>0.80,且通过 Bartlett球形检验(χ2=3955.48,P<0.05),说明问卷的结构效度良好,适合进一步进行因子分析;问卷所有题项共分为4个因子(见表1),共删除9个因子载荷量<0.50的题项,余下36个题项与因子对应关系良好,共同性均>0.40,旋转后因子载荷量绝对值位于0.67~0.84之间,累积方差解释率为56.63%>40.00%,满足结构效度的判断标准[15]。综上分析,本次调查问卷具有较好的信效度,可用于进一步数据分析。
表1 调查问卷探索性因子分析结果
2.2 基本情况
共调查1 699例青少年运动员,其中男性953例(56.09%),女性 746 例(43.91%);平均年龄(13.78±2.48)岁,其中男性(14.04±2.40)岁,女性(13.45±2.55)岁;家庭常住地为城市 809例(47.62%),农村 890例(52.38%);学段为小学374例(22.01%),初中1 325例(77.99%);训练项目为田径181例(10.65%),游泳215例(12.65%)、球类 396 例(23.31%)、射击 160 例(9.42%)、水上运动124例(7.30%)、重竞技477例(28.08%)和其他146例(8.59%)。
2.3 防护知识与行为状况
青少年运动员疫情防护知识得分及格率为54.00%,其中,对新冠病毒的存活条件正答率最高(84.34%),对预防病毒感染的方法正答率最低(37.90%);防护行为得分及格率为68.51%,其中,能够做到戴口罩的比例最高(98.47%),能够努力完成训练计划的比例最低(27.25%)(见表2)。
表2 青少年运动员对新冠肺炎疫情应对能力状况 %
分析显示,青少年运动员疫情相关防护信息第一获取途径为父母,占 40.61%;第二为教练员,占36.20%;第三为电视,占34.26%(见表3)。
表3 青少年运动员防护信息的主要获取途径 %
2.4 应对能力影响因素分析
青少年运动员应对疫情的总得分为(65.12±15.90)分,得分及格率为65.98%。单因素分析显示,不同地区、性别、年龄段、学段及训练项目之间的应对能力得分差异均具有统计学意义(P<0.05)(见表4)。
表4 不同类别青少年运动员疫情应对能力得分比较
聚类结果显示,应对能力分为1 009例高级响应组(中心点值为75.81)和690例低级响应组(中心点值为49.50),两组间得分差异具有统计学意义(t=54.40,P<0.05)。MDG分析结果显示,年龄导致的Gini不纯度的降低最大(下降值为47.14),其他依次为训练项目(42.27)、地区(26.80)、性别(13.89)及学段(10.42)(如图 1所示)。
图1 基于MDG分析的应对能力各类影响因素重要性排序
2.5 模型分类预测
10折交叉验证结果显示,5-3-2-1结构BPN、基于径向基核函数的SVM以及加法MARS模型的预测准确率最佳,其总体准确率区间维持在70.52%~84.26%,其中BPN模型的单次准确率最高,为84.26%;SVM的平均准确率最高,为80.32%,其次为 MARS和 BPN,平均准确率分别为 78.94%和77.94%,较Logistic分别提升7.15%、5.32%和3.98%(见表 5)。
表5 各分类模型在测试集上的预测准确率 %
SVM模型AUC值最高,其次为BPN和MARS,较Logistic分别提升11.95%、10.35%和5.92%;MARS模型灵敏度最高,其次为SVM和BPN,较Logistic分别提升12.24%、7.08%和5.52%;BPN模型特异度最高,其次为SVM和MARS,较Logistic分别提升62.11%、55.82%和22.24%(见表6)。
表6 各分类模型在测试集上的分类性能对比 %
采用BPN模型在最好(根据表4单因素分析结果,得分最高的各类因素组合)和最坏(得分最低的各类因素组合)输入特征水平下的预测结果显示,居住地为城市、性别为女性、最小年龄、学段为小学、训练项目为游泳的运动员,与农村、男性、最高年龄、初中、重竞技运动员相比,被预测为高级响应级别的概率更高(见表 7)。
表7 基于BPN模型的不同输入特征水平组合下的分类预测1)
3 讨论
青少年运动员新冠肺炎疫情防控知识正答率不及2/3,得分及格率仅为54%,提示参与调查的青少年运动员对疫情防护知识有一定的了解,但总体上了解不够全面,尤其对于病毒传播途径以及具体预防措施的了解较差。面对疫情的发生,将近1/2的运动员无法克服紧张和恐慌心理,将近3/4的运动员无法完成训练计划。调查显示,青少年运动员疫情防护信息第一来源主要是父母和教练员告知,占55.15%;其次是通过电视和网络,占37.55%;而来自于卫生部门和学校的直接宣传引导仅占 3.71%。专业机构的统一教育和讲解明显缺乏,容易导致认知和情绪承受力、应激能力有限的青少年运动员难以判断相关知识的真实性。
根据青少年运动员疫情应对能力影响因素的重要性排序,年龄是影响应对能力的首要因素,统计显示,10岁及以下运动员得分明显高于10岁以上,这与陆小英[16]和王悦[17]等的调查分析结果相类似,即与高年龄青少年相比,低年龄儿童的思维同一性更高,行为服从性更好,焦虑和抑郁情绪更低;训练项目是应对能力的第2位影响因素,游泳运动员的得分最高,其次为球类和射击;地区是第3位影响因素,城市运动员得分明显高于农村地区运动员,体现出突发公共卫生事件应对能力在地区间的差异性[18-19];此外,不同性别和学段之间的得分虽有明显差异,但对于应对能力的重要性较低。
通过建模测试发现,3种机器学习模型对青少年运动员的应对能力分类预测性能优于经典的 Logistic回归模型,对疫情应对能力的模拟具有可行性。其中,基于径向基核函数的 SVM模型平均准确度最高;MARS的灵敏度最高,即擅长发现高级疫情应对能力的运动员;而BPN的特异度最高,即擅长发现低级应对能力的运动员,提示出每种学习算法具有不同的优缺点,应该根据算法的特点以及研究目的去合理选择,达到分类效果最优,帮助解决实际问题。疫情期间,对于青少年运动员关于突发公共卫生事件处理能力及应激能力的培养,我们更应关注缺乏应激响应的群体[20],根据3种机器学习模型的性能表现,本研究最终选取特异度最高的 BPN模型用于正确识别疫情应对能力较弱的青少年运动员。BPN网络模型的学习过程就是根据外界提供的训练样本进行不断的学习,改变网络神经元的连接权重,使网络具备疫情防控专家或决策者的经验和知识,能够判断和归纳出青少年运动员群体差异与其疫情应对能力之间的映射关系,并能通过学习新的样本群体特征,不断改善自身预测性能,具有较强的学习、联想、识别、容错及泛化能力[21]。以烟台市为例,依据 BPN模型对调查对象的快速识别结果,学校与卫生部门的干预指导策略应更倾向于应对能力相对更弱的农村家庭、初中以上、年龄相对较大的男性重竞技等运动项目运动员。