基于特征选择集成学习的军事体育训练成绩分析
2022-03-12汪雄周钢
汪雄 周钢
摘要:针对当前军事体育训练智能化发展现状,在研究现有军事体育训练体系基础上,结合特征选择集成学习模型一般步骤,建立基于特征选择集成学习的军事体育训练成绩分析模型。模型按照军事体育训练成绩的数据规范化准备,按照身体素质建立特征子集和基学习器,按动态权值构建集成学习模型三步完成模型构建。通过试点应用,在历史训练数据发现集成学习模型具有更高的预测效能和更好的可解释性。
关键词:军事体育训练;特征选择;集成学习;数据预处理
中图分类号:TP 181 文献标识码:A
文章编号:1009-3044(2022)03-0081-03
开放科学(资源服务)标识码(OSID):
军事体育训练是军事训练的重要组成部分,是强健官兵体魄、强化个人素质、提升单兵技能的重要训练手段,是打赢未来战争的基础性工作。军事体育训练是以实战为导向,以任务为牵引,以科学理论为指导,按作战需要和岗位需求进行身体训练[1]。军队院校的军事体育训练是以未来岗位需求为目标,结合军人体能刚性要求和军事体育训练计划,每学年从基础体能训练和军事技能培训两个方面组织大量针对性体能训练。随着智能技术在军队建设各领域的深入应用,应积极探索人工智能技术有效运用于大量历史军事体育训练成绩数据,挖掘影响军事体育训练效能的关键因素,从而优化训练组织实施,提升训练效果。
1 军事体育训练体系
随着实战化军事训练要求不断提升,军事体育训练步入了新时代,2018年我军颁布新版《军事体育训练大纲》(后简称“新大纲”),新大纲人员分类规范科学、训练科目设置合理、考核指标细化明确,展现了新时代军事体育训练的强制性、规范性和科学性,训练科目划分为全军通用训练、军兵种专项训练和选训内容三大类,其中通用训练科目突出官兵基础体能训练,重点对官兵的力量、速度、耐力和灵敏训练 [2]。
各院校结合军兵种特点,适应未来岗位需求,联合毕业考核工作,制定了毕业考核训练科目,毕业考核训练科目关注军兵种特色,瞄准未来岗位的体能素质需求和基础技能需要,形成与通用训练科目互补互融的训练科目[3]。
军队院校军事体育训练体系主要针对新大纲通用训练科目和毕业考核科目开展军体课程开设、军事技术培训、自主训练组织。以海军某院校为例,其军事体育训练体系如表1所示。
根据军事体育训练体系,结合基础体能的基本身体素质要求[4],厘清各训练科目针对性的体能素质训练项目,形成体能素质和训练科目对应关系,具体如表2所示。
2 基于特征选择的集成学习
基于特征选择的集成学习是结合特征选择算法和集成学习算法,通过数据集上的特征选择来构建不同的基学习器,进而构建集成学习模型[5]。
2.1集成学习模型
集成学习是机器学习研究热点之一,是一种联合多个弱学习器构建强学习器的方法,该方法具有较好的泛化精度,在众多领域发挥重要作用[6]。
集成学习模型构建一般分为三个步骤,一是根据训练样本数据集抽取数据设计基学习器,二是按照规则对多个基学习器进行集成融合,三是对集成模型构建的强学习器进行预测应用。集成学习模型构建步骤如图1所示[7-8]。
2.2 基于特征选择的集成学习
集成学习方法的基学习器构建,可以分为按照样本重抽样、特征选择、随机子空间等多种方式进行多样化构建[9]。基于特征选择的集成学习是指在基学习器构建阶段,通过对样本数据集的特征集按照一定规则(如随机抽取)进行构建特征子集,并据此设计基学习器构建集成学习模型。
因此,在图1的集成学习模型基础上,按三步展开:第一步,按照业务数据集特点,构建特征集。第二步,从特征集抽取形成特征子集,构建基学习器。第三步,多个基学习器融合形成集成学习模型。特征选择集成学习模型构建步骤如图2所示。
3 特征选择集成学习模型应用
特征选择集成学习方法在电子商务、生物医疗等高维数据应用中发挥了重要作用,结合前期军事体育训练组织实施的业务概况,按照数据准备、特征划分、模型构建三个步骤完成特征选择集成学习在军事体育训练效能分析中的应用模型设计。
3.1 军事体育训练成绩的数据准备
军事体育训练相关数据依托现行配备的“军事体育训练管理系统”采集,该系统对学员涉及的通用训练科目和考核训练科目的相关体育训练项目进行成绩登记与分析。系统涉及的项目训练成绩基础表的逻辑结构为:训练(学员学号、科目代码、成绩、评级、测试时间)。各科目成绩按照学号关联和测评时间一段时期内统筹所有训练科目,形成了一个至少16维度的军事体育训练成绩数据集,主要包括{学号,性别,K1,K2,K3,K4,K5,K6,K7,K8,K9,K10,K11,K12,K13,ZP },其中学号为关联特征,性别为基础特征,取值为{0,1},其中“男”为1,“女”为0;K1-K13为13个科目训练成绩,是属性特征,ZP为目标特征,是通用科目和考核科目综合考核结果,由于主要针对训练预警展开学习模型构建,因此ZP取值为{0,1},其中0表示不及格,1表示及格。
在训练科目成績预处理中,存在两个方面问题,一是空缺值处理问题,二是规范化处理问题。
对于空缺值问题,训练科目中部分科目分性别,导致个别科目训练成绩出现空缺情况,可以使用同类身体素质的训练科目进行替代,科目2和科目7,科目8和科目11可互相替代。
对于规范化问题,主要针对一是不同类训练科目的统一化,如科目3计次考核和科目6的计时考核,二是对于同类训练科目的规范化,如科目6和科目5,都是计时跑步项目,但项目时长绝对差距不能代表实际训练水平差距。针对规范化问题,对训练科目成绩数据进行规范化处理,按照最小-最大化规范化处理技术将成绩规范到[0,1]区间,结合现行训练科目考核要求对[0,1]区间规范成绩进行二次标定[10]。具体操作如下:
(1)最小-最大化规范化
假设训练科目成绩为x,该科目在某单位、班级的最高成绩为xmax,最低为xmin,那么x可以规范化为:
[xn=x-xminxmax-xmin] (1)
(2)二次标定
在实际应用,由于各科目的及格线已经划定,假设及格成绩为g,为了确保g规范到[0,1]后的值为0.6,需要对训练成绩xn参考g进行二次标定:
[xn=0.6+x-gxmax-gxmin>g0xmax<g0.6+g-xg-xminxmin<g<xmax] (2)
根据公式(2),所有科目训练成绩形成了以0.6为及格线的[0,1]范围分布的规范化成绩。
3.2 军事体育训练数据的特征划分
传统的特征选择模式,一般按照随机模式、或按照多样性原则、或按照精度标准对数据集的特征全集进行选择,形成不同的特征子集,进而构建基学习器。
针对16维的军事体育训练数据集D,按照体能素质要求,按照体能素质划分,能够提升学习方法的可解释性,更加符合业务实际。划分为五个特征子集为:
SUB1={学号,性别,K2,K3,K4,K7,ZP};
SUB2={学号,性别,K5,K9,K12,ZP};
SUB3={学号,性别,K6,K8,K10,K11,K13,ZP};
SUB4={学号,性别,K5,K9,ZP};
SUB5={学号,性别,K1,K5,K8,K9,K11,ZP}。
根据特征子集SUB1-SUB5,使用C4.5算法构建决策树DT1-DT5,根据集成学习模型开展训练预警的目的,关注ZP=0的决策规则,考虑后期集成学习泛化精度,设置准确度>0.5的决策规则[11],从而形成类似如下的规则:
DT1:性别=1 and K2<0.7→ZP=0 准确度0.56
3.3 军事体育训练的集成学习模型构建
对于DT1-DT5这五个基学习器,使用动态加权进行基学习器集成,假设第i个基学习器hi(x)的权重为wi,那么加权法获得集成模型输出结果H(x)为:
[Hx=wihix] (3)
由于集成学习模型关注于ZP=0情况,即综合评估不及格情况,因此根据DT1-DT5对于ZP=0的准确度Acci,根据Acci完成对wi的赋权。
[wi=AcciAcci] (4)
3.4 集成学习模型评估
运用军事体育训练科目成绩进行军事体育训练评估,前期文献[12]使用的梯度下降线性函数方法和文献[13]的ID3决策树算法,同本文的特征选择集成学习算法,在我校2018~2020年度各年级、专业军事体育训练成绩,选取2018、2019年度共4个学期成绩为训练集,2019~2020学年2个学期为测试集,考虑体能预测预警问题,以ZP=0为正例分析对比三种算法的精度Acc,查准率F,查全率R和F1如表3所示。
围绕ZP=0,为了更好地采集体能预警人员信息,查全率最具有参考价值,因此本文特征选择集成模型在军事体育训练成绩评估上具有更优效能。同时,特征选择集成学习模型由于在前期按照身体素质的力量、速度、耐力、灵敏、协调五类划分,充分考虑了科目成绩特征间的关联性,根据成绩形成了五个基学习器及其集成动态权重,从而能够分析某一批次(专业、班级或单位)的综合体能影响关键身体素质,对后期开展针对性训练更加具有指导意义,集成学习模型具有更强的理解性。
4 结论
军事体育训练是我军基础体能和军事技能训练的重要项目,深入挖掘军事体育训练成绩内在规律,从而优化军事体育训练指导实施,提高军事体育训练效果。针对当前军事体育训练智能化发展现状,在研究现有军事体育训练体系基础上,结合特征选择集成学习模型一般步骤,建立基于特征选择集成学习的军事体育训练成绩分析模型。模型按照军事体育训练成绩的数据规范化准备,按照身体素质建立特征子集和基学习器,按动态权值构建集成学习模型三步完成模型构建。通过试点应用,在历史训练数据发现集成学习模型具有更高的预测效能和更好的可解释性。
参考文献:
[1] 林建棣,徐海亮.军事体育训练现状及发展[J].中国体育科技,2019,55(8):5-8.
[2] 秦振聚,赵波,宋杰.军事体育训练大纲评分标准制定研究[J].军事体育学报,2019,38(1):12-15.
[3] 雷宏,陈艳,李宁.军事基础课程毕业联考相关机制现状分析及对策[J].军事体育学报,2017,36(4):1-3,11.
[4] 高金卯,马国强.提升官兵体能素质训练方法的探讨[J].人民军医,2020,63(2):115-117.
[5] 张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399-1410.
[6] 周志华.通过集成学习进行知识获取[J].重庆邮电大学学报(自然科学版),2008,20(3):361-362.
[7] 周钢,郭福亮.集成学习方法研究[J].计算技术与自动化,2018,37(4):148-153.
[8] 徐继偉,杨云.集成学习方法:研究综述[J].云南大学学报(自然科学版),2018,40(6):1082-1092.
[9] 谷雨.分类器集成中的多样性度量[J].云南民族大学学报(自然科学版),2012,21(1):59-65.
[10] 孔钦,叶长青,孙赟.大数据下数据预处理方法研究[J].计算机技术与发展,2018,28(5):1-4.
[11] 郭福亮,周钢.集成学习中预测精度的影响因素分析[J].兵工自动化,2019,38(1):78-83.
[12] 刘雨琛.基于梯度下降法的学生体育成绩预测模型研究[J].中国科技博览,2019(1):222-223.
[13] 李娜.基于数据挖掘的高职体育成绩管理系统的设计与实现[D].成都:电子科技大学,2012.
【通联编辑:唐一东】