基于相关性理论和灰色模型的大学生体能测试分析
2018-11-09,,
, ,
(1.广州城建职业学院数学建模实验室,广东 广州 510925 ; 2.广州中医药大学经济与管理学院,广东 广州510006 )
0 引 言
大学生体质健康关系到民族未来的发展,教育部要求每年以学校为单位组织展开大学生体能测试,并将统计数据整理上报,以便全面了解大学生体质发展状况。
以跟踪采集某学院4年来近2万名学生的体测样本为基础,采用拉以达法则剔除异常数据,减小了模型的随机误差,结合相关系数、回归树等数学模型,较为全面地计量了身体质量指数-BMI(Bodymass Index)对运动指标的影响,引入均值灰色预测模型对未来3年大学生体质变化趋势进行了预测。
1 主要模型及其机理
以年为单位预测大学生体质发展趋势,但仅有2014-2017年数据,小样本、贫数据是其鲜明特点,因此灰色预测较为合适,但以男生肺活量序列(3332.922,3810.932,3592.433,3846.573)、50m跑序列(6.961,7.074,7.245,6.858)为例,有显著的振荡情形,而相较原始差分、离散GM(1,1)而言,均值GM(1,1)(或EGM)精度更高,因此引入EGM模型[1]。
2 实证分析
2.1 数据获取与指标体系构建
以某学院2014-2017年体测数据为基础,总样本20092个,构建体测指标体系:身高、体重、BMI、肺活量、立定跳远、坐位体前屈、50m跑,另外男生包含1000m跑、引体向上,女生包含800m跑、仰卧起坐等指标。
如下以男生为例建立模型,采用拉以达法则剔除2014-2017各年指标下数据的异常值。
依此原则,落在上述区间外的样本可认为它与均值误差过大,作为异常值加以剔除,对剔除后的数据进行描述性统计分析。如表1所示,可发现各指标变化趋势:身高、引体向上、1000m跑逐渐变大;体重、BMI逐渐变小;引体向上、立定跳远、肺活量、50m跑振荡变化,趋势不定。
表1 2014-2017年各体测指标数据平均值(男生)
2.2 关联度模型计量与分析
为探知BMI,即体质指数对各个运动指标,如引体向上、1000m跑等影响大小的问题,文中领域文献未能建立起合适的函数计量模型,主要存在拟合优度偏低或未通过显著性检验等问题,例如多元线性回归、Logistic回归模型等(伪)拟合优度均不超过15%等,从关联度角度来探索他们之间的数量关系。
因探讨的所有指标都是连续性变量,所以可通过计算各指标间余弦关联度,即Pearson相关系数R描述各指标关联程度[3]。
式中样本(Xi,Yi),i=1,2,…n为(X,Y)的一组随机取样,运用Matlab软件求出相关系数R,如表2所示。
表2 各体测指标相较于BMI的相关系数(男生)
通过表2可以看出,BMI除了与肺活量正相关外,与其它指标均负相关。BMI与各指标关联度排序依次为引体向上、肺活量、立定跳远、坐位体前屈、1000m跑、50m跑,虽然各相关系数都通过了显著性检验,但普遍偏低,且相互之间差距较小,为消除上述模型存在取样和统计推断所带来的偏差,进一步引入回归树模型(CART)检验与修正各体测指标与BMI之间的关联度。
利用回归树模型探索各指标关于BMI的重要性主要是以Gini指数表征回归树节点的纯度,Gini指数越大则纯度越低,而在数据打乱的前提下,以Gini指数变化的均值看作自变量相对于因变量的重要程度度量。在运用SPSS软件做回归树分析的过程中可计算其它体测指标关于BMI的重要性,结果如表3所示。
表3 各体测指标相较于BMI的重要性(男生)
表2与表3呈现的偏差既有模型选取不同带来的系统偏差,又有样本选取造成的随机误差,为更客观地描述BMI与各指标间的关联度,结合上述两模型计量结果,修正BMI与体测指标的关联度。修正结果如下:BMI与引体向上关联度最高;BMI与立定跳远、肺活量关联度次之,另外,BMI与该两项指标关联度大体相当;BMI与1000m跑、坐位体前屈、50m跑关联度最低,其次,BMI与该三项指标关联度大体相当。
依此类推,可以得到女生BMI与仰卧起坐关联度最高,与立定跳远关联度次之,而BMI与肺活量、800m跑、坐位体前屈、50m跑等关联度都偏低。
2.3 灰色预测模型计量与分析
基于2014-2017年表1所示数据,为预测大学生体质发展趋势,以BMI为例,其变化未呈现出明显的指数趋势,因此采用均值GM(1,1)模型进行计量。
借助Matlab软件计算得:原始序列为X(0)=(21.139,21.034,20.482,19.908),累加得1-AGO序列
X(1)=(21.139,42.173,62.655,82.563)
计算得到参数估计值为
则对应时间的响应式为
-775.513e-0.0275i+796.742
带入上述式子可得到模拟序列
残差序列为
ε(0)=(0,-0.004,0.013,-0.005)
进而得到平均相对误差
通过上述时间响应式,即预测函数,得到2018、2019、2020级BMI预测值分别为21.038、20.468、19.913。
重复上述方法可得到其它指标的预测值及相对应的平均相对误差,如表4、表5所示:
表4 2018-2020年各体测指标预测值(男生)
从表4可以得到,身高呈现缓慢增长趋势,但幅度变化较小;体重相对下降;BMI呈现极速下滑趋势;引体向上、立定跳远、肺活量、坐位体前屈均呈现平缓上涨趋势;50m跑用时在缩短;但1000米跑用时却在逐渐变长,且变化幅度较大。
表5 2018-2020年各体测指标预测平均相对误差(男生)
从表5可以看到预测的平均相对误差中,除去坐位体前屈、立定跳远、肺活量误差稍大,精度稍低,剩余指标预测的平均相对误差较小,总体说明EGM模型是较为理想的预测体能素质发展趋势的模型。
依次类推,也可得到女生各项指标在未来三年的预测值及平均相对误差。
4 结 论
基于相关分析、回归树、均值GM(1,1)等数学模型,有效地解决了体能测试指标间关联度和预测问题,并给出了关联系数与预测方程。而且,模型呈现出误差小、精度高的特点,说明使用适当的数学模型可解决类似于体能测试等诸多实际问题。
通过实证分析可以得出:男生BMI与引体向上指标关联度最高,与50m跑关联度最低,未来三年男生平均身高增加趋缓,但平均体重却急剧减小,平均BMI下降明显,平均肺活量增大,但1000m跑却呈现明显下滑趋势;女生BMI与仰卧起坐关联度最高,未来三年女生平均身高平缓增加,平均体重也急剧减小,平均BMI略有下降,平均肺活量明显增大,800m跑成绩下滑显著。但BMI关于运动指标的函数计量模型仍有待于进一步研究。