基于数据挖掘模型对2020年奥运金牌数的预测研究
2018-03-09刘龙祥
刘龙祥
(东平明湖中学 山东 泰安 271000)
1 引言
奥林匹克运动会,简称奥运会,它是竞技体育顶级盛会,引得全世界最顶尖的运动员纷纷角逐。其所获奖牌数及国家排名不仅是一个国家体育运动竞技水平的反映,也是国家经济、政治和综合实力的体现。面临即将到来的第三十二届东京奥运会,奖牌榜前十名是大家普遍关注的话题。
对于奥运会奖牌榜预测方面的研究,国内外已有一些学者对此进行了尝试。较早关于这方面的研究是以社会学和经济学角度展开的,有Ball[1]、Gimes A R等人。然而直到30年后这方面的理论研究才重新为人所关注,Shyghart[2]首度重新利用过渡形经济方法预测分析了世界各国在奥运会上取得的成绩,近来Bernard等[3]得出人口数显著影响一个国家的奥运成绩;雷桂成[4]初步提出奥运会奖牌与综合国力的密切联系;李力研[5]分析人种特征对运动成绩优劣的影响。
然而在过去的这些研究中,学者们普遍只采用了时间序列预测或者多元线性回归之一的方法,进行了单一维度的考量,却没有综合地应用多个模型进行探究。故此本文综合地应用时间序列模型和多元非线性回归模型,系统地对该问题展开研究。
2 时间序列预测模型介绍
首先讨论历届奥运会成绩和本次成绩的关系,是研究金牌数y自身的发展规律,可以通过多种现有模型或自建模型来进行预测。一般可以做时间序列分析。时间序列分析的理论基础为:设若时间序列(或随机过程)的任一元素与其前期元素(等)之间存在着某种关联,则我们可以根据该时间序列的既往观测值来预测其未来的取值。本文中应用的模型如下描述:
(1)自回归模型(AR):p阶的自回归模型简记为AP(p),指的是如下形式的随机过程:
其中为待求的参数,p是滞后期限的数据,而为白噪声,也就是满足经典计量经济模型要求的随机误差项。在本文的研究中,首先使用二阶的自回归模型建模,进行初步的预测分析。
(2)自回归移动平均模型(ARMA):该模型是将自回归过程AR与移动平均过程MA结合起来,在数学上,我们总可以把一个高阶的AR过程分解为某个低阶AR和另一个高阶AR过程之和,而这个分解出来的高阶AR又可以用一个较低阶的MA过程来替代,所以原本的随机过程可以转化为低阶AR过程和低阶MA过程之和。一般来说,ARMA(p,q)带有两个参数,其中AR(p)为p阶自回归模型,MA(q)为q阶移动平均模型。在本文的研究中,使用ARMA(1,1)作为优化的时间序列模型,做进一步求解。
3 基于奥运会历史成绩的预测分析
3.1 数据来源及模型假设
本文采用的世界各国在历届奥运会获得奖牌数据来源于中国奥委会官方网站上公布的成绩。依照国际奥林匹克委员会的官方排名榜排列,首先衡量金牌枚数的多少,银牌次之,最后对比铜牌枚数。因此笔者在这里只研究对各国家奥运会金牌数的预测。
本文中笔者将采用自回归滑动平均模型进行预测,为了模型的精确度,1988,1992年的奥运会成绩不作为预测样本数据。最终,选取1996年—2008年作为训练集(即第一组数据为1996—1992—1988),2012和2016年作为预测集。在国家选择上,选取2016里约奥运会金牌榜前三十八名的国家作为研究对象。(第28~38名并列获取两枚金牌)
假设某国家某届奥运会成绩主要与此国家在前两届奥运会中的成绩有关。虽然此论文只研究对金牌数的预测,但很明显,往届的银牌数,铜牌数也与本届的金牌数会有关联性。例如,某运动员在此届奥运会中获得银牌,那么他是有冲击金牌的潜力的,一个国家本届奥运会获得银牌甚至铜牌的人越多,此国运动员中下届可能获得金牌的人就越多。因此,选取前两届的金牌数,银牌数,铜牌数作为特征。同时由于历届奥运会设置的项目数不同,每届奥运会的金、银、铜牌数也不相同。因此,将奖牌数全部换算为所占百分比。
3.2 模型的优化及ARMA(1,1)模型的建立
通过AR(2)模型的求解和验证,发现第t届的金牌比例,主要受上一届金银铜牌比例及上上届金牌比例的影响。在此基础上,建立更加完善的ARMA(1,1)模型,并利用MATLAB进行求解。以2012年和2016年的奥运会金牌数量作为测试集,可以得到如下结果:
(1)2012年的预测结果序列与真实金牌序列的相关系数为0.96422,均方误差为10.89382;
(2)2016年的预测结果序列与真实金牌序列的相关系数为0.98327,均方误差为6.38375。
4 对奥运成绩影响因素的分析及建模
4.1 国家综合实力因素分析
根据以往的学者研究发现,国家综合实力明显影响奥运会成绩。一般来说,国家综合实力强的国家普遍比综合实力弱的国家在奥运会上取得的成绩更好。这里,笔者尝试用多元非线性回归来探究它们之间的定量关系。假设国家综合实力可以由以下几个方面反映
4.1.1 经济水平 国内生产总值(GDP=Gross Domestic Product)是指一个国家(国界范围内)所有常驻单位在一定时期内生产的所有最终产品和劳务的市场价值。GDP是国民经济核算的核心指标,也是衡量一个国家或地区总体经济状况重要指标。
4.1.2 工业发展水平 衡量一个国家基础工业发展水平的重要标志是钢铁工业,因此选用年钢产量来衡量。通常用来衡量一个国家的石油化学工业发展水平的标志是乙烯的产量,因此选用年乙烯的产量来衡量。
4.1.3 科技水平 以各国每年发表的科技期刊文章数量作为一个国家科技发展水平的衡量标准。
4.1.4 国土 国土越广阔,一般来说,蕴含的各种自然资源就越丰富。国土面积的大小是区分大国小国的主要尺度。可以说国土是一个国家强弱的天然条件。
4.1.5 人口 一个国家的人口越多,它的劳动力越多。人口数量的多少必定会影响国家的实力。人口越多,潜在的优秀运动员数量越多,从而影响金牌的数量。
4.1.6 基础设施 随着时代的发展,互联网(包括电脑,手机等上网工具)已经成为一些发展水平较高的国家国民的生活必备。选取每一百人中互联网用户数量来衡量一个国家基础设施的完备水平。
4.2 除国家综合实力外的其他重要影响因素
4.2.1 医疗水平 好的医疗水平可有效降低运动员伤病对其造成的不可逆的影响,以及指导运动员以科学合理的方式进行训练。以婴儿死亡率来衡量医疗水平。
4.2.2 东道主效应与次场效应 东道主国家对饮食、气候、场地、环境都非常适应,且东道主国家在观众支持程度上有明显优势。
4.2.3 国家体制 社会主义国家与资本主义国家的政府号召力、对国家资源的整合能力不同,以至于对奥运成绩有所影响。用虚拟变量Socialism表示,当国家为社会主义国家,Socialism=1,否则Socialism=0。
4.2.4 人种与文化传统 不同的人种体能不同,在不同的运动项目上各有优势。而不同的文化传统导致各国对体育的重视程度不同。
4.3 数据来源及预处理
本文使用到的数据均来自世界银行。包括总GDP,人均GDP,人均能源使用量,各国每年发表的科技期刊文章数量,国土面积,人口数,每一百人中互联网用户数量。
5 对2020年的奥运会成绩进行预测
综合以上两章的模型,在此建立一个更加综合的预测模型,即考虑往期奥运会成绩的因素,又考虑国家综合实力等方面的五大因素,将模型综合描述为:
将38个国家的数据进行训练,对2020年的奥运成绩做出预测,最终得到预测结果见表1。
总结前文内容,本文先利用时间序列预测的方法,使用自回归模型和ARMA模型进行预测,之后利用多元非线性回归模型,对奖牌的诸多影响因素进行了考量。能够看出,国家的经济发展、工业发展和人口数量的提高,都对奖牌的取得有着正面的促进作用;同时奥运会的成绩中,东道主的主场优势不可忽略,社会主义制度本身也会对该国在奥运会中的表现有着促进作用。
表1 2020年奥运会金牌榜预测结果
[1] Ball Donald W.Olympic Games Competition:Structural Correlates ofNational Success[J].International Journal of Comparative Sociologu,1972,12:86- 200.
[2] Grimes A Ray,William J.Kelly,Paul H,Rubin. A Socioeconomic Modelof National Olympic Performance[J].Social Science Quarterly,1974,55,777-782.
[3] Levine Ned.Why Do Countries Win Olympic Medals? Some Structural Correlates of Olympic Games Success:1972[J].Sociology and SocialResearch,1974,58:353- 360.
[4]蔺银萍,王建军.运用时间序列法预测2008 年奥运会奖牌数[J].南京体育学院学报,2007,6(1):31- 32.
[5]范珣,齐辉.运用趋势直线外推法预测2008 年奥运会中国获奖牌数[J].辽宁体育科技,2007,29(4):57- 58.