基于非线性回归和BP神经网络的奥运会奖牌预测模型
2018-01-02王诗语青岛经济技术开发区第一中学山东青岛266580
□ 王诗语(青岛经济技术开发区第一中学 山东 青岛 266580)
基于非线性回归和BP神经网络的奥运会奖牌预测模型
□ 王诗语(青岛经济技术开发区第一中学 山东 青岛 266580)
本文通过考察各国上一届奖牌数、总人口、人均GDP、社会制度和东道主等5个因素对奥运奖牌获得能力的影响,并建立多元非线性回归模型,经参数优化获得最佳预测模型。同时在这些分类汇总数据的基础上,建立BP神经网络预测模型,最后实现对2020年东京奥运会奖牌榜前十位的预测。
奥运奖牌预测 多元非线性回归 人工神经网络
引言
2016年8月,第三十一届夏季奥林匹克运动在巴西里约热内卢成功举行,中国代表队取得了金牌第三,奖牌榜第二的好成绩。奥运会期间,奖牌榜排名成为人们关注的焦点,而在奥运会开赛之前,很多数学家、经济学家以及体育数据统计公司纷纷推出各自预测模型和虚拟奖牌榜。
达特茅斯大学塔克商学院的研究者发布了一份关于2016年里约奥运会各代表团夺金、银牌数的预测报告,其在Bernard-Busse模型的基础上并根据国家(或地区)人口、财富的相对水平、历届奥运会表现和主办国的加成实现奖牌榜预测。而国内在奥运奖牌预测领域也有着广泛的研究,董琦等采用支持向量机非线性扩展样本对时间序列模型定阶,通过分析新样本加入训练集后支持向量集变化的情况,从而构建一种支持向量机的奥运金牌预测的模型。该模型的预测效果和传统时间序列模型预测相比,具有主观度低,预测精度高,预测稳定性更好的优点。郭爱民等基于灰色理论预测里约奥运会金牌榜次序,张玉华等基于线性回归动态模型对里约奥运会奖牌数进行预测。通过对2020年东京奥运会奖牌的科学预测,可以提高各项体育工作的预见性,促进训练工作的科学化。
1、多元非线性回归预测模型
1.1、数据来源及预处理
在 Wikipedia(维基百科)All-time Olympic Games medal table词条下,获取到历届奥运会的奖牌数据,用VLOOKUP函数进行奖牌数据的分类整理,从世界银行数据库获得各国历年的总人口数和人均GDP数据,而对数量级较大的数据需进行对数处理。
1.2、模型建立
首先将上述分类汇总后奥运奖牌数据整理成时间序列形式,通过自回归分析来求解模型参数。再根据回归分析结果中R2(拟合优度)、SSE(残差平方和)Significance F、P value(显著性水平)等参数以及通过测试集获得的ρ(相关系数)和MSE(均方差)两个指标进行权衡,对预测模型进一步的调优。
利用Microsoft Excel软件进行回归分析,建立模型如式1所示。
式中A为各国获得奖牌的能力(奖牌数占总奖牌数的比例),A0为各国获得奖牌的能力,b为截距,P为总人口,G为人均GDP,S为社会制度,H为东道主,其中 S和 H均采用虚拟变量(0,1),P和G均取对数形式。
1.3、模型参数优化
首先根据自回归分析的结果分析:从表1,可以看出log(G)和S的P-value值都远大于0.05,log(P)的P-value值小于 0.05但大于0.01,拟合优度R2的值为0.9313,结果不够理想。
表1 自回归分析结果Table1 The results of autoregressive analysis
因此,通过减少相关性弱的模型参数来考察模型预测性能的变化,结果如下表2。
表2 模型变量的增减对模型性能的影响Table2 The effect of model variables on model performance
从上表可以看出,舍弃变量log(G)、log(P)和S后,模型性能测试的相关系模型性能测试的相关系数略增大,均方差略增大。
由于选取是排名前30位的国家,人均GDP水平和奥运奖牌获得能力相关性不好(相关系数0.23),相比之下,总人口和奥运金(奖)牌获得能力相关性较好(相关系数0.65),同时随着全球化的趋势,社会制度对奥运夺金(奖)能力影响日益减小,而且排名前三十的国家仅有两个社会主义国家,因此从模型的稳定性和拓展性上,考虑舍弃变量log(G)、S,保留变量log(P)。
1.4、模型预测结果
经过参数优化后的预测模型如式1-2所示:
在模型参数方面,选用上一届获金(奖)牌数据,总人口数、人均GDP、社会制度和东道主来衡量各个因素对金(奖)牌总数的影响,经过模型参数的优化,舍弃了人均GDP、社会制度两个参数,整体预测效果良好。
图1 模型预测结果Fig1 The results of model prediction
从预测结果来看,里约奥运会上,中国显然没有取得预期的成绩,俄罗斯由于禁赛事件,也未能达到预期,第十三位的巴西充分发挥东道主的优势,取得了高于预期的成绩。
2、人工神经网络模型预测模型
2.1、概述
人工神经网络作为一种智能算法,它对于那些变量之间相互关系不清楚,很难用简单的线性或非线性数学模型进行描述的复杂问题,具有独特的优越性,且有容易扩充的优点。
BP神经网络模型拓扑结构包括输入层、隐层和输出层,如图2所示。该BP网络采用训练方法是动量的梯度下降法。
图2 BP神经网络模型Fig2 BP neural network model
2.2、模型建立
(1)数据预处理。
主要包括的样本数据的采集、分析和预处理。将汇总的120组数据随机分为训练集和预测集两组,同时为了提高神经网络的训练效率,需要对原始数据进行归一化处理,使数值分布在[0,1]的区间上。
(2)网络的创建。
将上一届获奖牌能力、总人口、人均GDP、社会制度和东道主等五个变量作为输入变量,将本届获金(奖)牌能力作为输出变量,隐层神经元数为4,确定包括网络层数的确定、网络神经元数确定、传递函数选取Sigmoid函数中的tansig函数、初始权值以取[0,l]之间的随机数、学习率为0.1等。构建一个5-4-1型的三层BP神经网络。
(3)网络的训练。
采用训练集数据,对网络进行训练,训练函数选为traingdm,动量因子设为0.9,最大迭代次数设为5000,最大迭代误差为0.0001。
(4)网络的测试。
训练完成后,调用sim函数对预测集数据进行仿真预测,得到预测结果与实验值的误差情况,考察网络的精度。进行多次训练,根据测试集结果的相关系数和均方差选择一个最优的网络保存并作为预测模型使用。部分测试结果如下表3所示:
表3 BP网络模型测试结果Table3 Test results from BP net model
2.3、模型测试结果
经过训练,选择最优的BP网络进行预测,测试结果如图3所示。
图3 BP网络模型预测结果Fig3 The results of BP net model prediction
人工神经网络预测模型能够充分逼近复杂的非线性关系,快速进行大量运算,预测的精度也较高,适合作为奥运奖牌预测的模型。从预测结果来看,和多元非线性回归模型获得的信息基本一致。
3、2020年东京奥运会奖牌榜预测
为了实现对2020年奥运会奖牌的预测,现从世界银行数据库获得2013-2015年的人口增长率和人均GDP增长率,计算平均值作为从2015-2020间的平均增长率,最终获得2020年的总人口、人均GDP等数据,加上里约奥运奖牌数据,代入到式2中,并将结果转化成2020年奖牌的预测值,汇总后如表4所示:
表4 多元非线性回归模型预测奥运奖牌榜Table4 Olympic Medal standings from multivariate nonlinear regression model
以BP网络模型对2020年奥运会各国获奖牌能力进行预测,再将结果转化为2020年各国的奖牌数据,并进行排名,结果如表5所示。
表5 BP网络模型预测奥运奖牌榜Table5 Olympic Medal standings from BP net model
4、结论
利用多元非线性回归模型和人工神经网络模型对2020年东京奥运会的奖牌榜前十名进行预测。
从模型的评价来看,多元非线性回归模型和人工神经网络预测模型都适合作为奥运奖牌预测的模型,其中前者在预测精度方面表现更好,后者在建模时间和运算效率上占优,两者均有不错的提升空间和拓展能力。
从2020年东京奥运会奖牌榜的前十位的情况来看,日本由于是东道主,奥运会成绩会有显著的提升,美国、中国和英国依旧是三甲的有力竞争者,俄罗斯由于此次的禁赛事件的影响,预期成绩有所下降,韩国由于在跆拳道和射箭项目上的强势表现,成绩稳定前十。
[1]Bernard A B,Busse M R.Who Wins the Olympic Games:Economic Resources and Medal Totals[J].Review of Economics&Statistics,2006,86(1).
[2]董琦,高峰.利用支持向量机方法预测2016年里约奥运会中国奖牌数目[J].运动,2016(3).
[3]张玉华.基于线性回归动态模型的中国第31届奥运会奖牌数预测[J].河南师范大学学报(自然科学版),2013,(02).
[4]郭爱民,赵明发.基于灰色理论预测2016年夏季奥运会金牌榜次序[J].中国科技信息,2013(9).
[5]毛健,赵红东,姚婧婧.人工神经网络的发展及应用[J].电子设计工程,2011,(24).
G80
A
1006-8902-(2017)-12-ZL