APP下载

基于GA和回归分析的奥运会成绩预测研究

2011-03-06王国凡刘徐军丰淑慧薛二剑

中国体育科技 2011年1期
关键词:适应度染色体实力

王国凡,赵 武,刘徐军,丰淑慧,薛二剑,陈 林,王 波

1 引言

目前,奥运会成绩预测方法主要有时间序列模型、以计量经济学原理建立的经验模型和神经网络模型。其中,基于计量经济学原理建立的回归分析模型能综合分析奥运会成绩的影响因素,为定量预测奥运会成绩提供了依据,也最受广大学者关注[8]。经笔者研究发现,单纯运用经济学原理提出的预测模型可能适合一个或若干个国家,但把它应用到所有国家是缺乏依据的,其预测结果也往往不能令人满意[9]。为此,本研究提出了一种将遗传算法(Genetic Algorithm,简称 GA)、竞技体育实力评估和回归分析有机结合的预测方法。基于 GA对竞技体育实力进行动态优化且实现有监督评估,在此基础上,依据回归分析建立奥运会成绩预测模型。计算结果表明,该模型是一种较高精度的预测方法。

2 预测模型分析

关于奥运会成绩预测模型的研究目前主要可归纳为基于时间序列预测模型、经验模型及神经网络模型。时间序列预测模型由于没有考虑其他任何影响因素,预测结果偶然性大[8];神经网络预测模型虽优于多元线性回归模型[13],但神经网络模型容易陷入局部最优和“黑箱”式学习模式等缺陷;基于计量经济学原理建立的经验模型是当前国内、外研究的热点。奥运会成绩预测的计量经济学模型是基于计量经济学原理研究体育问题,根据影响因素集建立的经验模型。较早关于这方面的研究成果有 Ball (1972)[11]、Grimes A Ray等 (1974)[15]和 Levine N (1974)[16],即根据国家性质与经济水平等因素集研究对国家在奥运会竞赛中成绩的影响。随后的研究案例中,由Bernard与Busse(2004)[12]提出利用柯布—道格拉斯生产函数建立了奖牌数分部的多元非线性模型:

式中:

Me表示第i个国家在当届奥运会取得的奖牌数(medalsi)与当届奥运会总奖牌数(∑imedalsi)的比值。

(1)式中,t为时间趋势;POP为当年参赛国人口数; PGDP为当年参赛国人均 GDP;Home为虚拟变量,Home=1表示奥运会主办国,Home=0表示非主办国;P为虚拟变量,P=1为社会主义国家,P=0为资本主义国家;β0为常数;βj(j=1,…,5)为各解释变量的系数。

此后,更多人们的目光聚集到该研究上,也使奥运会成绩预测一直为研究热点[14]。王国凡等人(2010)[9]指出,传统模型的缺陷在于:单纯运用经济学原理建立的预测模型可能适合一个或若干个国家,但把它应用到所有国家是缺乏依据的,提出参赛国的竞技体育实力对奥运会成绩存在重要的影响,并以此为依据,在以Bernard与Busse的模型基础上,建立了基于竞技体育实力评估的多元非线性模型:

式中:C为参赛国竞技体育实力等级,其他参数与式(1)、(2)相同;各个国家的竞技体育实力等级C是利用聚类分析获得的。研究结果表明,此方法比传统的回归分析预测精度高,具有较高的可行性。

从模型(3)可以发现,参赛国竞技体育实力评估是该预测研究的重点也是难点。但现有的关于竞技体育实力评估均是无监督聚类方法[1-4,6],此方法的缺陷在于利用什么的数据集作为聚类分析、选择何种聚类分析方法、金牌与奖牌数评估是否等同、聚类数为多少等确定非常困难,往往只能根据经验估计确定,这些凭主观估值的方法必将带来算法精确度的下降。

考虑到以上案例存在的缺陷,笔者考虑使用 GA对竞技体育实力进行监督评估,GA将目标函数转化为基因组群,以适应度函数为优化目标,通过基因操作得到下一代优化基因组合,如此反复迭代,直到满足最优收敛目标为止。

3 基于 GA的有监督竞技体育实力评估

3.1 GA优化竞技体育实力评估总描述

GA能得以广泛应用的一个重要原因,是它的全局收敛性,由于 GA群体的多样性,使其尽可能在全方向上搜索,这比以往的梯度法只在单方向上搜索有很大改进,而且 GA在优化问题上无需有连续性和可微性的限制[17]。最终可实现竞技体育实力等级评估的动态优化,在此基础上,依据竞技体育实力的多元非线性模型进行预测,保证了预测精度高、客观性强。

本研究提出的基于 GA优化竞技体育实力评估的预测模型流程如图1所示:

图1 预测模型算法流程图

GA是以拟合优度 R2来评价竞技体育实力评估的好坏及预测精度,并将此目标函数转化为适应度函数。算法开始先随机产生群体,群体中的每组染色体代表参赛国的竞技体育实力等级,根据适应度函数对每1组染色体进行评价,得到相应的适应度值,染色体的适应度越大,则染色体所代表的竞技体育实力评估得到了优化且预测效果越好。根据适应值可以算出每一条染色体在选择操作中被选中的概率。根据选择概率,选择使用随机遍历抽样法选出一群染色体,构成新种群。根据交叉概率,选择染色体进行 GA交叉操作,最后根据变异概率,对染色体上部分基因位进行变异操作,该操作使得在整个搜索过程中染色体代表的竞技体育实力等级集具有多样性,对竞技体育实力起到了优化作用,从而保证能够找到最优解。算法的结束条件是设置一个最大迭代次数 Epochmax,方能保证 GA在结束条件达到以后求得的解是最优解。

3.2 染色体编码方案

编码是 GA求解问题的前提,本研究对竞技体育实力等级采用整数型编码。在进行染色体编码前,首先,应确定所有参赛国竞技体育实力等级数 C值的范围[Cmin, Cmax]。一般情况下,最佳的聚类数不会超过 Cmax≤(N为数据集总数)[10],因而,C的取值范围可以设定为[2,]。

每条染色体所代表的是参赛国竞技体育实力等级集,染色体长度就是参赛国家数,染色体中的基因表示竞技体育实力等级,具有相同基因表示竞技体育实力等级为同一类。在C的取值范围内取一个整数k,表示该集合中参赛国含有k个竞技体育实力等级,染色体可表示为:

染色体:[Z1,Z2,Z3,…,ZN],0≤Zi≤k-1,且Zi为整数。

例如,在本研究中选取N=62个参赛国家作为研究对象(表3),故最佳竞技体育实力等级数为2≤C≤8,若k= 6,那么,染色体编码为:

3.3 适应度函数

根据染色体的编码,将此编码转换为虚拟变量,为了避免“虚拟变量陷阱”,利用k-1个虚拟变量D1,D2,…,D(k-1)分别表示k个类别(如表1所示),根据模型(3)进行多元非线性回归分析,将回归模型拟合优度R2转化为如(4)所示的目标函数:

式中:yi为观测值,^yi为拟合值,为均值[18]。

表1 参赛国竞技体育实力等级的虚拟变量设定一览表

适应度函数通常是用于转换目标函数值为相对适应度值。为了防止过早收敛,可根据目标函数值在种群中的排序计算适应度值。根据个体的目标函数值obj由小到大的顺序进行排序,根据排序的序号,给每一个等级的个体一个适应度值,具有相同排序的非支配解分配相同的适应度值,适应度值按式(5)计算出:

式中:MAX表示选择压差,一般为[1,2]之间;xi是个体i在有序种群中的位置;Nid为种群数;FinV(i)表示i位置上个体的适应度值。本研究中选择压差设定为MAX=2。

由于R2值越高,预测越准[5],那么,适应度函数对于最终预测结果好的染色体给予一个较高的适应值;反之,预测精度效果不好的染色体给予一个较低的适应值。利用 GA对预测进行优化时其实质就是要使拟合优度R2优化。

3.4 选择算子

选择算子是确定如何从父代群体中根据设定的代沟GGAP选出一定数目的优良个体遗传到下一代群体中的一种 GA,为了提高全局收敛性和计算效率,选择方法采用随机遍历抽样(SUS)。SUS是具有零偏差和最小个体扩展的单状态抽样算法,替代用于轮盘方法的单个选择指针, SUS使用S个相等距离的指针,这里S是指要求选择的个数。种群被随机排列,S个指针[ptr,ptr+1,ptr+2,…,ptr+S-1]确定S个个体,指针ptr+i(i=0,1,…,S-1)由在[1/S,i+1/S]内产生的随机数确定。

假定从10个个体中选择S=6个个体且第一个指针的随机位置为0.04(图2),那么,指针间的距离为1/6= 0.17,故可根据指针ptr的位置和累计概率区间即可确定被选中的个体为:1,2,3,4,7,8。

图2 随机遍历抽样示意图

3.5 变异算子

采用均匀变异(Simple Mutation),其操作是指分别用符合某一范围内均匀分布的随机数,以某一较小的概率来替换个体编码串中各个基因座上的原有基因值,即对父代个体依变异概率Pm进行操作,目的是防止过早收敛产生局部最优解而非整体最优解。

均匀变异的具体操作过程是:

1.依次指定个体编码串中的每个基因座为变异点;

2.对每一个变异点,以变异概率Pm从对应基因的取值范围内取一随机数来替代原有值。

3.6 交叉算子

采用单点交叉,是指在个体编码串中只随机设置一个交叉点,然后,在该点相互交换两个配对个体的部分染色体。这里首先对群体中的个体随机设定一个交叉位置,根据交叉概率Pc进行操作,对两个相互配对的染色体在交叉位置按单点交叉相互交换其部分基因,通过交换产生新一代群体。图3为单点交叉运算的示意图。

单点交叉的具体执行过程:

1.对个体进行两两随机配对,若群体大小为M,则共有[M/2]对相互配对的个体组;

2.对每一对相互配对的个体,随机设置某一基因座之后的位置为交叉点,若染色体的长度为N,则共有N-1个可能的交叉点位置;

3.对每一对相互配对的个体,依设定的交叉概率Pc在其交叉点处相互交换两个个体的部分染色体,从而产生出两个新的个体。

图3 单点交叉运算示意图

4 预测能力评价指标

为了评价预测精度及模型优劣,本研究引入以下几种误差:

1.均方根误差:

2.平均绝对百分比误差:

3.平均绝对误差:

4.Pearson相关系数:

式(6)~(9)中:yi,^yi分别为实际值和预测值。

5 应用实例及结果分析

本研究所采用的数据来源同文献[9],利用1992—2004年奥运会实际数据为样本数据,选取62个国家(地区)作为研究对象,以2008年北京奥运会成绩检验预测模型的效果。

实现算法的软件为MATLAB软件,GA的各控制参数设置为:初始种群数M=50;染色体长度为N=62;交叉率Pc=0.7;变异率Pm=0.01;代沟为GGAP=0.9。

5.1 竞技体育实力等级数确定

为了比较竞技体育实力等级数对多元回归模型的影响,采用 GA优化多元回归非线性模型计算出竞技体育实力等级个数C范围内所有最优拟合优度R2,计算结果如图4所示。

从图4中可以看出,对于奖牌数预测,竞技体育实力等级个数为C=7时,拟合优度R2最大,即参赛国(地区)获奖牌数的最优竞技体育实力等级应分为7类;对于金牌数预测,竞技体育实力等级C=4时,拟合优度R2最大,即参赛国(地区)获金牌数的最优竞技体育实力等级应分为4类。

5.2 预测结果

根据上述分析,将参赛国(地区)奖牌数预测模型的竞技体育实力等级数设为7;金牌预测模型竞技体育实力等级数设为4,对样本数据进行回归分析(表2)。

图4 竞技体育实力等级数与拟合优度R2的关系示意图

表2 1992—2004年间奥运会奖牌与金牌占有率回归结果一览表

根据表2的结果,可对2008年北京奥运会奖牌数、金牌数进行预测(表3)。

最后,分别计算文献[9]的预测结果与本研究提出预测结果的预测能力评价指标(表4)。

从表4中可以看出,本研究提出的预测模型在对奖牌预测能力方面有明显优势;在对金牌预测结果中除MAE指标略小,其他指标均优于前者。

从表4中可以发现,对于FCM-regression模型,由于基于无监督模糊C均值聚类的竞技体育实力评估难以客观地描述,从而对参赛国(地区)竞技体育实力有效优化组合能力有限,其预测能力自然无法保证,使得预测精确度相对较低。

对于本研究所提出的 GA-regression模型通过 GA可实现对参赛国(地区)竞技体育实力等级进行监督计算,能动态挖掘最优竞技体育实力评估,使得基于竞技体育实力的预测模型达到最优化。同时,降低了预测模型的主观性,在奖牌、金牌数预测中精度更高、稳定性更好。

表3 各个国家(地区)奖牌数、金牌数和竞技体育实力归类结果一览表

表4 两种模型预测统计指标结果一览表

6 结论

1.本文提出的 GA-regression模型

通过 GA可实现对参赛国(地区)竞技体育实力等级进行有效监督计算,能动态挖掘最优竞技体育实力评估,使得基于竞技体育实力的预测模型(3)达到最优化。同时,提高了预测模型的客观性,在奖牌(金牌)数预测中精度高、稳定性好。

2.采用 GA优化多元回归非线性模型,能够计算得出奥运会参赛国(地区)竞技体育实力等级数。在参赛国(地区)奖牌数预测中,其竞技体育实力等级数为7;在参赛国(地区)金牌数预测中,其竞技体育实力等级数为4。

[1]白海波,郭权.我国与奥运强国竞技体育实力的比较研究[J].沈阳体育学院学报,2004,23(2):163-117.

[2]鲍勇,刘新刚,刘伟.应对第11届全运会我国主要省(市)区域竞技实力分析[J].北京体育大学学报,2009,32(2):127-128.

[3]陈绍艳,杨风华.奥运会对承办国竞技体育实力的影响[J].体育学刊,2006,13(4):119-121.

[4]高鸿辉.我国全运会田径竞技实力各等级区域构成的动态演变研究[J].西安体育学院学报,2009,26(1):86-91.

[5]古扎拉蒂.计量经济学[M].林少宫译.北京:中国人民大学出版社,2000:333.

[6]雷英杰,张善文,李续武,等.MA TLAB遗传算法工具箱及应用[M].西安:西安电子科技大学出版,2005.

[7]李真.中国竞技体育实力的地区格局分布与对比分析——对十运会排行榜的分析[J].北京体育大学学报,2006,29(8):1137-1139.

[8]王国凡,唐学峰.奥运会奖牌预测国内、外研究动态及发展趋势[J].中国体育科技,2009,45(6):3-7.

[9]王国凡,薛二剑,唐学峰.对大型国际综合性运动会奖牌数的预测研究——以北京奥运会为例[J].天津体育学院学报,2010,25 (1):86-90.

[10]于剑,程乾生.模糊聚类方法中的最佳聚类数的搜索范围[J].中国科学E辑,2002,32(2):274-280.

[11]BALL,DONALD W.Olympic games competition:structural correlates of national success[J].Int JComparative Soc,1972, 12:186-200.

[12]BERNARD,ANDREW B,M EGHAN R BUSSE.W ho w ins the olympic games:economic resources and medals totals[J].Rev Eco Statistics,2004,86(1):413-417.

[13]CONDON E M,GOLDEN B L,WASIL E A.Predicting the success of nations at the summer olympics using neural netwo rks[J].Computer Operations Res,1999,26:1243-1265.

[14]FORREST,DAV ID,SANZ,ISMAEL,TENA J D.Forecasting national team medal totals at the summer Olympic games[J]. Int J Forecasting,2010,26:576-588.

[15]GRIMES,A RA Y,W ILL IAM J KELLY,etal.A socioeconomic model of national Olympic performance[J].Soc Sci Q,1974, 55:777-782.

[16]LEV INE NED.Why do countries win olympic medals?some structural co rrelates of olympic games success:1972[J].Sociology Social Res,1974,58:353-360.

[17]LUCB,STEFAN S.Genetic algorithms:theory and application [J].J A,1997,38(2):13-23.

[18]Samp rit Chatterjee,A li S Hadi,Bertram Price.例解回归分析(第3版)[M].郑明,徐勤丰,胡瑾瑾译.北京:中国统计出版社,2004.

猜你喜欢

适应度染色体实力
改进的自适应复制、交叉和突变遗传算法
实力抢镜
多一条X染色体,寿命会更长
为什么男性要有一条X染色体?
王晓晨:逆袭靠实力
提升文化软实力是当务之急
启发式搜索算法进行乐曲编辑的基本原理分析
场上拼实力,场下拼表情,就这么拼了
真假三体的遗传题题型探析
能忍的人寿命长