APP下载

通过数据建模方法分析预测奥运奖牌榜

2018-03-21祝子涵

电子技术与软件工程 2018年2期
关键词:线性回归期望值

祝子涵

摘 要 本文使用线性回归等数学模型,对奖牌榜排名从历史战绩、经济实力以及东道主效应等方面进行分析,并预测2020年奥运奖牌榜。

【关键词】线性回归 奖牌榜预测 期望值

1 前言

本文首先介绍奥运会奖牌榜预测数据来源和提取方法,然后采用多种数学模型分析奥运奖牌关联性、综合国力对奥运成绩的影响以及可能影响奥运会的影响的其他因素,最后给出分析预测结论。

2 数据来源与提取方法

本文采用的世界各国在历届奥运会获得的总奖牌数及各项奖牌数由新浪体育提供,各国经济实力状况由世界银行(world bank)官网提供,提取方法采用八爪鱼采集器采用网页的自动动提取。

3 数学模型

回归分析(regression analysis)是确定两种或两种以上变量间定量关系的一种统计分析方法。按照涉及的变量的多少,分为一元回归和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。公式为:

(1)

3.1 因变量与自变量设定

以所得分数x为自变量,该国家在本届奥运会中所得奖牌总数占据本届奥运会总数百分比Y为因变量,进行回归分析。

3.2 拟合程度分析

拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(亦称确定系数)R2。R2的取值范围是[0,1]。R2的值越接近1,说明回归直线对观测值的拟合程度越好;反之越接近0,说明拟合程度越差。

4 奥运奖牌榜关联性分析

4.1 纵向讨论历史战绩对奖牌榜的影响

4.1.1 概要

历史战绩对新一届奥运奖牌榜走势有着至关重要的影响,主要利用求期望以及加权求和的方法求期望值,为该国新一届奥运会只考虑历史战绩的奖牌榜,通过一元线性回归求出期望奖牌榜与实际奖牌榜的相关度。

4.1.2 数据预处理

我们提取2004、2008、2012以及2016这四届奥运会中20个奖牌数最多的项目作为分析对象。

4.1.3 纵向讨论方法

(1) 选取2004、2008、2012三届奥运会的数据求出期望值。分别求出各国各项目三届比赛排名的平均值。

(2)将20个大项的期望值按权重相加。

权重 = 该项目三届平均奖牌数/20个大项目总奖牌三届的平均数。随后我们对各国家各项目的期望值进行加权求和,得出新一届奥运会期望的奖牌榜排名。

(3)线性回归求期望排名和实际排名的关联度。

因变量与自变量设定。

以实际成绩x为自变量,预测成绩Y为因变量,进行回归分析。我们采用历史战绩因数计算对下一届奥运会奖牌榜的影响程度。

5 综合国力对奥运成绩影响

5.1 概要

在综合国力方面主要考虑各国的经济因素、人口因素、国土面积。

(1)经济因素【economic】:用各国家GDP占近十年世界总GDP的份额来衡量经济实力。

(2)人口因素【population】:人口数量越多的国家将更有可能挖掘出更多高素质的运动员,进一步提高该国的奥运成绩,

(3)国土面积【Land】:鉴于国家国土面积限制,资源的分配不均匀,这里认为以国土大小判定资源情况。

为统一衡量标准,实行给分制,各个要素所占世界百分比n%*100即该国家在该项所得分数。

5.2 线性回归

5.2.1 因变量与自变量设定

以所得分数x为自变量,该国家在本届奥运会中所得奖牌总数占据本届奥运会总数百分比Y为因变量,进行回归分析。结果有如下几种情况:

(1)直线关系:Y=0.006X+0.0288,R2=0.6296。

(2)幂函数关系:Y=0.036^0.2842,R2=0.4055。

(3)对数函数: Y= 0.0152ln(x) + 0.0406,R2 = 0.4501。

通过以上三种函数分析,Y与X之间最可能存在线性直线关系。

5.3 问题回顾

我们将综合国力分成3个对体育比较关键部分,来代表综合国力,利用给分制,以世界整体水平为统一标准,进行回归拟合分析,得出综合国力对奥运成绩的影响;并通过拟合程度检验准确性。但该模型尚存在以下缺陷:代表综合国力因素过少,使综合国力对奖牌影响力说服性降级;迫于时间压力,选取国家过少,仅选取了2012届前十名为代表的;R?偏低,说明在数据预处理阶段做的不够好。

6 其他因素对奥运会的影响

东道主效应,是指体育比赛中主办地队伍会因为东道主的各方面优势取得出乎平常的好成绩的一种现象。历届比赛表明,东道主效应让主队获利甚多。奥运会的主办城市所在国家能取得比此前一届奥运会更好的成绩。

7 结论--预测2020年奖牌榜前十名

首先得出只考虑历史战绩影响因素的预期排名;其次得出只考虑经济实力影响因素的预期排名;再乘以各自的影响程度进行加和,最终得出的总排名如表1所示。

参考文獻

[1]线性回归定义http://baike.baidu.com/link?url=doJ1Ds9HEIZ54F_W0jZYwaAEKoGDtQ1_1NLyqush774uG19wfsJHnNTm5mdNHC-C-w7Pz70XeVF9SZXsbPY1L8O0zt56zk9cM7R35M0suwEwxpAXHwhf9lDQ6XblUG3R,2017年2月2日.

[2]新浪网:历届奥运会奖牌榜数据,http://match.2016.sina.com.cn/medals/历届奥运会奖牌榜,2017(01).

作者单位

石家庄市第二中学 河北省石家庄市 050000

猜你喜欢

线性回归期望值
基于改进数学期望值的沥青性能评价模型
基于直觉模糊期望值规划和改进粒子群算法的目标优化分配
重新审视你的期望值
民众期望值的合理边界
三角模糊型属性值的期望值比重规范化方法
大学生薪水期望值下降释放的信号