APP下载

统计与大数据

2019-01-12■杨

中学生数理化·高一版 2019年2期
关键词:年收入性质样本

■杨 静

统计到底是怎样一门学问呢?先看看我们的周围,其实有无限多的数据,所谓数据就是一系列数字的集合或者符号的集合体。我们看一些数据的个数、平均、倾向、分类等数字特征才能了解数据的性质。那么看数字特征,基本上会有一定的不确定性,比如某企业大多数都是一线员工,年收入在2万元左右,另有一些管理层次的人,年收入几十万元,此时年收入的平均数就失去了参考价值。统计学就是一个被体系化的方法论,它用来查看零散的有不确定性数据的性质,从大的数据(总体)抽取出一部分(样本),查看它的性质,推测原来的大的(总体)数据的性质(用样本的数字特征估计总体的数字特征)等。

在国外,统计工作开始于公元前3050年。埃及建造金字塔,为征收建筑费用,对全国人口进行普查和统计,到了亚里士多德时代,统计工作开始往理性演变。这时,统计在卫生、保险、国内外贸易、军事和行政管理方面的应用,都有详细的记载。

数理统计起源于人口统计、社会调查等各种描述性统计活动。公元前2070年前大禹治水时,根据山川土质,人力和物力的多寡,分全国为九州;殷周时代实行井田制,按人口分地,进行了土地与户口的统计;春秋时代常以兵车多寡论诸侯实力,可见已进行了军事调查和比较;汉代全国户口与年龄的统计数字有据可查;明初编制了黄册与鱼鳞册,黄册乃全国户口名册,鱼鳞册系全国土地图籍,绘有地形,完全具有现代统计图表的性质。可见,我国历代对统计工作非常重视,只是缺少系统研究,未形成专门的著作。

数理统计在自然科学、工程技术、管理科学及人文社会科学中得到越来越广泛和深刻的应用,其研究的内容也随着科学技术和政治、经济与社会的不断发展而逐步扩大,但概括地说可以分为两大类:(1)试验的设计和研究,即研究如何更合理更有效地获得观察资料的方法;(2)统计推断,即研究如何利用一定的资料对所关心的问题作出尽可能精确可靠的结论。当然这两部分内容有着密切的联系,在实际应用中更应前后兼顾。

由于大数据的出现,统计更加引人注目。理由很简单,就是利用统计学方法分析大数据,在计划经营战略,市场战略,开发新产品,新业务的时候取得了有效成果。经营不只是靠感觉,靠经验,靠勇气的东西了,而是根据以数据为基础的科学分析方法来进行决策。

最早应用大数据并对大数据进行收集和分析的设想来自于世界著名的管理咨询公司麦肯锡公司(M c K i n s e y)。麦肯锡公司看到了各种网络平台记录的个人海量信息具备潜在的商业价值,于是投入大量人力物力进行调研,在2011年6月发布了关于大数据的报告,该报告对大数据的影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,而后逐渐受到了各行各业关注。

维克托·迈尔-舍恩伯格和肯尼斯·克耶在其编写的《大数据时代》中提出大数据的4 V特点,即 V o l u m e(数据量大),V e l o c i t y(输入和处理速度快),V a r i e t y(数据多样性),V a l u e(价值密度低)。

当我们进入大数据时代之后,统计有了什么样的变化呢?如果我们能够分析总体的话就没有必要分析一部分的样本了。在大数据时代,最重要的是从这些庞杂的数据中,要得到那些有价值的信息。我们相信,随着科技的发展,统计和大数据将会更加深远地影响着我们的生活。

猜你喜欢

年收入性质样本
No.3 海底捞预计2021年最高亏损45亿元
随机变量的分布列性质的应用
年收入3000万美元的玩具网红
完全平方数的性质及其应用
九点圆的性质和应用
推动医改的“直销样本”
厉害了,我的性质
标准线
随机微分方程的样本Lyapunov二次型估计
最难成为1%人群的美国州