大数据时代下统计学有何意义
2020-04-10王子鉴
王子鉴
摘 要:通过探讨大数据时代背景下大数据与统计学之间的关系,并分别从概念与应用角度选取不同的案例对两者进行对比,发现大数据时代给统计学带来了发展空间的同时,也使得统计学受到了不小的挑战。如何把握这一发展契机以及如何应对这一挑战在当今已变得十分重要。在大数据时代下,统计学究竟有什么意义与价值是一个很值得思考的问题。
关键词:统计学;大数据时代;数据分析
中图分类号:F202 文献标志码:A 文章编号:1673-291X(2020)08-0155-03
引言
“大數据”这个词想必大家都很熟悉,因为它已经成为当代的最热门的词汇之一。我们身边许许多多发生着的事情被记录着,这些都成为了“大数据”的一部分;我们自身也被“大数据”所包围着。那么说到“大数据”,我们首先需要探讨一下什么是数据。我们常见的阿拉伯数字是数据吗?我们所看到的图片、声音是数据吗?大数据也是数据吗?其实这些都属于数据,而数据真正的含义远不止这些,各种数字符号、字母的组合、语音、图像、图形等都可以称为数据。数据可以分为连续型数据以及离散数据。而在计算机系统中,数据是以0,1这种二进制进行表示与储存的。我们也可以将数据理解为一种信息载体,记录着某种信息,可以利用它们进行分析,得出有用的结论。
在了解完“数据”的概念后,对于“大数据”这一概念应该就不难理解了。“大数据”的出现可以追溯到Apache的一个开源项目Nutch。那时大数据仅仅是用来描述海量的数据,随着谷歌MapReduce的发布,大数据不仅仅用来描述数据的量,还涵盖了处理数据的速度。随着互联网技术的发展,世界上各种工业电子设备都被装载了数码传感器,可以记录各式各样的时空信息,产生了大量的数据信息,“大数据时代”也因此而到来。据统计,互联网上每年的数据增长率都呈指数上升的,每两年数据量便可翻一番,世界上90%以上的数据都是近几年所产生出来的。“大数据”也可被定义为承载了巨大的信息量数据,在一定时间内其很难被常规软件所获取与处理的数据集合。其具有五大特点:大量、高速、多样、真实、低价值密度。“大数据”真正的意义并不是我们掌握了多么庞大的数据体量,而是在于我们如何通过处理这些数据得出有价值的结论,通过对数据的加工处理实现数据自身的“增值”。
一、统计学的意义
“统计”可以追溯到人类早期的计数活动,虽然其起源很早,但一直停留在统计实验阶段,并没有人将其科学地进行定义,上升至理论科学层面。直到概率论的出现,统计研究才因此变得更加深入。法国数学家拉普拉斯最早将古典概率论与统计进行了融合,因此才有了“统计学”这一概念的产生。
随着统计学的不断发展,这一学科的科学性得到充分体现,应用也已变得越来越广泛。理解并掌握一些常用的统计学知识对于大众来说已变得十分必要。其实我们身边遇到的很多事情多多少少都可以统计学的方法和思维进行解决,比如预测天气、选择股票等等。从科学的角度,统计学目前已经被列为了一级学科,这一点足以看出其对当代社会的重要程度。
了解完统计学的发展史,接下来我们可以给统计学下个定义了。统计学可以被认为是处理数据的一门科学,具体来说是收集、处理、分析、解释数据并从数据中得出结论的科学。统计研究的对象就是来自各个领域的数据,而数据分析就是利用合适的统计方法对数据进行研究,从数据中挖掘出有用的信息。统计学的方法主要可以分为描述统计和推断统计。描述统计是将数据进行汇总,利用图表进行概括分析;推断统计则是利用样本数据推断总体特征。
二、统计数据不仅仅是大数据
统计学是一门古老的学科,至今已经有300多年的历史了,无论在政府决策还是经济预测都起到了举足轻重的作用,在社会科学与自然科学中都保有较高的地位。但随着“大数据”的产生以及“大数据时代”的到来,统计学面临着严重的挑战。有些人已经怀疑,在大数据时代是否还需要基于抽样设计的统计学?他们认为,现在的计算机科学已经足够发达,可以借助各种渠道与媒介收集大量的数据信息,如果我们可以将全部数据收集到,那么统计学是否已变得不再重要了呢?事实确实如此吗?的确,大数据时代的到来给统计学带来发展机遇的同时也带来了不小的挑战,但其实这两种科学是相辅相成的,统计学在当今这个大数据时代仍起到了极为重要的作用。
(一)统计学是收集数据的艺术
我们说统计学是一门收集数据的艺术,那么艺术性究竟体现在哪里呢?让我们利用一个实验来进行分析。
早在17世纪初,英国海军由于长时间在海上作业,经常会患有坏血病。这种病的症状是皮肤上出现灰色的斑点,以及牙龈大量出血。他们试图找出患病原因,发现可能是由于缺乏柑橘类水果所引发的。为了验证这一想法,英国海军做了一个实验。恰好那时有四艘海军军舰要离开英国在海上做长期航行,海军部的实验人员安排其中一艘军舰上的海军每天喝柑橘汁,而其他三艘军舰则未供应柑橘汁。还未等到航行结束,三艘没有喝柑橘汁船上的海军就成批的出现坏血病,而每天喝柑橘汁的海军们则几乎没有患病。
在这项实验中我们不难发现,实验人员利用了统计学收集数据的方法设置了实验组和对照组,每天喝柑橘汁的海军与未喝柑橘汁的海军被分别定义为实验组和对照组,进而形成对比。如果在实验中未安排对照组,则无法断定柑橘汁这一因素对坏血病发病的影响。设计一个好的实验都需要安排一个实验组以及多个对照组。
但若仔细分析上述实验设计,仍存在一些不足之处。主要体现在以下两点:(1)由于四艘军舰航行路线并不相同,导致实验组和对照组所处的外部环境有差异,应该在每一艘军舰上都安排每天喝柑橘汁和不喝柑橘汁的海员,这样就排除了军舰与外部环境的影响。(2)各个海员的身体条件不一定相同,所以实验者应该随机的安排在各艘军舰上,这样同一艘军舰上健康与不健康的海员数量相差不大,可以排除海员身体情况的差异,使得实验结果更加令人信服。
想要设计一个好的实验并不是件容易的事情,特别在搜集数据方面。实验组和对照组的产生要是完全随机的,并在相同的条件背景下进行实验。例如,在收集一种新药或者新疗法是否有效的数据过程中,可以先将实验对象按照年龄、性别、身体条件等因素进行相应的分组,并将分组结果分别对患者与医生保密,构成一种双盲法实验。这样才会使得收集数据的结果更加准确与可信。由此不难看出统计学是一门收集数据的艺术。
(二)统计学是分析数据的艺术
通过设计严谨科学的数据收集方案并实施后,我们获得了为研究某一问题所需的数据。但仅仅拥有这些数据是远远不够的,我们很难从纷繁复杂的数据中直接找到有价值的信息,所以还需要对收集上来的数据进行数据分析以获得有用的信息。
在数据分析中,我们首先需要明确两个概念:相关与因果。之所以说到这两个概念,是因為人们常常会混淆这两个概念。尤其在当今这个大数据时代,我们可以收集到海量的数据,相关关系似乎已经代替了因果关系,但对于绝大多数科学研究与政策制定,往往人们更加依靠因果关系。但当两个事物呈现相关关系时,我们可能误将这种关系理解为因果关系。下面通过一个例子来理解这一点。
利用统计数据,我们发现每年短裤、短裙销量增加的同时,各地区溺水身亡的人数也在不断增加,那么我们可以说这是一种因果关系吗?仔细分析一下,就能发现其中的缘由。每年短裤、短裙销量增加的季节都为夏天,夏天由于天气炎热,有更多的人会选择去户外游泳,不幸溺水身亡的人数自然就会增加。这两个事件其实都是受到季节影响,呈现出一种相关关系,而并不是我们想要追求的因果关系。
相关关系可以被定义为:如果有两个事物,当一个事物发生变化时,另一个事物也会随着发生规律变化,我们就说这两个事物存在相关性。而因果关系则是:一个事物的发生会直接影响另一个事物的发生。比如,商品价格上升会导致销量的下降,则可以认为价格和销量之间存在着一种因果关系。若两件事物存在着因果关系,那么它们之间也一定存在着相关关系,而反之则不一定成立。
下面再来看一个案例。康奈尔大学曾经做过一个有关上大学对保持独身有什么影响的调查,调查了1 500名中年毕业生,发现其中男性93%已经结婚,而同年龄段的已婚比例为83%。但是女性只有65%已经结婚,未婚女性是同年龄段女性的3倍之多。当我们看到这段文字的时候,特别对于女性来说,她们会认为上大学会减少未来获得丈夫的概率,而文章也的确是这么说的。更何况这项统计数据是来自于世界知名学府,其真实性是毋庸置疑的。但需要我们注意的是,上述结论并不是康奈尔大学得出的,一些不了解统计学的粗心读者往往会这么认为。这同样是利用一个真实的相关关系以得到未经证实的因果关系,而这种因果关系有可能还是恰恰相反的,被调查的女性如果不上大学可能依旧保持单身,说不定单身数目还会更多。所以上述所得出的“结论”未必是真实的。
事实上,上面那个案例可以用金西博士发现的性欲与教育之间的相关关系进行解释。想要保持单身这一想法会促使他们上大学,而这种想法在他们上大学之前就已定型。若这一论断为真,那么上大学会阻碍女性结婚的观点就更缺乏依据。
由此我们可以发现,即使拥有了多方面的数据,如果缺少统计知识的话,依旧有可能掉入统计陷阱。目前许多科学研究以及政策制定几乎都是依赖于因果关系,而不是相关关系,而真正的因果关系又大多是建立在统计学基础上的,这也是统计学分析艺术性的体现。
三、大数据时代下统计学的价值
人们常说,一种新生事物的诞生必将导致旧事物的灭亡或革命。而大数据时代的到来对传统统计学会带来何种影响呢?如果大数据时代真的可以将各式各样的数据全部收集到,那么还需要基于抽样的统计学吗?
首先,我们需要明确,大数据不可能将所有数据全部进行采集;或许随着科技的提升,我们真的有能力收集到全部的数据,但其实这些数据也是一种被选择的数据,并不一定揭露本质。而在这些数据中存在着各种随机的与非随机的误差,很难进行衡量;采集这些数据也需要大量的人力、物力、财力。而数据也不是越多越好,数据的量越大其所含的信息量就越大,反而会增加在数据中寻找规律的难度。与之相比,统计学是基于合理概率抽样的科学,有着较深的理论基础与科学性,可以通过抽样设计搜集到为了某一特定研究目所需要的优质数据,从而实现数据的化繁为简。历史上也存在着这样的案例。罗斯福是美国历史上唯一一位连任四届的总统,而在他第二次参与竞选前,美国遭到了严重的经济危机,罗斯福也面临着极大的压力。与他竞争的候选人是兰登,也是位很有声誉的政治家。当时美国本土有两家机构都对这次大选的结果进行了预测。其中一家是《文学文摘》杂志,这家杂志的影响力与声誉都很高,因为在以往的大选中它都可以准确预测到大选结果。这一次该杂志在大选前又做了一次统计调查,调查方式是通过杂志上的调查问卷,最后收集到了240万份问卷反馈。通过对这240万份问卷进行分析,文学文摘宣布兰登将会赢得此次大选。而还有一个人名叫盖洛普的年轻人也在一家机构中对这次大选结果进行了预测。相比文学文摘的财大气粗,盖洛普通过实验设计仅仅调查了5 000人,最终发现罗斯福会在大选中继续连任。最后的结果想必大家都清楚,罗斯福再次赢得了大选,而文学文摘由于在此次预测中失败,名誉受损,最终关门倒闭。那么,为什么5 000条数据会比240万条数据得到的结论更加准确呢?其实文学文摘在调查方式上已经为自己的失败埋下了伏笔,它调查的群众都是订阅期刊的读者,而订阅这份期刊的读者都是当时家境较为富裕的群体,那么调查结果想必会有偏颇。虽然搜集到的数据量足够海量,但缺少了严谨的实验设计,最终还是会造成调查的失败。有时数据数量并不是越多越好,数据搜集的质量其实更为重要,利用有代表性的数据进行分析才能得到准确的结论。
但是不得不说,在大数据时代可获得的数据量确实是巨大的,可以说样本即总体,具有一定的数据搜集优势。在这种情况下,一些传统的小样本统计学方法可能不再适用了。我们也需要适应这种潮流,改变传统的统计学思维,使其可以找到可以有效获取、处理、分析大数据,获得更为准确可靠的结论。可以说,大数据时代给统计学带来了发展机遇,统计学的地位仍然是不可撼动的,其依旧是处理分析数据的有效方法。与此同时,大数据也给统计学带来了一定的挑战,如何转换传统统计学思维,使之可以更好地适应与解决大数据问题并不是件易事,需要统计学家与社会各界人士的不断努力。但无论如何,统计学都在当今这个大数据时代仍具有极强的价值与意义。
参考文献:
[1] Patricia L. Mabry. Making Sense of the Data Explosion[J].American Journal of Preventive Medicine,2011,40(5).
[2] 姜奇平.大数据时代到来[J].互联网周刊,2012,(1):6.
[3] 耿直.大数据时代统计学面临的机遇与挑战[J].统计研究,2014,31(1):5-9.
[4] 冷加起.大数据带来哪些大变革[J].中国统计,2014,(12):19-20.
[5] 张海健.大数据时代下数据分析理论探讨[J].文理导航(中旬),2016,(8):8-74.