对大数据与统计学协同发展的思考
2017-07-12张天舒
摘要:海量的数据已经渗透了每个人的生活,以数据为研究对象的统计学应该以科学的态度迎接大数据浪潮,并积极思考如何把握这重要的发展机会。本文首先阐明大数据与统计学的密切关系,再从大数据时代下的非结构化数据与结构化数据、相关关系与因果关系,这两个方面思考大数据与统计学的协同发展。
关键词:大数据时代;大数据;统计学;
随着互联网和信息相关行业的蓬勃发展,“大数据”已经被越来越多地被提及,大数据也已被资本瞄准,成为商业领域中的宠儿。数据在迅速膨胀,大数据的覆盖面越来越广,不论你是否愿意接受,这种趋势将会持续下去。以数据为研究对象的统计学在大数据时代进入了新的发展阶段,我们应思考如何将大数据与统计学相结合,努力创新、协同发展。
一、大数据与统计学
(一)大数据与统计学关系密切
简单来说,我们可以分为两个方面来理解大数据:若“大数据”作为形容词,则描述的是大数据时代数据的特点;若“大数据”作为名词,则体现的是数据科学研究的对象。对大数据的定义有非常多,不同领域不同专业对大数据的界定都会有些许不同。通俗地说:大数据是目前人类所有可抓取、可记录、可存储的信号集合。这个包含了一切信号的集合将非常非常之庞大、多样、繁杂,并且还在不停地、迅速地增加。现代互联网和信息技术的飞速发展,使得人类开始有能力收集、储存、分析、处理这些从前无能为力的数据,从中挖掘出有用的信息促进社会的发展。迈尔·舍恩伯格说:大数据发展的核心动力就是人类测量、记录和分析世界的渴望。而统计学正好是收集、整理、分析、解释数据并从数据中得出结论的科学。由此可见大数据与统计学关系密切,将大数据与统计学结合发展潜力无穷。
(二)大数据时代下的非结构化数据与结构化数据需整合对接
统计研究可根据自身的目的收集总体数据或样本数据,但如果总体太过庞大,以过去的技术方法来收集总体数据成本会很高,受于限制统计研究更多收集得是样本数据。如今,人类已经开始能够在合适的成本下获得大数据,大数据的广博给统计研究带来了新的发展方向。我们需要着重研究的一个方向就是如何将结构化数据和非结构化数据对接。
大数据的核心是数据,统计学的研究对象也是数据,但是它们获得的数据性质有所不同:大数据收集的多是半结构化和非结构化的数据,通俗地理解,先获得数据,再整理结构(如声音、图片、视频等信息);传统统计学收集则主要是结构化数据,先定好结构,再根据目标结构收集数据(如数字、符号等信息)。拿非结构化数据和结构化数据来说:大数据时代使得我们有更多可以分析利用的数据,使得统计研究不仅可以在有更多的结构化数据的情形下进行;对于一些领域的研究工作还可以设法将非结构化数据和结构化的数据结合起来分析。如何实现非结构化数据与结构化数据的结合?首先,完善非结构化数据的整合,然后我们可以用结构化数据做数量说明,非结构化数据加强描述;或是提高数据处理技术,实现结构化数据与非结构化数据的互相转化,选择能更好说明问题的数据形式作为后续分析基础。这都是值得再深入思考研究的新问题,而且这不仅仅是大数据和统计研究的事,同时需要计算机技术的一同创新发展。统计研究的范围在大数据时代越来越大,能用数据说明的问题越来越多。
(三)大数据时代下的相关分析与因果分析发展并重
《大数据时代》一书中表示:大数据时代的一个显著变化是:相关分析比因果分析更重要。我的看法是:大数据时代下,市场确实会对相关分析有着更强的关注度,但这并不意味着因果分析的重要性会有褪色。
统计学中既有相关分析,也有因果分析,要对它们有合理的了解,首先需要明确的是相关关系和因果关系之间的联系,简单说:有相关关系不一定有因果关系,有因果关系则一定有相关关系。大数据时代,相关关系变得比以前更加为人所关注的原因:一方面,在很多领域的应用里,相关分析比因果分析更简单可行;另一方面,因为相关关系足以体现事物之间的一定联系,在商业效益上更为经济有效。因此在商业利润的推动下,相关关系也会更加受到青睐。但是我们不能就此否定因果关系的重要性,因果关系是对数据更加深度地分析:相关关系让我们知道了“是什么”,因果关系是让我们知道了“为什么”。倘若只是在商业经济上的利用和成本考虑,“是什么”在很多时候就以足够;但如果是在科学研究领域,“知其然而不知其所以然”就远远不够了。结合现实发展需要,可在分析确定相关关系后,根据情况研究因果关系,若能够得出因果关系,那肯定是更具价值和意义的。探求“为什么”始终是人类探索世界的动力 ,因果分析是人类永恒的使命。
二、结语
大数据时代的到来几乎对每个领域都有着不可忽视的影响。大数据与统计学关系密切,大数据的出现对统计学的意义是非凡的,我们应把握住大数据时代和统计学的可结合点。其一,完善非结构化数据的整合,深入研究如何实现非现结构化与结构化数据的对接,都需要我们思维上的创新、数据处理技术上的提高。其二,在注重相关分析的同时,不能丢掉对因果分析的研究,應合理并重,实现大数据的进一步利用,真正挖掘出数据的价值。对于以数据为研究对象的统计学科,大数据时代就是统计学变革创新的时代,统计研究工作人员也应把握机会思考创新,为统计学增添新的生命力。
参考文献:
[1]朱建平,张悦涵.大数据时代对传统统计学变革的思考[J].统计研究,2016(02):3-9.
[2]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014(02):10-19.
[3]Viktor Mayer-Sch-nberger,KennethCukier.盛杨燕等译.大数据时代[M].杭州:浙江人民出版社,2013.
作者简介:
张天舒(1992- ),女,汉族,江西信丰人,硕士研究生,研究方向:统计理论与方法、数据分析方法与应用。