论大数据与统计新思维
2018-09-10李秀丽
李秀丽
摘 要:大数据时代的到来给我们的社会和生活带来了强烈冲击,它从方方面面影响着我们的行为特征和思维方式,对于以数据为研究对象的统计学而言,为了适应大数据时代的发展就必须调整思维,在认识数据、收集数据和分析数据三个方面作出创新突破,并且从多个角度对统计工作进行改进,以积极应对大数据带来的变化。本文从大数据的认识和统计思维的变化入手,探究了统计工作应如何应对大数据。
关键词:大数据 统计新思维 国家战略
中图分类号:F204 文献标识码:A 文章编号:2096-0298(2018)02(b)-005-02
大数据是互联网时代快速发展下的阶段性成果之一,大到国家战略、小到民间商业,尤其是电子商务等领域早已率先应用大数据技术。鉴于此,以数据为研究对象、具有专业严谨特点的统计学,应该积极面对大数据潮流,促进其长足发展。
1 正确认识大数据
大数据是一个整体概念,它的“大”指的不是数量大小,而是意味着“整体、全体”。站在统计学的角度,大数据是以信息为单位,借助现代信息技术和计算机工具,对所有类型的数据进行记录和存储。大数据将传统统计学中刻意收集的、有一定限度的、结构化的样本数据,扩充成任意类型、没有上限、数字化数据。大数据对传统统计学造成的最大影响就是:以大数据的大体量和多样性覆盖了样本数据的不可扩充性和局限性,从而使得统计学所需要的研究数据包含了所有信息,相关的分析研究也更加准确。从另一个角度来说,统计学是研究数据的学科,那么既然作为研究对象的数据发生了变化,相应的统计思维也要发生变化,所以就需要适应大数据时代的统计新思维。
2 适应大数据时代的统计新思维
统计新思维的诞生需要以传统统计思维为基础,结合大数据的优势进行合理改变而形成。所谓传统统计思维是指通过数据分析来研究事物的生存、联系和发展规律,而大数据恰恰为数据分析的过程增加了难度,因此,统计新思维就应该从认識数据、收集数据和分析数据三方面作出改变[1],具体变化如下。
2.1 认识数据的思维变化
大数据不同于传统数据,在数据来源、数据类型和数据量化方式上都有明显区别,应对其有正确认识:从来源上来看,传统数据来自于身份确定的、目的明确的人或事物,而大数据来自于物联网中一切可记录的信号,因此大数据是发散且难以追踪的;从类型上来看,传统数据有专门的格式标准,常以统计指标或图标的形式来体现,而大数据形式多样且无标准,也不适用传统数据的表现形式,因此大数据是非结构型的;从量化方式上来看,传统数据依赖固定的、程序化的方式进行量化分析,而大数据由于其非结构性导致难以量化。基于以上认识,新的思维应该是从数据的定义和分类入手来扩大统计研究的对象,即扩大看待数据的角度和眼界。
2.2 收集数据的思维变化
传统思维下的收集数据是以目的为导向进行针对性的收集,但大数据的到来使得数据来源和体量无限扩大,因此在收集数据前不需要进行专门调查。但是,由于大数据的丰富性和无限扩充性,导致必须考虑如何进行数据甄别、提炼、利用,以及如何加大数据的存储。因此,新的思维应该是把收集数据看作一个识别、整理、提炼、汲取(删除)、分配和存储数据的过程 [2]。
2.3 分析数据的思维变化
传统思维下的分析数据经历三个阶段:首先是依靠经验判断来找准定量分析的方向以便作出定性结论,其次是按照“假设——验证”的思路进行统计分析,最后是基于概率来以样本数据的好坏推断总体特征。然而,大数据时代不存在数据短缺和分析运算手段有限的情况,因此可以简化定量分析过程;并且,大数据的全面性弥补了“假设——验证”过程中的漏洞与不合理情况;同时,大数据下的样本即为总体,因此在推断分析过程不需要依据概率。新的思维应该结合大数据的特征,从统计分析过程、实证分析思路、推断分析逻辑、统计分析评价的标准等角度作出相应调整。
3 基于大数据与统计新思维下的变化
根据上述有关“统计新思维”的探讨可以看出,基于大数据与统计新思维下的变化主要体现在数据认识、数据收集和数据分析的新思维中,具体来说,需要作出以下改变来应对大数据。
3.1 改变对个体、总体和样本的定义方式
传统思维下的统计分析是先确定总体范围再收集个体数据,但大数据的到来使得个体数据处于变化状态,因而无法事先确定总体。另外,传统思维下的个体由于符号或称谓的重叠异位,导致数据识别过程难以确定身份,因此必须改变总体与个体、以及样本的定义方式,即基于大数据的起源无序性和流动变化性,可以把任意时点的总体当作一个截面样本[3]。
3.2 改变统计学的研究目标
统计学的研究目标是事物的不确定性,通过量化事物的不确定性来总结背后的规律,要实现这一目标就需要收集数据,并通过对数据的抽样观察来推断总体。但是,大数据在保留个体差异性的前提下,使得个体无限趋近于总体,因此样本的抽取不再具有随机性。如此一来,统计学的研究目标就应该是研究大数据的不确定性,即研究大数据来源的多样性与混杂性,以及由于个体差异性所引起的总体差异性。
3.3 改变数据梳理与分类方法
传统思维下的数据梳理与分类需要预先设定方案,并考虑到标志、指标、分类标识、分组规则等内容,对具有特定目的的收集数据进行加工。而大数据从来源、内容、表现形式上都具有不可预测性,因此只能从事后完善的角度进行梳理与分类。可通过观察数据的分布特征来选择差异化的数据梳理与分类方法,这一过程可以借助建模来实现自动化。
3.4 改变对结构化数据和非结构化数据的认识
结构化数据是指传统思维下不依赖公共网络系统,而是通过专门的方式进行收集的数据;非结构化数据其实就是大数据,因为它来源复杂、表现形式多样、难以用传统统计指标或图标进行量化。一般我们都认为结构化数据和非结构化数据之间泾渭分明,但随着大数据时代的发展,发现很多时候既需要针对性的收集结构化数据,又需要从非结构化数据中挖掘有价值信息。因此,必须要改变对结构化数据和非结构化数据的认识,将两者视为相辅相成,并通过增强对各类型数据的描述能力来实现两者之间的转化与对接。
3.5 改变抽样调查的功能
传统思维下的数据收集极其依赖抽样调查,其功能就是通过样本来推断总体特征。尽管抽样调查存在数据信息有限、抽样范围封闭、前期准备工作难等问题,但大数据的到来可以将样本数据无限扩充到整体,从而有效掩盖这些问题。可即便如此,考虑到成本、效率、大数据覆盖不全面等因素,在很多时候仍需要通过抽样调查来获取信息并进行分析。这样一来,抽样调查的功能就变为:作为大数据分析的验证依据并用于对照,以及快速从混杂的数据中进行挖掘和探测分析。
3.6 改变统计研究方法
传统的统计研究方法主要是归纳推断法,即从样本数据中归纳出样本特征,再由此推断总体特征。但大数据淡化了样本数据的功能,所以仅靠一般特征的归纳推断是不够的,还需要对其子类、个体,甚至特殊化、异常化的信息进行分析研究,從而发现更深层次的关联并找出更具体的规律或结论,这就需要演绎推理法。因此,必须改变单一的统计研究方法,将归纳推断法和演绎推理法进行有机结合,从而了解大数据的必然性并掌握其偶然性。
3.7 改变数据分析目的
大数据的内容丰富、覆盖面广等特点导致在进行数据分析时很容易陷入思维上的误区,只重视“是什么”,而忽略了“为什么”。但研究数据不能只停留在表面,还需要探究事物之间的联系,把握数据的背景和产生原因。鉴于此,必须要改变数据分析目的,以相关分析为基础进行因果分析,通过互补并用来挖掘数据的最大价值。
3.8 改变单一、过时的统计技术
传统的统计技术在数据的收集和分析过程中发挥出了既定的价值,但大数据的到来使得原本的统计技术显得单一和过时,不能有效解决计算能力上的不足,因此需要及时作出改变,最可取的方法是依靠现代信息技术的协助,比如:云计算。云计算是指将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和各种软件服务。借助云计算技术的强大计算处理能力,可以弥补传统统计技术的缺陷,从而在数据分析中体现统计思想以应对大数据。
4 结语
大数据的到来迫使统计学作出相应调整改变,且这种改变是积极正面的、有助于统计学发展的、适应社会变化的。本文通过对基于大数据与统计新思维下应该作出的变化进行详细分析,希望能为统计学的长久发展提供方向。
参考文献
[1] 柴世珲.试论大数据统计的新思维[J].中国高新技术企业, 2015(09).
[2] 刘晨燕.大数据时代统计新思维[J].知识经济,2015(07).
[3] 李金昌.大数据与统计新思维[J].统计研究,2014(01).