APP下载

关于大数据时代对传统统计学变革的思考

2018-12-26李彤辉

数码设计 2018年2期
关键词:统计数据准确性数据挖掘

李彤辉

(大同大学数学与计算机学院15 级经济统计学一班,山西大同,037009)

引言

统计学的优势在于“以小见大”,但容易产生误差等问题,对于大数据来说,可以利用更多甚至是总体的数据,数据的限制因素已经成为历史。统计学可以与大数据进行合作,不仅可以做到以小见大,还可以做到由繁入简,在大数据的基础上大大提高统计效率、模型拟合度和推断准确性。本文将从以下3个方面阐述大数据给统计学带来的发展。

1 统计质量得以提高

针对统计质量而言,国际数据标准SDDS确定了两条规则作为评估统计数据质量的标准,我们可以据此归纳出四个原则,即:适用性、准确性、时效性、平衡性,来把握统计质量的内涵。

适用性,是指收集的统计信息符合用户的需求。保证统计信息适用性的根本是使统计信息最大化地满足用户。大数据的广泛覆盖性能够在很大程度上满足适用性的原则。以CPI为例,传统的价格统计涉及的商品和销售点种类繁多,且随着社会的进步、经济的发展和人们消费观念的改变,对于动态的数据需要及时进行调整,这必定会产生很大的误差,使得统计工作者不能保证统计数据是否适用于用户的需求。而基于大数据的“在线价格指数”不再必须通过样本进行分析,统计数据可以包含所有的商品和线上销售网点,可以实现通过总体进行分析,使统计误差大幅度下降。

时效性,是从统计调查的各个方面缩短时间。另外,为了使用户及时掌握、使用统计信息,对于统计数据应预先公布发布日期,按时发布,并建立规范的发布制度。传统统计数据具有滞后性和低频率等缺点,而大数据由于其来源为信息网络,具有及时性和时效性的优点。仍然用CPI的统计数据举例,CPI的发布频率为每月,如我国的CPI通常在每个月9日发布上个月的CPI,由此可见,CPI的发布存在滞后;而“在线价格指数”能够根据市场的变化对价格进行即时的更新与汇总,提高了统计信息的时效性,并且“在线价格指数”的频率可以从每月提高到每天甚至更短时间,据此分析出来的通货膨胀规律相比传统统计的准确率大大提高。

准确性,主要是估算值与“真值”之间的差异度。实际上所谓“真值”是不可知的,一般目标为保证统计误差在可接受的范围内变动,据此保证统计的准确性,通过分析抽样误差、人为误差、计数误差、模型设计误差等多个对准确性产生影响的因素,测算统计估值的变动系数、标准差、协方差等。由于大数据的全面性,因此可以通过减小统计过程中的人为误差保证统计结果的准确性。例如,传统样本搜集方法中,受调查者意识到自己在接受调查会有意对真实情况进行掩饰,这会导致调查所得数据无法真实反映现实。大数据可以在受调查者无意识的情况下收集他们的信息、获得数据,如手机现在已经成为居民必不可少的工具之一,当移动通讯用户带着手机进行出行、吃饭等一系列日常活动时,移动通信商就已经在用户无意识的情况下通过跟踪定位手机采集到了用户的位置信息。这种方法获得的数据显然比传统调查方法所获得的数据更为真实准确,从而在此基础上的统计分析结果更为可信。

平衡性,即协调性,在统计学中指数据的协调能力,造成数据平衡性缺失的原因有很多,比如数据使用者对数据的理解与数据发布者有差异。大数据时代通过网络数据资源,有助于数据平衡性的提高。根据SDDS的第二条规则,在公布统计数据的同时,在统计框架内公布有关总量数据的分项,并公布有关数据的比较和核对方法与结果,有利于支持和鼓励使用者对数据进行核对和检验,借此提高数据平衡性。

2 统计成本得以降低

统计成本是进行一项统计调查或开展统计工作所实际付出的代价,是统计工作过程中耗费的人力、财力和物力的总和。下面从调查方法与数据利用率两个角度来阐述大数据时代统计成本的降低。

首先,从收集数据的方法来看,传统的统计数据收集方法主要依靠调查,如调查问卷、电话采访,或者通过查询统计报表。开展普查,可能就要动用全国的力量。这些方法都存在缺点,准确性得不到保证,并且统计成本相当可观。在大数据时代,数据的获得途径为信息网络、移动通信等,因此从统计成本的各个要素来看,大数据时代的统计成本会大幅下降,而且可以得到更大规模、更高准确性的数据。

其次,从所得数据的利用率来看,传统统计中,统计资料的失效过期是一个长期无法得到改善的事实,即使是依靠巨大的财政以及社会投入取得的普查资料,由于其开发方式单一、传递被动以及向公众发布的手段方式的局限,也得不到及时广泛的利用。而在大数据时代,对数据的初始收集没有很强的目标性,首先,数据可以服务于多个研究目的,无需再根据目的来重新收集数据;其次,数据被多次利用意味着数据价值的增加;再次,相比于传统统计,每个统计目的收集数据的成本会大幅下降。

最后,统计成本还体现在公众获取方面。对此,SDDS制定了两项规划:一是成员国要预先公布日历表,据此进行统计数据的公布。预先公布统计数据发布日程表不仅可以使使用者根据自己的实际情况合理安排利用数据,还表明统计工作管理制度的完善和数据编制的透明。二是必须保证有关各方同时收到所发布的统计数据。统计数据作为一项公共产品的基本特征之一就是官方统计数据的公布,公众的基本要求就是及时和机会均等地获得统计数据。因此 SDDS 通过此项规定体现公平的原则并满足公众需求。数据发布时可依次提供概括性数据、详细的数据,当局应至少提供一个地方使得公众可以进入并有权使用数据,保证公众可以在第一时间获得发布的数据。SDDS的目的是指导成员国并对其提供一套在数据收集和公布方面的标准,使各国在向公众提供具有全面性、时效性、可行性和准确性的数据时遵守共同的依据。在大数据时代,无论是数据的获取、分析还是发布,皆通过网络进行,SDDS的规划变得更为可行。

3 统计学科体系得以延伸

大数据时代,对于统计学的发展应该用发展、辩证的眼光去看待,统计学应当在大数据的思想框架下构建新的学科体系。将大数据总体统计的思想和方法纳入统计学学科体系是非常必要的,例如,在统计学的教学内容中,将样本统计和总体统计相结合。样本统计对样本的要求是能够正确地代表总体,这就要求总体的观察单位必须是同质的,在现实生活中这种理想情况不容易达到,而基于大数据的总体统计恰好能够弥补样本统计的这一不足之处。数据挖掘又称数据采矿,是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。涉及机器学习、人工智能、模式识别、数据可视化等模块,也属于数据处理的范畴。因此,统计学应该对其进行充分的利用,将统计学原理应用到数据挖掘的技术中。当今大数据时代,统计学也应与计算机紧密结合,以数据挖掘为契机,进一步延伸和完善统计学科体系,培养具有现代统计技术、数据挖掘技术与计算机技术的复合人才。同时,统计学不仅要注重与其他学科的结合,更需要注重自身学科的提高,在原理、技术、方法等方面认真钻研,与时俱进,谋求创新与突破。结束语:

在当今社会,统计起着“神经系统”的作用。统计是连接社会再生产各个环节、各个要素的中介,是商品生产和商品交换的先导,对经济活动进行起着灵敏有效的调节作用。例如,市场经济的统计信息是商品的生产和经营活动的依据。市场经济信息主要有两个方面:一是客户对商品的需求,包括商品数量、品种、质量和规格的要求等;二是各类商品生产、供应以及价格的变化。商品生产者生产商品的种类、数量、质量改进等问题都要根据市场需求信息和价格信息等来研究决定;商品经营者所决定的商品购买、库存、定价等问题也需要根据生产、需求信息及其变化趋势来研究决定。在大数据时代,以上这些统计信息的获得不再局限于电话调查、问卷调查等高成本、低收益的方式,而是可以借助网络、移动通信等方式。同时,数据的质量也不再受到主观因素的限制。

由于大数据的产生,使得统计学的定义、思维方式、作用都不同于传统统计。毫无疑问,随着大数据时代的来临,统计学的发展进入了一个新的阶段。

[1]Lynch C.Big data: How do your data grow? [J]Nature, 2008, 455(7209)

[2]Rifkin J.The third industrial revolution: How lateral power is transforming energy, the Economy, and the World [M].New York: Palgrave Macmillan,2012

[3]Bughin J.Chui M, Manyika J.Clouds, big data and smart assets: Ten tech-enabled business trends to watch [J].McKinsey Quarterly, 2010(8)

[4]Lavalle S, Lesser E, Shockley R, et al.Big data, analytics and the path from insights to value [J].MIT Sloan Management Review, 2011, 52(2)

[5]MacKinsey Global Institute.2011.Big data: The next frontier for innovation,competition and productivity.June 2011.Lexington, KY: McKinsey &Company

[6]Dabenport T H, Barth P, Bean R.How big data is different [J].MIT Sloan Management Review, 2012, 53(5).

[7]朱建平、章贵军、刘晓葳,大数据时代下数据分析理念的辨析[J]统计研究,2014(2)

[8]袁卫,机遇与挑战——写在统计学科成为一级学科之际[J]统计研究,2011(11)

[9]李金昌,大数据与统计新思维[J]统计研究,2014(1)

[10]朱建平著,世纪之交中国统计学科的回顾与思考[M].中国经济出版社,1999, 12.

[11]曾鸿、丰敏轩,大数据与统计变革[J]中国统计,2013(9)

[12]肖红叶,中国经济统计学科建设30年回顾与评论——基于三大框架事件的研究[J].统计研究.2010(2)

[13]朱怀庆,大数据时代对本科经管类统计学教学的影响及策略[J]高等教育研究,2014(3)

[14]程开明、庄燕杰,大数据背景下的统计[J]统计研究,2014(1)

猜你喜欢

统计数据准确性数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
CT诊断中心型肺癌的准确性及MRI补充诊断的意义
创新视角下统计数据的提取与使用
浅谈如何提高建筑安装工程预算的准确性
理解语境与名句的关系,提高默写的准确性
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
国际统计数据
2017年居民消费统计数据资料
软件工程领域中的异常数据挖掘算法