大数据思维与传统统计思维方式的差异分析
2017-12-28郑磊
郑 磊
(河南煤矿安全监察局,河南 郑州 450003)
大数据思维与传统统计思维方式的差异分析
郑 磊
(河南煤矿安全监察局,河南 郑州 450003)
随着信息技术的不断发展,现阶段网络数据的信息量越来越庞大,大数据时代的到来对传统领域造成了相当大的冲击作用,必定会产生一些相应的变化.文章对大数据思维与传统统计思维方式的差异进行分析,以使传统统计思维能够尽快适应大数据时代的变化,开阔视野,从多个角度解决问题,并使二者有机融合,推动统计工作再上新台阶.
大数据;统计思维;差异
当今信息科技高速发展,大数据已经成为一种新的生产力,驱动传统行业发生重大变革.由于大数据具有4V(Volume,Variety,Velocity和Veracity)特性[1],传统统计思维方法已不能完全满足时代需求,大数据思维方式亦应运而生.大数据思维与传统统计思维类似,都是对现实世界的数据和现象进行科学分析和判断,从而揭示事物的内在本质,判断其发展变化规律.然而,由于这两种思维方式各有其自身特点,其研究重点和应用领域也各自不同,所有我们就需要对这两种思维方式进行研究,从而开阔视野,从多个角度以多种方法解决问题.
1 大数据思维与传统统计思维方式的区别
1.1 研究对象不同
总体性和样本性,是大数据思维和传统统计思维研究对象的根本区别.在传统统计思维中,受传统分析方法的限制,抽样分析是最常用的统计方法,即按随机性原则,从总体单位中随机抽取部分单位作为样本进行统计分析,并以其结果推断总体有关指标的一种统计方法.实践证明:抽样分析精确性受抽样随机性影响较大,增加随机性,精确度将大幅提高;增加样本数量,精确度影响不大,因此样本选择的随机性比样本数量更为重要.用样本数据去推断全部样本的情况,是传统统计方法分析数据的常用方法,但在现实中,这种方法可能无法展示事物的全貌,其抽样的代表性有存在偏差的可能,其推断的结果需要验证.
在大数据背景下,所有海量数据都可以存储在云存储上,大数据思维不再采用传统的随机抽样方式,而是采用"样本即总体"的全数据思维方式,采用大数据特殊算法,利用云计算强大的计算能力,计算分析全部数据,从而发现传统统计方法无法揭示的细节信息,找出深藏在数据中不易被发现的秘密[2].
1.2 研究方法不同
在传统统计工作中,统计方法一般是基于事务间的相关性、先验信息,根据收集的统计样本,采用传统统计学的推断方法进行因果关系的推断.而大数据是建立在总体数据之上,排除人为假设,通过大数据算法,挖掘出数据深处的意义,发现深层次的因果关系,从而进行科学的预测和判断.传统统计方法由于统计样本的不完整性,或者某个统计样本的错误,可能将会导致统计结果发生严重偏离,而且后期仍需大量的工作进行因果关系的验证和偏离值的修正.大数据思维方法并不需要了解事物的因果关系,而是立足于全部数据,采用特殊算法,通过云计算强大的运算能力去分析、归纳、比对,从而发现以往传统统计方法不能发现的内部联系和复杂现象.
1.3 获取数据的方式不同
传统统计方法常用的获取数据方式有:普查、抽样调查和统计报表,其中抽样调查是最常用的统计方法.统计人员通过设计调查表进行数据收集,然后再进行归集整理、分析判断.在抽样调查之前,调查人员往往更加关心如何能更好地收集数据,因此传统数据收集有很强的针对性,抽样调查的对象往往是特定对象,身份特征是可识别的.而大数据时代以实时产生的各种信息为主,既对信息的提供者和产生者无特别要求,也不为特定的目的而产生.大数据时代以云计算、物联网和人工智能为背景,事物之间通过物联网互联互通,数据实时产生、定向汇集且可以被共享,这些数据可以分布于全球多个服务器上,且体量巨大,大数据思维模式即基于此类实时、多源数据,通过特定算法对其进行归纳分析,寻找并发现其内在规律.例如,电子购物网站实时收集所有用户的查询记录和采购记录并进行分析判断,从而得知用户喜好,当用户再次登录购物网站时,网站会自动推送用户喜好的商品类别,达到广告精准投放的目的,同时也提高了用户体验.
1.4 数据性质不同
传统统计数据具有样本量小、针对性强、格式统一、信息量丰富、精确度高等性质.传统统计思维模式下,统计人员对数据的准确性要求较高,数据是由经抽样调查而获得的局部数据,数据量小,格式相对统一.因需要分析的数据少,所以必须保证数据的精确性才能避免可能出现的偏差.在收集样本时,或者在进行统计分析时,统计工作者都会采用一整套策略来保证样本数据的精确性,减少错误的发生.在统计结果出来以后,也会设计一整套方法来检验统计结果的正确性.
而大数据则不同,主要有以下两个方面特性:
(1)数据量大、精确度低,格式繁杂、错误率高.大数据思维采用全数据处理方式,处理的样本就是全部数据,因此数据体量很大.这些海量数据,不仅无针对性,而且垃圾信息、错误信息很多,我们所处的真实世界恰恰是到处充斥着垃圾信息和错误信息,这就是我们真实世界的体现.大数据正是因为这种高度容错机制而大大提高了其预测结果的真实性和准确性.
(2)半结构化数据、非结构化占主流.大数据是真实世界的反应,本质上整个世界都是由信息构成,它既包括如数据、文本、表格等结构化数据,还包括视频、音频、图片、方位、通话记录等半结构化或非结构化数据,这些数据结构混杂,内容庞大、格式不一,是我们真实世界的映射,其中蕴含着巨大的价值有待挖掘.
1.5 分析思路不同
传统统计思维的分析思路是,首先假设世界是如何运行的,然后通过收集和分析样本数据来验证这种假想.因此,传统统计思维的分析思路是"假设-验证-决策".
在大数据背景下,人们不再受限制于传统的思维模式和特定领域里隐含的固定思维,对事物的研究始于数据,并可以发现以前不曾发现的联系.大数据思维以数据清洗、挖掘及智能算法为主要研究方法,对数据进行挖掘分析前既没有预定目标,也没有现成的理论模型,更无需预先假设,而是通过特定的算法,对海量的数据进行清洗、归纳、分析和比对,从中找出内在的特征和关系,从而发现隐藏其中的规律,供人们进行判断和决策.因此,大数据思维下的分析思路是"数据收集-数据分析-判断决策"[3].
2 大数据时代背景下做好统计工作的措施
2.1 积极转变观念,树立大数据思维意识
当前的大数据时代,是社会发展到一定阶段之后的必然产物,不以人的意志为转移.统计工作者要积极主动适应时代发展,树立大数据思维意识,要有危机感、紧迫感,明确当前工作和时代的差距,积极转变工作思路,使自己的工作适应时代需要.同时,大数据意识的树立还可以明确工作方向,增强部门凝聚力,有助于更好地了解统计工作的特性,更有效地完成统计工作.
2.2 加强对统计人员业务素质的培养,适应大数据时代需求
大数据时代对统计工作提出了更高的要求,统计工作要发展进步,首先就是要提高统计工作者的素质,加强人员的业务培训和交流.一方面培养他们对统计专业知识的进一步掌握,另一方面要培养他们对新兴科技的认识和了解,特别是要加强对大数据相关知识的学习和培训,使统计人员早日形成大数据思维方式.在招收统计人员时,要提高门槛,系统培训,合格以后才能转入到实际工作中.在日常工作中,要间隔性地考核统计人员的业务能力,对于不合格的人员要再进行培训,优秀的员工给予奖励,鼓励统计工作创新,积极将大数据技术应用于统计工作中,以更高的标准、更快的工作效率做好统计工作[4].
3 结语
大数据思维把人们从传统的思维方式和价值观中解放出来,在各行各业均有巨大的应用价值.传统统计学思维助推大数据科学发展,而大数据为传统统计学科的发展提供了捷径.了解大数据思维和传统统计思维的差异,有助于我们运用创新思维方式,使两者取长补短,有机融合,推动统计工作再上新台阶.
[1]郑磊.大数据在煤矿安全管理中的应用研究[J].无线互联科技,2016(11):133-135.
[2]冯启思.数据统治世界[M].北京:中国人民大学出版,2013.
[3]张弛援.大数据思维范畴探究[J].华中科技大学学报(社会科学版),2015(2):120-125.
[4]崔青云.论统计思维及培养[J].山西煤炭管理干部学院学报,2009(3):34-35.
Analysis on the difference between big data thinking and traditional statistical thinking mode
Zheng Lei
(Henan Administration of Coal Mine Safety, Zhengzhou 450003, China)
With the continuous development of the information technology, there is a growing number of information on the network data at this stage. The arrival of big data age has a big impact on traditional fields, where must arise some concerning changes. This paper analyzes the differences between big data thinking and traditional statistical thinking mode, in order to make traditional thinking soon adapt to the changes of the big data age, broaden the horizons, solve the problems from multi angles, and make an organic combination of big data thinking and traditional mode to promote our statistical work to a new level.
big data; statistical thinking; difference
郑磊(1970- ),男,河南郑州人,高级工程师,硕士;研究方向:煤矿安全监察信息系统开发,大数据应用.