大数据时代的统计分析
2018-05-07褚慧敏
褚慧敏
摘 要:大数据对社会经济的各个方面产生的巨大影响,本文讨论了大数据下的统计思维原理:总体代替抽样可以改善取样分析的准确性;用相关代替因果,在一定程度上对研究有量变引起质变的作用;接受数据不准确和不完美,可以更好地模拟和了解世界。基于这一原理,讨论统计业务,如数据搜集、数据处理和数据应用所面临的挑战。
关键词:大数据 统计分析 总体 相关 近似
中图分类号:G64 文献标识码:A 文章编号:1674-098X(2018)01(a)-0166-03
随着物联网、云计算、传感器的快速发展,大数据已经引起全球广泛的关注[1]。企业的IT高管们已然开始意识到,如果没有强大的分析系统,大数据几乎没什么价值。所以,最关键的并非大数据本身,而是数据价值的获取。如果企业管理者能够从他们收集的数据中得到真实的信息,他们可以做出更好的决策,并提升企业乃至整个行业中的地位。
小数据统计的最基本的思想就是抽样方法,利用样本的信息去估计总体信息以减少不必要的损失。其中最常见的应用就是,在测量某家厂商生产电视的寿命时,不必每一台都去测量,而是从中取出样本测量,再利用样本和总体的关系,得到总体的电视寿命的大概分布,再利用抽样检测,验证其分布是否合理[2]。
与小数据统计不同,大数据统计不用随机抽样调查,而采用全员数据参与的方法。当数据积累到一定程度之后,数据就会引发质变。也就是说,样本容量越大,收集的信息就越多,
从而估计的精度就越高,但进行观察所投入的费用、人力和处理时间就越长。抽样方法,虽然节省了进行观察所投入的费用、人力和处理时间,但由于收集的信息有限,影响了估计的准确性,在小数据时代,这是个统计两难问题。而今天,在计算机处理能力日益增长,特别是互联网(包括移动互联网)的发展、传感技术的广泛应用,使得统计所需要的样本的获取变得轻而易举,或者说大数据时代给统计科学带来了新的生机。大数据价值获取主要体现在以下几个方面[2]。
(1)可视化分析。
数据可视化分析能够客观地、直观地认知数据,其基本原理是借助于图形化技术,直观地传达数据潜在的特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。让数据分析人员更深入地观察和分析,实现更好的用户体验。
(2)数据价值挖掘。
数据价值挖掘指从大量有噪声的、不完全的、随机的、模糊的数据中,提取隐藏在数据中的、有用的信息和知识的过程。挖掘的结果是数据分析报告的素材,挖掘的越深,数据故事讲得就越精彩。数据价值挖掘是数据分析的基本任务。
(3)预测。
大数据分析最要的目标之一就是预测分析,其基本思想是根据客观事物的已知信息,推测和评估估计事物在将来的某些特征和发展状态,从而减少对事物认知的不确定性,减少决策的盲目性。
要实现大数据分析这些技术,必须要树立大数据时代的数据统计理念。
1 大数据时代的数据统计理念
1.1 总体取代抽样
在小数据时代,统计分析往往用尽可能少的样本来证实总体的假设,所以,一般采用随机抽样,随机抽样方法存在以下缺陷。
(1)随机性不容易保证;
(2)泛化能力差;
(3)忽略了细节;
(4)对奇异值敏感。
随着计算机技术、网络技术、通信技术的发展,能很容易获取来自传感器、网站、视频等数据,计算机的处理能力越来越大。所以,在大数据时代,统计分析不是依靠少量的样本抽样数据,而是依靠总体数据。如Google的流感趋势预测是在分析了几十亿条互联网社交数据而得出的结论。总体取代抽样能够提高微观层面分析的准确性。
“样本=总体”是大数据时代数据统计的准则,这种巨大的调整,意味着统计重心需要转移。
如果说小数据时代的统计分析的重心在于如何获取数据,那么在大数据时代,则重心在于如何选择有用数据[4]。
数据多比数据少要好,更多数据比算法系统更优化还要重要。
1.2 相关关系取代因果关系
相关关系应该说是统计科学发展的基础,虽然有大量的理论是以逻辑推导得来的,但还是有相当一部分是先发现相关关系,再研究因果关系。
针对传统统计分析中的因果关系难以确定的缺陷,在大数据时代,更注重相关关系的发现。相关关系指我们在观察研究对象X,Y时,如果发现,X的变化总是与Y的变化同步,那我们就说X和Y是相关的。事实上,我们可以确定的所有关系都是相关关系,但我们无法得出因果性结论,相关关系应该只与变量之间连动性的紧密程度有关,而不应受变量间形式的影响。相关关系具有“普遍性”,运用范围之广、重要性之大是我们不能忽略的。传统的统计方法已经无法满足发现相关关系的业务需求,面临巨大挑战和机遇。
从理论上讲,相关关系是发现因果关系的基础,快速排除不必要的行为。特别在研究复杂系统时,采用相关关系分数线因果关系具有更高的效率。相关关系的研究是一种提高研究效率的方法,在一定程度上对研究有量变引起质变的又积极作用。
文献[5]指出:“我们没有必要非得知道现象背后的原因,而是要让数据自己发声,相关关系能够帮助我们更好地了解这个世界。”建立在相关关系分析法上面的预测是大数据的核心。通过找到“关联物”并监控它,我们就能够预测未来。
1.3 近似取代精确
精确的、规范化的、可以被传统數据库处理的数据只占全部数据的5%,必须接受不精确性才能处理另外的95%[6]。
在大数据时代,近似性不是竭力避免,而是一种标准途径[7]。在小数据时代,数据分析的目的就是防止发生错误,所以,在收集样本时,数据分析师会用明智的策略来减少错误数据,但实施规避错误发生的策略非常耗费。尤其是当我们收集的数据大到一定规模时,规避错误发生的策略就行不通了,不仅是因为处理成本加大,还因为在海量数据上保持数据的一致性不太现实。
大数据时代要求我们重新看待数据精确性的内涵。如果将小数据时代的思维模式运用于大数据上,就会错过许多挖掘有价值数据的机会。
执迷于数据精确性是“小数据时代”的产物,因为在“小数据时代”,任何一个数据都对结果有影响,所以,只有保证数据的精确性,才不会导致分析结果出偏差。
如今,我们掌握的数据库越来越全面,不需要再担心某个数据对总体分析的产生的不利影响。我们要做的就是要接受这些不精确的数据,并从中受益,而不是以高昂的代价消除数据的不精确性。
大数据让我们接受数据的不精确和不完美,除了一开始会与我们的直觉相矛盾之外,随着数据的增多,“近似”反而能够更好地地理解世界。
2 统计业务的变革
一个新生事物的出现将必定导致传统观念和技术的革命。小数据时代统计学最得意的回归预测方法面临考验[8]。
大数据时代的数据统计的“总体、相关关系、近似”特征,增强了统计学的生命力,意味着统计业务将发生如下变革。
2.1 数据搜集
数据的搜集和存储是大数据分析和数据利用的前提。如果没有大量的数据,再强大的分析能力也是“巧妇难为无米之炊”。在搜集和存储数据方面,要有长远的眼光,会分析的数据要搜集,不会分析的数据也要搜集。等到新的数据分析方式出来之后再开始搜集数据就已悔之晚矣。
随着传感技术的发展,收集数据变得十分简单而且成本超便宜。即使你仅仅在讨论区留言、Twitter 或 FB 发表一段文字,它都会变成新的信息,成为大数据的一部份。可以说你的生活离不开这片无限巨网,即使你不上网,手上的付款装置同样有机会出卖你,让你成为大数据提供者之一,所以,传统的统计抽样调查不再适用。
2.2 数据处理
提高对数据的分析能力是大数据价值体现的核心。再利用传统的统计方法无法得到我们期望的结果,这就需要我们对统计方法进行创新与发展。大数据统计分析是以相关关系为基础展开的,它不同于传统的因果关系分析,因果关系分析基本是线性相关分析,而相关关系分析的不仅是线性相关,更多的是非线性相关以及不明确函数形式的线性关系。
2.3 数据使用
让数据说话,用数据提高数据的决策效率和决策质量是大数据分析的最终目标。用户一般情况下是不知道自己需要什么,但大数据知道。通过价值挖掘,数据会告诉管理者,用户需要解决的问题是什么。让数据说话就是写出有分量、有价值、能辅助决策的数据分析报告,这样的报告不是用数据证明你的结论,而是如何讲清楚数据的故事。一般需要特别关注:(1)业务的改变,(2)异常数据。
3 结语
大数据不是基于人工设计的数据,也不是借助传统方法获得的数据,而是基于现代信息技术自动记录、储存和扩充的数据。通过对大数据特性分析找出大数据与统计学的联系,进一步了解在大数据时代下,统计学所处的地位以及大数据时代下统计学的变化和发展。
参考文献
[1] 大数据时代到来百度大规模机器学习算法受追捧.2014-03-21第48期百度技术沙龙,http://tech.huanqiu.com/Enterprise/ 2014-03/4921523.html.
[2] 吕浩.数据统计与分析 http://wenku.baidu.com/link?url=cBurGBToX1gf5RKE0Ws38oaVQu8BD8Jk8ErqhQ3yrR1TV P6ERuh 4KJ1V2RaHUmhbESdYpyigCqzjNk64XvgevIf1uLzUcz-FCK7LYATn_m
[3] 李国杰.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2013(6).
[4] 邱东.大数据时代对统计学的挑战[J]。统计研究,2014,31(1):16-24.
[5] 维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代——生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013(中文版).
[6] B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4):408-413.
[7] 朱建平.大數据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-19.
[8] Hang Yang, Simon Fong, Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks,2012,24(2):125-131.