刍议大数据时代下的数据分析理念
2015-05-30张航
张航
摘要:近年来,在科学技术不断发展的同时,推动了互联网与物联网的进步,这也同样意味着海量数据时代的到来,并处于迅速发展的阶段。在此背景下,电子商务与互联网等多种领域中已经出现了大量的数据积累,因此“大数据”产生。文章以统计学的角度来对“大数据时代”的概念进行了界定,同时渗入研究了“大数据时代”的定义,结合其具体的特点,对目前阶段统计研究工作以及统计理念中的挑战进行了探讨,最终积极的明确了统计工作与研究合理变动的具体想法。
关键词:大数据时代;大数据;统计学;数据分析
引言:
目前阶段,在计算机处理技术不断发展的背景下,在对规模较大并且较为复杂的数据进行处理过程中,人们已经逐渐掌握了方法与技能,并且能够在大规模的数据中找出具有一定价值的信息,所以,大数据时代已经来临。在数据时代中,在人文社科与人类自然科学技术等方面都会有较大的发展,同时也会一定程度上改变人们的生活与工作方式。除此之外,大数据时代也同样为统计学提供了良好的发展机会,但也存在一定的挑战。
一、大数据时代的概念
大数据时代的提出者是麦肯锡,他认为数据已经逐渐进入到各个行业与各业务职能的领域中,并且逐渐成为了主要的生产因素[1]。因此,人们在对大规模数据进行挖掘与应用的过程,也就意味着新的生产率增长的来临。虽然“大数据”在众多行业被广泛应用,但是,特别是在信息与互联网的领域中应用突出。
二、怎样理解大数据
(一)大数据概念界定与构成
大数据,即由于日常产生的数据量快速增长,使得数据库无法利用相应的管理工具对其进行管理与收集,最终导致在进行搜索、分析、存取、共享数据时具有较大的困难。
大数据的构成包括四部分,并将其总结为4V,即Volume,Variety,Value,Velocity[2]。第一部分是价值密度低,将视频作为具体实例来说,实现连续并且不间断的监控,其中有价值的数据信息只有一两秒。第二部分是数据体量极大,已经从TB实现了PB的跃升。第三部分是数据类型众多,主要包括视频、图片、网络日志以及地理信息等。第四部分是处理的速度超快,可以用一秒定律来解释。
(二)海量数据带来哪些挑战
第一,数据存储。由于大数据的数据规模是PB级别,所以,存储的系统也需要进行等级的拓展,并且可以通过磁盘柜或者是增加模块实现容量的增加。然而,目前阶段,数据的增长速度惊人,所以系统资源的消耗也不断增加,导致系统的运行效率有所下降[3]。因为对海量数据始终停留在分布式的存储阶段,所以,对于爆炸式的数据增长,原有的存储方案已经无法满足现有的数据变化需求。
第二,处理技术。由于海量数据的分布性与数据量与以往存在较大的差异,所以,原有的数据管理技术已经处于落后状态。
第三,数据安全。在互联网规模逐渐扩大的情况下,数据的应用已经出现指数级别的增长,所以,对于数据安全的保护与监控来说具有一定的难度。
(三)大数据相关应用与实践
第一,体育赛事应用。以2014年的世界杯为例,在充分发挥记者与编辑敏锐度的基础上,腾讯也利用对大数据的分析以及云计算等方式来为为其提供移动与社交的数据。与此同时,腾讯与IBM进行合作,并通过文化、赛事与球迷三方面来对世界杯球迷的关注重点进行信息的挖掘,进而实现新栏目的创作,并且在短时间内赢得了广大球迷的认可与关注。
第二,产品推荐应用。产品推荐的应用比较广泛,可以对客户信息、交易历史、购买过程等数据进行全面的分析,并进行有价值信息的挖掘。同时,针对同一产品的不同客户访问信息也可以进行挖掘。最终,通过对客户行为的分析,来确定消费者的共性行为,这样就可以更好的为客户推荐产品。
除此之外,在产品推荐中,可以在对客户社交行为进行信息挖掘与分析的基础上来进行社区的营销。对客户微信微博以及社区活动中的偏好数据进行分析,并为其提供符合客户兴趣爱好的产品。
图一
三、如何分析大数据
(一)如何挖掘数据中价值
以匹配广告为具体事例进行分析,主要有两种数据。第一种是广告库,其中包括广告库以及广告的客户信息[4]。但是这种数据信息比较适合在传统数据库中应用。第二种是用户在观看广告后的行为。可以把以上两种数据进行有效的结合,并通过相应的算法来体现价值。在实践应用过程中,可以充分体会到第二种信息的重要作用。可以为用户提供其所需的信息,并通过群体智能以及群体行为对之前用户使用的效果进行分析,最终通过具体的反馈机制,将最优质的信息提供给用户,还可以进行搜索或者是查询信息。
(二)如何做处理与分析
第一,更新抽样调查的工作理念。由于大数据时代的数据样本是以往资料综合,所以,可以对相关事务的数据信息进行分析,进一步对总体进行了解,还可以更好的了解局部。同时需要解决以下问题:抽样框架不稳定,调查目的设定不合理、样本量受限[5]。第二,积极改变对于数据精确度的标准。在大数据时代的背景下,数据的来源比较广泛,并且对数据进行处理的技术也有所提高,所以,可以允许数据存在不准确的情况。大数据时代需要吸收多种数据,但并需要一味的要求数据精准。第三,合理转变数据关系的分析重点。由于大数据时代的数据规模比较大,而且结构也十分复杂,变量的关系也比较繁杂。所以,在对数据进行分析的过程中,不应该对因果关系进行仔细的分析,而重要的是对事物相关的关系进行分析。需要转换思路,对事物关系的形式与目的进行详细的分析。
四、 大数据对统计学科和统计研究工作的影响
(一) 拓展统计学研究领域
因为大数据时代的到来,所以会对各个领域产生一定的影响,同样给统计学带来影响。在统计学中,其主要的研究对象就是其所要认识的客体,是客观存在事物自身的数量特征与关系。其中,统计学研究对象最主要的特点就是数量性。然而,在传统的统计学当中,数据主要是试验与调查的数值。在大数据时代中,统计研究的对象不仅包括以结构数据度量的数量,此外,还可以包括一些无法用数量关系进行衡量的半结构与非结构数据,其中可以包括动画、图片、声音、文本等等[6]。所以,可以说,在大数据时代背景下,统计学的研究对象领域有所扩大。
(二) 对统计计算规范产生影响
在传统的统计学当中,一般是使用方差、平均数以及相对数等数据计算规范来真实反映事物量特征的,同时还可以反映事物量的关系与界限,能够通过数据计算规范来计算出具体的数值。但是,半结构与非结构的数据是无法通过传统数据计算规范进行计算的[7]。所以,在大数据时代的背景下,传统的数据计算规范也同样遇到了难题。
(三) 对统计研究工作的过程产生影响
1. 数据整理和分析
第一,数据审核。原有的数据审核主要的目的就是对数据准确性和完整性进行严格的检查。但是,在大数据的时代中,对数据的审核就必须要确保数据处理的速度以及预测的准确程度,同时还需要对数处理的规模进行准确的确定,也就是数据量级别的确定。除此之外,因为大数据自身具有不稳定性,并且十分混乱。但是,即使是这样,大数据也能够挖掘出信息内部存在的隐蔽关系以及有价值的知识。所以,大数据所反映的研究对象存在准确与不准确两种,但是,任何一种的数据都具有一定的价值,通常情况下是不需要进行替换或者是删除的[8]。
第二,数据存储。在以往的数据存储中,审核、汇总以及编制的图表等资料是重点资料,并且需要进行保存起来的。然而,大数据保存最主要的目的就是对存储的成本进行有效的控制,同时需要根据相应的法规计划来确定数据存储的规模。
2. 数据积累、开发与应用
第一,数据积累。传统统计工作主要是根据所制定的研究目的来对数据进行汇总与分类,并进行保存,这样可以更好的为后期数据的分析与查询提供有利的条件。但是,在大数据的积累中,具有价值的信息需要对大数据进行处理后才可以发现。不容置疑,大数据具有一定的复杂性,所以,在积累的过程中,不可以进行简单的处理。因为大数据的规模大,结构也比较复杂,无法实现简单的分类,而且,在对大数据进行简单整理时非常容易使其混乱,对其真实性产生影响,可能会丢失具有价值的信息。
第二,数据开发。大数据时代下的数据流动性极强,所以,其自身的价值有再生性。因此,大数据时代的数据不会贬值,反而会增值。为了能够对所研究的对象进行更深入的了解,就需要对其整合。
第三,数据应用。对数据的传统应用主要是为了对现象进行解释与预测。但是,在大数据时代,数据应用的核心就是在相关关系前提下的预测。
结语
综上所述,现阶段我国社会正处于大数据时代,并且对于社会未来的发展具有重要的意义。文章对大数据时代的概念与定义以及构成进行了阐述与分析,同时,对大数据的实际应用与实践进行了探讨。针对大数据价值的挖掘与分析处理进行了研究,最后列举了大数据对统计学科以及统计研究工作的影响,进而对今后大数据的数据分析工作提供了有价值的理论依据,并积极的推动了大数据时代的发展,进一步促进了社会的进步。(作者单位:中国人民大学)
参考文献:
[1]朱建平,章贵军,刘晓葳等.大数据时代下数据分析理念的辨析[J].统计研究,2014,31(2):10-19.
[2]张学敏.大数据时代的数据分析[J].电子世界,2014(16):5-5,6.
[3]李祥歌,王奇奇,郭轶博等.基于大数据时代的数据挖掘及分析[J].电子制作,2015(3):81-81.
[4]刘江娜.大数据时代:为什么数据分析能让你的企业脱颖而出[J].环球市场信息导报,2014(36):92-93.
[5]郭华庚,向礼花.大数据时代网络信息归档的元数据分析[J].贵州师范学院学报,2015,31(3):24-28.
[6]高书国.大数据时代的数据困惑——教育研究的数据困境[J].教育科学研究,2015(1):24-30.
[7]王惠.大数据时代下数据分析理念研究[J].中国市场,2015(22):74,85.
[8]胡佳.大数据时代的数据分析与挖掘[J].中国新通信,2014(23):34-34.