大数据的前世、今生和未来
2014-06-28薛一波
薛一波
摘要: 分析了大数据产生的原因,阐述了大数据的作用、价值以及所面临的问题。认为大数据开启了一次重大的时代转型,其科学价值和社会价值主要体现在两个方面:一方面,大数据不仅可以发现事物的显式规律,而且可以挖掘事物的隐式规律和潜在价值;另一方面,大数据可以转化为经济价值的源泉,撼动世界的各个方面。
关键词: 大数据;关联分析;数据科学
Abstract: This paper analyzes the reasons that big data is generated. It then describes big data in terms of effects, value, and issues. Now, big data is opening a new era of development and presents good opportunities. The science and social values of big data focus on two aspects. On the one hand, big data can discover explicit laws and also dig up implicit laws and potential value. On the other hand, big data can be changed into the fountain of economic value and shake all aspects of the world.
Key words: big data; correlation analysis; data science
1 大数据的前世
大数据没有“前世”,只有“今生”和“未来”。
2 大数据的今生
Google每个月要处理900亿次的Web搜索,数据量高达600 PB;百度拥有数千亿的网页,同时数据总量接近1 000 PB;Facebook是全球最大的在线社交网络,用户人数达12.3亿,日活跃人数达7.57亿,日均消息量达10亿条;Twitter用户数突破5亿,日活跃人数2.4亿,日均消息量2.3亿条;腾讯QQ目前拥有8亿互联网用户、4亿移动用户,数据量经压缩处理后约100 PB,并且这一数据还在以日新增200 TB到300 TB、月增加10%的数据量不断增长。
2013年中国产生的数据总量超过0.8 ZB,是2012年中国产生的数据总量的2倍,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5 ZB[1]。
2.1大数据的起因
(1)数字化。由于计算机的出现,使得人类可以用数字化的“眼睛”来观测和处理整个世界,数字化意味着可以从大千世界的一切事物中汲取信息。数字化是大数据的手段。
(2)移动化。随着智能手机、移动终端、便携设备的快速普及,推动了移动互联网的迅猛发展,使得人们可以快速、实时、便捷地产生、分享和获取数据。移动化是大数据产生的原因之一,主要是人在产生数据。
(3)物联化。随着物联网的快速发展,世上万物皆有生命,既能被感知(传感网),又能感知“它”(物联网),还能共分享(网络化);随着物联网技术的进一步发展,感知的广度和深度都将会逐步地加大,不可避免地会产生数据的“海洋”。物联网是大数据产生的原因之二,主要是物在产生数据。
(4)社会化。好奇、求知和交流是人类永恒的渴求,社会网络的出现满足了人们实时交流、分享信息、抒发情感、寻求朋友的愿望,因而得到了迅猛的发展,社会网络每时、每刻、每地产生数据。社会化是大数据产生的原因之三,主要是人和人、人和物的交流在产生数据。
(5)网络化。随着网络用户的增加、带宽的增大以及新应用的不断出现,信息的产生和传播更快、更广、更深。网络化是大数据产生的原因之四,主要是传播在产生数据。
当然产生大数据的原因还有很多,如精度的提升可能使数据量指数不断增长,原来一张照片的数据量不到1 MB,现在可能超过10 MB;再如视频监控的普及、多媒体应用的增多,都产生了大数据。
总之,大数据是一种“现象”,是众多新技术和新应用产生的结果。
2.2 大数据的特点
大数据不仅是指其数据量大,而且还有很多特点,目前公认的至少有4个特点:体量大、形式多、时效强、价值大 [2]。
·体量大主要指范围广、规模大、容量大,通常可以达到PB级,甚至达到EB、ZB级,其中以非结构化数据居多,占总数据量的80%~90%,其增长的速度比结构化数据还要快10~50倍。
·形式多主要指数据类型,具有异构性和多样性,很多不同形式(文本、音频、图像、视频)的数据共存,数据没有特征模式或者特征模式不明显,缺乏语法和语义,具有很强的混杂性和模糊性。
·时效强主要指时效性强,要求实时分析,希望立竿见影而非事后见效,因此需要强大的计算处理能力和及时的数据服务。
·价值大主要指知识的聚合、产生的价值大,大数据具有大量的不相关信息,价值密度相对较低,需要复杂的统计、关联、挖掘和深度分析,来对显式规律、隐式规律、未知规律、发展趋势等进行分析和预测。
2.3大数据的作用
对于大数据,你信与不信,它已存在;你喜不喜欢,它迅猛而来。
对于大数据,你用它就会有用,就会产生价值;你不用它就是垃圾,而且不只是垃圾。
(1)大数据的负面影响
任何事物都有两面性,大数据亦如此!
·信息垃圾。大数据的规模大、冗余多、类型复杂,如果不能加以利用,它就是信息垃圾。另外还需要大量的存储资源、计算资源和人力资源来维护和处理,需要消耗大量的能源,不利于可持续发展。因此我们需要倡导健康的信息观念,不要随意产生和传播信息垃圾。
·隐私威胁。互联网已经对用户的隐私产生很大的影响,在大数据时代隐私威胁会更加严重。通过大数据可以获得一个用户更多的信息,并且通过关联分析,可以获取其行为轨迹、兴趣爱好、社会关系、买卖信息等,对用户的隐私安全造成了极大的威胁。
·数据滥用。大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次或多次利用,会产生许多不可预见的影响,这些影响会有意或无意地威胁到用户的切身利益和隐私安全。如果被用于恶意滥用,甚至会严重侵犯用户的人身和财产等安全。
(2)大数据的正面作用
垃圾也可变废为宝,大数据亦是如此!
·发现规律。以前人类只能“以一斑而窥全局”,经常是“瞎子摸象”,只知其一不知其二。有了大数据,我们就有了感知世界和认识世界的能力和手段,不仅通过简单的统计分析就可以发现事物的显式规律,而且通过深入的挖掘可以发现事物的隐式规律,可以做到全面、实时、准确地认识世界和感知世界。
·关联分析。一个数据可能没有意义或价值,但数据多了,不仅可以探测数据之间的因果关系(纵向,解决事出有因的问题),而且可以分析数据之间的关联关系(横向,解决相互作用的问题),通过几个维度可以更加清晰和准确地分析一个事物的全貌。
当数据以数量级方式增长的时候,可以观察到许多似是而非的关联关系,通过大数据的关联性分析可以更准确、更快捷地获得全貌信息和潜在价值,并且不受偏见的影响。关联性分析通过探求“是什么”,而不是“为什么”,可以更好地了解世界,掌握以前无法理解的复杂技术和社会动态。
·辅助决策。通过大数据的分析,可以建立和刻画事物的行为轨迹和生命周期,继而可以辅助用户做出决策。例如,商业追踪和交易分析等报告形式的辅助决策;故障分析、异常检测等诊断形式的辅助决策;产品评测、广告投放等评估形式的辅助决策等。大数据有价值的一个很重要原因就是它能够帮助我们做出决策。
·趋势预测。通过大数据,不仅可以分析和掌握事物的发展规律,而且可以预测未来的发展趋势,进行态势感知,做到未雨绸缪。大数据是人们获得新认知、创造新价值的源泉。
大数据正如火如荼地在业界展开应用,典型的代表就是互联网巨头:Google、Amazon、Facebook等。随着大数据的演进,不仅越来越多的互联网企业会进入大数据的产业,而且更多的传统企业也会进军大数据。
3 大数据的未来
大数据即将引发第3次科技浪潮和技术变革,既是我们的机遇,也是面临的挑战。
(1)“数据科学”的出现。任何事物都会由量变引发质变,大数据也是如此!大数据不断的快速膨胀,可能很快就会超出我们的认知和处理能力,需要新的科学理论,去引发新的学科——数据科学;需要新的数学理论、计算模型和处理方法,去引发多元创新。
(2)思维理念的转变。大数据不是一个概念,而是一个思维理念,需要对传统的思维理念进行5个方面的转变。第1个转变是:在大数据时代,我们可以分析更多的数据,甚至是某个事物的全集数据,并且“样本”可以等于“总体”,因此我们可以洞察全局、整体和所有,而不是需要随机抽样和多级抽样;第2个转变是:在大数据时代,因为数据量非常庞大,我们可以不再热衷于追求精确性,而是可以适当忽略微观层面的精确性而专注于宏观层面的洞察力,偏重于用概率说话,接受混乱和不精确性,我们可能会因此打开一扇新的窗户,宽容错误可能会带来更多价值;第3个转变是:在大数据时代,寻找因果关系不再是长久以来的习惯,我们将更侧重于寻找事物之间的关联关系,这会让我们发现新的潜在价值,这正是大数据的关键;第4个转变是:大数据时代的简单算法比小数据时代的复杂算法更有效,所以我们要寻找更为有效的简单算法;第5个转变是:数据的价值从基本用途转变为潜在用途,数据的价值不会随着它的使用而减少,而是可以不断地被处理和利用,并不断地产生价值,即数据可以被无限利用,而不是一次性消费[3]。
(3)全面数据的掌握。大数据的核心是数据,谁拥有数据,谁就有话语权,谁就能抢占制高点。因此,一是要花大气力全面、实时、准确地获取数据,这是“本”;二是要对大数据进行科学的分析、规范、整理,洞察数据的丰富特性,这对数据的分析和利用可以起到事半功倍的效果!
(4)潜在价值的挖掘。有了大数据,掌握了多个数据源,就可以从多个角度把握事物。更为重要的是,大数据之间存在着相互联系,通过关联性分析可以获得潜在价值,可以创造新的发现,并预测未来。大数据的精髓就是挖掘出庞大数据中一些独有的价值!
(5)核心技术的研发。有了数据,有了需求,就要研究和提出合适的统计、分析、挖掘、关联和预测模型,设计高效的处理方法和手段,构建精细的处理流程,设计精美的可视化界面和工具,做出一个好的大数据分析系统和产品,从而发现规律、产生价值,为客户乃至世界带来新的价值增长。
4 结束语
大数据开启了一次重大的时代转型,大数据的科学价值和社会价值主要体现在两个方面:一方面大数据可以转化为经济价值的源泉;另一方面,大数据已经开始撼动世界的各个方面。
大数据蕴藏着巨大的宝藏,就像传统的石油、天然气、金矿等一样,就看你是否有能力挖到?能挖到多少?大数据的时代汹涌而来,我们要迎头而上,避免错失良机!
参考文献
[1] 大数据史记2013:盘点中国2013行业数据量[EB/OL]. http://www.36dsj.com/archives/6285
[2] 城田真琴.大数据的冲击[M].周自恒,译.北京:人民邮电出版社, 2013.
[3] 维克托.迈尔-舍恩伯格, 肯尼恩.库克, 大数据时代-生活、工作与思维的大变革[M].盛杨燕、周涛,译. 杭州: 浙江人民出版社, 2013.