大数据价值之大的依据及其思维方式的变革
2016-11-30吴新维
吴新维
摘 要: 伴随着互联网、云计算、传感器等信息技术的发展和计算机储存能力的提升,人们的生产、生活等活动在一定时间内被记录并保存下来,由此产生了海量的数据,普通的计算机软件无法捕捉、处理这些海量数据,大数据概念由此诞生。大数据之大的实质要义在于其潜在价值的巨大,潜在价值的巨大不仅得到了诸多领域实践上的印证,也有其深刻的理论铺垫,建立在互联网等技术基础上的大数据方便了人们的生产、生活与研究,也带来了思维方式的变革。
关键词: 大数据; 价值; 依据; 思维方式; 变革
中图分类号:N941 文献标志码:A 文章编号:1006-8228(2016)10-01-04
The basis of big data's value and the change of thinking mode
Wu Xinwei
(College of computer science and technology, Jin University, Changchun, Jilin 130012, China)
Abstract: Following the development of information technology of the Internet, cloud computing, sensors etc. and the increasing of the computer storage capacity, people's production and life, and many other activities in a certain period of time is recorded and preserved, from this, creating vast amounts of data. Because the common computer software cannot capture, process these vast amounts of data, the concept of big data was born. The cause of the big data called big lies in its huge potential value. The huge potential value is proved in many practice fields, and has its profound theoretical foil. big data based on Internet technologies is convenient to people's production, life and study, and also brings the change of thinking mode.
Key words: big data; value; basis; thinking mode; change
0 引言
信息技术的发展,对人类的生产、科研、生活产生了巨大的影响,不仅为人们提供了巨大的便利和节省了大量的时间,也为人类探索未知的领域提供了可以量化分析与研究的总体样本,即大数据。那么如何理解大数据,如何体验大数据带给人们的便利以及大数据对人类思维方式的巨大改变值得关注。
1 大数据
大数据看似抽象的概念,实则与我们的实践活动有着内在的关联性,且大数据之大不只是形式上量的积累,实质上是其潜在的价值巨大,把大数据还原到现实世界中来,我们就会对其有着感性直观的近距离理解。
1.1 来源
广义的数据源于人们对自身各种实践活动及各类自然现象的记录,自文字诞生之日起,人类就进行了各种记载活动。如对生产技术的记录,如我国先秦时期的《考工记》、三国魏初时的《长物志》、宋朝以前的《农桑辑要》等。广义的数据不同于今天的大数据,其显著特征表现在周期长和规律性,周期长是指对人类的某种活动完整过程的记录,并且是在已经知晓这种活动规律的情况下才作记录。而今天的大数据的特征在于其时效性和无序化(不知其规律性),建立在计算机基础上的互联网、物联网、云计算及传感器技术使人类记录各种瞬时活动和无序活动成为了可能。
1.2 数据之大的根据
早在2001年,就出现了关于大数据的定义,META集团(现为Gartner)的分析师道格·莱尼(Doug Laney)在研究报告中,将数据增长带来的挑战和机遇定义为三维式,即数量(Volume)、速度(Velocity)和种类(Variety)的增加后来变为“4V”,除了上述三个特征外,增加了Value(价值巨大但密度很低)[1]。2010年Apache Hadoop组织将大数据定义为“普通计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集”[2]。目前,大数据的一般范围是从几个TB到数个PB(数千TB)[3]数据集的大小并不是大数据的惟一标准,数据之大除了量和规模大外,其重要的标志性特征是其潜在价值之大,Facebook的副总工程师杰伊·帕瑞克所言:“如果不利用所采集的数据,那么你所拥有的只是一堆数据,而不是大数据”。对地理现象的记录如《徐霞客游记》,这部著作是我国最早详细记录所经之处的地理环境的游记,亦是世界上最早记述卡斯特地貌,并能详细对其成因进行考证的书籍。人类的思想创作亦是一种实践活动,记录当时学者对所属时代的认知及反思,如我国经典文献中的《道德经》、《论语》等[2]。
2 大数据潜在价值之大的依据
大数据之所以有巨大的潜在价值,在于不同领域研究者如何利用大数据去预测当下凭着直观无法知晓和做出判断的关于事物或事态潜在的运行趋势,信息时代为我们提供了进行量化分析的技术手段,且研究的样本不是部分,而是总体。大数据不同于一般的研究成果,在其被人们作为研究对象使用之前,其潜在价值看似“无”,所以,大数据的价值在于使用者的目的及其探究的方式。
2.1 大数据的创新潜质
维克托·迈尔-舍恩伯格、肯尼思·库克耶著的《大数据时代——生活、工作与思维的大变革》中指出了大数据创新的六大特征:数据的再利用、重组数据、可扩展数据、数据的折旧值、数据废气、开放数据[4]。结合文本及自身的理解,对其做出简要的分析。
数据的再利用:消费者在网络上通过搜索关键词来寻找信息。“消费者和搜索引擎之间的瞬时交互形成了一个网站和广告的列表,实现了那一刻特定功能”[4],似乎在满足消费者之后,这些信息就变得一文不值,但是这些查询可以汇集起来,被商家再利用。
重组数据:一组数据与另一组迥然有别的数据组合起来,探讨一种现象和另一种现象之间是否存在着必然的关联性,如丹麦癌症协会把1990年到2007年拥有手机的用户信息与这期间所有癌症患者的信息进行比对,以期解决:手机使用者是否比非手机使用者显示出较高的癌症发病率;使用手机时间长比使用时间短是否更容易患上癌症;比对结果显示二者之间没有必然的联系。
可扩展数据:在决定进行数据收集之前,最好想到数据的多种可利用价值。比如,零售商在店内安装监控摄像头,起初只是起到安全保卫作用,可摄像头还能跟踪客户流和客户停留的位置,零售商可据此设计店面的最佳布局并判断营销活动的有效性。
数据的折旧值:数据的拥有者、数据的收集者、数据的使用者三者之间,因为各自的角色不同,所以承担的任务亦不同,由于现在储存数据的成本降低,所以数据可以较长时间保存下来,在数据一次次地被使用后,数据的价值出现折旧,但当潜在的需求出现后,数据的潜在价值就会被挖掘出来,这需要作为第三方的使用者与数据拥有者,甚至数据采集者共享数据的潜在价值。
数据废气:数据废气是“用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等[4]。”指“许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。”[4]许多公司收集“数据废气”并循环利用“废气”,达到改善现有的服务或开发新的服务的目的。
开放数据:政府是大规模信息的原始采集者和拥有者,但政府对数据的利用率较低,具有不同需要的使用者使用数据,数据的潜在价值才能释放出来,因此,“开放政府数据”的呼声响彻全球。
2.2 大数据的效用
数据大体上可分为通过传感器获得的数据和人机物交互生成的瞬时数据,所以,拥有了大数据意味着已经掌握了事物当前的运行状态和作为消费者当下的需求指向,据此,大数据的效用基本上可概括为预测与避免、预测与决策。
预测与避免:大型化工厂和提炼厂都安装了无线传感器,通过传感器传送来的数据变化,可提前知晓设备的哪个零件出了问题,还有对炼油厂管道承压的测试,既可以知道不同种类的原油的腐蚀性程度的差异,也可以提前知道管道承压是否接近极限,可以提前进行设备的更换和维修,以减少事故的发生和消除安全隐患,为工厂节省了大量时间和开支。传感器还被安装在桥梁和建筑物上,通过传感器来监测磨损程度,提前进行维修,减少桥梁和建筑物的坍塌给人们的生命财产带来的危害。作为下水道的修建口沙井盖因其内部失火而引起的爆炸,会将沙井盖冲出几层楼的高度,其破坏性可想而知,2007年联合爱迪生电力公司求助统计学家研究出现过问题的历史数据,探讨问题沙井盖与基础设施之间的内在联系,进而预测可能会出现问题的沙井盖,及时进行维修,这样避免了灾难性事情的发生。
预测与决策:人、机、物在网络空间中彼此交互与融合所产生的并在互联网上可获得的大数据可被不同需要的人作为研究对象,从中梳理出数据呈现的基本走势,或者从数据中预测消费者的未来需求方向。2003年奥伦· 埃齐奥尼因偶然遭遇早买的机票反而比晚买的机票的价格高的困惑时,决心利用已有数据预测机票价格,奥伦· 埃齐奥尼在获取41天之内的12000个机票价格样本基础上,建立了机票预测系统,到2012年止,Farecast系统用了近10万亿条价格记录来帮助预测美国国内航班的票价。Farecast票价预测的准确率高达75%[4]。通过分析互联网上的搜索记录,可以预测当下人们的需要和身体状态,在甲型H1N1流感爆发前的几周前,谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较,据此判定搜索感冒治疗记录的人是否患上了流感,当然,不排除有该种搜索记录的人可能不一定患上感冒,可以通过勘查特定检索词条的使用频率与流感在时间上和空间上的传播之间的联系,来确定是否患上了流感,谷歌将其得出的预测与官方的疾控中心实际记录的流感病例比对后,相关性高达97%[4]。网购已成为当下最流行的销售方式,商家可通过分析网上订单记录,预测消费者下一步的消费需求,提前做好商品宣传和促销活动。
3 大数据与思维方式的变革
2008年,《连线》杂志主编克里斯·安德森(Chris Anderson)指出:“数据爆炸使得科学的研究方法落伍了[4]。”如何理解主编的上述判断,互联网确实改变了人们的生活与工作方式,也改变了人们探究和认知世界的模式。
3.1 大数据改变了传统的探究模式
传统的研究不论是自然科学的还是社会科学的,其研究对象是事先确定的,且完成的是一次性的或静止状态的研究,但大数据改变了这种研究的局限性,被采集的数据的对象不是固定的,且数据的生成过程是个动态的流动过程,可以从某个时段内预测被研究对象的未来发展状态或需求。互联网还缩短了研究者和研究对象之间的时空距离,在万里之外的瞬时想法和行为,可以在几秒钟内被世界各地的人知晓,这就是互联网的神奇。人们在互联网上的任何搜索活动都会被“第三只眼”看着,其行为会成为大数据的组成部分,成为研究标本的一个因子。
3.2 大数据改变了原有的认知观念
在计算机的贮存能力有限和网络并不普及的条件下,我们对于研究对象采用实地调查和问卷方式,那么我们采集的样本就是部分,在这种情况下,我们思维往往倾向于有序化和规律性,这是采集手段受限的条件下的心理反应。而所谓的有序化和规律性是结构性数据的内在特征,是研究者对同质化事物的理论预设,即研究者在采集数据之前,对要研究的对象可能会呈现的发展样态有初步的设定,那么,样本中的任一要素基本上符合最初的理论预设。样本是部分也因采集对象受到时间与空间的限制,而使研究结论带有片面性,在采集数据手段受限的情况下,人们喜欢有序和规律,而逃避差异和模糊,但差异性和无序性是事物的真实存在状态,在大数据状态下,“只有5%的数据是有框架的且能适用于传统数据库的,如果不接受混乱,剩下95%的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户[4]。”
拥抱差异和无序才是我们解决问题的根本,现代信息技术提供了研究样本的整体性,为我们探讨差异和无序提供了技术保障。例如,为了防止和打击信用卡诈骗,就不能放过哪怕一次异常交易记录,Xoom公司是一个专门从事跨境汇款业务的公司,它运用大数据技术分析每一笔交易的所有有关数据,2011年的一段时间里,它发现用“发现卡”从新泽西州汇款的交易量比往常明显增多,于是紧急启动报警程序,从而防止了一个诈骗集团的金融犯罪[5]。
辨证地看待精确和模糊的关系,才是探究世界的理性方式,确定性、精准性是信息缺乏时代和模拟时代的思维方式,但真正的异质性的东西却存在于非结构的无序化的数据中,现代信息技术给人们捕捉无序化的数据提供了技术上的支持;20世纪量子力学的发展打破了建立在经典力学基础上的决定论的神话,量子力学的“测不准定律”是人们探究微观世界的真实写照,统计性,非精准性,不确定性逐步成为人们理解世界的新观念;波普对于正确与错误的判断不是建立在证实的基础上,波普认为不能证伪的命题就是有意义的命题,随着实践的深入和探究工具的改进,是有可能被证实的科学命题。我们知道,爱因斯坦提出相对论,在当时的条件下无法被证实,也无法被证伪,其广义相对论(光线在引力场中具有弯曲效应)于1919年5月29日发生日全蚀时,爱丁顿赴西非几内亚湾的普林西比岛进行观测(另一只观测队赴南美观测),观测结果证实了广义相对论。今天诸多领域高科技的实践也证实了爱因斯坦的狭义相对论(尺缩钟慢)。
3.3 重新审视因果关系和相关关系
休谟基于经验论的基础上,把观念之间的关系分为三种:相似关系、接近关系和因果关系。一般认为因果性是“习惯的联想”,康德认为,把科学的地基建立在经验论的基础上是不牢固的,康德认为因果性是理性思维的先天法则或思维形式。如何理解“先天”的含义,从黑格尔如下的判断中,可以理解思维法则的先天性:人们不学逻辑学就能思维,就象人们不学生物学就能消化一样,所以,因果性是人们先天的思维法则。习惯于因果关系的心理定势是建立在数理逻辑推理的基础上的。中国工程院院士李国杰对此评价道:“我们都是从做平面几何证明题开始进入科学大花园的,脑子里固有的逻辑思维模式少不了因果分析,判断是否是真理也习惯看充分必要条件,对于大数据的关联分析蕴含的科学意义往往理解不深。”[1]维克托·迈尔—舍恩伯格认为大数据时代下,证明相关关系的成本低且省时,而因果关系却很难被证明,他用飓风来临时,商场老板将手电筒和蛋挞放在一起,可以起到促销效果这一例子说明相关性。
相关关系是大数据时代人们生存节奏便捷化的一种心理反应,但是,从大数据的来源上和用途上,不仅仅要关注相关关系,因果关系也是我们探究世界,进行科学研究的基本思维形式,大数据从来源上说,基本上分为两大类:一是人、机、物相互作用情况下生成的数据,基本上是消费者的消费需求和心理倾向,这可以被商家利用或公共管理部门利用,对这部分数据的分析,采用相关关系即可;二是作为传感器生成的数据,是人们进行研究的重要依据,如在生产领域或基础设施上,人们无法直观到对象已经发生的量变,但传感器可以采集到,在达到质变之前,人们就可以采取维修或替换的方式,避免事故的发生。
这里,仅用相关关系是不足以完成对数据价值的挖掘的。《大数据时代》一书的译者周涛教授指出,“放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。”[6]这样的理解是非常深刻的,重视大数据时代相关关系的分析(省时便捷),但也不能放弃对因果关系的探究,相关关系也证实了在探究事物逻辑链的过程中,不是一种线性的思维,有诸多因素直接或间接地影响事物的发展。例如,如果给手电筒和蛋挞的相关性寻找因果,那么在飓风来临时,可能导致会断电,无法照明和做蛋挞,那么大量购买这两种东西就可以理解了。
4 结束语
大数据的创新潜质和已经开发出的应用空间有力地证实了大数据的价值之大,随着信息技术的进一步开发和应用,大数据的潜在价值会进一步地被挖掘出来,那时候,人类的思维方式又会发生新的变革。未来需要大数据研究者进一步加强对网络存储模式的开发利用,并实现对大数据的高效操作和编译的目标。本文仅作为研究“蜕变测试在编译器中的应用”的理论铺垫。
参考文献(References):
[1] 李国杰.大数据研究:未来科技及经济社会发展的重大战略
领域[J].中国科学院院刊,2012.6:648-651
[2] 转引自张引.大数据应用的现状与展望[J].计算机研究与发
展,2013.50:217-218
[3] Manyika J, Chui M, Brown B, et al. Big data: The next
frontier for innovation, competition, and productivity[J]. Mckinsey Global Institute,2011:1-137
[4] 维克托·迈尔-舍恩伯格 肯尼思·库克耶著的.大数据时代
——生活、工作与思维的大变革[M].浙江人民出版社,2013.
[5] 张弛.大数据思维范畴探究[J].华中科技大学学报社会科学
版,2015.2:123-124
[6] 周涛.《在路上晃晃悠悠.“大数据时代”》(《大数据时代——生
活、工作与思维的大变革》[M]的序言).浙江人民出版社,2013.