大数据思维
2015-12-01
大数据思维
李伟顺 周凯 高越
北方民族大学 宁夏银川 750021
[摘要]随着互联网技术的飞速发展、不断革新,尤其是数据挖掘、网络社交、云计算以及高性能芯片的广泛应用,大数据正在蔓延至各个行业和领域,大数据所产生的信息风暴正在急速的变革人类固有的知识体系、工作习惯和思维方式。大数据开启了一次重大的时代转型,如何在大数据时代挖掘和利用隐蔽于数据内部未被激发的潜在价值,从而实现在经济、教育、医疗、交通、能源、军事等领域的革新,取决于我们是否能够从以往的小数据思维及时转换成大数据思维。本文介绍了大数据时代的思维变革、商业变革和管理变革,分析数据信息的三个转变,以及数据创新。
[关键词]大数据;云计算;思维方式;大数据思维;创新
大数据时代的天文学、政治学、经济学、物理学、社会学等很多种科学门类都将会发生巨大的变化和发展,从而影响整个人类的价值观、生活方式和知识体系。大数据的核心就是预测,在不久的将来,我们生活中很多现在依靠人类思维判断的领域都会被计算机系统所改变甚至取代。大数据给我们的生活创造了无与伦比的可量化的维度,就像Internet通过给计算机添加了通信功能而改变了世界,大数据也会改变我们生活中很重要的方面。
一、大数据,公共卫生变革
大家一定记得2009年出现的甲型H1N1流感病毒,这种病毒传播迅速,其结合了猪流感和禽流感的特点,有些专家警告说,这种病毒可能会导致大规模流感的爆发,然而更糟糕的是,当时的科研人员还没有研发出抵抗这种新型病毒的疫苗。在美国,假如医生发现了新型的流感病例时需要告诉疾病预防与控制中心,然而,通告病例这个过程往往会有一两周时间的延迟,这种信息的滞后对于飞速传播的疾病来说,其导致的后果是相当致命的。在疫情爆发的关键时期,公共卫生机构对于这种信息滞后却又无所适从。
二、大数据,商业变革
大数据不但对公共卫生领域的影响十分巨大,对整个商业领域也产生了深远的影响。购买飞机票是其中一个很好的例子。挨齐奥尼协助创建了全球最早的网络搜索引擎MetaCrawler,联合创立国第一个大型比价网站ClearForest。在他的眼中,世界就是一系列的大数据问题。埃齐奥尼创立了一个机票预测系统,这个系统建立在12000个价格样本的基础上,这个预测系统并不会分析哪些因素导致了机票价格的波动,只会利用其他航班的数据预测机票价格的走势。后来这个小项目发展成为一个科技创业公司Farecast,到2012年为止,Farecast系统拥有近十万亿条价格记录,从而能很准确的预测美国航班的票价,其票价预测准确率已经高达75%,旅客通过使用这种票价预测工具,平均每张机票可节省50美元左右。Farecast仅仅是利用大数据的一个缩影,代表了当今世界的发展趋势。
三、大数据,管理变革
大数据时代如何管理庞大的数据以及个人隐私的控制与风险,将成为我们面临的一个巨大挑战。任何技术都是双刃剑,大数据也不例外。大数据平台在给我们提供服务的同时,无时不刻也在收集着用户的各种信息:购买习惯、查阅习惯甚至生活习惯。通过这些数据,一方面给人们带来了很多便利,但另一方面,由于数据的管理还不完善,存在诸多漏洞,那些存储起来或发布出去的海量信息,也很容易被窃取、被监视。通过大数据,当我们获得足够多的个人信息,我们就可以知道隐藏在数据背后的人是谁,甚至这个人心里在想着谁。在大数据时代,此时我们已经不能放心期待拥有数据的公司不作恶。如何管理这些庞大的数据?谁来保护公民的个人隐私?既是所有人都应该思考的问题,也是政府法律部门不可推卸的责任。
四、大数据的关键在于我们分析信息数据时的三个转变
第一个转变:在大数据时代,我们可以分析越来越多的数据,甚至有些时候可以处理某个特殊现象的所有数据,而不是像以前一样依赖于随机采样
从19世纪开始,当我们遇到大量数据时就会依赖于采样分析。传统上的统计学的随机抽样方法中有一条十分明智的真理:”采样分析结论的精确性随着采样随机性的增加而大幅提升,但与样本数量的增加关系不大。”可以说,“样本分析”奠定了绝大多数科学研究的基础,但随机采样实际上是信息缺乏时代和信息流通受限制的模拟数据时期的产品。现如今,我们处于一个足够强大的数据搜集和数据处理能力的时代,随着计算机技术的迅猛发展,高性能数字技术的流行让我们意识到,相对于局限性的小数据范围来说,使用一切数据给予我们更高的精确性,当前的技术水平使人类可以处理海量数据,样本不再是几万分之一,而转变成了“样本=全部”。
第二个转变:不再热衷于追求精确度,而是混杂性
在小数据时代,追求精确度是情理之中的。因为受制于我们收集的数据很少,所以需要越精确越好。但大数据时代精确则很难实现,而是用概率说话,混杂性变成了一种新型的途径。数据量的显著增加也必然会产生一些问题,一些不准确的数据难免会混入数据库,导致结果也可能不准确。这就是大数据时代的一种新思维——“不是精确性,而是混杂性”。对“小数据”来说,最重要的一点就是减少差错。而在大数据时代里,在技术尚未达到足够完美之前,混乱是无法避免的。
第三个转变:不在热衷于寻找因果关系,而是相关关系
在大数据时代,是什么比为什么更加重要。这个观点很大程度上挑战了我们固有的思维模式。大数据思维更加关注相关性,而不是因果关系。也就是说,沃尔玛只需要知道啤酒和尿布、pop-tarts蛋挞与手电筒的销量具有正相关性,就可以做出如何销售的决策了。它并不需要去分析具体原因,企业只需要知道某件事情正在发生或者即将发生,就完全能够做出正确的决定。相关关系很有价值,因为它能为我们提供全新的视角,而且很清晰。而当我们考虑到因果关系的时候就很可能会忽略这些视角。大数据的核心就是预测,大数据并不是让机器像人类一样去思考。相反,它是通过计算海量的数据来预测事情发生的可能性。
五、结语
中国是世界上人口最多的国家,众多的人群和应用市场,数据极其复杂,而且充满了变化,多种因素使得中为全球最复杂的大数据国家。如何解决这些由大规模数据产生的问题,从而形成以大数据为基础的解决办法,将是中国转变产业方式,提高效率的重要手段。由于中国复杂的国情,在现代历史中的多次技术革命中,中国均是作为学习者出现的,但是在这次大数据与云计算的新的变革中,可以说中国与世界的差距最小,此时,中国面临着一个重大的历史抉择关口,只要我们以更加开放的心态,更加坚定的步伐,更加创新的勇气来拥抱“大数据时代”,一定能够把握住新的历史赋予中国创新的机会。
参考文献
[1]员巧云,程刚.近年来我国数据挖掘研究综述[J].情报学报,2005.
[2]蔡立英.“大数据”改变我们的生活[J].世界科学,2013.
[3]文洋.美国的“大数据”发展战略新动向[J].中国多媒体通信,2014, (11):60-61.