APP下载

正确认识大数据与数据处理

2018-07-05宋余庆

团结 2018年3期
关键词:数据量数据处理决策

◎宋余庆

伴随着信息技术的革命,人类进入信息化社会、大数据时代。面对新时代大数据问题,我们需要全面理解大数据及其时代特征、大数据使用误区、大数据有益的价值启示等相关问题,进而正确理解依靠大数据提升决策思维能力的有效途径。

信息化社会、大数据时代的到来,对社会的各个领域产生深刻影响,给学界带来新的数据处理与分析要求,也为人们更加有效决策分析提供数据支撑和数据处理技术。使用好大数据,对人类生活和工作带来许多便利,但并不像社会炒作的那样神奇。

一、正确认识大数据的内涵及特征

2008年9月4日,《自然》杂志刊登了一个名为“Big Data”的专辑,首次系统提出“大数据”概念。从2009年开始,“大数据”就成为互联网信息技术行业的流行词汇。所谓大数据,是指具有数据体量巨大 (Volume);数据的类型繁多 (Variety);有潜在数据价值 (Value)特点的数据。大数据这个学界名词只是表达数据量的巨大和数据类型的繁多。

其实,自从有了人类活动就有了数据的积累。随着数据的积累,数据量也在不断增加。自20世纪50年代中期电子计算机问世后,数据处理能力有了革命性的发展,70年代后期互联网 (InterNet)出现,数据传播有了巨大变革。这两大变革,使得电子数据量急增,使人类日常生活和工作的数据大量、全面、长久地保存,形成信息化社会的大数据。这里大数据的概念不仅指海量数据本身,还包含着学界面向大数据的各类大数据系统的数据处理、数据分析等技术与方法。

数据处理是对数据的采集、存储、检索、加工、变换和传输。其基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。包括对各种原始数据的分析、整理、计算、编辑等的加工和处理。其中,数据分析是指用适当的分析方法对收集来的大量数据进行分析,为提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。目前,主要的数据分析方法有:统计分析法、情报分析法和数据挖掘法。其中,数据挖掘主要适用于大数据分析。大数据需要学界研究适合其特点的数据处理和数据分析技术与方法,并设计开发出相应的大数据分析软件。

几个典型案例可以让我们理解数据分析的作用。有情报机构根据1950年6月28日毛泽东就美国入朝发表讲话、同日周恩来代表中国政府发表声明、29日 《人民日报》的社论,以及随后的各民主党派的声明、7月6日周恩来再次发表声明、9月30日周恩来又发表演说公开对美国政府提出严正警告等信息分析,对“中国是否出兵朝鲜”进行预测,得出的结论只有一句话,即“中国将出兵朝鲜”;美国沃尔玛连锁店超市购买数据进行关联分析,得出购买尿布者有30-40%购买者同时购买啤酒,超市决定将尿布和啤酒赫然摆在一起出售,这个奇怪的举措使尿布和啤酒的销量双双增加了。美国沃尔玛连锁店超市购买数据的关联分析就是典型的大数据分析应用。

二、当前认识大数据存在的误区

有人说谁掌握了大数据,就能够对社会、经济活动做到全知,进而能够 “预知”社会、经济的未来,甚至能够“全能性”地主宰社会,但这些都是关于“大数据”的认识误区。我以为人们需要从以下几个方面提升认识,才能正确认识大数据。

一是要正确认识大数据与大数据分析处理技术。数据分析是当今信息化社会、大数据时代的重要技术,尤其是数据挖掘、信息检索技术是目前大数据应用的重要技术。大数据只有通过其分析技术才能有效地运用到人类社会、经济各个领域,大数据才能够为人类所用。二是要正确认识大数据与自己的关系。信息化社会,大数据跟每个人都有关,每个人的活动都会存贮在各个信息载体之中。但并非每个人都需要大数据分析技术,因为尽管大数据分析可以应用在人类社会所有领域,但只有需要应用大数据的人才需要进行大数据分析。三是要正确认识并不是所有大数据都可以进行数据分析。信息化社会,并非所有数据存贮时就考虑了数据应用问题,这些数据在应用时需要进行专门的数据处理。大数据包括了结构化与非结构化不同数据。目前数据分析方法的局限,并不能对当下所有系统大数据直接进行分析,需要学界研究新的数据处理与分析方法,实现其大数据应用。

四是不要将大数据与数据处理软件混为一谈。目前有很多大数据分析的工具软件,如:Hadoop、Ever String、python等,这些都是应大数据时代数据处理与分析要求由数据分析公司提供的专门软件。这些软件及其服务仅仅是相关公司提供的大数据分析工具,并不表明这些公司和软件就是大数据。

五是大数据分析结果只能作为决策参考。对于大数据分析的价值,有两种观点,一种观点认为大数据分析难以对人的行为做出精确预测,它只能是一种发生某种事件可能的概率;另一种观点认为,大数据分析关注的是相关关系而非因果关系,这就限制了大数据在一些需要确定的、置信度非常高的场景中使用,尤其在信贷风控,保险的理赔等。目前,人类还不能完全依靠大数据分析结果来决策自己的行动。

三、大数据给人类带来的价值启示

大数据分析就是数据分析,是对规模巨大的数据进行分析,具体是在已有的海量数据中寻找模式,相关性和其他有用的信息,其分析结果可以帮助人们更好地适应变化,并做出更明智的决策。信息化社会各个领域存在的大数据,可以面向不同需要进行大数据分析,其结果能够帮助我们更好地认识社会现象并做出各种事务发展预测和人类行动决策。如:社会和经济发展预测、病人疾病预后分析、商场进货决策等。

我们要认识到大数据分析结果可以起到参考作用,而不是绝对作用。人们可以运用大数据分析结果作为预测和决策之参考。数据分析只是从数据本身进行分析并对事物发展进行预测,可以作为人们做决策的参考。我们可以应用大数据分析技术为自己的工作和生活服务提供决策咨询和参考。

我们要认识到大数据分析已经进入社会生活多个领域。人类活动数据已经保存在社会生活各个领域。麦肯锡公司发现并声称,如果美国医疗产业采用大数据,全美医疗费用将削减 8%。有资料表明,医疗数据量巨大,数据类型复杂,到2020年,医疗数据将增至35ZB,相当于2009年数据量的44倍。如果在医疗领域较好地应用大数据分析,将给人类健康带来福音。我们可以应用大数据分析技术为自己感兴趣的领域服务。

我们要认识到大数据分析在经济领域的重要任用。麦肯锡公司提到,通过减少诈骗诉讼和增加税收,欧洲公共部门在运行效率方面可节省一千亿欧元。2017年江苏无锡高建业790万元的重大疾病保险诈骗案,如果在保险就医海量信息中应用大数据分析技术,就会及时发现并得到提示,以杜绝骗保案的发生。我们应该相信大数据在经济领域所发挥的咨询作用,尤其是异常行为分析和识别,自觉规范自己在经济领域的行为,做依法守规的社会公民。

我们要认识到将来决策行为会越来越依靠数据分析。例如,麦肯锡公司预测,到 2019年,全球将缺少高达19万可处理大数据的科学家。这个分析结果预示着大数据处理人才需求将与日俱增。这将为全球高校调整办学专业提供决策咨询。我们应该相信大数据分析在决策领域的重要参考作用。

我们要认识到大数据分析结果具有许多的不确定性,杜绝炒作,慎防大数据欺骗。《2018中国大数据发展报告》 (国家信息中心发布)中说,在2017年,成功融资的数字经济类企业数量延续了这几年的稳步增长,较上一年增幅近20%。大数据题材炒作引起社会投融资的巨增。有人强烈提醒,不要轻信大数据炒作。仅凭大数据分析就把几十万元甚至上百万元借出去,这无异于是一场赌博。我们应该具备投资定律,冷静看待大数据市场,避免盲目投资。

猜你喜欢

数据量数据处理决策
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于ARCGIS 的三种数据处理方法的效率对比研究
高刷新率不容易显示器需求与接口标准带宽
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
决策大数据
决策大数据
诸葛亮隆中决策
AMAC
视频大数据处理的设计与应用