APP下载

数据挖掘深度决定大数据应用价值

2017-02-17梅宏

中国信息化周报 2017年2期
关键词:智能信息化

梅宏

所谓大数据,是信息化到一定阶段之后必然出现的现象,是由于信息技术的不断廉价化,以及互联网及其延伸所带来的无处不在的信息技术应用所带来的自然现象。基本上,大数据有四个驱动力,即摩爾定律所驱动的指数增长模式;技术低成本化驱动的万物数字化;宽带移动泛在互联驱动的人机物广联连接;云计算模式驱动的数据大规模的汇聚。

目前,大数据正带来新一波信息化浪潮。回顾信息化发展过程,有两个明显的阶段。第一阶段始于PC机正式进入市场,以单机应用、数字化为特征,该阶段核心业务的数字化工作主要依托PC机;第二阶段是20世纪90年代中期至今,以联网应用为特征,网络化推动了数据大集中。

随着企业全球化发展布局加快,我们正迈入信息化发展的第三阶段,即以数据的深度挖掘和融合应用为特征的智慧化。

大数据提供了人类认识复杂系统的新思维、新手段,已成为提升国家综合能力和保障国家安全的新利器。从信息技术视角来看,云计算、物联网、大数据、移动互联网、人工智能等都属于互联网时代的信息新技术。从制造业视角,移动互联网、物联网、GPS作为互联网的延伸,更强调在制造业全价值链的提升与整合中信息的应用;而在互联网眼中,则更强调对传统产业的影响、改造和升级,构造新产品、新业务、新生态的力量。

我认为,“互联网+”本质上是传统行业或产业信息化的深度和泛在化,是孕育新兴业态的平台;是互联网技术、模式和思想与传统行业或产业的深入融合,将会促进信息基础设施的完善、数据资源的积累、新兴业态的诞生和成长;“互联网+”是信息化发展第三阶段的基础设置、思维模式和实施指南,数据的深度挖掘与融合应用将是新一代信息化应用的主要特征。

大数据可以从两个角度来定义。从技术能力视角来看,大数据指的是规模超过现有数据库工具获取、存储、管理和分析能力的数据集,同时并不是超过某特定数量级的数据集才是大数据。从数据内涵视角来看,大数据是具备海量、高速、多样、可变等特征的多维数据集,需要通过可伸缩的体系结构实现高速的存储、处理和分析。

大数据重构IT架构

大数据将给我们带来哪些挑战?我认为最重要的应该是思维模式的变化。通过大数据,我们能够认识复杂系统的新思维,促进经济转型,提升国家综合能力,保障国家安全,提升政府治理能力以及服务民生、社会的能力。

目前来看,我觉得大数据已处于过热状态,有炒作之嫌。很多地方一窝蜂搞“大数据”,殊不知大数据不可能是解决一切问题的法宝,更不应该成为各行各业的马甲。真正的大数据应该体现在多源数据的融合,绝不仅仅是数据的“海量”。而事实上,不少地方、行业搞的大数据,只是单一数据的简单叠加,并不是真正的大数据。更何况,有的行业根本不需要大数据分析,也来凑热闹。

由此也带来了一些问题。第一,宣传过热但我们对数据的认识却不到位;第二,投入过热但资源浪费现象明显;第三,大数据定义业内已有共识,但核心观点、命题还存在很多争议。例如如何定义数字化世界的大或小,如何更好地基于理论知识的突破来获得数据分析结论。

此外,大数据现象的长期存在对我们的计算能力也在不断提出挑战。一是分析对象从过去经过预处理的数据转变为现在的原始数据,以前是样本数据,现在是全数据,以前是单源单模态数据,现在是多源多模态数据,即分析对象发生了根本变化;二是分析需求发生了变化,我们现在需要高精度分析、复杂关联的深层特征,以及大规模的复杂关联;三是变化分析模型能力的变化,我们需要追求从表达力受限的低维数据到高信息量的高维数据,从弱表达力的简单模型到强表达力的复杂模型。目前来看,绝大多数采用的大数据分析方法主要是可视化展现、统计分析,以及机器学习技术。而现在以通用性考虑为主的IT体系也很难满足大数据的需求,有必要考虑对整个IT架构进行革命性重构。

大数据三个应用层次

大数据的价值已被广泛认知,并应用在很多地方。例如,谷歌研发的无人驾驶汽车,不仅有实时感知系统,而且还有基于大数据的认知网络。比如小球滚到路口,根据大数据分析,可能后面还会跟着一个小孩,无人驾驶汽车就要注意避让。

大数据应用有这样一个经典案例:在美国沃尔玛连锁超市中,尿布和啤酒摆在一起出售,并且销量双双增加了。原来,美国的妇女经常会嘱咐丈夫下班后为孩子买尿布。而丈夫买完尿布后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起购买的机会很多。而正是商家通过对超市一年多原始交易数字进行详细分析,才发现了这对神奇的组合。

对当下很火的大数据预测,也不能全信。比如大数据预测奥斯卡奖,有其一定合理性。但是用大数据预测股市却不能全信,因为这是一个开放系统,股民看到大数据分析后会有从众心理,影响股市走向。

随着大数据应用案例不断涌现,我们可将其分为四类,一是互联网类数据,二是科学实验类数据,三是物联网类数据,四是组织业务类数据。

大数据从应用层次上又有三个划分。第一个层次是关注当前发生的现象,将发展态势曲线描述出来,展现发展历程;第二个层次是在分析的基础上预测未来可能发生的现象,呈现事物发展趋势;第三个层次则不仅是预测未来,而是通过做一个动作对产生结果的预判来对当前态势的决策做出指导。

目前,大数据应用呈三大特点。第一,从应用层次上看,描述性、预测性的应用较多,指导性应用偏少;第二,从数据源角度看,基于单一数据源的数据较多,基于多态数据源的数据较少;第三,根据应用需求将不同类型数据糅合在一起的应用不多。

从以上三个特点来看,我认为大数据应用目前还处于初级阶段,也就是说以智慧化为特征的信息化发展第三阶段将会持续很长一段时间。个人乐观估计、揣测,这一阶段可能会持续二十年。基于经济学中的传播理论,每个传播都将持续50年左右时间。而从20世纪90年代开始,信息技术才真正成为推动经济发展的重要驱动力之一,照此方法推算,未来20多年大体还是IT的天下。

数据驱动智能时代来临

现在我们谈的人工智能更多是以数据驱动的智能为特征,是利用机器学习、统计分析方法从数据中发现规律。以2016年很热的AlphaGo战胜韩国名将李世石事件为例,网评很多,包括其对人类威胁的观点。我认为技术进步更多还是减少人类智力或体力劳动,其实离人工智能还很远。

人工智能本质上是把人的智能的问题转化为计算的问题,而计算智能还是要靠计算所产生的智能,要基于数据所产生的智能。

大家都很关注的一个命题是计算机是否真的能拥有人的智能。目前,我们看到的类脑智能好像是能解决一些问题,但这只是靠计算机强大的计算能力将这些问题转变为数据处理的问题,然后得出结论。

因此,我觉得类脑智能发展要经过三个层次。第一个层次是传统人工智能的方式,软件加上知识库,基于此做推理;第二个层次是要靠数据汇聚的方式去解决问题、找到结果,从数据中凝练一些东西,形成自演化的知识库。

第三个层次可能是自演化的软件加上自演化的过程。众所周知,目前的软件一旦完成编译就无法更改了,那么自演化的软件能否让机器自己改代码呢?目前肯定是不行的。但我们也在不断尝试,看是否能在某一特定环境下,解决软件一些行为的改变。这也是计算机科学家共同的梦想。

猜你喜欢

智能信息化
月“睹”教育信息化
月“睹”教育信息化
幼儿教育信息化策略初探
智能制造 反思与期望
“云会计”在中小企业会计信息化中的应用分析
智能前沿
智能前沿
智能前沿
智能前沿
智能制造·AI未来