APP下载

数据处理:数据融合与智能化

2016-10-15范一炜

软件和集成电路 2016年8期
关键词:分布式数据挖掘标签

范一炜

人类技术历经了数次革命而发展。我们经历了蒸汽时代、电气时代和信息时代。未来我们将进入智能时代。

信息时代给我们带来什么?从改革开放到现在,将近20年的互联网浪潮中,互联网给我们带来了翻天覆地的变化,本质的变化并不是人与人的联系,人与物的联系,而是人的本身。

早在1950年,艾伦·图灵提出了人工智能的概念。他认为一台机器能回答100个人的问题,若有33.3%的人认为,回答问题的是人类,机器将进入真正的人工智能时代。而他对信息化时代和智能的认识,将世界大战缩短了半年。可以说,有艾伦·图灵才有乔布斯的苹果。

人工智能是简单的机器人自动回答吗?我们认为不是,而是需要经过智慧的过渡,才能达到智能。

第一、未来机器达到人工智能的状态时,仅仅会学习、思考和决策吗?机器要不停地吸收更多实时、有效的数据,再进行分解。如果没有将数据实时传输进机器设备,就不能称为智能,就不能进入DT时代。

我们认为,未来智能机器人在学习数据后,并不是代替人类工作,而是和人类一起协同工作。这一点美国很多电影已有所展现,而美国现在正大力开发人工智能,如无人驾驶汽车、智能机器狗等,都是驱动机器在数据状态之下和人类共同工作。

现在数据类型越来越多,有结构化数据、非结构化数据及半结构化数据,这些数据通过怎样的技术和平台进行打通和融合,这一点是我们要考虑的第一个问题。

第二、如何进行数据挖掘。现在人类的知识储量比以前大了很多。以前,我们通过读书读报吸取知识,每天吸取的知识极为有限;现在百度每天处理数据量,约为5000个美国图书馆总和。根据IDC(国际数据公司)的监测统计,预计到2020年,全球将总共拥有35ZB的数据量,相当于我们地球上所有海滩沙粒总数的57倍。数据这座“金矿”将越来越大。

如何从数据这座大“金矿”中挖掘出有价值的数据,提供给企业和政府应用?数据中实时性、连续性怎么处理?软件系统的慢怎么办?在不可抗力的情况下,机房发生灾难性的崩溃怎么办?企业或者政府是否用双活技术把数据备份起来,以在不可抗力情况下提供?数据达到ZB级时该怎么用?这些都是我们现在需想到的问题。

在传统的数据领域,我们把数据行业分成三大类:数据源的拥有者,如百度、腾讯、政府和运营商。数据核心技术拥有者,如国外的IBM、微软,国内的南大通用、达梦等,是拥有核心技术的阵营。数据应用者,如做舆情分析、分析展现、预测、用户画像、精准营销,是基于数据为客户做相应行业应用的阵营。

翱旗科技专注于数据基础科学研究,是拥有领先核心技术和服务创新能力的高科技企业。在数据采集与融合,数据集成与管理,数据存储,数据挖掘与分析,数据可视化等整个数据产业链中,逐步形成了独有的产品与技术闭环。

翱旗根据自己的数据智能集成产品,真正实现数据融合。这一点在2015年4月,达晨创投投资我们时已经验证过。翱旗的产品真正能够实现不同结构、不同类型的数据库,包括两地之间实时传输。自成立到现在,中国人寿、人保、四川国税、宜昌市政府等,都对我们的产品进行了应用。

我们认为,一定要在初期打破整个数据之间的壁垒,做到数据之间实时地融合。下一步,翱旗将在智能领域进一步深化,研究和开发真正属于自己的集成管理、数据存储、数据挖掘技术。

翱旗的产品主要有数据集成平台(R7-DIP/DCE)、数据资产管理平台(R7-DAMP)和分布式数据库(DDBS)。

翱旗的技术组成了新的智能概念,我们技术平台拥有大脑神经中枢,可以通过神经中枢帮助企业和政府打通数据之间的壁垒。我们神经中枢的控制系统就是资产管理平台。数据本身是有血缘关系的,我们每一个人身上都有数据标签、运动标签和社保标签等标签,这些会被不同企业和不同机构采集。当这些数据汇总到一个平台时,我们怎么识别这个标签或数据就是来源于你本人,而不是来源于跟你同名同姓或样貌相似的人。

我们需要将数据按照不同类别、不同时间和不同情况进行分布式管理。华为、阿里也在研究什么是分布式数据库,而翱旗拥有自己的分布式数据库。

大家都看过电影《黑客电影》,电影中有些人是由虚幻的数码组成的,能实现瞬间移动。虽然这个概念已不很新,但在我们所处的环境中,我们相信虚拟世界一定存在,而这些虚拟世界一定是由数据组成的。

如何在现实世界和虚拟世界间建立起连接,实现数据之间的交互,帮助现实世界产生新的生产力。从这一点来讲,翱旗的产品线都在为之搭建连接。

通过翱旗的产品,线下的实体数据能分别直接传输到管理者想要的平台上。对数据资产管理者而言,我们可以识别互联网化状态,真正达到自动化办公,真正实现所有数据的自动化融合。并在云端找到所需要的数据,接下来达到智能化应用。

这种智能化也是非常好的战略构想。正与“图灵测试”一样,真正达到数据智能地被我们所用,或者与人类一起协作工作。

在2015年,马云说阿里集团不再是互联网公司,而是数据公司。另外,马云在2015年的数据互联网大会上提出“共享经济”。这四个字具有非常深刻的含义,而我们认为阿里指的是数据共享。(根据演讲内容整理,未经本人审核)

猜你喜欢

分布式数据挖掘标签
居民分布式储能系统对电网削峰填谷效果分析
基于Paxos的分布式一致性算法的实现与优化
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
让衣柜摆脱“杂乱无章”的标签
科学家的标签
科学家的标签
标签新闻
一本面向中高级读者的数据挖掘好书