APP下载

孟小峰:开放大数据的挑战“给我一个需求,我还你一个系统”

2014-08-21孟小峰

中国教育网络 2014年4期
关键词:根本性数组数据源

孟小峰

博士,中国人民大学信息学院教授,副院长。现为中国计算机学会常务理事、中国计算机学会数据库专委会秘书长,《Journal of Computer Science and Technology》、《Frontiers of Computer Science》、《软件学报》、《计算机研究与发展》等编委。近期主要研究领域为互联网与移动数据管理,包括Web数据集成,云数据管理,大数据与隐私保护,基于新型存储的数据库系统等。

大数据时代一个根本性的变化,是原来的信息化时代是一个封闭世界所构建的,而我们新的信息化是一个开放世界。

现在的数据产生已经完全不只限于传统的物理社会,这使得数据产生的方式也发生了根本性的改变。简单地总结为如下几个阶段。第一,以往数据库技术所面对的数据,其实是传统的企业生产、经营过程中所产生的数据,称为运营式系统。这些数据是被动产生的,是在企业运营决策管理需要情况下产生的,数据是规范、有序的,它提出的根本要求是满足简单分析。

到了互联网时代,数据的产生方式发生了根本的改变,每一个人都可以按自己的方式把自己的数据放到一个开放空间中去,因此数据的结构变得复杂而且无序,人们对于数据的要求也变得弱化,提出的根本性讨论问题是什么?分布式处理和数据集成。

当今大数据的产生,数据源是自动产生的过程,是无所不在的感知系统源源不断地产生,呈现所谓的多元异构、分布广泛和动态演化的过程。它的挑战性在于实时分析,这是我们现有系统不能满足的。

第二个阶段,面对源源不断的数据,将其整合在一起加以利用的应用需求产生了,为此,我们提出了数据空间和数据集成的技术。其实这一技术的根本特点是完成一次抽象,即从每一个数据源的局部视图,试图改造出一个全局视图,这样,用户在一个数据源集合的时候,不再关心每一个局部数据源的情况,只需在一个全局视图上给出查询,即可求得结果,这种抽象极大地方便了人们在多数据源上的利用。

那么,大数据时代需要完成的任务十分丰富,为什么目前无法满足科学家们提出的这些需求的操作呢?原因是,我们的抽象层次没有针对性。应该基于前一个阶段的抽象,在这上面针对各类应用的需求给出一种新的抽象机制,如果这个抽象机制能够实现,那么各领域的用户就可以在这样的基础上完成其应用任务。然而,现实是,面对我们所产生的,无论是物理还是生物,还是各个科学领域所产生的数据源,专业人员并不知道如何组织它们,而我们又没有提供一个有效的工具,将它抽象成专业人员认识这些数据的需求。

科学家为什么没有得到这样可用的处理机制呢?我认为在问题的抽象上仍然存在问题。也就是说,科研过程的数据处理任务,尚未很好地凝练成一个可抽象的共识。

4年前美国归国家线性加速器研究中心的一些学者组织了一个研讨会,将研发数据库的IT技术人员和从事科学研究的学者聚集在一起。学者们将在其高能物理科学研究中所遇到的数据处理问题抛出来,希望寻求答案。会上互动的环节中,IT技术人员给科学家们提出了一个挑战,他说:“如果能把你的需求明确地告诉我,我就可以还给你一个系统。”如此的一个互动,很多人认为是笑话,但是几年之后这样的系统真的产生了。他们抽象出来的是什么?他发现科研人员组织数据的方式根本不是表格,而是数组。科研数据大部分产生出来,它需要在多维的数组上去运算,这就是他们日常看待数据的一个基本思维方式。这个系统出来之后,立刻得到众多科学研究人员的喜欢,因为它提供了大量有关数组的简易操作,科研工作者们就可以像写编译语言那样简单地描述,就可以完成他原本需要很长的程序才能完成的任务。

猜你喜欢

根本性数组数据源
JAVA稀疏矩阵算法
JAVA玩转数学之二维数组排序
党的政治建设是党的根本性建设
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
追寻音乐本色,让活动趋向有效
浅析“礼”在儒家犯罪理论中的根本性地位
寻找勾股数组的历程
基于真值发现的冲突数据源质量评价算法
分布式异构数据源标准化查询设计与实现