APP下载

数据密集型科研第四范式

2013-04-29陈明

计算机教育 2013年9期

编者按:本刊2013年第7期推出《大数据问题》一文,受到读者广泛好评。为推进计算机前沿技术的传播,我刊特开辟“前瞻技术”专栏,邀请陈明教授主持并撰文,后续将推出《NoSQL数据库》《大数据处理的利器Hadoop》《分布计算中的CAP理论》等文章。期望本栏目能以精练的文字为广大读者展现相关领域的最新技术和研究成果。

专栏作家:陈明,男,中国石油大学教授,博士生导师,特聘教授,研究方向为分布式并行计算、计算智能、软件工程、大数据计算等,chenming@cup.edu.cn。

摘要:由于数据爆炸式增长,为了解决数据密集型知识发现,出现了科学研究的第四范式。文章介绍第四范式的产生背景、核心内容、格雷法则、范式转变和第四范式时代等内容。

关键词:数据密集;知识发现;第四范式

1.背景

万物之灵的人类对外部世界的认识已达到令人惊叹的高度,在宏观上放眼亿万光年的宇宙,在微观上已深入层子、夸克世界。随着科学的发展,人们发现蕴藏着科学理论的科学数据经常被掩埋在零散的实验记录中,很容易丢失,只有少数大项目的数据被存储在磁介质中。如何获取、管理与分布保存科研群体数据成为科学发展面临的巨大挑战。

1962年美国著名科学哲学家托马斯·库恩(Thomas Samuel Kuhn)在《科学革命的结构》一书中阐述了范式的概念与理论,认为范式就是一种公认的模型和模式,是常规科学的理论基础和实践规范,是研究者在从事科学研究时共同遵守的世界观和行为方式,是共同接受的一组假说、理论、准则和方法的总和。

图灵奖获得者、美国计算机科学家詹姆斯·格雷(James Gray)于2007年1月11日在加州山景城召开的计算机科学与电信委员会会议上的最后一次演讲中描绘了关于科学研究第四范式的愿景。这个新的范式成为由实验、理论与仿真所主宰的历史阶段的符合逻辑的自然延伸。

科学研究的前两个范式是实验和理论。实验法可以追溯到古希腊和古中国。那时,人们尝试通过自然法则来解释观察到的现象。现代理论科学则起源于17世纪的艾萨克·牛顿(1saacNewton)。20世纪下半叶高性能计算机问世之后,诺贝尔奖得主肯尼思·威尔逊(Kenneth Wilson)又把计算和模拟确立为科学研究的第三范式。第四范式同样要用到性能强大的计算机,与第三范式的差别在于科学家们不是根据已知的规则编制程序,而是以数据为中心编程。

2.科学研究第四范式的核心内容

科学研究的范式不等同于科学知识的各种范式,是一种新的科研模式,主要用于数据密集型科学研究。相比库恩科学动力学理论,网络可以帮助我们更好地理解海量数据策略。

2.1科学研究范式的演化过程

在漫长的科学研究范式进化过程中,最初只有实验科学范式,主要描述自然现象,是以观察和实验为依据的研究,也称为经验范式。后来出现的理论范式是以建模和归纳为基础的,是对某种经验现象或事实的科学解说和系统解释,是由一系列特定的概念、原理(命题)以及对这些概念、原理(命题)的严密论证组成的知识体系。开普勒定律、牛顿运动定律、麦克斯韦方程式等正是利用了模型和归纳而诞生的。但是对于许多问题,用这些理论模型分析解决过于复杂,科学家们只好走上了计算模拟的道路,提出了第三范式。第三范式是以模拟复杂现象为基础的计算科学范式,又可称为模拟范式。模拟方法已经引领我们走过了上个世纪后半期的全部时间。现在,数据爆炸又将理论、实验和计算仿真统一起来,出现了新的密集型数据的生态环境。计算模拟正在生成大量数据,同时实验科学也出现了巨大数据增长。研究者已经不用望远镜来观看,取而代之的是通过把数据传递到数据中心的大规模复杂仪器上来观看,开始研究计算机上存储的信息。

无需质疑,科学世界发生了变化,新的研究模式是通过仪器收集数据或通过模拟方法产生数据,然后利用计算机软件进行处理,再将形成的信息和知识存于计算机中。科学家通过数据管理和统计方法分析数据和文档,只是在这个工作流中靠后的步骤才开始审视数据。可以看出,这种密集型科学研究范式与前三种范式截然不同,将数据密集型科学研究范式从其他研究范式中区分出来,作为一个新的、科学探索的第四种范式,其意义与价值是重大的。

2.2数据密集型科学研究的基本活动

数据密集型科学研究由数据的采集、管理和分析三个基本活动组成。数据的来源构成了密集型科学数据的生态环境,主要有大型国际实验,跨实验室、单一实验室或个人观察实验,个人生活,等等。各种实验涉及多学科的大规模数据,如澳大利亚的平方公里阵列射电望远镜、欧洲粒子中心的大型强子对撞机、天文学领域的泛STARRS天体望远镜阵列等每天能产生几个千万亿字节(PB)的数据。特别是它们的高数据通量,对常规的数据采集、管理与分析工具形成巨大的挑战。为此,需要创建一系列通用工具来支持从数据采集、验证到管理、分期和长期保存等整个流程。

2.3学科的发展

格雷认为所有学科x都分有两个进化分支,一个分支是模拟的x学,另一个分支是x信息学。如生态学可以分为计算生态学和生态信息学,前者与模拟生态的研究有关,后者与收集和分析生态信息有关。在x信息学中,把由实验和设备、档案、文献、模拟产生的事实以编码和表达知识的方式存贮在一个空间中,用户通过计算机向这个空间提出问题,并由系统给出答案。为了完成这一过程,需要解决的一般问题有:数据获取、管理PB级大容量的数据、公共模式、数据组织、数据重组、数据分享、查找和可视化工具、建立与实施模型、数据与文献集成、记录实验、数据管理与长期保存等。可以看出,科学家需要更好的工具来实现大数据的捕获、分类管理、分析和可视化。

3.以数据为中心发展的格雷法则

数据爆炸式的增长对前沿科学带来了巨大挑战,但科学家还没有掌握管理和分析大数据的方法,而小数据的管理和分析方法已不能胜任,数据密集型计算面临着难以克服的挑战。正是在这种情况下,对于大型科学数据集的大数据工程,格雷制定了如下的非正式法则,代表了一系列设计数据密集系统的优秀指导原则。

1)科学计算趋于数据密集型。

计算平台的I/O性能限制了观测数据集的分析与高性能的数值模拟,当数据集超出系统随机存储器的能力,多层高速缓存的本地化将不再发挥作用,仅有很少的高端平台能提供足够快的I/O子系统。

高性能、可扩展的数值计算也对算法提出了挑战,传统的数值分析包只能在适合RAM的数据集上运行。为了进行大数据的分析,需要对问题进行分解,通过解决小问题获得大问题解决的还原论方法是一种重要方法。

2)解决方案为“横向扩展”的体系结构。

对网络存储系统进行扩容并将它们连接到计算节点群中并不能解决问题,因为网络的增长速度不足以应对必要存储逐年倍增的速度。横向扩展的解决方案提倡采用简单的结构单元。在这些结构单元中,数据被本地连接的存储节点所分割,这些较小的结构单元使得CPU、磁盘和网络之间的平衡性增强。格雷提出了网络砖块的概念,使得每一个磁盘都有自己的CPU和网络。尽管这类系统的节点数将远大于传统的纵向扩展体系结构中的节点数,但每一个节点的简易性、低成本和总体性能足以补偿额外的复杂性。

3)将计算用于数据,而不是数据用于计算。

大多数数据分析以分级步骤进行。首先对数据子集进行抽取,通过过滤某些属性或抽取数据列的垂直子集完成,然后以某种方式转换成聚合数据。

近年来,MapReduce已经成为分布式数据分析和计算的普遍范式,具有分布式分组和聚合的功能。根据这一原理构造的Hadoop开源软件已成为目前大数据处理的最好的工具,Hadoop技术成为推动大数据安全计划的引擎。企业使用Hadoop技术收集、共享和分析来自网络的大量结构化、半结构化和非结构化数据。

Hadoop是一个开源框架,它实现了MapReduce算法,用以查询在互联网上的分布数据。在MapReduce算法中,Map(映射)功能是将查询操作和数据集分解成组件,Reduce功能是指在查询中映射的组件可以被同时处理(即约简),以快速地返回结果。

Hadoop具有方便、健壮、可扩展、简单等一系列特性。Hadoop处理数据是以数据为中心,而不是传统的以程序为中心。在处理数据密集型任务时,由于数据规模太大,数据迁移变得十分困难,Hadoop强调把代码向数据迁移。

4)以“20个询问”开始设计。

格雷提出了“20个询问”的启发式规则,在他参与的每一个项目中,他都寻求研究人员让数据系统回答最重要的20个问题。他认为5个问题不足以识别广泛的模式,100个问题将导致重点不突出。由于与人类选择有关的大多数决定都遵循长尾理论,询问中的相关信息根据重要性排序显然是呈对数分布。长尾理论是网络时代兴起的一种新理论。长尾实际上是统计学中幂律和帕累托分布特征的一个口语化表达。过去人们只能关注重要的人或重要的事,如果用正态分布曲线来描绘这些人或事,人们只能关注曲线的“头部”,忽略处于曲线“尾部”、需要更多精力和成本才能关注到的大多数人或事。例如,在销售产品时,厂商关注的是少数几个所谓“VIP”客户,“无暇”顾及大多数普通消费者。长尾理论是对传统的二八定律的彻底叛逆。

20个询问规则是一个设计步骤,使领域科学家与数据库设计者可以对话。这些询问定义了专门领域科学家期望对数据库提出的有关实体与关系方面的精确问题集,填补科学领域使用的动词与名词之间、数据库中存储的实体与关系之间的语义鸿沟。这种重复实践的结果是专门领域科学家和数据库之间可以使用共同语言。

这种方法非常成功地使设计过程集中于系统必须支持的最重要特征,同时帮助领域科学家理解数据库系统的折中,从而限制特征的蠕动。

5)工作至工作。

工作至工作是指工作版本的升级,这是另一个设计法则。无论数据驱动的计算体系结构变化多么迅速,尤其是当涉及分布数据的时候,新的分布计算模式每年都出现新的变化,使其很难停留在多年的自上而下的设计和实施周期中。当项目完成之时,最初的假设已经变得过时。如果要建立只有每个组件都发挥作用才开始运行的系统,那么我们将永远无法完成这个系统。在这样的背景下,唯一方法就是构建模块化系统。随着潜在技术的发展,这些模块化系统的组件可以被代替,现在以服务为导向的体系结构是模块化系统的优秀范例。

4.范式的转变

库恩认为范式的演变是科学研究的方法及观念的取代过程,科学的发展不是靠知识的积累而是靠范式的转换完成的,新范式形成表明建立起了常规科学。库恩的模型描述了这样一种关于科学的图景:一组观念成为特定科学领域的主流和共识,创造了一种关于这个领域的观念(所谓范式),进而拥有了自我发展的动力和对这个领域发展的控制力。这种观念之所以强有力是因为它代表了对观察到的现象的合理解释。这种观念或范式从渐进发展的机制中获得启发和力量,同时被科学家逐渐完善。当现有范式无法解释观察到的现象,或者实验最终证明范式出错时,那么范式失败、被解体,转变范式的机会也就到了。数据泛滥是第四范式出现的导火索。处理、存储、分析可视化数据的能力是科学必须具备和适应的新事实,数据是这个新范式的核心,它与实验、理论、模拟共同成为现代科学方法的统一体。在科学发展的长河中,前三种范式作出了巨大的不可磨灭的贡献,在历史上已成功地将科学的发展引领至今天的辉煌,而且模拟仍处于现代科学的核心。毫无疑问,依据现有的范式与技术,科学研究还将获得增量型进展,但是如果需要更重大的突破,就需要新的方法,需要接纳和开创新的范式。数据密集型科学研究将会给科学家带来技术挑战,IT技术和计算机科学将在推动未来科学发现中发挥作用。

5.第四范式时代

第四范式时代的序幕已经揭开,其核心是各领域科学家与计算机科学家协同研究工作需求,他们之间的关系不是主从关系,而是平等的关系,两个领域的专家共同努力,推动和丰富科学发现。几十年前,科学是以学科为中心,今天,重大进展是多学科协作的结果,未来也将如此。在需要利用科学认识去实现事关人类生存的重要目标阶段中,还需要科学知识渊博的科学家和技术经验丰富的工程师密切合作,实现科学与技术的结合,实现理论和技术创新。

将数据丢进巨大的计算机群中,只要有相互关系的数据,统计分析算法就可以发现过去的科学方法发现不了的新模式、新知识以及新规律。对于PB级的数据,没有模型和假设就可以分析数据。如谷歌的广告优化配置、战胜人类的沃森回答系统都是这样实现的。又如沃尔玛百货公司分析顾客资料与天气相互关系时,发现暴风雨之前,人们会买更多的手电、也会买更多夹心派,尽管市场营销人员无法确定天气与糕点之间的关系。也就是说,第四范式既不能像理论和模拟那样在一定程度上告诉“为什么”,更不能像实验那样明确地告诉“是什么”,只能告诉“大概是什么”,其精髓就是“客观”,从海量的数据中发现数据的共性和客观性,这展现了第四范式的应用潜力和吸引力。

6.结语

科学研究第四范式是科学家从事科学研究的一种新型范式,也是一种新的观念和新的思维方式。其主要特点是以数据考察为基础,是理论、实验和模拟一体化的数据密集计算的范式,它在多学科研究及数据密集型科学研究中发挥越来越重要的作用。

参考文献:

[1]李国杰,天数据研完的科学价值叨,中国计算机学会通讯,2012,8(9):8-15.

[2]Hey L Tansley S,Tolle S.The fourth paradigm:data-intensive scientific discovery[EB/OL].[2012-04-02].http://www.amazon.de/The-Fourth-Paradigm-Data-Intensive-ebook/dp/B00318D9Y2#reader_B00318D9Y2.

(编辑:彭远红)