建设大科学数据“加工厂”
2014-08-21陈刚
文/陈刚
大科学的数据是现代科学研究的根本,数据平台的建设将保障和促进科学研究的顺利开展。
现代科研引入开放融合共享计算模式
现代科学研究项目往往规模巨大。高能物理、基因组学、蛋白组学、天体物理学等大科学工程都是以数据为中心的学科,这些大科学工程产生越来越多的数据,迫切需要建立大规模的数据中心对数据进行存储、管理、分析和处理。
以高能物理实验为例,当今以欧洲大型强子对撞机LHC(Large Hadron Collider)为代表的一批高能物理实验每年产生的数据多达数十PB,需要建立一大批数据中心联合对数据进行分析处理。过去十多年来,国际高能物理的同行在全球范围内建立了近两百个数据中心,利用网格技术将这些数据中心联合起来形成一个统一的数据处理平台,为LHC的物理研究提供支撑。这种多数据中心联合形成的网格平台很好地解决了海量数据开放融合、高效处理的问题。
高能物理采用完全开放融合共享的计算模式,海量基础数据、计算能力、存储能力、传输能力等等对于全球合作成员都是开放共享的。这种模式确保了所有的数据中心高效地分担数据处理的任务,同时使物理学家能够在世界上任何一个地方访问数据资源和计算资源。可以说,高能物理是科研大数据的先驱,也是科研大数据的典型成功案例。
分布式的数据中心首先需要强大的网络支撑。高能物理网格平台采用1Gbps~40Gbps的专用国际网络链路把这些近两百个数据中心连在一起,利用这些网络链路进行数据的传输和计算任务的全局调度。每年在这些数据中心之间的数据交换达数百PB。
建立高水平的数据中心
大科学装置产生的海量数据需要经过高效的处理和分析才能获得研究结果。因此,建立高水平的数据中心为科学研究提供数据处理基础环境是科学研究的重要工作之一。数据中心包括硬件环境和基础软件环境两大部分,硬件环境包括数据存储、计算环境、网络环境三大资源。实验产生的海量数据需要安全可靠地记录保存起来,同时又能被高效的访问。存储系统需要根据科研数据的规模及处理模式进行仔细的规划设计,以满足数据分析的需求。一般而言,科学计算对数据的访问往往既需要高吞吐率,又需要高并发率,这就要求数据存储系统能支撑高I/O吞吐能力和高并发访问能力。数据中心一般配备分布式的并行存储系统,如GPFS, ZFS, Lustre等等。这些存储系在性能和容量规模上都后很好的可扩展性,从而能够很好的满足作为大规模数据中心的需求。高能物理研究所的数据中心对Lustre进行了改进优化,建立的高性能海量数据存储系统性能达到国际同行先进水平,可满足大规模数据处理的需求。
数据中心的基础软件部分主要用于硬件资源和服务资源的管理。资源管理系统用于对存储资源、计算资源及网络资源进行管理和调度。由于许多大科学工程的数据处理和计算软件不是标准的商业软件,这些科学计算应用软件需要针对科学项目进行自主开发。基础软件一方面将硬件平台进行屏蔽,另一方面提供通用软件库来支撑科学计算应用软件的开发。这样做的好处是能够让科学家把精力放在与科学研究相关的软件开发上而不必关心底层硬件的特性。这种模式也更便于科学计算软件向新的计算机硬件平台上的移植。
以高能物理为例,物理学家开发了用于描述粒子相互作用的软件包GEANT4。该软件包用来模拟粒子穿过介质时与介质发生作用的过程,帮助物理学家理解或预测实验产生的结果和数据,并为实验装置的设计、数据的分析处理提供依据。另外,物理学家还开发了各种通用的数字计算和物理分析软件包,如物理分析框架ROOT。ROOT是一个面向对象的数据分析框架工具,可用于大规模数据的分析处理和可视化。高能物理的数据中心普遍采用这些软件包作为数据处理的基础,而物理学家在此基础上建立自己的数据处理系统。
事实上,以高能物理为代表的科研大数据研究一直在推动着计算、网络、存储等大数据基础技术的发展。2004年开始建立面向数据密集型计算的高能物理数据中心,目前拥有近10PB的海量存储空间,超万核的计算能力。高能物理研究所在教育网和科技网的帮助下建立了通过TEIN2/ORIENT和升级后的ORIENTplus到欧洲的高速链路,每年的国际数据交换达到3PB以上。高能物理数据中心每年为LHC实验的完成超过500万个计算任务,为Higgs粒子的发现等重大物理成果的产出做出了贡献。同时该数据中心还为其它高能物理、天文、生物等多个领域提供数据和计算服务,有力支撑了大亚湾中微子实验在海量的事例中发现中微子第三种振荡模式,被美国《科学》杂志评选为2012年度十大科学突破之一。
高能物理研究所有力支撑了大亚湾中微子实验在海量的事例中发现中微子第三种振荡模式,被美国《科学》杂志评选为2012年度十大科学突破之一。
高能物理研究所的实践
借鉴高能物理海量数据处理的技术与经验,高能物理研究所正在建设一个开放融合的科研大数据应用中心,通过将数据中心的功能进行外延,与大科学工程的数据获取系统、数据处理和展示等系统进行整合,力图成为大科学工程领域大数据的集散地和数据加工厂。
科研大数据应用中心的特点首先表现在数据开放性上。系统集分布式数据获取和整合、存储、共享、传输、处理与展现与一体,通过将平台和应用的分工细化,提供不同级别的大数据基础支撑服务。大数据应用的研究者、开发者只需要利用平台开放的数据获取能力,获取需要的数据,或整合平台已有数据,并调用已有的存储、计算以及数据挖掘工具工作,即可以最高的效率、最低的成本达到研究及应用的目标。实际上,高能物理领域一直是按照这个模式开展工作,该平台将这种模式从高能物理扩大到其它大数据领域。
科研大数据应用中心的另一个特点表现在数据融合能力上。科研大数据应用中心的数据是流动的且不断更新的。一方面,高能所基于自身科研需求,可以聚合其他领域科学应用的海量数据。另一方面,基于志愿计算的分布式数据采集技术是高能所独有的优势,采用该技术可以实现对互联网海量数据的有效采集,具有时效性、广泛性与精准性的显著特征。最后,通过数据合作、交换,可以整合更多领域的科研数据、物联网数据、互联网数据等海量数据。这些来源不同的数据依托科研大数据应用中心,实现高效、便捷、可控的分享、交换、融合,最终促进跨学科交叉创新,实现数据价值的最大化。目前该数据应用中心整合了对撞机(如欧洲大型强制对撞机、北京正负电子对撞机)实验数据、大亚湾中微子实验数据、羊八井宇宙线实验数据、高能天体物理数据以及核分析数据等一大批自然科学数据资源,同时还采集了大规模的互联网数据,为相关科学领域和交叉学科提供服务。
科研大数据应用中心的特点还表现在数据跨地域的传输与共享方面。科研大数据的特点是需要进行跨地域的海量数据交换。国内数据中心之间的数据交换仍存在带宽资源不足的问题。为了解决这一难题,高能物理研究所正在建设高能物理数据传输虚拟专用网(CHEPDTN),采用软件定义网络技术和网络架构(SDN),充分利用已有的网络基础设施(设备)和资源(IPv4和IPv6带宽),满足跨地域的高能物理实验合作单位之间的高速、稳定、安全的数据传输需求。目前CHEPDTN连接了高能物理研究所、山东大学、上海交通大学和中国科技大学,实现科学数据的高速传输。与普通的云计算中心相比,建设中的科研大数据应用中心既有工具(云计算平台)又有金矿(数据),同时整合了科研、互联网、物联网等多领域的数据。良好的体系结构和新技术新思想的引入正在推动整个平台的健康发展。现代大科学都是数据驱动的,大科学工程在数据获取、存储与处理、数据传输与共享、数据展现等方面有着强烈的需求。在应用需求的引导下,高能物理等大科学领域在过去几十年中积累了大量的大数据存储、处理和共享等技术和经验。大科学的数据是现代科学研究的根本,数据平台的建设将保障和促进科学研究的顺利开展。科研大数据技术的研究和发展反过来可应用于整个社会的大数据行业。