高能物理科学数据服务与应用
2022-02-25齐法制张红梅李海波李亚康田浩来
曾 珊 陈 刚 齐法制 张红梅 李海波 李亚康 田浩来
(1.中国科学院高能物理研究所,北京 100049;2.国家高能物理科学数据中心,北京 100049)
0 引言
科学数据是国家科技创新和发展的重要战略资源。2018年,国务院发布了《科学数据管理办法》,为中国科学数据工作确定了行动纲领,对进一步提升中国科学数据工作水平,提高科技创新、经济社会发展和国家安全支撑保障能力具有重要的意义,是科学数据管理领域的一项重要举措[1]。2019年,科技部、财政部认定了20 个国家科学数据中心和30 个国家生物种质与实验材料资源库,形成了国家科技资源共享服务平台。该共享服务平台成为我国科学数据管理与服务的重要基础。
国家高能物理科学数据中心(简称“数据中心”)是上述20 个国家科学数据中心之一,由中国科学院高能物理研究所(简称“高能所”)建设和运行,为国内外高能物理及相关领域提供科学数据服务。高能物理科学数据是由高能物理(也称为粒子物理)领域产生的实验数据,用于开展研究物质的基本构成以及宇宙起源等粒子物理最高能量前沿的研究,由北京数据中心和大湾区分中心等组成,以高能物理科学数据为核心进行数据资源、软件工具、数据分析等资源能力的汇交和共享。数据中心面向全球的科研用户提供高能物理、中子科学、光子科学、天体物理等基础研究以及多学科交叉研究服务。由于高能物理实验及数据的特殊性,数据中心为科学数据提供了数据汇交、数据保存、科学计算及数据处理等全方位的服务。目前,数据中心与国内外相关领域的大型数据中心建立了广泛的合作,拥有先进的高能物理数据资源平台,提供了近20 PB存储空间、数万CPU核的计算能力、万兆国际网络链路和完善的信息化支撑系统,拥有国内外专业用户数近万人,科学数据服务成效显著。
本文将系统阐释数据中心产生的背景和主要职责,详细介绍数据中心的数据采集与汇交流程、数据服务与共享方式等,并通过科学数据典型应用案例,展示数据中心为我国高能物理及相关物质科学领域提供科学数据服务的成效。
1 数据采集与汇交
数据中心面向高能物理相关领域科研活动,实现数据资源、软件工具、数据分析等资源能力的汇交和共享,同时支持各类科技计划项目的数据汇交。采集与汇交的科学数据主要来自以下途径但不仅仅限于此:国家财政直接全额或部分支持的科研活动,国家指导授权的科研活动,通过合作、委托、分包等任何方式间接获得全额或部分国家财政资金支持的科研活动等产生的论文、实验数据、图像、视频、音频、文字、代码等形式的科学数据,以及利用社会资金等其他资金资助形成并有意汇交到数据中心的相关科学数据。
对于国家重大科技基础设施及大型实验,数据中心通常在项目的初期就开始参与数据及工具等的规划与建设,从而保证了数据和服务的质量。对于各类科技计划项目汇交的科学数据,则严格遵守数据汇交流程,形成高质量的数据资源。具体流程如图1所示。
图1 科学数据汇交流程
(1)编制数据汇交计划。科学数据提交方编制具体的项目数据汇交计划,梳理拟汇交科学数据的详细清单,提交数据中心审查后确认数据汇交方案。
(2)签订数据汇交协议。数据中心和科学数据提交方共同进行数据汇交协议签订,双方共同遵照协议规定进行数据汇交。
(3)科学数据整理。科学数据提交方按照数据中心的数据分类模式进行数据整理和加工,经所在单位和合作单位的审核后,向数据中心提交数据汇交申请。
(4)科学数据汇交。科学数据提交方依照《高能物理科学数据汇交管理办法》和《高能物理科学数据汇交操作流程》的要求,通过数据中心数据汇交平台(https://www.nhepsdc.cn/archive)遵照协议进行元数据、数据实体和软件工具的汇交,将科学数据汇交到国家高能物理科学数据平台。
(5)出具数据汇交证明。数据中心对项目数据汇交协议、项目任务书和汇交的科学数据进行审核,审核通过后向科学数据提交方出具正式数据汇交证明材料。
2 数据服务与共享
数据中心收集的数据大致可以分为两类:一是专用高能物理研究实验数据,主要来自国际国内大型实验,如对撞机实验、中微子实验、宇宙线观测实验、空间科学卫星实验等,这类实验采用合作组形式开展实验建设和科学研究,如大型强子对撞机LHC实验[2]、北京正负电子对撞机[3]、大亚湾中微子实验[4]及高海拔宇宙线观测实验[5]等。二是公共实验平台和装置,该类实验和装置面向国内外多学科用户提供服务,如上海光源[6]、中国散裂中子源[7]等。在高能物理领域,不同实验类型的科学数据共享模式则存在较大的差异。
专用高能物理实验数据在一定期限内在实验合作组框架下对所有合作组成员开放和共享,合作组对数据分析处理方法、处理软件和处理结果等全流程均有严格的管理制度和规范。这一领域的科学家正在探索在合作组框架下让部分数据面向国内外同行中的非合作组成员开放,推动科学数据的二次利用和学科发展。由于该类科学数据的分析和利用具有极强的专业性,为了面向领域科学爱好者和民众开放,数据中心和科学家合作,对部分数据进行重建和处理之后面向大众服务,以推动高能物理相关的科普工作。
公共实验平台和装置及其科学数据面向国内外多学科交叉用户提供服务,其实验数据既用于基础研究 ,也用于面向国家战略需求和产业发展的研究。在国际上,有多个同类装置和实验制定了相应的科学数据管理策略,对科学数据的所有权、管理和使用进行了详细规定,并提出了数据保护期的概念。在我国,该类装置和实验在数量和规模上都达到了国际水平,也逐渐意识到数据策略的重要性,正在依据国家相关政策推动数据共享和利用,逐步规划和建立专业的数据管理团队开展相关研究。但总体来说,这类科学数据管理策略和共享服务研究还处于起步阶段。
数据中心管理着国内外高能物理领域科研活动产生的海量实验数据,具体包括粒子物理数据、中子科学数据、光子科学数据、天体物理数据以及其他相关科技项目汇交的数据。其中,粒子物理数据是由国内外实验产生的数据,用于高能物理前沿研究,包括上帝粒子Higgs研究、强子物理研究、中微子物理研究、宇宙线研究等。中子科学数据主要是依托脉冲中子源等装置实验产生的数据,用于物质材料的物性和微观结构与动态变化等研究,为物质科学、生命科学、资源环境、新能源等领域的基础研究和高新技术开发提供强有力的支撑。光子科学数据主要是同步辐射光源等装置实验产生的数据,这类数据用于揭示微观物质结构生成演化的机制,剖析微观物质构成,为先进材料、航空航天、能源、环保、医药、石油、化工、生物工程和微细加工等领域应用提供基础支撑。天体物理数据主要来自于大规模的宇宙线观测站实验和空间天文卫星,核心科学目标是探索高能宇宙线起源以及相关的宇宙演化、高能天体演化、高能天体活动和暗物质的研究。截至2021年7月,数据中心的数据资源总量超过18 PB。
针对各实验和汇交的科学数据,数据中心维护和开发了专用的数据处理和分析软件,实现了科学数据的处理、分析、加工和挖掘等功能。这些软件支持了北京谱仪三实验的模拟、数据刻度、校准、重建和分析;大亚湾中微子实验的数据分析和模拟;高海拔宇宙线观测站实验的模拟、数据刻度、校准、重建和分析;硬X射线调制望远镜“慧眼”卫星的数据处理和分析;欧洲核子中心ATLAS实验、CMS实验和LHCb实验的模拟、数据重建和分析;中国散裂中子源和高能同步辐射光源的实验数据处理和可视化。这些实验也共享了一些基础程序库,如数据分析软件ROOT、探测器模拟软件GEANT4、分布式计算库MPI、GPU加速计算库CUDA和OpenCL,以及科学数据持久化库HDF5 等。
数据服务的目的是为各业务系统获取准确数据提供便捷,为全局应用提供安全可靠的数据支撑。数据中心围绕高能物理数据、中子科学数据、光子科学数据、天体物理数据进行数据服务建设,统一数据访问接口,提供全局的数据应用,充分发挥数据的作用。数据共享策略因数据性质不同而不同。
专用型高能物理数据可供实验合作组有限先使用,而机构/个人只有申请成为合作组成员才可获得访问数据的授权。根据合作组的规划,专用数据经过加工后逐步释放提供开放共享。中子和光子科学数据所有权属于大科学装置,提案用户/团队拥有数据的优先使用权,数据保护期届满后数据也将释放提供开放共享。数据中心在各业务系统之间建立安全、可管理、高性能的数据共享网络和服务平台,保证数据服务和共享业务的可靠运行。目前,数据中心的数据服务用户近万人,来自国内外数百家单位。数据共享的方式有两种:一是数据中心支持数据传输到合作组单位进行科学计算;二是支持在数据中心直接访问数据进行科学计算。每年的数据访问量高达300 PB,以合作组的名义发表的SCI论文超过300 篇,很好地支持了科学家们的科研活动。
3 数据应用典型案例
3.1 宇宙线观测
宇宙线是来自宇宙空间的高能带电粒子流的总称。当前宇宙线物理的核心问题是寻找宇宙线起源。高海拔宇宙线观测站(Large High Altitude Air Shower Observatory,LHAASO)是目前世界上海拔最高、规模最大、灵敏度最强的宇宙射线探测装置,其核心科学目标是探索高能宇宙线起源并开展相关的高能辐射、天体演化乃至暗物质分布等基础科学的研究。LHAASO每年产生的数据量超过6 PB,按照10年实验周期来计算,再加上模拟数据、分析数据等,至少需要能够支持60 PB以上的数据管理系统。
数据中心为LHAASO实验提供了集高性能计算集群、海量存储系统、高速传输网络、分布式数据共享于一体的科学数据服务平台,为宇宙线研究提供了技术支撑。
在稻城在站小型数据中心部署了登录节点、计算集群和磁盘存储,支持水切伦科夫探测器阵列(WCDA)在线处理、过滤噪声、压缩数据等操作,并实时获取平方公里探测器阵列(KM2A)和广角切伦科夫望远镜阵列(WFCTA)的实验数据,实时通过专线网络传输到高能所。在高能所大型数据中心部署了登录节点、计算集群、磁盘存储和磁带存储,支持大规模的数据处理,包括数据存储、模拟、解码、重建、事例符合、分析等任务。KM2A、WFCTA的原始数据及WCDA的初步重建数据从稻城传输到高能所后,立即注册到数据管理系统的数据库中,将数据文件保存到高能所的磁盘存储系统中,并定期保存到磁带库,实现数据的长期保存。
根据LHAASO的数据处理需求,数据中心采用HTCondor作为作业调度系统,采用EOS作为磁盘分布式文件系统,采用CERN CASTOR作为磁带库管理系统。整个平台的核心是一个高速、高可靠的网络,其他子系统连接到这个核心网络上,包括前端登录集群、存储集群、计算节点集群、备份与分级存储系统、支撑管理系统等。如图2所示,前端登录集群直接面向用户提供服务,后端的计算与存储等系统以虚拟资源池的形式通过前端系统展现给用户。系统采用计算和存储分离的模式。计算节点构成计算集群,通过高性能网络从存储系统中读取数据,计算过程中和计算结束后均会将结果写回到存储系统。存储系统采用集群结构,构成分布式的海量磁盘存储系统。系统通过作业调度软件将大量计算节点上的CPU资源整合起来,形成计算集群,对用户提供单一系统映像。作业调度系统对多用户提交的任务进行统一安排,避免冲突,并对用户访问资源进行授权。由于LHAASO数据量大,且要求长期保存,系统采用了基于磁盘—磁带的分级存储系统,将磁盘、磁带库等多种异构介质的存储设备整合起来,构建了统一共享的文件名字空间。对于用户来说,磁盘和磁带上的数据都是在线的,可以随时访问。
图2 离线计算环境架构
LHAASO实验采用边建设边取数的运行方式。自2019年实验开始取数以来,数据中心平台已积累了超过7 PB实验数据,并建设了一套40 PB的分布式磁盘存储系统和25 PB的磁带存储系统。截至2021年9月,数据中心平台上已运行7 500 万个LHAASO实验作业,提供了6 300 万个CPU机时。依托LHAASO数据处理平台,基于LHAASO已经建成的1/2 规模探测装置,通过在2020年的11 个月内观测数据,LHAASO在银河系内发现大量超高能宇宙加速器,并记录到能量达1.4 拍电子伏的伽马光子(拍=千万亿),这是人类观测到的最高能量光子,突破了人类对银河系粒子加速的传统认知,开启了 “超高能伽马天文学”时代[8]。
3.2 空间科学
空间天文学是利用空间飞行器在地球稠密大气外进行天文观测和研究的一门学科。利用国内空间天文卫星能够穿过星际物质的遮挡“看”到宇宙中的射线,开展高能天体演化、黑洞、伽马射线暴和引力波电磁对应体等方面的科学研究。数据中心为空间天文卫星项目提供了集数据传输、数据存储、数据处理、数据分析与共享服务于一体的科学数据服务平台(图3),支持并实现了观测任务提出、观测任务执行、数据接收、数据预处理、数据高级处理和数据分析的全生命周期管理,为空间科学研究提供支撑。
图3 空间天文卫星数据服务平台
在观测任务提出阶段,由科学家提出科学观测提案,经过科学评估和技术评估生成观测计划,转入观测任务执行阶段,科学数据下传后通过VPN网络进行数据传输,实现卫星科学数据的在线和离线存储。对于近实时数据流产生的在线数据进行快视分析,实现对机遇目标(爆发源、新源等)的监测;对于离线数据进行去除传输错误、解帧、分路、排重、数据拼接、转换等预处理过程,生成初级数据产品,对载荷源包数据和工程辅助数据等进行解包、数据转换、数据分解、内容重组、格式标准化等处理步骤,生成用户能够使用的高级数据产品。为了保障数据的质量和可追溯性,对数据处理过程中产生的各类数据进行分类存储与统一管理,采用标准的编目规则制作数据集和数据卷存放到科学数据产品库[9]。依据数据策略,将数据汇交到数据中心。
在数据共享服务方面,平台采用容器技术构建实时快速数据处理集群,集成卫星专业数据分析软件和工具,依据数据共享策略,为用户提供一站式数据与分析的集成服务(图4),推动数据的深层次共享。
图4 空间天文卫星数据分析服务技术架构
利用该平台支持HXMT和GECAM卫星开展各类观测达1 000 多次,处理了关于黑洞、中子星、伽马射线暴乃至引力波暴等观测数据约400 TB,生成了超过30 TB的科学数据产品,支持国内外天文学家的联合观测和科学研究。运用数据中心的数据与分析的集成服务,支持产生了一系列具有国际影响力的科学成果。2020年,国际学术期刊《高能天体物理学期刊》以专辑形式发布了中国首颗X射线天文卫星“慧眼”的部分技术和科学结果,共发表了21 篇学术论文。
3.3 中微子物理
中微子物理是当今粒子物理、天体物理与宇宙学的交叉与热点,存在大量未解之谜,是发现新物理的突破口与关键。大亚湾中微子实验数据来自大亚湾反应堆中微子实验,通过对该数据的分析研究可精确测定具有重大物理意义的参数——中微子混合角θ13。该数值的大小决定了未来中微子物理的发展方向,对宇宙起源、粒子物理大统一理论以及未来中微子物理的发展方向等均有极为重要的意义。大亚湾中微子实验自运行以来每年产生原始数据约100 TB,重建及模拟数据量维持在每年100 TB。
数据中心为大亚湾中微子实验提供了数据全生命周期的管理,包括数据传输与共享、离线数据存储、数据处理与分析平台等。
在大亚湾实验现场和数据中心均部署了数据传输系统,如图5所示。现场的数据传输系统通过查询在线数据获取系统(以下简称“DAQ”)的磁盘列表,将新产生的实验原始数据拷贝至现场的本地磁盘存储中,供在线数据分析系统进行在线数据分析,同时传输至数据中心的离线存储系统,供离线数据处理与分析系统进行分析。数据传输系统将原始数据存放至离线存储系统后,则会把原始数据转发至位于LBNL的存储空间[10]。依托高效的数据传输系统和数据中心可靠的网络通信链路,原始数据从大亚湾现场产生到数据中心离线存储系统的延时只有10 ~15 分钟,到LBNL的离线存储系统的延时只有15 ~20 分钟,原始数据采集并打包成文件后,30 分钟左右就已经传输到中美两国的离线服务器上,使离线分析人员可以在第一时间检查数据状态,进行探测器刻度。
图5 数据传输系统部署架构图
为保证数据永久可靠保存,并考虑到实施成本,数据中心为大亚湾中微子实验的原始数据提供了磁盘存储和磁带存储相结合的模式。磁盘存储采用基于Lustre 分布式文件系统搭建,通过元数据和数据分离的架构实现读写吞吐率的线性可扩展性。元数据服务器集群包括多台Lustre 元数据服务器,通过SAN 存储交换网络连接一个高性能全闪盘阵。同时,系统还设计了一个低速盘阵来异步拷贝全闪盘阵中的数据,进一步保证元数据的可靠性。每个磁盘阵列配置两个以上的控制器以及RAID 6 以上的数据冗余和快速数据重建能力。磁带存储则采用CERN CASTOR 磁带管理系统。系统包括请求队列、磁带驱动器、磁带服务器和名字服务器等组件。磁带服务器可以通过FC 通道驱动磁带库的机械手,并且通过HBA卡连接磁带驱动器读写数据。通过CASTOR 提供的数据访问接口和API,用户可以顺序地读写磁带中的数据文件。
数据中心为大亚湾中微子实验提供了离线的数据处理与分析平台,包括2 000 多个CPU核,选用适合高通量计算的HTCondor调度器进行计算资源的调度,并基于不同数据处理和分析的需求提供不同时长的计算作业调度。数据中心为大亚湾实验提供了长期稳定的数据服务,为发现和精确测量中微子第三种振荡模式等世界级科学成果作出重要贡献。
3.4 基于中子散射的材料科学
中国散裂中子源是国家“十一五”期间重点建设的十二大科学装置之首,为我国材料科学技术、物理、化学化工、生命科学、资源环境和新能源等提供了一个先进、功能强大的科研平台。散裂中子源就像“超级显微镜”,是研究物质微观结构的理想探针。中国散裂中子源装备有多台中子谱仪,数据中心为这些实验谱仪组成的材料科学研究平台提供了全方位的数据服务。
材料科学数据平台主要包括用户管理系统、实验提案系统、实验元数据管理系统、模拟计算系统、虚拟实验系统、实验数据访问系统和数据分析与可视化系统,涵盖了账号注册、提案申请、虚拟实验、实验数据/元数据存储与访问、数据分析的完整用户流程。平台针对不同数据模拟环境和大科学装置不同谱仪的具体数据处理需求分别开发了模拟软件、事例重建软件、后期数据分析软件和数据可视化软件,并实现与分布式存储、云计算资源的整合,营造了一站式的数据管理与数据分析环境。平台整体架构如图6所示。
图6 材料科学数据平台整体架构
材料科学数据平台支撑中国散裂中子源完成200 多项用户课题,发表用户实验成果论文50 多篇。其中,香港大学机械工程系黄明欣教授团队研发的超级钢,在保证低成本的前提下达到前所未有的2.2 GPa屈服强度和16%的均匀延伸率。其成果发表在国际学术期刊《Science》上。本次在CSNS通用粉末衍射仪(GPPD)成功开展的淬火配分钢(QP 钢)的中子衍射研究,不仅获得了高强钢在不同组织结构及不同变形条件下亚稳奥氏体与位错等的重要微观参数,而且识别了析出碳化物信息。基于数据中心的材料科学数据平台,该实验为深入理解第三代超高强钢的变形、强化及断裂机理提供了关键的数据支持,对推动高强度级别淬火配分钢的产业应用具有积极的作用。
4 结语
高能物理科学数据的特点是数据规模巨大、结构复杂,对于不同的实验,其数据结构和数据处理的工具和方法也不同。对于大科学装置项目,为了提供高质量的科学数据服务,数据中心采取走出去的方式在科学实验设计建造、实验数据采集和分析的每个阶段都与科学项目建立紧密的合作,帮助科学项目建立全生命周期的数据服务系统,这样确保了科学项目产生数据时就直接将数据汇交到数据中心,并依托数据中心提供数据访问和处理的服务。另外,数据中心建立了一套科学数据汇交、管理、共享的全链条数据服务体系,努力为我国高能物理及相关物质科学领域提供科学数据服务,为国家科学发现与技术创新作出应有的贡献。