FAST天文数据归档存储系统设计
2018-03-23李然朱明
李然 朱明
摘 要FAST作为目前世界口径最大、最灵敏的单天线射电望远镜,其每天都产生庞大的观测数据。为提高科学数据的使用和管理,设计了天文数据归档存储系统以优化数据管理过程。本文阐述了FAST望远镜的数据产品、数据量的特点,提出系统需求并概述了FAST的数据流程。结合FAST实际情况并参考国内外望远镜的归档模式,提出了适用于FAST的数据归档存储系统的功能架构,为FAST未来的数据管理提供技术支持。
【关键词】FAST 天文数据 数据归档 数据存储 系统设计
500m口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope, FAST) 作为国家 “十一五”重大科学工程国家九大科技基础设施之一,已于2016年9月建成并投入使用。FAST的科学研究内容丰富,主要为巡视宇宙中的中性氢、观测脉冲星、主导国际VLBI低频观测、探测星际分子,以及搜寻可能的星际通信信号。FAST的计算性能需求至少需达到200万亿次以上,存储容量需求达到10PB以上。随着时间推移和科学任务的深入,其存储和处理的数据还将成爆炸式增长。为了对庞大的科学数据进行高效的管理和使用,设计一套FAST天文数据归档存储系统。系统能将已有的观测数据实现自动化有效归档,为后续的数据计算和分析奠定坚实的基础。
1 FAST天文数据产生
FAST产生的数据主要是观测数据,观测数据包含相互关联的各级数据和总控反馈的相关参数,如馈源舱位置、姿态、位置精度以及风速、温度、湿度等,所以在数据产品入库和调出时必须保留数据对象内部的关联信息。
1.1 调试阶段
望远镜在正式运行之前会经历2-3年的调试阶段,调试阶段数据主要是频谱仪记录的谱线数据,计算终端记录的脉冲星数据以及由数字后端直接导出的基带数据。除了原始数据,GPU上数据处理系统实时产生的图像也将存档。在调试阶段,FAST产生的各阶段数据都将被保留存档,使用格式为FITS。
1.2 运行阶段
待调试参数符合标准,通过国家验收后,望远镜进入正式运行阶段。科学家会对观测原始数据进行科学处理。以谱线数据为例,对数据进行分级:0级数据是数字后端导出的整体时间序列,由若干通道的电压信号的时间序列、望远镜指向的时间序列和望远镜其他状态参数整合成的。1级数据是在0级数据基础上将时间序列转化为空间分布,通道转化为频率,重新采样、射频干扰处理、基线拟合得到的三维数据块。2级数据由1级数据流量定标而来,格式和文件头与1级数据相同。
1.3 数据量
FAST自巡天产生的数据是归档存储的主要研究对象,且数据量较大,其它观测如定源观测等产生的数据量相比较小。
19波束巡天数据率为:
则19波束10min脉冲星银道面巡天数据量为:
中银纬和反银心方向巡天的数据量也接近此。未来使用相位阵馈源进行巡天观测,数据量将有5倍以上的提升。
2 系统分析设计
2.1 需求分析
2.1.1 角色需求分析
FAST科学数据归档存储系统的用户角色包含科学家、数据处理程序、数据库管理员等,具体的角色需求如下:
(1)科学家用户:检索、访问、下载各级数据产品。
(2)数据处理程序:通过特定接口实现检索和访问数据。
(3)数据库管理员:管理归档队列和注册用户,维护系统。
2.1.2 系统功能需求分析
FAST归档存储系统提供的功能主要如下:
(1)数据产品归档入库:系统归档存储各级数据产品。
(2)数据检索:系统根据用户的查询要求,检查合法性后对元数据库进行匹配查询,再通过关系映射找到数据所在位置,返回数据地址信息。
(3)下载和发送数据:系统将数据产品发送到用户计算机或数据处理系统。
(4)用户管理:系统提供统一的用户管理功能,如用户注册、登录等。
2.2 业务流程设计
FAST归档存储系统业务流程如图1所示,以数据流为导向,分为数据采集阶段、数据处理阶段、数据归档阶段和数据检索阶段四个部分。具体如下:
(1)数据采集阶段:FAST面板将信号反射至接收机接收,将电压信号经放大器和滤波器处理后,分为两路——频谱仪和两路数字后端(谱线+脉冲星),再通过频谱仪和数字后端进行模数转换成数字信号。
(2)数据处理阶段:该阶段主要针对存储于集群上的大规模巡天和计时观测得到FITS数据进行处理。不同的科学任务,需要的数据处理流程也不同。
(3)数据归档阶段:系统通过提取FITS文件头信息和总控反馈的相关信息组成元数据信息,并将数据产品信息和元数据信息存入文件系统数据库中,由系统自动或系统管理員识别项目归档类别后,传入归档信息以初始化模块。数据产品存入档案库中后,获得其具体的存储位置信息,待系统确认项目副本与状态成功写入后,再将位置信息添加进相对应的元数据中形成映射,然后删除暂存文件系统中的项目信息和元数据信息。
(4)数据检索阶段:用户通过网页或其他程序连接到系统,用户与系统对话得到检索请求,在检查请求合法性后即向元数据库中进行检索,得到符合的结果列表,用户按需选择具体的数据对象后,系统通过检查数据的具体存储位置,发送位置并调取数据给终端用户。
3 系统实现
在整个FAST数据归档存储系统中,归档控制器模块、归档作业模块和数据访问检索模块是主要的功能模块,下面将对这三个功能模块进行具体的分析介绍。
3.1 归档控制器模块
该模块是将所有级别的数据产品存储到归档服务器中的控制器。对于每个文件集,将安排一个摄取作业。同时,能够通过控制队列减少并发。
如图2所示,事务监听器模块自动检测RTC(real time computer)中的数据产品,创建一个新的任务来处理数据并将其进程注册到作业控制器模块中。作业控制器模块用于创建存档作业和安排调度,系统管理员可通过用户界面与运行作业通信,能够暂停、恢复和取消作业。队列管理器模块能够管理命令和优先化队列,每次能拥有多个作业。该队列可以动态配置,特别是并发级别,也可通过调度动态静默以停止作业。对象关系映射层允许将状态和数据的内部表示转换成适于数据库存取的形式。
3.2 归档作业模块
该模块负责将特定的数据产品集存储到档案服务器中。它能够生成或链接到元数据,在归档过程中存储数据产品的多个副本,配置访问限制,创建索引以支持搜索和访问。
如图3所示,作业控制模块能跟踪作业,允许作业开始、暂停、恢复等,还负责响应任何异常状况,包括已知和未知的问题类型。访问控制模块提供访问控制信息给其他数据归档模块。在这种情况下,它负责向已归档资源提供授权信息。为此,它将使用存储在数据库中的元数据信息。文件索引模块负责扫描数据产品中的每个文件并确保它已被索引。它将使用一个合适的元数据读取器来解析元数据并将这些元数据记录到数据库和搜索索引中,可能会加载目录到数据库中。元数据读取模块用于读取元数据,通常从提供的元数据文件中读取,有时也从个别文件中创建日期和文件大小,然后通过文件索引模块形成一个适于处理和存储的元数据记录。
3.3 数据访问检索模块
该模块负责处理来自科学团队、天文学家和公众的请求,用于检索和访问数据。
如图4所示,用户通过网页客户端或者其他符合VO(Virtual Observatory)协议的客户端程序检索并访问科学数据。模块使用搜索服务执行所需操作,对于检索得到的可下载的源,通过web服务或VO服务返回一个URI给下载管理器以供用户下载。访问控制模块负责用户身份验证和授权信息存档,为此,它需要使用存放在數据库的元数据信息和其他访问信息来源。下载管理器模块负责下载请求的同步和异步处理。它接收到一个资源下载请求,检查所请求的资源是否可以在规定时间内直接下载。如果可以,启动下载程序。如果是其他回答,它将在准备资源过程中,如从磁带拷贝到磁盘以及执行数据过滤时发送邮件,通知资源准备下载并附上资源链接。
4 总结
数据归档存储系统将使得FAST数据得到科学、自动化的规范存取并极大提高使用效率,能够实现FAST数据的统一归档、检索、提取、维护、分析与安全控制等功能。本文介绍了FAST数据结构、数据量及需求,概括了FAST归档存储流程,设计了FAST天文数据归档存储系统的基本功能,为科学存储和管理天文数据提供高效方案。目前的归档系统项目还存在一定缺陷,未来将继续改进并完善,使其成为符合国际天文协会标准的通用的归档存储系统。
参考文献
[1]南仁东.射电天文学——500m球反射面射电望远镜FAST[J].中国学术期刊文摘,2006(09):51-51.
[2]Chapman J M.CASDA:The CSIRO ASKAP Science Data Archive[J].Iau General Assembly,2015,22.
[3]王玉涵,黄茂海,刘飞飞.SVOM数据档案库软件原型系统的设计与实现[J].天文研究与技术,2015,12(03):331-341.
[4]李育岭.海量数据归档与恢复系统技术研究与实现[D].南京航空航天大学,2013.
[5]李文.虚拟天文台环境下的海量数据存储与访问技术研究[D].天津大学,2007.
[6]余骏.面向海量天文数据的分布式存储引擎的研究[D].天津大学,2013.
作者简介
李然(1993-),女,贵州省遵义市人。硕士学位。现为中国科学院国家天文台与贵州大学联合培养硕士。研究方向为天文数据处理。
作者单位
1.贵州大学计算机科学与技术学院 贵州省贵阳市 550025
2.中国科学院国家天文台 北京市 100012