面向FAST科学数据管理系统平台的设计与实现
2021-03-22姜家涛谢晓尧
姜家涛 谢晓尧
摘要:为了对大规模脉冲星及暂现源数据处理技术运用研究的突破,为国家大科学工程 FAST实现提供有效的技术支持,加速在脉冲星和暂现源科学研究方面科研成果的产出。尽可能详细记录脉冲星科研数据处理结果,解决数据分析处理过程、科研结果不便于管理、共享等问题。FAST早期科学数据中心设计开发了面向FAST的脉冲星科学数据管理平台。讨论了系统平台的架构设计、功能设计和数据设计,解释了关键技术手段,展示了相关重要功能的实现。基本建成面向FAST科学数据管理平台(http://psrcat.net/),實现了FAST天文望远镜数据资源及相关基础数据资源的科学存储管理,实现了候选体数据与已知脉冲星比对分析和数据可视化展示,收录了来自FAST的优质候选体记录141条,已知脉冲星数据记录2700条,望远镜设备数据20条,相关数据有望为FAST开展新脉冲星搜寻项目制定巡天计划、认证提供数据支撑。
关键词:FAST科学数据;数据管理;脉冲星;数据比对;可视化
中图分类号:P315.69;P1 文献标识码:A
文章编号:1009-3044(2021)04-0001-04
Abstract:In order to make breakthroughs in the application of large-scale pulsars and transient source data processing technology, it provides effective technical support for the FAST implementation of national Science Project, and speeds up the output of scientific research achievements in the scientific research of pulsars and transient source.Record the processing results of pulsar scientific research data in detail as much as possible, so as to solve the problems of data analysis and processing process, and the inconvenient management and sharing of scientific research results.FAST Early Science Data Center Design develops a pulsar science data management platform for FAST.Built for FAST basic scientific data management platform (http://psrcat.net/), which has realized FAST telescope data resources and related basic data resources, scientific storage management, implement the candidate data comparison analysis and data visualization display and the known pulsars, and features high quality candidates from the FAST record 141, the known pulsars data record 2700 article, article 20 telescope equipment data, the relevant data is expected to provide FAST to start a new pulsar search project survey plan, certification to provide data support.
Key words: FAST scientific data;Pulsar; data manage; data comparison; visualization
500米口径球面射电望远镜FAST(Five-hundred-meter Aperture Spherical radio Telescope)已于2016年9月落成启用[1],在脉冲星搜索科学任务上取得丰硕成果。其中,脉冲星科学数据管理、处理分析及结果数据共享是脉冲星天文及整个射电天文中一个重要的基础科研前沿领域。为对大规模脉冲星及暂现源数据处理技术运用研究的突破,为国家大科学工程 FAST 的顺利运行、科学目标的实现提供有效的技术支持,加速国家科学装置 FAST 、SKA在脉冲星和暂现源科学研究方面国际性和前沿性科研成果的产出。尽可能详细记录脉冲星科研数据处理结果,便于回溯科研历程,解决数据分析处理过程、科研结果不便于管理、共享等问题。FAST早期科学数据中心决定研发面向FAST的脉冲星科学数据管理平台。
依赖当前高度发达的信息化科学技术和智能化数据分析手段,面向FAST的脉冲星科学数据管理平台完成以下研究目标:对FAST早期漂移扫描数据,Parkes 1997年至今PMPS数据管理;对科研基础数据入库,根据脉冲星属性和科研、科普需要,建立脉冲星基础数据库;我们已经收集到截至目前的所有2700余颗的脉冲星数据(包括著名的两次获得诺贝尔奖的脉冲星),根据脉冲星属性和科研、科普需要,建立脉冲星基础数据库;建立分析比对功能,基于基础数据库的分析统计和比对分析主题;基于基础数据库开展数据聚合、钻取等统计比对分析,实现多维分析;对科研文献资料管理,接收来自全球的脉冲星科学家及学者的新数据及文献资料;对设备资料,记录所有相关设备基础数据;对巡天项目记录管理,记录所有脉冲星开展巡天项目。系统平台将有利于数据留在本地,服务本土学者研究,加速FAST科研产出,提升本省天文科学、科普形象。论文阐述面向FAST的脉冲星科学数据管理平台系统架构设计、功能设计和数据设计,讨论了相关的关键技术,展示了部分重要功能的实现。平台基本实现FAST天文望远镜数据资源及相关基础数据资源的科学存储管理,实现候选体数据与已知脉冲星比对分析和数据可视化,收录了来自FAST的优质候选体记录141条,已知脉冲星数据记录2700条,望远镜设备数据20条,将为FAST开展新脉冲星搜寻项目制定巡天计划、认证提供数据支撑。
1系统设计
1.1架构设计
如图1,基础资源层汇聚各类基础数据资源,包括FAST早期漂移扫描数据、已知脉冲星数据、脉冲星候选体数据、巡天项目记录、天文望远镜设备资料和科研文献资料等其他基础资料;数据汇总到数据中心,中心数据库以MySql数据库系统为基础,构建标准元数据,清洗、过滤、再加工,建立各类主题,数据库分OLTP和OLDP;后端服务器技术采用JAVA语言编程,Mybatis对数据库访问,软件服务框架采用Spring MVC,软件服务发布依赖Tomcat容器与Nginx代理系统;前端技术分为Web、App、H5和小程序,Web展示采用bootstrap,数据可视化展示使用Echarts,App依托Android平台;平台可部署多种应用如天文台至早期数据中心数据传输管道、共享数据抓取、科学家候选体数据提交、日常使用业务工作流,主动收录科研资源,天文科普、脉冲星候选体识别打标签和脉冲星比对分析数据可视化等。为保证平台数据安全性,系统启用统一身份认证[4]和基于角色控制[3]机制,为保障系统高性能高可靠运行,系统部署在云平台,系统服务器与数据库物理分离,服务器集群部署,可实现负载均衡和热备。
1.2功能设计
FAST科学数据管理平台功能如图2,主要分成3大块和14个小块。数据管理:脉冲星数据管理、候选体数据管理,FITS原始数据文件管理、巡天项目信息管理、文献资料管理、观测设施信息管理、FAST管道运行状态记录、巡天故事,Timing数据管理和巡天日志管理。数据分析:数据统计可视化,候选体与脉冲星比对;系统管理:用户管理、系统权限管理、数据库备份恢复。
1.3数据库设计
FAST科学数据管理平台的数据库负责对来自FAST脉冲星漂移巡天候选体数据,ATNF已知脉冲星数据,Arecib望远镜脉冲星数据,LOFAR脉冲星数据,PALFA脉冲星数据、GBNCC脉冲星数据等,文档文献数据,天文设施运行记录数据等的存储功能。通过对需求分析,根据需要持续化存储的数据提取实体结构,部分实体设计E-R如图3。平台数据库的实体包括项目实体(Project),脉冲星实体(Pulsar),候选体实体(Candidate),发现故事(Discovery Story),Timing实体,Followup 实体,运行管道状态实体(Pipline Status),文献论文实体,用户实体等。
2关键技术与算法
2.1 B/S架构
B/S架构是基于浏览器和服务器结构的Web信息系统架构,系统业务在服务器上发布,用户直接通过浏览器就能够访问服务器中提供的资源,无须下载安装软件,用户信息保存,直接提交到服务器,有服务器进行计算存储。同时,B/S系统可以采用AJAX技术,异步无刷新式局部响应业务,给用户带来较好的体验感。
对于技术选型,采用B/S架构技术有如下优势:
软件系统使用简单。B/S架构系统业务主要存在服务器端,无须用户安装软件,随时随地,只要拥有任意款式浏览器即能够参与业务交互。用户无须因为按照客户端因为软件版本与系统不兼容而困扰,用户也无须安装插件工具等,使用简单,参与容易。
有利于系统扩展,维护升级。任何信息系统不可能一蹴而就,工作业务在发生变化,信息系统也必须随之响应。当系统业务需求发生变化,只需要更新服务器端即可,用户端随着变更。
2.2 微服务
微服务是当前业界广泛应用的全新软件架构模式,通过将一个庞大而复杂的功能分解成一组小的服务,不同的服务直接可以相互协调、互相配合,共同完成一个复杂功能[5]。Spring Could是我们选取的微服务框架,具有高质量、高稳定性、可持续性等优点[6]。多服务分布部署,将庞大的功能应用分解成多个服务,各个服务之间低耦合且能协调交互;服务集中发布,需要建立一个或多个服务器注册中心Eureka,将所有服务在此注册中心注册,所有客户端的请求通过ZUUL网关判断URL对应的处理服务,Ribbon负责协调网络请求转发负载均衡,多个服务之间也可以使用feign协调调用。高可靠性能保障,系统对每个服务接口添加Hystrix标签,能够对每个服务接口的运营监控,Turbine将监控信息汇总查看,方便管理精确定位故障,当某一服务出现故障时,熔断器可以有效避免系统整体雪崩效应。
2.3 比对分析算法
系统基于基础参数和采集到的基础数据,提供多种不同比对匹配算法,对新的候选体进行在线比对、检索分析,同时,基于已知脉冲星数据,联合多种条件提供认证匹配检索。比对算法有欧式距离法和三角相似度法。
3 平台实现
FAST脉冲星科学数据管理平台包括前端和后端两部分组成,后端系统主要是数据的维护管理和系统运行管理,前端系统主要功能导航主界面包含:脉冲星、候选体、望远镜设备、巡天项目和脉冲星社区等。针对脉冲星、候选体及望远镜数据,集成多种比对分析方法和多维数据可视化结果展示,方便科研工作者直观、量化分析相关科学目标。
3.1系统主要模块实现
3.1.1数据仪表盘
系统数据管理员进入系统,呈现的是仪表盘式界面,系统在仪表盘块,以图表的形式展示各类数据统计。
3.1.2 Candidate数据管理
脉冲星巡天数据,经过PRESTO软件加速搜索,产生大量脉冲星候选体数据,交给天文科学家群组讨论论证正负性。其中包括重点关注的优质候选体、一般重要级别候选体。
可以關联到候选体发现的故事。系统为该功能提供了添加,修改,查询,删除都能够相关操作,如图5。
3.1.3 数据比对分析
如图6,提供脉冲星/候选体相关预定义参数60多个。如:色散量(DM)、周期(P0)及位置参数赤经(Declination)、赤纬(right ascension)等,用户可根据科学目标在比对页面参数列表中勾选相关参数,选择比对方法。通过搜索/匹配功能可以快速去定位历史数据,如通过ra、dec去找上次同一个位置区间的观测结果,去比对是不是已知脉冲星,通过统计脉冲星的分布/参数分布研究统计特征等,并对比两种数据结果展示方式:表格化和图形化数据展示。
3.1.4统计可视化
针对脉冲星、候选体及望远镜数据,集成多种比对分析方法和多维数据可视化结果展示,方便科研工作者直观、量化分析相关科学目标。
3.2系统部署
本项目作为天文计算机科研项目,遵循开源准则GPL,在技术选型和部署环境上尽可能使用开源技术与软件。如图8,系统部署在Linux操作系统,版本为Ubuntu18,数据库软件MySql,服务器采用Tomcat+Nginx部署, FTP文件服务器、数据库服务器与Web服务器分离,双Web服务器集群热备,保障系统安装稳定运行。
4 总结与展望
目前已经建成面向FAST科学数据管理平台(可通过网络访问地址http://psrcat.net/在线访问),基本实现FAST天文望远镜数据资源及相关基础数据资源的科学存储管理,建成候选体数据与已知脉冲星比对分析和可视化的专用数据库系统。系统基本实现了对Pulsar数据、Candidate数据、漂移数据Fits文件、Followup Observation数据、搜索管道运行状况记录数据、Timing数据、发现故事(Discovery Story)、观测日志数据等管理功能,实现了对脉冲星数据的自定义查询和统计可视化,候选体与脉冲星比对功能。
下一步将持续通过获取公开文献、网络数据库等更新和丰富“FAST科学数据管理平台”中数据记录,收录来自FAST脉冲星巡天及其他更多巡天项目的候选体数据,提供更为丰富的统计分析模型和工具,探索多种比对分析算法,开放数据接口,为AI脉冲星识别程序学习训练和识别提供数据支撑。期望FAST科学数据管理平台能够长期服务于射电脉冲星科学领域研究者,成为射电天文领域有一定影响的专用工具。
参考文献:
[1] 许余云,李菂,刘志杰,等.人工智能在脉冲星候选体筛选中的应用[J].天文学进展,2017,35(3):304-315.
[2] Wang Hongfeng,ZhuWeiwei,GuoPing,et al. Pulsar Candidate Selection with Ensemble Nets for FAST Drift-scan Suvery[J].SCIENCE CHINA,2016(5):9.
[3] 姜家涛,郭静.基于RBAC的权限管理在实验室信息管理中的研究[J].计算机技术与发展,2017(27):79-82.
[4] 姜家涛,谢晓尧,张辉.FAST科学管理平台统一身份认证的研究与实现[J].电脑知识与技术,2020,10(29):13-16.
[5] 郄小明,张建君.基于微服务架构的终端服务平台设计[J].数字技术与应用,2020(6):124-126.
[6] 陈娜,严张凌.基于Spring微服务架构的学生实践平台[J].信息与电脑,2020(13):127-129.
[7] 冯志勇,徐砚伟,薛霄.微服务技术发展的现状与展望[J].计算机研究与发展,2020,57(5):1103-1122.
[8] 李娜.基于Spring Cloud微服务架构的应用[J].电子技术与软件工程,2019(12):142.
[9] Hewish A, Bell S J, Pilkington J D H, et al. Observations of a rapidly pulsating radio source[J].Nature,1968,217:709.
[10] Li D, Wang P, Qian L, et al. Considerations for a Multi-beam Multi-purpose Survey with FAST[J]. IEEE Microwave, 2018,19(3):112-119.
[11] Weiwei Zhu, Di Li, Rui Luo, et al. A Fast Radio Burst discovered in FAST drift scan survey[J]. ApJL, arXiv:2004,14029.
[12] 刘鹏,王培,李菂,等. FAST 19波束脉冲星漂移扫描巡天模拟[J].天文学进展, 2018, 36(2): 173-188.
[13] Manchester R N , Hobbs G B , Teoh A , et al. The Australia Telescope National Facility Pulsar Catalogue[J]. Astronomical Journal, 2005, 129(4):1993-2006.
[14] A.Taylor, J.H.R.A. Hulse, J. H. Taylor. Discovery of a pulsar in a binary system[J]. ApJ, 1975,195:L51-L53.
[15] J. M.; Nice, D. J.; Taylor, J. H. Timing Measurements of the Relativistic Binary Pulsar PSR B1913+16[J]. Astrophysical Journal,2010, 722: 1030-1034.
[16] Levin L, Armour W, Baffa C, et al. Pulsar Searches with the SKA[J]. Proceedings of the International Astronomical Union, 2017, 13(S337).
[17] Manchester RN, Lyne AG, Camilo F, et al. The Parkes multi-beam pulsar survey– I. Observing and data analysis systems, discovery and timing of 100 pulsars[J]. 2001, 328(1):17-35.
【通聯编辑:代影】