南美空间天气信息系统设计与初步实现
2017-11-30熊森林郑岩闫振中马福利纪珍佟继周邹自明王赤
熊森林,郑岩,闫振中,马福利,纪珍,佟继周,邹自明,王赤
中国科学院国家空间科学中心,北京 100190
南美空间天气信息系统设计与初步实现
熊森林,郑岩,闫振中,马福利,纪珍,佟继周,邹自明,王赤
中国科学院国家空间科学中心,北京 100190
作为“中国-巴西空间天气联合实验室/中国科学院南美空间天气实验室”的重要组成部分,南美实验室数据中心负责中国-巴西联合实验室台站观测数据的传输、处理、存储、管理和对外共享。分析了服务于南美实验室数据中心的南美空间天气信息系统数据全生命周期应用需求,结合空间天气数据特点,系统特色和系统建设面临的技术难题,进行了系统框架方案设计。方案满足所有系统功能要求,能有效解决系统技术难题。依据建设方案,初步实现了南美空间天气信息系统的数据传输、预处理和缓存管理功能,数据中心可准实时接收台站观测数据,并对数据进行可视化等应用管理。为南美空间天气信息系统建设和南美空间天气数据处理与管理综合应用迈出了坚实的一步。
中国-巴西联合实验室;空间天气;南美实验室数据中心;数据信息系统
引言
2016年8月6日,“中国-巴西空间天气联合实验室/中国科学院南美空间天气实验室”(以下简称南美实验室)挂牌成立,南美实验室是中国和巴西在空间科学领域的进一步合作,是中巴资源卫星之后,南南合作的又一典范。随着南美实验室的推进,可实现东西半球和南北半球处于共轭区域的地基空间天气的联合监测与研究,有助于了解空间天气的区域性特征及全球变化规律,对推动空间科学重大国际合作计划-国际空间天气子午圈有重要意义[1]。
南美实验室设在巴西国家空间研究院(INPE)空间天气部,其所属的圣特玛利亚(Santa Maria)、圣若泽(Sao Jose dos Campos)和圣马奥(Sao Martinho da Serra)等地基空间天气联合观测站(以下简称联合站)已基本建成,中方布设的钠钾激光雷达、离层数字测高仪、电离层 GPS-TEC 监测仪以及磁通门磁力仪已经开始空间天气的日常观测并产生科学观测数据。作为南美实验室的重要建设内容之一,南美实验室数据中心(以下简称数据中心)负责巴西及西半球子午链上周边国家联合站和观测设备的远程监管,将设备数据向数据中心传输、汇集与存储,确保数据永久安全,推进数据共享与应用,促进中巴双方的数据交换与国际交流。
为了实现联合实验室探测数据从采集传输、处理、存储、管理、发布和归档的数据全生命周期的管理和应用,实施对联合站和设备的异地监管,需充分依托现代化的计算资源、存储资源和网络资源等信息化基础设施,研制服务于数据中心的南美空间天气信息系统,为中国-巴西空间天气联合观测、数据交换共享和发挥探测数据的“融合”型研究价值提供强有力的系统支撑作用。与一般信息系统相比,空间天气信息系统业务功能较为复杂,因其异地部署和异地管理的特点,对系统的安全性、稳定性和易维护性有着更高的要求。此外,在系统建设中,需重点解决海量小文件数据准实时传输,多功能系统统一运行和集中维护,以及多并发数据处理任务协同运行等关键技术难题。
1 建设重点与系统特色
1.1 重点建设内容
南美空间天气信息系统的核心任务目标是依托现有科研信息化环境,建立先进的自动化、一体化的数据信息系统,支持中国-巴西空间天气联合实验室异地(国外)台站设备的远程监视和管理,进行联合站观测空间天气数据的传输、处理、存储、共享和归档等全生命周期的数据管理,保障数据传输及时、处理规范、质量可靠、存储安全、产品多样、管理便捷。实现与现有空间天气相关数据系统的对接,充分发挥南美空间天气数据与其它空间天气重大基础设施项目数据的“融合”价值。为“国际空间天气子午圈”的推进提供数据信息系统应用示范。
具体建设的功能模块包括:台站观测数据准实时传输模块,数据标准化预处理模块,数据深加工模块,数据质量评估与审核模块,数据存储与灾备模块,数据管理模块,数据可视化模块,数据分发共享模块,数据归档模块和系统综合监管模块。
1.2 数据特点分析
南美空间天气信息系统面向南美联合实验室现有观测设备和西半球子午链上其它国家未来将建观测设备获取的空间天气观测数据,数据具有很强的学科特点。
(1)数据丰富,类型多样,体量大
地面观测设备运行稳定,长时间连续观测可积累大量科学数据,利用数据反演、加工、时空重采样处理办法,也可将原始观测数据加工处理成多种数据产品。
中方在巴西台站布设的4台套观测设备已经开始对南美地区电离层、中高层大气和地磁环境开展日常观测,可获取不同种类、不同时间分辨率的原始级和快速标校级的数据产品,每日有效观测数据体量约2.58GB,数据文件数超过2000个。未来2-3年,将新增全天空气辉成像仪、FP 干涉仪和钠荧光多普勒激光雷达等设备对中高层大气风场和金属钠层进行探测,增加电离层数字测高仪进行电离层的加密观测。届时,南美空间天气联合观测数据产品将进一步丰富。
(2)数据处理和加工复杂度高
空间天气台站观测原始信号数据一般不能直接应用于研究,需要经过预处理、标定和反演处理,生成特定的物理量。以钠钾激光雷达为例,原始数据为雷达接收到的共振荧光散射回波光子,需通过复杂的信号分析才能反演得到大气钠层密度、风场和温度物理量[2]。
(3)数据质量干扰因素多
空间天气地基观测数据质量干扰因素较多,主要有观测设备老化、外界环境干扰造成的数据偏差,以及数据处理和反演算法本身带来的误差。以地磁观测为例,地磁数据质量受外界人工电磁源的干扰很大,需要通过相关技术和方法进行干扰数据的识别和处理[3]。
(4)数据应用价值大,时效性要求高
空间天气地基观测数据主要应用于空间天气现象的揭示、空间天气因果关系和时空变化规律的研究以及空间环境的预警预报。因地球空间环境对太阳耀斑等事件爆发的响应时间较短(往往只有数十分钟),空间天气灾害事件提前预警预报对探测数据的时效性有着较高的要求;同时,理论研究和空间环境预报都对数据的时间覆盖长度、空间覆盖广度有较大要求。实际应用中,往往会综合利用多源(卫星平台和地基设备)数据,以提升空间环境预报精度和空间天气精细结构。因此,南美空间天气数据资源对现有预报系统或理论研究都有着重要价值。
1.3 系统特色与面临技术难题
空间天气学科数据特点和系统异地部署管理等特性,使得南美空间天气信息系统具有不同于其它信息系统几个特色,包括:
(1)分散集中相结合,异地部署管理。除台站数据传输功能部件系统部署于台站,用于传输台站观测数据外,其它功能部件集中部署于数据中心(INPE),北京仅作为数据和业务的备份中心。中国管理员只能进行异地设备监管和系统管理。
(2)自动化、业务化运行。空间天气信息系统的数据传输、处理、存储入库和分发为一条全自动的完整业务流,在正常情况下,不需要人工值守和干预即可通过网络实现异地数据的传输、流转、入库和分发。同时,系统处于7*24小时不间断的业务化运行。
(3)多并发数据处理任务。实际运行中,不同台站的观测设备往往会同时向数据中心传输数据,启动数据处理、存储入库和分发任务。
(4)系统动态扩展。南美实验室台站和观测设备会不断增加,系统应兼容未来新增台站和设备观测数据的传输、处理和存储等相关业务。
此外,系统建还需重点考虑和解决海量小文件数据准实时传输,多功能系统统一运行和集中维护,异地观测设备监管和系统运维,以及多并发数据处理任务协同运行等技术难题。
2 系统总体框架
2.1 总体框架
南美空间天气信息系统总体框架由资源层、业务应用层和用户层三个核心层组成(详见图1)。
图1 南美空间天气信息系统总体框架Fig.1 Framework of South American space weather information system
2.1.1 资源层
资源层包括数据资源和基础设施服务资源两类。数据资源为南美实验室现有4台套设备获取的观测数据和对观测数据加工后的推演数据,以及未来新增设备产生的相关数据产品。基础设施资源包括国际科技网、中国科技网、网络防火墙、数据库系统、计算服务器、NAS 存储系统、交换机、管理 PC 机等。
2.1.2 业务应用层
中间层为业务应用层,是系统建设的重点和关键。根据南美空间天气信息系统的业务功能组件构成,划分了数据传输子系统、数据预处理与加工子系统、数据质量评估子系统、数据存储与灾备子系统、数据归档子系统、数据分发与发布子系统和系统综合监管 8 大子系统。
数据传输子系统面向巴西境内和周边国家未来将建设的台站监测数据,通过网络将各设备观测数据准实时的向数据中心(INPE)在线传输和汇集,同时向中国北京方进行备份。为后续的数据分发、预处理、深加工等数据活动提供数据基础。
数据预处理与加工子系统进行不涉及数据物理量改变的数据预处理和产品推演深加工处理。数据预处理主要进行数据文件的拼接或拆分,文件存储格式转换,文件重命名和添加文件头信息等标准化处理,可为数据理解和物理量解读提供便利,为后期的数据反演、深加工以及软件系统自动识别数据提供便捷,排除数据文件格式差异给数据研究分析和应用造成的困扰。数据深加工指涉及核心物理量变化和转换的数据处理,它是管理活动中最重要的一环,是数据多样性和丰富性的保障。深加工处理包括观测原始数据到标校数据的自动实时处理,数据时空重采样和数据推演等加工处理。
数据质量是数据的核心和根本,通过质量评估的数据才能被科学家用户接纳,具备数据价值。数据质量评估子系统包括两个方面内容:一是数据的完整性、连续性、规范性和评估,另一个是数据对客观世界反映的合理性和准确性的评估。
数据存储与灾备子系统面向地基观测设备积累的长时间观测原始数据和经数据处理、反演和加工产生的产品数据。为了数据长期安全可用,建立南美空间天气数据中心产品库,采用在线-近线-离线三种状态进行分级存储。在中国灾备中心实施数据异地灾备,异地灾备可有效防止存储介质因物理损坏造成的数据永久丢失。
数据管理子系统实施产品库中数据的常规管理,包括数据自动入库、出库、检索、浏览、可视化绘制以及统计分析等管理。
随着观测任务推进和数据的积累,在数据存储的基础上,需按照数据归档策略进行数据的永久归档。数据档案是数据产品组织的一种形态,也可以进行数据档案的发布和共享。在空间科学领域,数据档案通常以数据集和数据卷两种形态进行组织和管理[4],数据归档子系统主要建立南美实验室数据中心数据档案库,并实施档案管理。
数据分发与发布子系统面向设备PI为主的科学家和空间环境预报系统用户分发数据,面向公众用户发布数据,未来还需同巴西等国家进行国际交换和共享。数据定向分发可保证分发用户获取数据的实时性和完整性,数据共享发布可实现数据受众的大众化,以及用户选择数据的灵活性。
系统综合监管子系统用以解决多功能系统统一运行和集中管理难的问题,主要实施各子系统业务运行状态信息,系统基础设施状态信息(网络、存储、服务器)以及台站、设备运行状态信息的采集、分析和统一展示,以 Email、短信或邮件的形式向管理用户实时推送各类告警信息。辅助观测设备和信息系统的异地部署和管理。
2.1.3 用户层
用户层设计了系统管理用户和系统注册用户两类,系统管理用户具备各系统管理权限,对系统注册用户进行授权,分配其在各分系统中的权限。注册用户又分为科学家、空间环境预报系统专有用户和普通公众用户两类,专有用户可享受数据分发服务,普通公众用户享受发布系统提供的数据服务。
2.1.4 空间天气地基观测数据标准规范
数据标准规范贯穿整条数据处理、管理等数据活动,指导数据处理和数据应用。南美空间天气地基数据涉及标准规范有数据分级与命名规范,数据组织规范和元数据标准。所有规范采用或沿用空间科学领域已有相关规范。
2.2 核心业务流设计
南美空间天气信息系统采用自动化、业务化运行设计模式,不同功能组件通过消息流自动串联,系统核心业务流如下:
(1)台站设备获取的观测数据缓存于台站计算机本地存储,数据扫描与发现服务自动识别本地缓存中新产生的数据文件,通过网络将数据文件及时上传至约定存储路径并上报数据传输完成通知消息,数据接收软件根据完成通知的消息内容接收数据文件并进行数据格式和传输完整性校验。
(2)数据质量评估系统根据约定的数据接口规范,对接收的设备数据进行数据规范性和核心物理量质量评估。
(3)通过质量评估和验证的数据及时分发和推送给相关用户,并自动存储数据库中。
(4)设备观测的原始数据作为数据预处理和加工的数据输入,自动触发数据预处理和加工任务,生成不同级别、不同类型的多类数据产品。而未通过质量评估的数据不进入数据库或进行下一步处理,错误信息直接反馈给设备PI,由设备 PI 进行下一步处理或操作。
(5)经过预处理和加工的数据产品也需经过质量评估,确保数据的规范性和合理性。
(6)通过评估的数据方可进行在线分发和数据存储入库。根据数据存储日期、数据活跃度以及数据存储容量等综合情况,动态完成在线,近线和离线数据的迁移和回迁,数据灾备任务按预先设置的灾备策略自动执行。
(7)根据档案制作策略,在有新的标校数据产品产生时,触发档案制作任务,制作数据档案。在档案制作中,除设备原始数据、标校数据外,一般还需要配备软件/工具、算法、文档等其它外部数据。
(8)科学家公众用户通过数据档案发布系统检索档案库(或档案发布库)中的数据档案,具有合适权限时,可以进行数据档案下载和在线使用。
2.3 系统设计与技术选用
进行南美空间天气信息系统设计时,在满足系统功能基础上,充分考虑了空间天气地基数据特点和系统应用特点,利用多种技术手段以保证系统的安全性、高效性、易用性、扩展性和可维护性。
不同子系统功能独立研发和统一集成,子系统灵活选用底层框架进行实现。通过服务器双机热备部署、数据库主-主热备、出入口带宽保证、网络防火墙接入、充分利用现有成熟技术、系统用户权限控制等措施来保证系统的安全性、高效性和可靠性。利用模块化设计、多层次设计和用户界面设计结合,保证系统的易用性。系统设计中采用作业调度、基础平台和插件相结合的设计模式,将不同数据产品数据处理与加工、数据快视、数据质量评估等差异化处理服务封装成插件供作业调度软件调用,增强系统内的可扩展性;不同系统间采用松散、低耦合的消息流、存储目录或Webservice服务等的标准接口,支持流程动态扩展和柔性组合,增强系统间的可扩展性。通过系统综合监控实施对存储设备、计算设备和网络链路等基础设施和定制软件、系统服务软件的监视和显示,以提升系统综合运维能力。利用网络视频监控技术,对联合站场地、观测设备和系统部署场所进行视频监控,解决异地设备管理和系统异地部署、管理的难题。
图2 南美空间天气信息系统核心业务流图Fig.2 Core business flow of South American space weather information system
3 系统初步实现
按照上述建设思路,不同分系统独立研制。目前已完成台站数据传输,数据预处理以及缓存数据管理功能,初步实现和覆盖的数据处理业流程参见图3,相关系统软件已在台站、INPE 和中国北京进行部署和试运行,其他分系统软件正处于研制中。
3.1 台站数据传输
传输链路选择上,台站到INPE的传输链路选用高速、稳定的巴西科研网,台站到北京的传输链路需通过国际科研网中转,实现巴西科研网同中国科技网络的对接,INPE到北京的网络带宽能稳定在30Mbps以上,可满足数据的准实时传输要求,网络拓扑图见4。
数据传输子系统包括数据上传软件、数据接收软件和传输状态监管三套定制软件。软件选用JAVA语言进行后台传输和前台界面的研发,系统运行环境为Cent OS 6.6。因FTP协议具有传输高效、安全性高等技术特点,采用成熟的FTP协议进行数据传输。
图3 初步实现和覆盖的数据处理业务流程Fig.3Preliminary implementation of data processing business process
图4 数据传输网络拓扑图Fig.4 Topology for data transmission network
图5 台站、设备、系统场所等视频监控画面Fig.5 Video surveillance screens of station,instrument and room
上传软件使用定时自动扫描处理机制,及时发现台站获取的观测数据,并提交数据上传任务,确保数据传输的及时性;通过对上传软件扫描策略的配置,可扩展后续新增观测设备数据的传输功能。以此解决了海量小文件数据的实时传输难题。数据接收软件定制了断点续传和传输文件 MD5 值校验服务,以保证传输数据的完整性和一致性。传输状态监视软件对采集的传输链路状态信息,输业务软件和硬件状态信息,以及台站、观测设备、系统场所视频监控图像进行统一展示,将系统告警信息及时推送给管理用户。管理用户可实时在线掌握台站、设备运行情况以及数据传输状态,实现对观测设备异地监视,及时发现和排查传输异常、传输中断等故障问题,进一步保障了数据传输的实时性和稳定性。
在试运行阶段,数据传输子系统已实现了对现有12种数据产品向INPE和北京的准实时传输,截止2017年5月12日0点(世界时),数据传输各业务软件运行正常,共收集到台站上传数据产品文件50326个,数据产品体量64GB,所有数据传输时间延迟均不超过 1 小时。
3.2 数据预处理与缓存管理
数据预处理与缓存管理是数据预处理与加工子系统提供的功能, 同样选用 JAVA 语言进行后台处理和前台用户界面的研发,缓存数据库采用MYSQL,系统运行环境为Cent OS 6.6。数据预处理和加工子系统采用基础处理平台、作业调研软件(选用 PBS 商用调度软件)和处理插件相结合的设计方式,以支持后续数据预处理、数据加工和数据可视化绘制等复杂功能插件的扩展,解决了多并发数据处理任务协同运行和调度的难题。分系统已实现数据预处理、缓存数据管理和数据可视化3套定制核心软件,集成软件在INPE和中国(业务备份)各部署一套。利用了双机热备和数据库主-主备份的方式确保软件、数据库的运行安全性和稳定性。
图6 数据传输监视页面Fig.6 Webpage for data transmission monitoring
数据预处理软件实现了预处理基础处理平台的研制,按照南美空间天气数据分级和命名规范,对数据中心接收所有 12 种数据产品进行了重命名处理。数据标准化处理对应的其它处理插件功能正在研制中。
数据缓存管理软件实现了预处理数据产品文件自动入缓存数据(文件)库功能,可自动解析文件名字段的台站、设备、级别、数据时间等属性信息存储到MYSQL 数据库。提供缓存管理界面,支持按台站、设备和时间等属性条件的分类检索、数据在线浏览和下载、数据分类统计分系统等数据管理功能。
数据可视化绘制软件实现了对缓存数据库的数据文件的可视化绘制服务。包括:
(1)电离层 GPS-TEC 反演电离层电子总含量(TEC)和振幅闪烁指数S4的实时绘制和显示,图4左上为29个卫星反射回波信号反演得到的 TEC 含量,每种颜色代表一个卫星,每一个卫星信号可得到一组TEC值。图4左下和图4右上分别为L2和L1载波处理得到的闪烁指数S4。
(2)电离层数字测高仪频高图数据的读取和在线显示(图4右下)。
图7 数据管理页面Fig.7 Webpage for data management
(3)激光雷达 80~110km 高度剖面钠、钾光子计数数据的在线绘制。
(4)地磁 H、Z、D 三变化量以及温度 T 的时序变化量图像绘制。
4 结语
图8 电离层 GPS-TEC 数据和数字测高仪数据可视化Fig.8 Visualization of data from GPS-TEC instrument and ionosphericIonosonde
南美空间天气信息系统作为南美空间天气数据中心的核心建设内容之一,是联结中国与巴西及其周边国家空间环境地基探测和空间天气研究与应用的重要纽带。根据空间天气数据特点和业务运行特点设计的南美空间天气信息系统可满足南美实验室数据中心业务需求,提升系统安全性和稳定性,解决系统建设中的遇到的异地部署和管理等技术难题,可作为后期软件研发的依据。
初步实现了南美空间天气信息分系统数据传输、数据预处理与缓存管理功能的研制与部署。可准实时的将台站数据传输至南美空间天气数据中心,并进行数据文件重命名处理、缓存管理和数据可视化绘制。截止2017年5月12日0点(世界时),各业务软件运行正常,共收集到台站上传数据产品文件50326个,累计体量64GB,所有数据传输时间延迟均不超过1小时。
未来,需依据该框架完成剩余子系统功能的研制,建成功能完整的南美空间天气信息系统,保障数据的长期安全性、多样性、规范性和质量可靠性,为科学家团队提供一个集异地观测设备管理、全自动化数据传输,在线数据处理、分析、管理和共享分发的科研信息化系统,辅助南美数据国际交换和对外开放共享、加速对赤道及低纬电离层特性、中高层大气波动与下层大气耦合过程等关键科学问题研究成果的产出,助力“军民融合”空间天气预警预报系统和空间环境效应评估系统,为“国际空间天气子午圈”的推进提供数据信息系统应用示范作用。
致谢
感谢中国空间科学数据中心在系统建设中提供的数据样例示范服务。
[1] 范全林.基于子午工程的国际空间天气子午圈计划[J].中国科学基金,2008,(02):65-69.
[2] 徐丽.钠层测风测温激光雷达原理及数据处理方法研究[D].中国科学院研究生院(空间科学与应用研究中心),2008.
[3] 谢凡.地磁观测中干扰抑制方法的发展及展望[J].地球物理学进展,2012,(03):967-976.
[4] 邹自明,佟继周,熊森林,胡晓彦,纪珍.大数据时代空间科学领域的科研信息化实践与成果[J].大数据,2016,(06):83-96.
2016年12月20日
熊森林:中国科学院国家空间科学中心,助理研究员,硕士,主要研究方向为空间科学信息系统技术,数据处理和管理。
E-mail: xsl@nssc.ac.cn
郑 岩:中国科学院国家空间科学中心,副研究员,硕士,主要研究方向为大数据环境云平台、并行处理、高速传输网络等技术研究和应用。
E-mail: zhengyan@nssc.ac.cn
闫振中:中国科学院国家空间科学中心,助理研究员,学士,主要工作方向云平台环境下的软件设计与实现。
E-mail: yanzz@nssc.ac.cn
马福利:中国科学院国家空间科学中心,助理研究员,硕士,主要工作方向空间科学数据预处理技术、大数据离线计算和 hadoop 云计算平台。
E-mail: mafuli007@nssc.ac.cn
纪 珍:中国科学院国家空间科学中心,副研究员,博士,主要研究方向为空间科学信息系统技术,数据处理和管理。E-mail: zji@nssc.ac.cn
佟继周:中国科学院国家空间科学中心研究室副主任,副研究员,主要研究方向为日地空间大数据处理与应用技术。
E-mail: tongjz@nssc.ac.cn
邹自明:中国科学院国家空间科学中心副主任,研究员,博士生导师,主要研究方向为日地空间大数据处理与应用技术。
E-mail: mzou@nssc.ac.cn
王 赤:中国科学院国家空间科学中心副主任,研究员,博士生导师,主要研究方向为空间物理学。
E-mail: cw@spaceweather.ac.cn
Design and Implementation of South American Space Weather Information System
Xiong Senlin,Zheng Yan,Yan Zhenzhong,Ma Fuli,Ji Zhen,Tong Jizhou,Zou Ziming,Wang Chi
Chinese Space Science Center,Chinese Academy of Sciences,Beijing 100190,China
As an important part of “China-Brazil Joint Laboratory for Space Weather /South American Laboratory for Space Weather,Chinese Academy of Sciences”,South American space weather data center(data center for short)is responsible for the data transfer,processing,storage,management and sharing.The data life cycle application requirements of South America space weather data information system serve for data center were analyzed.By consideration of the characteristics of space weather data,technical problems would meet in system construction and the system feature,the information system framework was designed.Theprogram meets all system functional requirements,could effectively solve the system technical problems as well.According to construction plan,data transmission,processing and cache management functions were preliminary implemented.Now,the data center can
ata from the ground station in quasi real time,visualize the data as well.All of this is a solid step towards the construction of integrity South America space weather information systems and the application and management for space weather data in South America.
China-Brazil joint laboratory; space weather; south america laboratory data center; data information system
10.11871/j.issn.1674-9480.2017.01.006
国际空间天气子午圈计划(一期)(2014DFA20770)