海量民航气象数据的离线存储
2023-01-31潘丽
潘丽
中国民用航空局空中交通管理局气象中心 北京 100020
引言
随着科学技术的进步与发展,我国现代化气象事业水平也突飞猛进。在民航航空领域,航空气象业务运行所产生的数据也随之激增。高质量,大存储,种类繁多的气象资料在《民用航空气象资料管理办法》对保存到期限进行了明确的划分和梳理,资料保存的期限根据资料的重要程度和类型分为永久、长期(30年)、短期(5年)、暂时[1]4个类型。由于业务需要24小时不间断地稳定有序的运行,相关气象数据资料也随之定时、定点的制作和生产出来。所以我们若想利用这些保存期限各不相同,但具备生产时间固定、生产位置固定的航空气象数据、资料来为气象服务做好安全的支撑作用,就必须对他们进行安全,稳定、可靠的存储。若要解决这个问题,我们就需要一个稳定支持海量数据存储的资料存储管理系统。
1 民航气象数据存储设计与实现
1.1 数据的来源
民航气象数据的来源是多种多样的,一方面,国内的各类民航气象数据由全国各地区中心通过民航通信网传输至本中心,本中心根据不同资料的类型对这些资料的质量进行质控入库把关,将符合要求的资料入至民航气象数据库。
另一方面,国际气象资料通过统一的标准格式经由世界区域系统从英国、美国的世界区域预报中心通过AFTN线路接收或互联网下载至本中心,并由本中心进行质控、入库、交换等工作。
除此之外,还与同城用户单位进行多样数据交换。数据种类繁多,资料量庞大。如何实现海量数据的高效存储,以及科学、正确进行离线存储数据规划[2],保证大数据量的条件下的响应速度,对数据进行安全、高效和稳定的存储系统尤为重要。
1.2 技术选型
针对民航气象领域对数据存储的要求,即将多种来源,多种类型的数据分类,长期存储的特点。可以有以下几种类型的存储设备进行选择。
1.2.1 NAS存储。该类型设备是一类依托高速网络作为基础,以数据为中心的具备资料存储功能的装置。该设备大多数表现为一种专用的数据存储服务器。相比传统的服务器存储数据而言,其对宽带使用效率较高,调用数据较快,成本也远低于的前者。但是该设备使用时数据均为热存储状态,且对带宽占用很大,扩容等操作受设备空间限制,拓展性不佳。并且容易受到强磁影响。对于目前大量数据持久化存储的冷存储要求较为不符。
1.2.2 磁带库。磁带库一般而言是指磁带自动装载装置和磁带机(磁带驱动器)有机结合的一类设备。它采用LTO标准的磁带作为存储元件,在需要时由自动装置或人力将磁带插入驱动中进行读取。该类型设备具备存储空间大,磁带价格低廉,可实现数据与读写设备分离、保存时间长等优势。但此类设备占地面积极大,且设备迁移不便,读取历史数据延时较久。不利于当前对数据分析时的快速读取等要求。
1.2.3 光盘库。自从BlueRay(蓝光)标准的光盘普及以来,具备自动换盘装置和光盘驱动器的光盘库就成为新一代冷存储设备的代表。该设备相对网络附着存储而言具备更好的拓展性能,可以通过更换光盘的方法快速扩容海量存储,同时该设备可以做到秒级对光盘进行更换。和磁带库进行对比,该设备体积小巧,数据读取速度出色。同时光盘相对数据磁带而言,具备存储时间久,读取速度快,性能稳定的特点。针对目前民航气象业务数据持续增长的趋势而言,光盘库更符合民航气象数据存储特点,且光盘特有的一次写入不可修改也能保证数据的安全、可靠。
综上所述,在多种多样的存储方式中,将3种存储技术进行对比(见图1),并且根据实际民航气象的业务中的资料类型,存储特点来选择,光盘库更符合民航气象数据存储特点,且光盘存储具有一次写入后不可修改的特性也能保证存储备份数据的安全、可靠。
图1 存储设备对比
1.3 民航信息存储系统关键技术分析
1.3.1 软件部署。本存储系统中,每台管理端服务器分别部署两套tomcat,端口设计为8080、8081,这两套tomcat中,端口8080负责提供管理端的可视化管理功能,例如监控服务、查询系统、下载、修改数据字典等页面功能。端口8081负责定时任务的执行,包括数据清理、文件打包、入库失败重试、数据归档和数据转储等任务。
节点端共计使用了4台服务器,每台服务器上部署4套tomcat,将统一接口的入库和查询工作动态的分布到每台服务器上,以减轻系统的压力。
本部分采用oOcean Archiver软件进行管理,该软件可对目前已连接的盘库设备进行监控和操作。通过该软件就可以对光盘库、离线库和片匣进行操作,查看这些设备的刻录缓冲区、读取缓存区等相关信息。
1.3.2 主要功能说明。
1.3.2.1 资料打包功能。由于光盘的刻录数据的速度远慢于磁盘的传输速度,所以需要建立一个临时存储区[3],一个用于将需要备份的数据暂时缓存的地方。临时存储区介于光盘和磁盘之间,能够解决刻录速度与传输速度不匹配的问题。
通过收集分发系统,将给质控模块拆解入库的民航气象数据,分一路同时发送至本系统服务器目录/data/filed_origin/原始资料名/下。原始数据的目录结构说明:/原始资料名称/日期/时次/文件。
大数据环境下,由于文件刻录容量需要根据备份光盘单盘容量决定,所以会在刻录之前会根据对不同数据类型、数据量大小及数据频次进行分类打包。
根据不同类型的数据进行打包配置,执行定时打包任务,每小时执行一次,将原始数据进行打包,并生成对应的索引数据,备份存入数据库中。打包规则:将数据资料根据数据的不同特点,按天、按时次等在气象信息系统中进行打包周期配置。
1.3.2.2 ISO文件生成。每次生成新的zip打包文件时,程序会对当前目录中的zip进行计算,是否达到单张盘的容量,是的话会等待生成iso文件。根据光盘的单盘容量来配置ISO文件的生成,本系统选用索尼单盘128GB的蓝光光盘,刻录时一般刻录最大存储的80%,大约在115GB~117GB左右,就可以生成对应的iso文件。①每天有定时任务执行,原始资料生成iso任务FILED_ORIGIN_ISO。②生成ISO功能:将符合大小的打包缓存目录下的文件写入到ISO的过程。当ISO定时任务执行时,将之前打包目录下存在的所有文件进行写入到iso中,每类资料都需要单独一个目录。③程序将打包资料生成iso文件后,该资料便无法修改,与此同时iso信息也会写入光盘库系统数据库的iso索引信息库中。
1.3.2.3 文件刻录、追踪和校验。生成ISO后,后台定时任务根据iso索引信息,将iso文件放到光盘库指定的写目录下。向光盘库预约申请一张空光盘(光盘库按照位置先后顺序使用空光盘),然后生成对应的刻录请求,发给光盘库从而生成一个刻录任务。根据后台刻录光驱是否有空闲,若有空闲便将刻录任务分配至空闲光驱,将之前预约申请的空盘自动放置光驱中,定时开启刻录任务。
光盘库会返回刻录任务的结果,若刻录未结束,则生成一条对应的追踪任务,由系统后台定期执行追踪任务,追踪所有未完成的刻录任务。
当刻录任务完成后,会进行刻录映像校验。对比刻录前后的数据大小是否一致,若是一致会在前段反馈结果,刻录成功。若校验不一致,会显示刻录失败。刻录成功后将删除本地的iso文件+索引,更新索引数据中的文件位置信息。
1.3.2.4 光盘调度软件(oOcean Archiver)。①本系统的光盘调度软件为oOcean Archiver。②光盘刻录有4个驱动器用于多刻录任务,如图2。③通过软件可以查看刻录光盘状态及空盘状态等。
图2 驱动器展示
1.3.3 硬件设备规划。根据存储系统部署架构、软件的运行要求进行分析,可总结出本系统所需硬件及服务器的配置规划如表1所示,其中,服务器要求CPU核心数不小于八核,即最低要求IntelXeonE5 2620 v4(8 Cores,2.1Ghz),并应依据数据量需求进行酌情增加。
表1 硬件设备配置表
2 结束语
综上所述,通过本系统能够实现对海量数据进行归纳、整理,并通过光盘文件管理系统对文件分类、整理、存储。满足民航气象数据的存储特点,对不同存储周期的资料存储需求,并且能够保证数据信息安全,可对今后使用历史资料推演天气过程、发展航空气象科研、提供更加精确的天气预报等具有重要的实现意义。