基于大数据的SP-HDF存储空间科学数据技术研究
2019-09-10李明东李雪竹卢彪鲁雪晴胡雅婷
李明东 李雪竹 卢彪 鲁雪晴 胡雅婷
摘要:为了解决空间科学数据与元数据分开和空间科学数据不能自描述的问题,提出了基于大数据的SP-HDF存储空间科学数据技术研究.首先,进行分析空间科学数据的特征,其特征表现为海量数据、多类型、可以交换和融合[1],以及分析空间科学数据的三种传统存储方式.然后,设计基于大数据的SP-HDF存储数据的框架,进行提出基于大数据的SP-HDF存储框架结构,并且研究提出SP-HDF进行存储数据的逻辑结构节点的结构和属性.最后,通过SP-HDF技术标准化处理数据,进行基于大数据的SP-HDF存储空间科学数据研究,研究结果表明,基于大数据的SP-HDF技术在处理空间科学数据后可以达到负载均衡,避免数据分离.
关键词:大数据技术;SP-HDF存储技术;空间科学数据;负载均衡
中图分类号:TP393 文献标识码:A 文章编号:1673-260X(2019)07-0055-03
SP-HDF采用层次式的数据结构方式来进行科学的管理存储数据,具有扩展性、自描述的特点,可以用于存储大多数空间科学数据.SP-HDF文件只要是由组和数据集进行构成,组可以包括各种数据集和其他组,通过数据空间进行定义数据集的维度信息,并且各种节点的属性和元数据用文件属性进行描述[1].通过研究基于大数据的SP-HDF存储数据技术,实现空间科学数据能够集成共享和自描述存储.
1 空间科学数据的特征和传统存储结构
1.1 空间科学数据的特点
(1)数据量大.空间科学数据是利用航天器研究自然现象以及其规律所获取的科学数据.我国关于空间科学的数据库自从投入以来,现在的数据量以及达6TB,并且现在的数据量随时间日益增长.
(2)数据有多种类型.在获取空间科学数据时,获取手段多种多样、参数变量众多、研究目标的范围广泛.研究人员可以通过地面信号站、卫星雷达、航天设备进行获取数据;影响获取空间科学数据的参数变量又有多种,空气中的大气层、电离层、磁场,还要宇宙中的宇宙射线强度、太阳的磁场等参数都会影响数据的获取.不用的参数变量获取的数据值都各种差异.
(3)数据可以进行交换和融合.空间科学数据的研究工作遍布全球,所获取的数据范围广、种类繁多,因此需要世界上各个国家、各个行业进行数据共享,共同进行分析所获取的空间科学数据,以便探知外界,快速发展科技.
1.2 空间科学数据的传统存储结构
空间科学数据的传统存储结构存在严重不足的问题.此外,在数据的访问接口上存在不一致的问题,使得在进行访问数据时比较困难;空间的科学数据和元数据存在着分离现象[2],数据变得难以进行使用和维护;还有数据抽象后得到的等级比较低,加大了数据管理的难度和复杂性.传统存储结构如图1所示.
空间科学数据的传统存储方式有如下三种方式:
(1)文件存储方式.利用传统的文件形式将空间科学数据存放到外部的设备中,建立文件目录系统,通过操作系统统一控制对数据进行管理和利用,并建立数据与相应结构之间的关联.
(2)数据库存储方式.利用数据库系统将空间科学数据的元数据进行转化,转化成相对应的关系表,通过找到数据库系统提供的结构,进行完成数据的存放和查找.
(3)数据库加文件索引方式.将超大规模的数据集直接存储到数据库系统,会出现数据库系统难以运行的问题.通过数据库加文件索引方式可以解决大量数据的存储问题,但还会存在空间的科学数据和元数据的分离现象.数据库加文件索引方式将数据的目录和元数据存放到数据库系统中,数据实体存放到文件系统中,实现数据的间接存储和查找.
2 基于大数据的SP-HDF存储数据的框架设计
2.1 基于大数据的SP-HDF存储框架结构
SP-HDF是可以对空间科学大数据进行存储的存储模型,还是针对空间科学大数据的数据标准.对HDF的底部存储结构进行了封装,在此基础上,针对空间科学大数据的特点,对HDF进行逻辑存储结构和规范的设计,封装出一组供专业数据用户所需要的数据访问的接口,这种接口便于使用、抽象出来的等级更高、更加专业化,实现了空间科学数据的规范管理存储,满足数据的存储要求与便用性的需求.
基于大数据的SP-HDF存储模型分成四层结构[3],四层结构分别为系统层、HDF层、连接层、应用层.如图2所示.
(1)系统层作为空间科学数据的存储机制,将空间的科学数据和元数据的进行分层与集成式存储,再通过HDF库函数进行访问存取數据内容.
(2)HDF层完成对系统空间中空间科学数据存储文件的读取访问,通过调用HDF内部的数据库,实现将空间的科学数据与元数据进行检索、查找、访问存取等.
(3)连接层是完成空间科学数据的逻辑存储和规范数据[4],针对空间科学数据进行封装处理,设计能够存储更高级别抽象数据和更大访问粒度的逻辑存储结构.
(4)应用层是一个空间科学数据用户和不同领域的应用系统.应用层通过连接层提供的标准化、抽象的数据访问接口,对空间科学数据和元数据实现了高效访问.
2.2 SP-HDF存储数据的逻辑结构设计
物理量和网格数据在数值模拟过程中进行处理的核心数据.获取的原始空间科学数据、中间数据和数值模拟过程中产生的结果数据都属于物理量的数据.
(1)MHDBase是逻辑存储结构的根节点[5],每一个数据文件中最多可以定义一个MHDBase节点,并且包括索引维度、物理维度、数量和区域列表等数据.MHDBase节点的结构和属性如下表1所示.
(2)BaseUnits节点定义基本物理单位,其中包括质量、时间、温度和角度四个基本物理单位.MHDBase中定义的单位属于全局单位,如果MHDBase以下的节点中没有定义单位,则默认情况下将继承全局单位,还可以在节点上定义新单元以覆盖全局单位[6].BaseUnits节点的结构和属性如表2所示.
3 基于大数据的SP-HDF存储空间科学数据研究
3.1 基于大数据的SP-HDF技术标准化处理数据
数据标准化处理模型由两个相对独立的部分组成,分别是数据标准化处理和模板定制与管理,它们通过数据处理模板连接.模板定制和管理部分负责标准化模板的定义[7],删除和修改,并为每种数据类型提供不同的处理模板.
从水平角度看,数据标准化处理模型由四层组成:应用层,接口层,逻辑层和处理层.在每个不同的层中数据标准化处理和模板定制与管理都会具有相应的处理功能.SP-HDF技术标准化处理数据的总体结构如图3所示.
3.2 基于大数据的SP-HDF技术处理数据负载均衡
数据产品的处理子系统部署在主从服务器集群中,处理任务通过中央控制系统动态调度,数据处理任务由各处理节点完成.中央控制系统可以实时获取处理节点的负载信息,并在每个处理器之间动态分配和调度任务,以避免每个处理节点的不平衡负载[8].由于系统中的每个处理节点都是动态添加或删除的,因此每个处理节点的负载状态随时都会发生变化.采用集中式调度的策略,根据每个处理节点的负载动态进行任务调度,使系统的资源充分使用,可以达到负载均衡的目的.
4 总结
在SP-HDF存储空间科学数据的框架下,为空间气象空间科学数据的研究设计相应层次的逻辑结构,并在应用层的基础上进行集成应用测试.将数据进行封装逻辑存储结构和界面层,封装了用户直接访问底层数据存储[8]的细节,减少数据访问的复杂性,另一方面提供了一种数据抽象领域更符合业务概念和改善数据访问.并且数据抽象的粒度级别、访问接口更易于使用.基于大数据的SP-HDF存储空间科学数据技术的数据访问接口只是初步设计,需要进一步验证的可靠性.最后,还会加强和领域的专家进行沟通,使得基于大数据的SP-HDF存储空间科学数据技术能够更加符合在其他领域的应用需求.
参考文献:
〔1〕王馨凝,李国春.基于MERSI和MODIS数据的2种监督分类方法比较研究[J].现代农业科技,2017(07):11-35.
〔2〕张茂鑫,李国春.基于HDF5文件格式的MERSI影像数据提取的研究与实现[J].现代农业科学,2016(03):55-67.
〔3〕刘文军,李靖,袁昌洪,刘方,解令运.基于NetCDF数据模型的气象资料存储设计[J].安徽农业科学,2015(05):170-200.
〔4〕劉海燕.数字流域数据交换标准的研究[J].数字技术与应用,2016(03):57-86.
〔5〕赵苏璇,罗坚,杨成荫.基于BP神经网络的气象格点数据无损压缩方法[J].地球科学进展,2015(02):21-43.
〔6〕贾俊涛,孟婵媛,宋海英,鲁强,谭冀川.基于NetCDF的海底地形网格数据模型创建与调度[J].海洋测绘,2017(05):55-67.
〔7〕夏军宝.空间科学大数据存储模型SP-HDF及应用研究[J].中国地质大学,2013(11):38-63.
〔8〕王永韬,刘良明.HDF5格式特点及其对遥感数据格式标准化的几点启示[J].国土资源遥感,2015(03):216-238.