APP下载

多源异构天网大数据多模混合存储体系设计

2022-03-10李海张丽莎梁斯东

科学与信息化 2022年4期
关键词:天网数据模型异构

李海 张丽莎 梁斯东

1. 航天系统部 北京 100049;2. 北京道达天际科技有限公司 北京 100049

引言

当前,海量多源异构数据呈爆炸式急剧增加,各种数据信息侦察监视系统构建了强大的态势感知和信息获取能力。其中天网大数据凭借其全天候、全天时、大范围、大纵深、近实时的优势特点,成为各行业发展数据应用的焦点,随着大数据、云计算、互联网等技术的发展,天网大数据应用正向着体系化、智能化和服务化的方向发展。

在明确对于天网大数据存储需求的前提下,梳理多模混合存储体系的技术框架和存储方式,构建多源异构天网大数据的数据存储体系,保证数据存储和数据质量的标准化,为正确认识、快速处理和有效使用天网大数据奠定基础。

1 存储体系架构设计

多源异构天网大数据多模混合存储体系采用分布式混合数据存储架构,总体架构可分为四层,如下图1所示。

图1 存储体系架构设计

数据集包含原始数据集、归一化数据集、时空融合数据集、支撑数据集。

原始数据集:分为原始资料分布式文件数据集和数据资源描述集两部分,原始资料分布式文件数据集采用分布式文件系统进行存储;数据资源描述集主要是原始资料文件的规范化描述性信息,采用分布式关系数据库进行存储。

归一化数据集:分为归一化数据文件数据集和归一化索引大表,归一化数据文件数据集根据数据分类,组织各类天基影像文件数据和网络大数据,采用分布式文件系统进行存储;归一化索引大表主要存储天基影像数据和网络数据的归一化元数据、编目数据等,需要管理的信息类别和条目异构、海量及定期扩展,采用分布式列数据库进行存储管理。

时空融合数据集:分为时空融合影像分布式文件数据集和时空融合索引大表两部分,时空融合影像分布式文件数据集主要存储数据呈现海量化、异构化,采用分布式文件系统进行存储;时空融合索引大表解决面向数据的可视化、数据分析计算、时空分析、产品定制等需要管理的信息类别和条目异构、海量数据定期扩展的难点,采用分布式列数据库进行存储管理。

支撑数据集:分为本底数据集、关联数据集、用户数据与权限运维数据集;本底数据集主要管理离散的控制点数据文件、控制影像数据文件、控制地形数据文件等,采用分布式文件系统进行存储;关联数据集主要管理全球多级网格数据文件、影像关联地理实体数据、影像关联地名数据;用户数据与权限运维数据集与现有系统的衔接,采用分布式关系数据库进行存储。

数据模型:数据模型是对客观事物及其联系的描述,这种描述包括数据内容的描述和各类实体数据之间的描述,它是天网大数据混合存储体系设计的基础。本体系设计的数据模型包括影像资源描述模型、归一化数据描述模型、时空立方体模型、其他辅助数据模型。

存储策略:结合天网大数据数据量大、数据类型繁多、实时性高、信息来源广、用户需求各异等特点,以数据包含的各种信息为线索,快速评估数据价值,提取出高价值数据,利用云存储和分布式存储技术实现数据存储管理的自动化和智能化,提高存储效率,同时具备负载均衡、故障冗余功能,能够实现规模效应和弹性扩展,降低运营成本,避免资源浪费。本体系设计的存储策略包括虚拟云计算存储、精简备份、实时备份和价值评估策略。

数据安全:为了提高数据的安全性和可靠性,本体系设计采用混合方式进行数据的存储,一种是采用分布式文件的方式,主要是存储各类天基影像数据及网络数据的原始资料分布式文件、归一化数据文件、时空融合数据以及本底数据文件、多级格网数据文件等支撑数据,采用数据文件的方式,提高了数据的访问效率;一种方式采用分布式数据库的方式进行存储,主要是存储编目数据、综合管理数据、业务指令、数据编目属性信息等基础数据。

2 天网大数据模型设计

2.1 影像资源描述模型

原始数据集既包含本地数据文件,又包括分布式环境下远程访问的数据库访问描述信息,以及网络服务数据资源访问描述信息,其中天基遥感影像数据本身还包含大量的图像元数据信息、数据编目信息、影像模型数据等;通过对这些元数据信息、文本、XML、网络资源描述符等非结构化的小文件数据进行规范化描述,构建影像资源描述模型,进而形成规范化的文件信息,支持直接存储到关系数据库二维表中[1]。影像资源描述模型重点解决的是对影像相关的多元异构文件信息的规范化与入库存储,模型设计如上图2所示。

图2 影像资源描述模型结构

2.2 归一化数据描述模型

归一化数据描述模型包含数据编目、空间元数据、图幅文件、数据访问加速文件。影像数据添加到归一化数据集时,只会在归一化数据集中记录影像文件的路径、轮廓、分辨率、校正参数等元信息,在使用时才会根据元信息加载所需的影像文件,为了访问加速再进一步生成数据访问加速文件。归一化数据描述模型重点解决的是对多源异构数据进行元数据归一化处理与入库存储,模型设计如上图3所示。

图3 归一化数据描述模型结构

2.3 时空立方体模型

如图4所示,时空立方体模型是基于全球统一的多级格网参考系统网格剖分处理后对影像格元数据实施组织的,考虑到时空多级尺度度量的需求,在全球基础影像四维时空建模基础上,扩展为六维时空建模,并采用地球网格剖分的方法聚合空间三维表达成一维格元,构建天网大数据的新型时空立方体模型,并通过立方体的一系列操作派生物化影像金字塔、影像时间序列集、影像关联集等数据模型,用以管理多尺度、时间序列、格网-地名-实体关联的数据。时空立方体模型重点解决的是对数据集中的多源异构天网大数据进行组织,支持多尺度、多层级表达,多元数据关联、三维数字地球叠加显示等,模型设计流程如下:

图4 多级格网参考框架

第一步:确定统一时空框架,定义时空融合数据的全球统一参考网格;

第二步:设计多尺度网格剖分机制及编码,以对应的一个或一组多尺度时空编码来标识相应的时空对象;

第三步:建立时空立方体索引体系,在分布式平台上,构建时空索引大表,来实现数据的组织和存储。

2.4 其他辅助数据模型

其他辅助数据模型包括地理实体描述模型、矢栅数据模型与格网数据模型。

2.4.1 地理实体描述模型。地理实体描述模型包括实体属性信息、实体描述信息、实体空间数据和实体多媒体信息,通过构建实体信息结构与地理空间内容模型之间的映射关系,实体数据基于地理实体描述模型进行一体化管理、查询、检索、可视化和分析。

2.4.2 矢栅数据模型。矢栅数据模型是一种面向数据集成的“统一数据模型”,将栅格数据模型和矢量数据模型转化到该“统一数据模型”,实现矢量空间对象和栅格空间对象的一体化组织[2]。

2.4.3 格网数据模型。天基遥感数据的网格区位参考定位面片是对遥感数据区位的外部整体描述,其目的是建立对整个遥感数据文件的区位关联,以定位到单个遥感数据文件。在数据组织时,将各种遥感数据的元数据记录与遥感数据的网格区位参考定位面片编码形成二元组合,以遥感影像的网格区位参考定位面片编码为行关键字进行排序,每个区位参考定位面片与遥感数据之间是一对多的映射关系。

3 多模混合存储体系设计

3.1 虚拟云计算存储

针对多源异构天网大数据的海量化、持续更新、存储成本较高、容灾备份产品通用性差等问题,本体系设计依托云计算机制,相对成本更低、具有可以动态伸缩空间地能力,通过统一的标准,满足多用户、大规模的需求。支持通过合力搭建的云计算平台进行容灾备份,云存储将本地数据备份到远端的数据中心,从而达到降低成本,重点区域资源共享、共同备份的目的。

在层级构成上,云计算平台主要由服务用户,软件服务提供方和云计算供应方构成。在数据存储安全上,通过服务对象方和云计算平台方达成的安全传输协议,在传输过程中,可以通过对传输数据的加密、压缩进而保证数据的完整性和安全性。此外在备份或者下载时,协议需要根据分析进行身份认证,只有吻合的安全加密密钥才可以进行写入或者下载。

3.2 精简备份

采用精简备份数据技术能够针对性地解决了数据冗余问题,主要是基于文件、块甚至是位进行操作的。相对而言,文件的精简备份较易于理解,如果两个文件完全相同,其中的一个文件备份将被保存,而随后与之重复的文件将获取指向保存文件的指针。基于块和位的精简备份数据通过对文件进行比较,只保存每一块的单一重复部分。如果文件更新,那么只有更改的数据才会被保存。这样,基于块和位的精简备份数据可以发挥更为有效的作用

3.3 实时备份

采用实时备份(CDC)技术可实时传输所需的数据,为用户提供最及时、最准确的数据;过去由于数据进行再次复制时,操作系统需停止运行,但CDC技术可实现数据在操作系统运行时进行抓取和传递,即不需要时间窗口[3]。由于CDC技术只传输发生改变的数据,因此可以极大地提高数据传输效率。所以在备份模型中加入CDC技术,可以保证本地数据能够最快地将获得的空天信息进行备份,从而使灾难事件发生时,重点地区的数据信息损失降到最低。

3.4 价值评估

3.4.1 建立初始数据价值评估模型。数据价值评估模型首先要考量价值因素作为价值评估的因子。天网大数据集的价值受多种因素影响,有些来源于数据本身,如观测目标、数据稀缺性等,而有些来源于用户需求,如访问频率等,价值因素并不是单一存在的,数据的价值是由多个评价因素共同决定的。本体系设计在确定了多个评估因素的基础上,提出了多源异构天网大数据价值评估模型,以综合各个评估因素对数据价值评估的影响,如图5所示。

图5 数据价值评估模型

3.4.2 建立动态价值评估模型反馈机制。天网大数据的价值不是一成不变的,而是呈现一种综合的、动态的变化趋势,所以对数据价值的评估操作不能仅在数据生成或录入系统时进行,需要考虑时间的推移和用户的访问做动态调整[4]。对海量多源异构数据进行评估所花费的时间开销较大,不经常访问数据多次评估的意义不大,可以在数据迁移过程中对这类数据进行标记,不再对其价值评估。而对于在线存储的数据而言,数据较为热点,访问量和时间效益都较高,对这类数据根据一定的时间间隔进行价值评估,并根据评估结果调整相应数据管理,如提高或降低该数据在搜索中的优先级、更改该数据的存储状态、对价值高的数据自动冗余备份等。

3.4.3 高价值数据维护策略。天网大数据的维护主要服务于数据存储和分发需求,由于数据源源不断的生成,且需要应对短时间内需要大量数据的存储和调度的情况,所以本体系设计了以天网大数据的信息生命周期管理为基础,动态辅助维护策略为辅助手段,且通过一致性维护策略确保数据安全可靠性的自动化、高效率数据维护策略。

4 数据安全设计

4.1 访问安全控制

4.1.1 基于用户角色的控制。数据存储是各个业务应用系统的基础,针对各应用系统的业务特点不同和数据使用范围不同,同时兼顾数据资源的共享和数据资源的安全特点[5]。系统对用户进行设计分类,不同的用户确定不同的数据使用范围和权限。

4.1.2 基于数据密级的控制。数据存储体系管理了很多大比例尺的基础地理数据,很多数据具有相应的密级,需要根据密级对数据进行分级管理,进行严格的访问权限控制。

4.2 备份与恢复设计

多源异构天网大数据多模混合存储体系利用分布式的多节点备份机制和数据备份软件实现数据库备份与恢复功能。

存储架构中采用双机热备方式提供数据冗余备份设计。存储设备考虑一定的备份空间,每周定时自动进行数据库完全备份,备份服务器上安装存储管理软件,实现对存储设备的高效管理,实现各服务器数据的集中备份和存档。

5 结束语

传统大数据存储方式在面临多源异构数据存储时,存在处理能力不足,数据结构难以统一,数据运维困难等挑战,为探索数据价值带来了层层阻碍。在这种情况下,多源异构天网大数据多模存储体系的设计,能够高效存储和调度现有天网大数据并支持未来后续多源异构数据增量入库,数据备份、数据恢复等功能,构建了符合规范的天网大数据集服务池,提供数据全生命周期的管理,满足用户对多源异构天网大数据高效存储和应用的要求。

猜你喜欢

天网数据模型异构
ETC拓展应用场景下的多源异构交易系统
试论同课异构之“同”与“异”
网 购
厉害了!中国“天网”
吴健:多元异构的数字敦煌
面板数据模型截面相关检验方法综述
起念
异构醇醚在超浓缩洗衣液中的应用探索
经济全球化对我国劳动收入份额影响机制研究——基于面板数据模型
基于数据模型的编程应用