APP下载

地理信息空间数据管理的对象存储研究

2022-04-01刘素茹陈鑫祥吴锦超

地理空间信息 2022年3期
关键词:海量结构化备份

刘素茹,陈鑫祥,吴锦超

(1.广东省国土资源技术中心,广东 广州 510075)

解决地理信息空间数据长期存放问题的重要性正逐年提升,一方面测绘成本较高,一个典型的测绘项目通常花费千万,数据丢失的代价很高;另一方面测绘数据不可重现,若某些历史测绘数据丢失,则无法再呈现当时的情况;而且测绘成果数据为众多政府相关部门和社会公众提供服务,有重大的使用价值。吕雪锋[1]等认为分布式集群化存储是海量数据存储技术的发展趋势;马泽[2]则认为云存储技术是未来的趋势,且需从GIS数据特有的角度开发更友好Web应用界面。

针对海量地理空间数据存放与管理的特点、痛点和难点,本文提出了基于分布式对象存储的解决方案,从而实现了地理信息基础数据存、管、用的一体化管理,为广东省自然资源信息化应用打下了扎实的数据基础。

1 需求分析

近年来,随着智慧广东时空信息云平台、应急测绘保障、地理国情监测、第三次全国国土调查、不动产登记信息管理基础平台等项目的开展,数字航片、DOM、DEM、DLG、DRG、土地类、矿产、空三加密、外业、航片扫描、航片、卫片、切片等数据类型的广东省自然资源厅地理信息数据呈爆炸式增长。其主要原因为:①地理信息数据获取手段不断增加,数据来源日益丰富,出现“空、天、地”多种来源;②测量次数和测量精度逐年提升,随着空间分辨率的不断提高(从几米到1 m、0.5 m、0.2 m,将来可能达到0.1 m)以及测量次数的不断增加(从几年一次到一年几次),数据增长非常快;③根据《测绘地理信息业务档案管理规定》,重要的测绘地理信息业务档案数据需要永久保存,其他数据保存时间也达到10~30 a不等。作为广东省自然资源数据管理单位,广东省国土资源技术中心(以下简称技术中心)每年接收的需长期保存的成果数据可达300 TB以上,如何有效地保存和使用数据成了当前课题。

1.1 现状分析

技术中心存储资源池架构根据数据应用场景的不同,分为结构化存储、非结构化存储[3]和灾备存储三大区域。结构化存储主要为不动产、大数据、基础地理信息平台等应用系统提供存储空间,这部分数据主要通过数据库或虚拟平台以结构化的形式存放;非结构化存储存放的是入库前文件数据或成果数据,如各地市上交的基础地理信息成果数据、作业科室完成的生产成果数据等,这些数据以非结构化纯文件的方式存储[4];为了保证数据的安全,采用在线与离线分级存储[5],设立了备份用途的离线存储区,用于备份数据[2],如图1所示。需要长期保存的数据主要集中在非结构化存储和灾备存储。

图1 存储基本情况

1.2 存在的问题

现状非结构化存储及其灾备方案在存、管、用方面存在的主要问题为:

1)文件存储扩展性差。以RAID实现数据保护的NAS存储扩展能力差。

2)一方面异构现象严重,影响使用和管理效率,多台NAS存储型号、品牌多样,不同产品划分不同的存储空间,数据量大的项目文件只能拆分存放,不利于数据管理;另一方面备份工作量大,多异构产品备份功能需要专门的备份软件,备份软件对存储文件系统有兼容性要求,难以实现全自动备份,人工备份耗时费力,且容易出错。

3)一方面文件查询能力差,NAS以文件夹层次的方式存放数据,文件查询层层深入、效率较低,且层次太深或文件名太长时无法查询;另一方面缺乏版本控制,NAS存储没有版本控制功能,存在误删后无法恢复的风险。

2 解决思路

在选择和构建适应广东省自然资源厅地理信息数据长期保存存储与保护平台的过程中,技术中心的数据存储管理经历了从传统架构到创新架构的一次飞跃。

2.1 存储技术比对

为了解决上述存、管、用问题,本文对比了目前两大类主流的文件存储产品(NAS存储和对象存储),如图2所示。两种存储的区别主要在于接口和数据组织结构,其技术对比如表1所示。

图2 两种文件存储产品对比

表1 存储技术对比

2.2 对象存储解决地理信息数据存、管、用问题

针对日益增长的地理信息海量数据,本文利用对象存储分布式架构[7]的容量、性能线性扩展以及先进的设备替换机制,搭建了成果数据云平台,实现了地理信息数据的统一存放和管理;同时搭建了数据平台的双活容灾系统,进一步提升了数据的可用性。

2.2.1 总体架构

总体架构由两级存储构成,一级存储包括HDI、G400和EMC VNX5100仲裁盘,提供NAS读写功能,以满足少量热数据的快速读写和基于NAS的旧应用需求;二级存储由两套HCP组成成果数据主备平台,两套HCP存储之间双向复制,每套均可读写,以满足海量数据长期存放的需求,如图3所示。兼顾性能与容量需求、优化成本,由生命周期管理策略驱动冷热数据在一级存储HDI和二级存储HCP之间合理摆放,从而减轻人工管理负担;采用分布式架构,客户端通过云盘服务器或S3客户端直接对数据节点进行访问[8]。

图3 总体架构

2.2.2 软件选择

为了满足超大规模地理信息空间数据上传、下载的要求,本文分别采用HDS云盘服务器软件和S3客户端软件直接访问对象存储两种方式进行传输性能测试。客户机硬盘采用固态SSD硬盘和机械HDD硬盘两种作对比,结果如表2所示,可以看出,采用S3客户端软件性能更优;固态SSD硬盘的上传、下载峰值约为560 MB/s,均值在300 MB/s以上;机械HDD硬盘的上传、下载峰值为175 MB/s,均值在100 MB/s以上。

表2 数据传输速率测试/(MB/s)

2.2.3 解决“存”的问题

1)超大容量单目录,满足地理信息大数据量存储需求。传统NAS存储采用文件系统技术,单个文件系统容量普遍在几十TB级,而数据量大的LiDAR点云项目约有300 TB数据,就需要挂载多个文件系统目录,将带来很多非增值的运维工作。对象存储采用扁平化的文件名唯一定位方式,单个目录或存储空间能达到数十甚至数百PB级,可满足地理信息系统整个生命周期的存储容量需求,无需挂载目录和调整业务系统,使用户更加关注地理信息业务价值本身。

2)扩展灵活。分布式架构设计避免了性能和容量的瓶颈,访问节点(元数据节点G10)和高密度的存储节点(S10)均可独立横向扩展,从而实现容量和性能的线性提升。整个系统对外是一个统一的存储资源池,且通过多副本[9]和纠删码技术实现硬盘级、节点级的冗余保护,避免了物理单点故障造成的业务中断。系统内置了灵活的数据迁移功能,添加新存储节点后,可在系统内部将数据快速迁移到新设备,从而安全卸载旧设备,整个过程无需人工干预,前端业务也不受影响,满足了地理信息数据增长快的现实需求。2018—2019年扩容了3次,总容量从1.2 PB增长到3.6 PB,采用单独扩展存储节点的方式,所有容量始终保持为单个文件系统,对地理信息数据和业务没有影响,每次的升级时间只需0.5 d,比原来NAS升级的2 d时间提升了3倍扩容效率。如需提升性能,可单独扩展访问节点。

3)数据长期保存。通过一次写入多次读取的WORM写保护技术,保证数据在指定时间周期内不被删除与篡改,充分满足相关法规对数据长期保存的合规要求;且误删或误修改的数据可通过版本控制技术找回,更好地满足了地理信息历史数据不可重现的保护要求。

2.2.4 解决“管”的问题

1)数据保护能力。对象存储自带多重数据保护机制,数据无需备份。数据保护/备份是为了在发生数据丢失时恢复数据,数据丢失情况可分为物理故障、逻辑错误和站点灾难。在这些情况下,对象存储系统将通过其智能的数据保护方案去保障数据:①访问节点里的元数据时,采用在多个节点中保存多个元数据副本[9]的方式实现冗余保护,还可备份元数据到后端的存储节点;②后端的存储节点采用纠删码的方式保护硬盘,一个存储节点同时发生6块硬盘故障也不会导致数据丢失;③两套HCP之间的自动复制能确保数据始终在两套对象存储系统中保存双份,两套系统均可同时进行读写操作,任何一套系统发生宕机都不会导致数据丢失。

2)容灾能力。利用软件定义存储架构建设两个站点,生产站点用于数据存放和读取,灾备站点提供生产站点发生故障时的容灾措施,站点间采用存储双活复制技术,灵活规划灾备时间。2018—2019年技术中心地理信息空间数据约增长600 TB,包括LiDAR点云数据、2000国家大地坐标系转换数据、高分辨率航空影像数据、地理国情监测数据、数字城市数据等。若采用传统NAS方式,大小文件混合的600 TB数据,按100 M/s的高速传输速率,每天8 h工作量计算,需要约208个工作日来做容灾;而利用对象存储站点间的双活技术,容灾自动完成,大大减少了工作量。

3)数据一致性。当文件存入HCP后端的存储节点时,系统将针对每个纠删数据块产生唯一的Hash值[2'10](也称数字指纹),同时不断在后台运行Hash验证服务,确保每个纠删块的Hash值与初始的Hash值相匹配,若不匹配,则自动执行修复操作,从而保证读出文件与写入文件的一致性。同时,根据Hash值的唯一性特点,通过比较该数据即可判别数据的重复性,实现数据去重以节省硬盘空间和数据备份带宽[11]。

2.2.5 解决“用”的问题

1)创新的索引技术,解决海量文件保存和查询难题。海量文件的存储,尤其是海量的小文件,是业界公认的难题。传统存储采用文件目录树的方式构建索引,只能适合千万级别的文件存储和查询;而对象存储采用分布式数据库保存文件索引,且内嵌搜索引擎,结合描述地理数据的标识、覆盖范围、质量、空间和时间模式、空间参照系、分发、项目和时间等自定义元数据内容,可轻松实现千亿级别的文件保存和历史文件的快速查询。

2)统一数据管理。基于S3接口的数据存储和查询管理系统,统一了数据上传/下载、审核确认、权限管理等功能,同时扩展了自定义元数据管理功能,以更好地利用后端的HCP对象存储平台,不仅能通过文件名、时间、自定义的元数据等进行文件检索[1],而且能根据业务应用特点添加自定义的元数据属性,允许自由添加描述空间数据集的内容、质量、状态和其他特性的特殊完全说明数据[12],形成特定资源或信息的规则集合描述[13],便于全文内容检索和大数据分析。

3)结合业务系统管理。结合基础地理信息数据管理系统,直接调用对象存储S3接口,利用简单的PUT、GET语句实现数据的上传、下载,系统功能和业务工作流程与对应数据的关联、调用,实现各类成果数据上交(接收)、数据申请、数据分发与借阅、汇总统计、资源目录在线发布等功能。

3 结语

立足于测绘和地理信息等海量数据的管理,对基于分布式架构的海量数据存储与应用进行了详细分析和阐述。通过这套私有云存储平台,不仅真正解决了测绘成果等非结构化数据高速增长的存储难题,而且为数据在未来产生更大价值奠定了坚实的基础。系统上线后通过架构的高可靠性避免了业务中断隐患,通过访问节点和存储节点的独立横向扩展能力实现了灵活的扩容,通过存储架构的数据自愈功能避免了数据霉变后无法读出的风险,通过多层面的数据保护功能实现了数据的免备份,通过自定义元数据功能为自然资源大数据分析搭建了数据沟通桥梁。

猜你喜欢

海量结构化备份
一种傅里叶域海量数据高速谱聚类方法
借助问题情境,让结构化教学真实发生
海量GNSS数据产品的一站式快速获取方法
利用云备份微信聊天记录
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
如何只备份有用数据而不备份垃圾数据
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
全方位备份,就用Acronis True Image
Windows10应用信息备份与恢复