APP下载

大数据处理技术在地理信息档案管理中的应用

2016-02-01

测绘通报 2016年9期
关键词:结构化数据处理文档

胡 瑛

(浙江省第二测绘院,浙江 杭州 310012)

大数据处理技术在地理信息档案管理中的应用

胡 瑛

(浙江省第二测绘院,浙江 杭州 310012)

分析了当前地理信息档案管理的现状及面临的问题,介绍了HDFS文件管理系统、云存储、Elastic Search检索、非结构化数据库、知识图谱5种大数据处理技术,并对其在省级地理信息档案资源大数据处理平台构建、地理信息档案数据挖掘与知识发现两方面的应用进行了论述。

大数据;地理信息档案;地理信息档案管理;大数据处理技术;大数据处理平台构建;数据挖掘与知识发现

近年来,大数据已对国家科学技术、经济发展、社会进步等各方面产生了巨大的影响[1]。发达国家十分重视大数据技术,美国于2012年发布了《大数据的研究和发展计划》,英国、澳大利亚、日本、韩国分别于2013年发布了《英国数据能力发展战略规划》《公共服务大数据战略》《创建最尖端IT国家宣言》《第五次国家信息化基本计划》。而中国也在“十三五”规划中明确指出“实施国家大数据战略,推进数据资源开放共享”。在世界各国大数据战略背景下,大数据在社会各个领域都得到了广泛的应用,随之带来的数据存储、数据分析和检索等方面的问题也日益突出。在地理信息档案管理工作中,同样面临着档案存储内容日益增多、维护成本逐年上涨、信息检索低效耗时等问题。

目前在地理信息领域,档案的类型有传统的文字档案,但更多的是非结构化地理地图信息(三维地图、遥感影像和规划图纸等)。如何有效管理这些结构复杂的文档,是一直困扰着地理信息档案管理工作者的实际问题。随着大数据处理技术的发展,包括HDFS、云存储、知识图谱等在内的新兴大数据处理技术的出现,为非结构化文档的高效管理利用提供了切实有效的工具。

一、地理信息档案管理的现状及面临的问题

目前地理信息档案管理多集中于国家企事业测绘单位,主要由专门的资料档案管理部门进行专项管理。随着地理信息产业的迅猛发展,以及数字城市、智慧城市的建设,越来越多与地理空间位置有关的文档纳入到档案管理中来。地理信息行业档案管理主要面临以下几个问题:一是数据量大。现阶段档案管理主要采取纸质文件存档和电子文档保存相结合的方式,笔者所在单位现阶段已存档的部分省内地理信息相关文档约400 TB,且每日以100 GB的速度增长,如何有效存储这些文档,并根据需求进行有效扩展,是目前急需解决的问题。二是文档数据结构复杂。地理信息数据既包括结构化数据(如地理空间坐标信息、道路基本信息等),也包括大量的非结构化数据(如道路采集影像、规划图纸、三维模型等),数据检索耗时长、难度大。三是数据安全性低。由于数据量庞大、格式复杂,无法统一集中存储,造成数据分散管理,数据安全无法保障,且存在“数据孤岛”。这些问题一直困扰着地理信息数据档案管理工作者[3]。而各类大数据处理技术的出现,让这些问题的解决成为可能。

二、常用大数据处理技术

1. HDFS文件管理系统

大数据时代,特别是以Hadoop为核心的非结构化文档分布式存储文件系统的推出,为档案管理提出了一个切实有效的解放方案。Hadoop HDFS(Hadoop distributed file system)由Apache基金会开发,具有以下特性:

1) 应用成本低。可部署在低廉的硬件上,在系统扩容方面成本低,实施方便。

2) 支持高吞吐量、高并发访问应用程序的数据,适用于具有超大数据集,且访问并发量大的文件管理程序。

3) 可靠、高效。Hadoop对文档进行分布存储,提高了档案管理系统的可靠性。

4) 具有良好的扩展性。使用MapReduce进行分布式计算,在可用的计算机集簇间分配数据并完成计算任务,这些集簇可以方便地扩展到数以千计的节点中。因此HDFS能够有效解决档案管理中文档无法集中大量存储的问题。

5) 支持包括文档、音像、图片等传统文件格式,同时基于HDFS的数据库,包括HIVE和Impala等结构化数据库,支持查询、更新等功能。构建基于HDFS的档案管理系统,实现海量、多结构的档案文件集中、高效、安全存储,为地理信息档案的应用提供有效保障。

2. 云存储

云存储是云计算(cloud computing)概念上延伸和发展出来的一个新概念,是一种新兴的网络存储技术,指通过集群应用、网络技术或HDFS等功能,将网络中大量的各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问的一个系统。简单来说,云存储就是将储存资源放到云上供人们存取的一种新兴技术。

3. Elastic Search检索

Elastic Search(ES)采用Java开发,基于Restful Web接口,支持分布式多用户全文搜索,是当前流行的企业级搜索引擎。地理信息文档管理工作中,最为困难的是文档检索。ES具有零配置、快速搜索等特点,能够应用于HDFS和传统Java应用,并支持并发访问,它集合了主流的ICTCLAS、庖丁解牛、Lucene分词等工具,支持中文文档的分词检索,可以较好地实现地理信息档案的快速检索。

4. 非结构化数据库

目前档案管理的文件主要为非结构化文档,数据包括且不限于文档、音频、图谱和影像等类型,而传统的主流数据库(如Oracle、DB2和MySQL等)无法对这些非结构化数据进行有效的存储和应用。采用数据库对文档内容进行存储并支持内容分析,现有的主要方式是采用基于key-value的非结构数据库,其中Mongo DB应用最为广泛。

5. 知识图谱

知识图谱是一种基于图的数据结构,本质上是语义网络,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的实体,每条边为实体与实体之间的关系。知识图谱是关系的最有效表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(heterogeneous information)连接在一起而得到的一个关系网络。知识图谱提供了从关系的角度去分析问题的能力。随着知识图谱的应用日益普及,越来越多的公司将其应用到文档管理中,知识图谱能够有效地管理文档间的关联关系和抽取文档中的知识点,为后续的文档管理提供支持。

三、基于大数据处理技术的地理信息档案管理

地理信息档案管理中最核心的任务是数据的管理存储与信息挖掘,而大数据处理技术在这两方面的应用将引导档案管理工作从实体管理向知识管理进行转变。

1. 构建省级地理信息档案资源大数据处理平台

地理信息档案资源主要包括大地测量成果、工程测量成果、航测测绘成果、地理信息数据库成果、导航地理信息成果、地图制图成果、地理国情普查测绘成果、海洋地理信息成果及其他地理信息成果档案。除了坐标成果信息等结构化数据之外,还包括大量的技术文档、文本、图片、XML、HTML、各类表格、音视频信息等非结构化数据,尤其是历史地理信息档案资源。这些地理信息资源生成年代久远,信息化程度较低,必然会存在大量非结构化数据。因此对地理信息档案资源管理工作中面对的大量多源异构档案数据,可考虑应用大数据处理技术构建省级地理信息档案资源大数据处理平台。

首先利用Hadoop HDFS构建档案管理集群,由于Hadoop HDFS对单一节点硬件资源要求较低,初期可利用档案馆内现有的硬件资源构建成50~100节点的档案管理集群,而集群中所有节点协同工作来负责数据的存储和计算,后期可根据档案管理需要,随时进行节点扩展,以满足日益增长的档案数据对存储空间和计算性能的弹性需求。其次利用Hbase数据工厂对大量半结构化、非结构化数据进行处理,生成结构化数据,再存储到Hadoop的数据库中。然后布设Hive数据仓库,对结构化数据进行管理入库。通过Hive、Hbase的联合使用,实现结构化与非结构化两类地理信息档案数据的集群式存储与管理。最后利用MapReduce进行分布式计算,通过Hadoop集群中的并行计算来实现大量数据的同步处理,由此形成一个基于Hadoop框架,包括文件系统(HDFS)、数据库(Hive、Hbase)、数据处理(MapReduce)等功能的完整的地理信息档案大数据处理平台。

2. 地理信息档案资源的数据挖掘和知识发现

近年来,随着地理信息数据获取手段的发展,笔者所在单位的地理信息档案资源数据日益增长,加之历年来积累的地理信息数据档案,形成了海量地理信息档案资源,要挖掘出其中蕴藏着的宝贵知识财富,光靠人工是无法完成的,必须借助技术,而大数据处理技术恰恰是一个最佳的选择。

数据分析是整个大数据处理的核心,如何充分有效地利用数据挖掘和知识发现对大数据进行开发分析,是大数据时代知识服务深入发展的重要方向,也是档案管理部门服务创新的关键途径。笔者对馆藏大量多源异构数据进行清洗、抽取、集成,转换数据为易于分析的形式并载入文件系统、数据仓库或分布式处理模型,搭建起一个完整的地理信息档案大数据处理平台后,对数据进行挖掘和知识发现的条件就已具备。结合知识图谱,利用ES全文搜索引擎实现对数据的语义理解,提高搜索质量,为用户找出更加准确的信息,作出更全面的总结并提供更有深度的相关信息。

地理信息档案资源中含有丰富的隐藏信息。通过地理信息档案资源的数据挖掘,提取有用的相关资料,对有相同或近似的地理信息档案查询可以进行关联性的提取和推荐,如在某区域(某县)提取应急地理信息档案时,可以同时推荐其相关的人口统计专题信息、地质灾害专题信息;结合地理空间可视化和本体语义分析等工具,当有一个与地理信息相关的查询需求提出时,能自动从地理信息档案资源中获取相关联的地理信息档案资源,进行地理信息大数据的空间或非空间运算、分析,乃至数据挖掘。如在基于知识图谱的地理信息档案管理系统中查询景宁县近5年内农业用地变化情况时,系统将查询近5年来地理国情普查数据,并结合最新的基础地理信息数据,对所有与农业用地(如水田、旱地等)相关的基础地理信息图层进行叠置分析,结合最新的遥感数据,对分析结果进行矫正,最后自动选用制图模板,动态地生成农业用地变化情况返回给用户,进而可发现一些隐藏的知识(如景宁产茶区的茶叶种植品种呈现逐年多样化趋势)。

与非空间数据挖掘的方法相类似,地理信息档案数据挖掘的技术主要包括:地理信息档案数据预处理技术,如地理信息数据的选取、过滤、降维,以及地理信息档案区域分割等;地理信息档案空间特征和空间模式提取技术,如地理信息档案分类、地理信息档案规则提取、地理信息预测和地理信息档案聚类等,既包括有针对地理信息档案监督学习也包含地理信息档案无监督学习。

如对基于航空、航天遥感影像相关地理信息档案的分类技术流程主要为4步:

1) 构建航空、航天遥感影像相关地理信息档案表达模型,对已进行类标记的航空、航天遥感影像相关地理信息档案样本数据进行特征提取,并建立每个样本影像的空间关系和属性描述。

2) 对航空、航天遥感影像相关地理信息档案样本数据集进行基于空间或非空间的训练和学习,得到具有相当分类支持度和确信度的分类表达模型,若有必要则增加约束关系。

3) 对分类模型进行评估,先取更精准的分类表达模型。

4) 根据最优或次优分类表达模型对未分类的历史或新输入的航空、航天遥感影像数据集进行自动分类处理。

该步骤适合处理其他近似的地理信息档案数据。

因此,数据挖掘和知识发现使基于大数据处理的地理信息档案资源管理更加智能化。

四、结束语

综上所述,大数据技术在处理海量、非结构化数据上有着传统文件系统和数据库无法比拟的优势。采用基于HDFS的大数据处理技术可实现地理信息数据的集中安全存储,通过搭建基于Hadoop省级地理信息档案资源大数据处理平台,可实现地理信息数据的云存储和云应用。基于ES检索、知识图谱和非结构化数据等技术,可解决档案管理工作中数据快速检索速度慢、数据可用性差、档案对业务发展支撑力度不够等问题,提升档案管理工作效率,而结合数据挖掘和知识发现技术,可大幅提升地理信息档案资源管理的智能性,实现档案管理工作从实体管理向知识管理的转变。

[1] 百度百科.大数据[EB/OL].[2016-06-20].http:∥baike.baidu.com/subview/6954399/13647476.htm?fr=Aladdin.

[2] KITCHIN R.The Data Revolution:Big Data,Open Data,Data Infrastructures and Their Consequences[M].London:Sage,2014.

[3] 阎晓峰. 大数据与档案资源开发利用[J]. 中国档案,2015(11): 16-19.

[4] 金舒平,翟永. 国家测绘成果档案存储与服务设施项目初步设计[R].北京:国家测绘地理信息局,2013:75-76.

[5] 李德仁,钱新林.浅论自发地理信息的数据管理[J].武汉大学学报(信息科学版),2010,35(4):379-383.

ApplicationofBigDataProcessingTechnologyinGeographicInformationFileManagement

HU Ying

胡瑛.大数据处理技术在地理信息档案管理中的应用[J].测绘通报,2016(9):112-114.

10.13474/j.cnki.11-2246.2016.0307.

P208

B

0494-0911(2016)09-0112-03

2016-06-18

胡 瑛(1962—),女,工程师,主要从事测绘档案数据管理工作。E-mail:zjhzwhw@163.com

猜你喜欢

结构化数据处理文档
浅谈Matlab与Word文档的应用接口
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
有人一声不吭向你扔了个文档
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
Word文档 高效分合有高招