国土资源大数据平台架构研究
2019-06-20石松
石松
面向业务创新的分析决策是国土资源大数据的应用核心,也是国土资源大数据平台首要构建目标。国土资源大数据不仅具有海量、多源、异构、时序性的显著特点,而且还由于其作为基础数据的特殊性地位,面临着多样化的决策分析需求,因此对大数据平台架构的定制性、敏捷性、可扩展性与服务能力提出了更高要求。
本文分析了主流的架构设计方法论,以国土资源大数据应用决策需求为出发点,对面向分析决策的国土资源大平台架构进行系统研究。
云计算、大数据、物联网、人工智能等新一代信息技术的迅猛发展及其在国土资源领域的逐步推广应用,为开展业务创新、实现智能决策提供了技术保障,通过实现国土资源大数据的汇聚,促进国土资源决策科学化、监管精准化、服务便利化,有效提升国土资源大数据利用水平,是智能决策的主要目标。国土资源数据可以划分为空间数据与非空间数据两大类型,空间数据主要是描述国土资源实体位置关系的数据,非空间数据包括业务数据与知识数据,这些数据具有海量、异构、多源多时相的显著特点。因此,采集、存储、管理、分析与挖掘都面临比较大的技术挑战。
架构的本质是对信息系统进行建模,从而实现将业务功能和需求以合理的方式映射到 IT系统。为了实现智能决策,需要将大数据技术与人工智能技术融合,实现国土资源数据的统一采集、存储、管理、分析与挖掘。基于此,本文在分析主流的架构设计方法论的基础上,面向国土资源大数据的特点,设计并验证了新型的国土资源大数据平台架构,为解决国土资源大数据采集、融合、分析、挖掘与智能决策应用的重点难点问题奠定了技术基础,为国土资源大数据平台应用提供了新的范式。
架构(Architecture)是系统的基本组织,包括其组成部分、相互关系和环境,以及指导其设计和演化的原则。架构设计需要有科学方法作为指导。信息系统的架构设计主要遵循 Zachman企业架构框架、FEA联邦企业架构和TOGAF开放群组架构框架,架构设计的本质是从系统的需求和定位出发,从业务、数据、应用、技术等多个角度对系统进行建模,从而在需求和系统间搭建桥梁,因此在架构设计中需要贯彻技术与业务分离、设计与实现分离这一核心原则。
对于行业性大数据平台技术架构的研究已有很多,包括電力企业大数据基础平台的功能架构研究、农业大数据平台的架构研究、电信大数据平台的架构研究、公共交通大数据平台研究,这些研究都针对各自的业务领域提出了合理的设计,但是这些行业应用大数据类型都相对比较单一,多以海量的结构化管理数据为主,缺少数据融合,更多的是面向传统BI的决策,而国土资源数据类型极端多样,既有遥感影像、矢量图形,又有管理数据、知识数据,“4V”特征非常明显,同时又由于国土资源数据是关乎国计民生的基础数据,应用场景丰富,采用包括遥感影像信息自动提取、多源数据融合等技术方法是国土资源大数据利用的全新方向,因此,对国土资源大数据平台的架构设计必然提出更高的要求。
国土资源大数据分析决策的核心需求
核心需求包括核心的业务需求和技术需求。基于国土资源大数据智能决策的核心业务需求围绕国土资源发展态势提供监管、预警、分析与评价服务,从而更深刻地揭示人地关系,服务于国家生态文明建设。
由于业务需求的多样性,通过对业务需求的分析,进一步抽取出共性的技术需求,划分为三类:
(1)数据服务的技术需求。构建并管理国土资源数据资源体系,实现国土资源数据的采集、管理、处理和分析应用。
(2)计算服务的技术需求。融合数据、知识、指标、模型、算法等决策要素,围绕监管、预警、决策、评价四大类型需求,提供大数据计算服务,需要支持实时、准实时及离线计算等不同应用场景。
(3)集成服务的技术需求。根据服务协议或服务标准,将数据服务和计算服务以接口的形式提供给平台服务消费者。
国土资源大数据平台架构的设计路线
基于上述需求理解,基于对国土资源大数据平台核心需求的分析,本文采用Zachman企业架构设计方法论来进行国土资源大数据平台的架构设计,即分别从业务架构、应用架构、数据架构以及技术架构四个不同的视角对国土资源大数据平台进行建模。其中业务架构是对国土资源大数据平台业务能力的分解和细化,描述业务目标、业务场景及业务流程。应用架构解决国土资源大数据平台的应用划分。数据架构定义数据模型、数据标准、服务于数据融合。技术架构定义国土资源大数据平台的系统框架、组件框架、集成框架与部署框架。
国土资源大数据平台业务架构设计
业务架构来自对国土资源大数据平台核心需求的导入与分析,从中提炼出平台的业务和技术能力。
国土资源大数据平台作为服务于业务的技术平台,业务能力不应仅仅体现业务功能,也需要体现技术功能,从而才能实现业务元素和技术的有机整合,业务架构为应用架构和数据架构提供关键输入。
平台的业务功能至下而上,依次是:
(1)数据采集:数据采集包括外网数据采集(如卫星传感器、耕地红线视频监控等),内网数据采集,包括综合研究数据、调查评价数据、土地规划数据、灾害监测数据以及基础地理数据等。
(2)数据清洗与入库:即采用ETL工具,将采集的数据清洗入库,国土资源大数据平台构建七大库,即业务数据库、知识库、关系图数据库、空间数据库、决策指标库、决策模型库、业务规则库。
(3)三大基础服务:分别是数据管理服务,主要致力于数据目录构建,以及空间数据的管理和分析;影像分析服务,对遥感影像以及视频图像进行分析,通过影像来分析地物变化、自动提取地物实体进行矢量化后进行统一管理。决策支持服务,即通过数据分析融合,流程定制、模型组合来实现智能决策与分析。这三个服务本质上都是数据服务和计算服务的统一,需要用到大数据平台的实时计算与离线计算能力。
(4)四大决策分析:将国土资源智能决策分析能力进一步细分为监管分析、预警分析、决策分析与评价分析,特别说明分析能力的提供是通过服务能力的组合来提供的。
(5)五大应用专题:包括智慧执法、智慧地灾、智慧土地、智慧矿产以及生态保护专题应用。
(6)四大集成方式:国土资源大数据平台提供数据沙箱、页面集成、接口调用以及智能推送能力。
国土资源大数据平台应用架构设计
应用架构来自于业务架构的导入。应用架构的设计工作包括识别应用功能、定义应用划分、确定应用系统边界、界定应用风格、明确应用分布,形成应用架构蓝图。应用架构需要依据业务需求,抽取关键用例,通过系统分析,建立应用与业务能力之间的映射关系。
应用架构需要综合考虑业务流程的连续性,业务数据的完整性与流动性,对应用功能进行逻辑组合与划分根据应用合并与重组的原则,将国土资源大数据平台进一步划分为四大应用平台:
(1)大数据管理平台:下设数据采集与汇聚子系统,用以实现国土资源各类数据的采集与汇聚,平台分析子系统、平台查询子系统、平台管理子系统与平台运维子系统。
(2)影像基础服务平台,用以开展基于各类不同传感器、不同分辨率、不同光谱遥感影像通过深度学习提取地物信息服务
(3)数据共享开放平台,实现数据的共享与交换,包括数据质检、数据目录、共享交换与日志管理等。
(4)门户平台:开发建设综合门户、实现资源汇聚和权限管理。
国土资源大数据平台数据架构设计
数据架构来自于业务和应用需求,在设计中重点考虑了两个关键点:一是基于统一的数据管理视角,以应用对国土资源数据进行组织和规划,提高跨系统间数据存贮和共享的效率;二是从数据资产管理的角度,对整个数据生命周期中数据的处理、存贮、转换、整合制定策略、模型、流程以及支持这些策略、模型、流程的技术架构方案。
为了有效地管理多源化的国土资源数据,在数据架构设计中引入了元数据管理平台,实现对数据的统一管理。通过元数据管理平台对大数据平台中各类业务数据、基础数据、影像数据进行管理,从而实现对应用的全面支撑。
在数据应用落地的具体过程中,将国土资源大数据最重要的综合研究、调查评价、土地规划、变更数据、遥感影像、基础地理、国民经济、社会发展、地质调查、灾害监测等数据通过采集至贴源数据区,并使用ESB总线对以上数据提供实时的订阅、发布、管理服务。在贴源数据区中,使用ETL组件及工作流将数据进行整合,通过数据清洗规则对数据进行清洗,最终将部分具有实时计算需求属性的数据导入预加载预计算区域,支撑快速数据查询及展示。
另一方面,通过数据目录将业务数据组成各类体系、模型、规则,通过业务、时间、详细程度将基础数据进行分类,两类数据集合成为主题数据,采用面向主题、时间、主题模型等方式进行存储,最终形成面向不同專题应用的国土资源数据集市。
国土资源大数据平台技术架构设计
平台技术架构则重点关注支撑国土资源大数据智能决策应用所需的信息化技术和基础设施平台,识别关键技术组件、定义技术标准体系,为应用架构、数据架构提供技术支撑。为了确保技术先进、成熟、开放与成长性,国土资源大数据平台中的主要技术组件均基于业内成熟的开源框架进行搭建,集成和扩展实现了数据接入、数据处理、数据共享与开放、数据挖掘等一体化的技术支撑。
技术架构说明如下:
1.数据接入层:解决本平台所需的各类数据接入问题。包括采用外网爬虫服务以获得外网数据,通过空间数据访问服务以获得空间数据,通过ETL/SQOOP获得业务数据以及视频数据。通过FLUME获得日志数据。
还有指标和模型数据需要采集入库,考虑到数据采集与入库可能存在性能上的差异,采用kafka消息中间件进行处理。同时还提供各种数据转换入库的规则配置,各种采集策略及模板配置等。
2.数据存储层:通过接口方式解决各类数据的存储问题。关系型数据库写入Postgrel,地图数据库写入HDFS/HBASE,索引数据写入Elastic Search,图关系数据库写入Neo4j,交互式分析采用Pig/Hive/Impla。
3.数据访问层:提供数据访问接口,以实现对各类数据的访问。
4.计算能力层:提供流式计算组件、批处理计算组件、并行计算组件、SmartBI建模、资源调度与管理组件、性能监控等。
5.机器学习层:提供传统机器学习与深度学习能力,实现数据标注、模型训练、特征提取、模型预测、模型评估、参数调优的能力。
6.技术组件层:提供公共技术支撑组件,包括流程与表单管理、决策支持管理、可视化分析管理、多源数据融合、视频分析、空间分析、特征识别与提取、图谱计算、高性能渲染等。
7.综合应用层:在上述数据与服务的基础上,进一步构建智慧执法监察系统、智慧地灾管理监察系统以及数据共享与开放业务系统。
本文基于传统的企业架构设计方法论,针对国土资源大数据的自身特点,对面向智能决策的国土资源大数据平台的架构进行了多维度、多视角的建模,论述了国土资源大数据平台的业务架构、应用架构、数据架构以及技术架构,为国土资源大数据价值挖掘提供了技术基础。