智慧嘉兴时空大数据与云平台设计与实现
2021-02-05李小卫
李小卫
(嘉兴市规划设计研究院有限公司, 浙江 嘉兴 314050)
0 引言
嘉兴在全国率先开展数字城市建设,早在2006年就开始了地理空间框架数据库、平台、标准等一系列探索,经过多年的努力,嘉兴在基础地理信息数据、政务交换数据、平台应用、运行支撑体系建设等方面取得显著成果,但仍然存在不足,如各类专题数据覆盖面不够、信息汇聚与共享标准不统一、现有底层软件整合力度不够等,同时在多类型公共资源管理方法的有效集成、支撑深度应用等方面,也仍需进一步提升。2016年10月,国家测绘地理信息局正式批准嘉兴为云平台建设试点地区。本文在数字嘉兴已有的一系列成果基础上,结合大数据、云计算、物联网和地理空间信息等现代科技手段,以时空信息为抓手,整合嘉兴市政务信息资源、物联网感知信息等,形成具有时间序列的时空信息大数据库,搭建全市统一的时空信息云平台,从而形成测绘地理信息数据、专题资源数据智慧化应用的新格局,推进全市生产、生活和管理方式的创新,解决城市发展过程中面临的新问题[1]。
1 系统设计
1.1 总体架构设计
平台采用多层架构体系设计,自下向上依次为感知层、网络层、设施层、数据层、服务接口层、平台层、应用层,“政策法规与标准规范”体系和“制度安全保障”体系贯穿项目全过程,为平台提供规范依据和安全运行保障。感知层、网络层、设施层提供平台运行所需的软硬件设施,平台通过公有云、专有云和涉密云等不同网络环境为不同的应用群体提供全面的智慧化服务,数据层、服务接口层、平台层是核心内容,提供数据基础、数据服务和各类功能服务,应用层以部门智慧应用为主要表现方式,以时空信息大数据收集、分析为云平台的主要外延建设内容。平台总体架构设计如图1所示。
1.2 技术路线设计
平台云支撑环境以嘉兴市政务云为依托,云服务技术上与华为云平台ManageOne底层对接,能够实现对云资源的灵活管理。数据库采用大型关系型数据库(Oracle)+非关系型数据库(Hadoop)方式对海量大数据进行存储和管理,结合Spark分布式计算架构设计,实现对基础地理信息数据、专题资源数据以及实时感知数据的统一管理,完成对各类数据的抽取、关联、汇聚。时空信息服务平台采用云架构版本的开放式虚拟地球集成共享平台GeoGlobe与ArcGis10.6平台,实现数据服务、功能服务、分析服务及计算服务共享、发布及应用。地名地址库基于地名管理引擎UADB实现地名地址快速匹配。在大数据分析挖掘方面,基于R语言实现时空数据的分析与挖掘[2-3],包括空间分布、关联分析、线性回归等分析挖掘算法,实现基础地理信息数据与行业部门专题数据间的碰撞,以满足政务大数据分析的需求。
图1 总体架构设计图
2 系统实现成果
2.1 时空大数据库建设
平台以时空信息大数据库为数据存储,时空信息大数据库是对各种类型的城市大数据进行汇集和智能服务的基础与核心[4],例如基础地理信息数据、地理实体数据、政务专题数据、地理国情数据以及感知设备实时数据等。时空信息大数据管理系统实现地理框架数据的时空基准统一,形成全市“一源图”,对各类结构化和非结构化信息数据进行统一汇聚、存储、编目、融合、更新等操作。根据工作内容的不同,时空信息大数据建设分为数据汇聚、数据处理和数据管理三个阶段,数据汇聚阶段对平台所需各类数据进行采集和汇集;数据处理阶段对汇聚进来的各类时空信息数据进行统一的空间化处理;数据管理阶段则是提供数据管理服务,如数据源管理,元数据管理,时态管理[5]。时空信息大数据建设内容,分为历史数字地形图时空化改造,地名地址和兴趣点数据时空化改造,影像数据时空化改造,聚酯薄膜图栅格化收集、分析,地理实体数据建设,政务专题数据共享,物联网节点位置信息采集,电子地图要素集更新八个部分。主要工作内容包括以下五点。
(1)完成各类基础地理信息数据的汇聚,通过持续更新现有基础地理信息数据,同步扩充新型数据产品,添加时间维序列,将传统静态测绘地理信息数据转为动态的时空大数据。
(2)完成时空信息数据统一化处理,对汇聚和动态积累的各类数据进行一体化整合与时空化改造处理。
(3)完成政务专题数据之间的关联,对嘉兴市人口、法人、宏观经济等政务专题数据与地理实体数据实现关联融合。
(4)完成时空大数据中心相关软件建设,主要包括时空数据库管理系统、地理实体数据库管理系统、大数据分析管理系统,实现数据的接入、清洗、转换、装载、检验、元数据管理、编目管理。
(5)完成地图联动更新系统建设,建立省市县三级测绘地理信息一体化获取、多级共用的联动更新机制[6]。
2.2 时空云平台建设
平台主要由门户网站、应用中心、资源中心、开发中心、云平台运维管理系统、代理服务系统、时空信息服务系统等七个系统构成,平台与内部和外部系统的信息传递通过消息中间件完成。其中,时空信息服务系统是核心组成部分,提供主要服务功能,主要用于构建集中管理的、支持多用户的企业级地理信息系统(Geographic Information System,GIS)应用与服务。Server可以为用户提供二、三维地图可视化、地理实体关联查询服务、空间查询与分析、数据编辑(对象几何位置和属性简单修改能力)等多种GIS服务,服务支持跨平台部署与集群管理。同时,软件提供数据获取、几何计算、服务管理接口和服务开发框架,便于行业产品或其他二次开发商进行服务系统的开发。时空信息服务系统结构如图2所示。
图2 时空大数据与平台信息服务功能
(1)地图服务模块
该模块提供矢量地图服务、三维模型服务、专题地图服务。
矢量地图服务制作出带有地理空间位置的地图,将地图定义为地理数据可视化表现形式。
三维模型服务的主要功能就是响应客户端的请求,及时将三维模型场景返回给客户端。该服务结合GIS软件的三维客户端,能够实现大范围三维场景的发布和互联网环境下的浏览、查询。
专题地图服务是用来发布预先配好的各类统计专题图,支持server端绘制和client端绘制两种模式,结果可以是图片形式返回,也可以提供制图信息的接口。
(2)要素服务模块
该模块提供要素查询服务、地理实体关联查询服务功能。
网络要素服务提供对要素数据的增删改查等操作,结果以地理标记语言(Geographic Markup Language,GML)编码形式返回,广域网(World Wide Web,Web)要素编辑服务实现了Web要素服务的扩展接口。用户终端可以通过开放地理空间信息联盟(Open Geospatial Consortium,OGC)获取Web要素服务并使用GML编码的地理空间数据。同时,在这个服务中可支持基于要素的时态数据的发布。
地理实体关联查询服务基于地理实体关联查询,用户可进行地理实体数据的基本属性以及与之挂接的专题业务属性的查询。同时,用户可实现专题业务服务与地理实体服务的关联挂接,以丰富地理实体关联查询服务的专题信息。
(3)应用分析服务模块
该模块提供空间分析服务、数据融合服务、语义分析服务、地址匹配服务、物联网位置服务、数据接口服务等。
空间分析服务面向的是地理空间数据,对大量包含地理位置值的空间数据进行一系列的空间几何关系分析操作。
数据融合服务是将城市多传感器的信息源数据进行关联及组合,以此获得精确度较高的位置估计,从而实现对社会经济发展、组织管理作出整体评价的处理过程。
语义分析服务是对地理实体空间特征的科学描述,首先把客观世界分解并描述为一系列地理实体,然后用点、线、面和特殊图形等对象来描述地理实体,接着从对象中抽取出空间特性,并对空间特性进行描述。根据地理实体在地图上的形态表达,从中归纳提取出地理实体空间上的语义特征,构建基于地理实体空间语义的模型。
地址匹配服务又称为地理编码,是指将标准地址转换成地理坐标的过程,客户端可以使用这些坐标来设定标记或标定地图位置。另外,此服务能执行反向作业(将坐标转换为位置),也就是“反向地理编码”,即逆向匹配。
3 平台示范应用
本应用以时空信息为载体,集成全市的基础地理信息、地表自然和人文信息、经济社会发展信息、各类规划信息及城市运行信息等内容,为政府部门提供城市级综合政务服务。
3.1 主要内容
(1)构建全市统一的数据覆盖全面、数据来源多样、服务功能强大、应用领域广泛的城市政务信息交换共享平台,实现政务数据的汇聚、共享与交换。
(2)充分利用时空大数据,分析实现地理信息数据的有效集成运用,构建全市标准统一、信息权威、内容融合、开放共享的城市大数据分析中心,利用云平台的大数据分析引擎提供的数据计算、互联网数据抓取计算、地理信息关联、多维钻取分析、计算资源管理与建库等一站式服务,高效实现了地理信息数据的综合分析、处理、挖掘、装配、可视化等大数据分析工作。
(3)支持构建城市综合运营管理中心,通过基于云平台技术服务支撑及地理实体大数据关联构建城市信息模型,实现对城市交通、基础设施、公共安全、生态环境、社会经济、网络空间等重点领域运行状况和城市运行关键体征指标的监控,形成“城市运行全景图”,科学辅助政府决策。
3.2 功能模块
时空大数据的载体是地理实体,地理实体是地球表面上唯一能够标识的自然或人工地物,是经济社会、自然资源信息与地表空间位置相关联的最小地理单元,发挥着承载、关联、展示社会各行各业专题信息桥梁的作用,顺应了政府社会精细化管理趋势,通过构建城市信息模型示范应用,以地理实体为载体,汇聚人口、法人、经济大数据,以三维电子地图为展示手段,建立服务、消费、传输、生产四个城市单元的指标体系,实现各种指标互动浏览功能,支撑新型智慧城市建设,总览全市的发展态势,为城市发展研判和决策指挥提供全面支撑。系统还集成车流监控、空气监测、水质监测、监控设施位置等功能模块,从多角度展现城市自然、社会等运行态势,体现新型智慧城市理念。
(1)人口数据功能通过以建筑院落地理实体为单元,关联大数据中心的人口库数据,展现城市各区域的人口分布、就业等情况。
(2)法人数据功能通过以工厂、园区、办公楼等地理实体为单元,关联大数据中心的法人库数据,展现城市各企业、机构的分布等情况。
(3)车流监控功能结合交通、公安等部门的共享数据,以及实时车辆数据,进行数据建模、分析、关联,最终以实时的道路、路口的车次/小时指标,从数据角度反映城市交通运行情况及拥堵指数。
(4)空气监测功能通过接入环保、气象部门以及互联网等相关的空气数据服务,以空气质量指数、PM2.5、二氧化硫等指标,反映城市的空气质量状况。
(5)水质监测功能通过接入环保部门等相关单位的水质传感器实时数据,以化学需氧量、pH等指标反映城市水体情况。
(6)监控设施位置功能通过接入大数据中心的公安、交通等多部门的监控设施位置数据,通过在地图上以点位形式可视化展现位置。
4 系统关键技术分析
4.1 基于深度学习的地址标准化技术
面对大量的含有地址位置的数据,标准化的地址数据库为我们提供了专业、灵活的地址评分机制,对库中的每一条地址,都可以进行量化评价。地址评分机制是通过分析原始地址和经过解析后的标准地址差异来实现的。地址评分机制的基础原则为:
(1)如果出现了不能解析的地址节,则当前地址不正确;
(2)如果某地址节的字数大于5,则当前地址可能不正确;
(3)如果在地址解析过程中增加进了新的地址节,可能导致受影响的地址错误(这就是说,需要在整个插入过程完成后,对所有地址树做一次安全校验,查找出受影响的地址并作出标记);
(4)如果在解析环节中移动了地址节,则可能导致受影响的地址错误(原理同(3));
(5)如果一个地址节具有较高的级别和很小的引用数(可以由该节点的父节点和兄弟节点来评估),则该节点往往不正确。如果可能错误的地址节点和该节点的兄弟节点具有很高的相似性,则他们之间可能有联系[7]。
本项目基于嘉兴市现有的地名地址数据,采用地址节的分词技术,对地址进行自动匹配与清洗,建立完备、统一的地名地址数据库及相应的查询匹配服务,实现时空信息与行业专题数据的挂接,为智慧嘉兴时空大数据平台提供数据融合、分析挖掘、可视化等功能提供数据基础。
4.2 基于唯一标识的多维时空数据关联与索引技术
平台构建具有唯一编码的地理实体数据,作为关联和承载政府各部门行业信息的纽带和桥梁。同时,平台以地理实体为对象,有效实现了与人口、宏观经济、法人、建筑物等基础数据库的关联[8]。
对嘉兴市城区范围内进行了地理实体数据的生产及入库,通过地理实体提供的唯一ID编码与其他行业专题数据进行关联挂接,形成主题数据;为此平台提供了地理关联查询服务能力,供应用单位进行在线数据关联挂接,提升平台应用的深度;为了提高关联数据集的查询效率,平台采用了高效的Solr服务器技术实现了地理实体关联服务的查询与更新[9]。通过数据关联处理系统建立定时任务,监控数据集的变化,从而实现对变化数据的抽取,然后将解析地址中的数据源信息,建立连接,获取专题数据集,关联数据集索引字段将数据更新至Solr服务器[10]。为了方便表达关联数据集的作用,平台以关联电子地图的方式进行展现,如图3所示。
图3 地理实体与行业专题数据空间关联
5 结束语
“智慧嘉兴”时空大数据与云平台,作为“智慧嘉兴”建设不可或缺的信息基础设施和核心内容之一,突破了原有地理信息共享平台单一数据服务的瓶颈,依托政务云环境,运用地理信息、大数据、物联网、云计算等新兴技术,构建全市统一的时空大数据库,实现平台数据服务、功能服务、分析服务及云计算服务等功能,完成从提供单一数据服务到提供时空大数据能力服务的转变,开展智能化示范应用,大大提高了政府管理效能,助力“数字嘉兴”到“智慧嘉兴”转型升级。平台自运行以来,为自然资源和规划、交通、城管等部门提供了权威、准确的时空信息服务,节省了大量政府财政投资,应用效果良好。下阶段还将在平台运维与智慧化应用方面深入研究,统筹考虑将时空大数据与云平台作为全市各部门统一的地理信息服务平台,为城市管理提供一库一平台的统一底板。