APP下载

智慧重庆地理编码服务平台建设与应用

2017-10-17梁均军

地理信息世界 2017年1期
关键词:语义编码数据库

李 林,梁 星,刘 骏,梁均军

(重庆市地理信息中心,重庆 401121)

0 引 言

在国家大力推动信息化建设的大背景下,近年来重庆市陆续启动社会公共信息资源整合与应用,智慧重庆建设等重大信息化工程,先后印发了《重庆市社会公共信息资源整合与应用实施方案》《重庆市深入推进智慧城市建设总体方案(2015—2020年)》等重要文件,按照全市统一的“3+1+X”的总体架构,分别开展自然人信息数据库、法人信息数据库以及地理空间信息数据库建设,建立统一的公共信息资源整合平台,以及X个应用平台。在工作推进过程中,面临海量、异构信息资源的整合工作,如工商、税务、人口等部门的企业注册信息、税务登记信息、人口流动信息等数据资源呈几何级的增长,这些数据蕴含了大量的社会经济数据,是智慧城市建设中重要的数据来源。如何快速、准确地将这些文本信息实现空间化,开展空间分析与应用是体现其应用价值的重点所在。地理编码正是解决这一问题的关键技术。

地理编码(Geocoding)也称地址匹配,是指将地址映射成地理坐标的过程,提供了一种把描述成文本地址的地理位置信息转换成地理坐标的方式[1]。人类活动中80%以上的信息与地理空间位置有关系,其纽带就是地址(地名)信息[2]。可见地理编码技术在地理信息应用中的重要性。本文从地址数据标准、地址数据库建设、地理编码引擎等方面进行研究,建成了数据全面、功能实用、应用广泛的智慧重庆地理编码服务平台,包括一套适应重庆市山地环境的地址数据标准,一套覆盖重庆市城乡一体化的标准地址数据库,一套多源地址数据发现与更新工作流程和一套高效准确的地理编码引擎,为全市各职能部门和社会公众提供可靠、高效、准确的地理位置服务,有效支撑了智慧重庆的建设。

1 平台总体架构设计

智慧重庆地理编码服务平台专注于提供地名地址位置服务,建设内容涵盖了软硬件基础设施、标准地址数据库、地理编码服务平台、地址数据标准规范等,其总体架构如图1所示。

图1 智慧重庆地理编码服务平台总体框架Fig.1 Framework of geocoding service platform for smart Chongqing

设施层:利用云计算技术搭建平台的设施层,主要包括支撑平台数据处理、存储和服务的硬件基础设施及网络基础设施,通过云基础设施中间件形成可用的资源池,实现弹性计算能力,支撑平台的高效稳定运行。

数据层:平台的核心数据地名地址数据库,其来源主要有基础测绘、专项普查、共享交换和众包等方式。基础测绘成果中的各种比例尺地形图可提供地名地址数据;专项普查包括建筑物普查、地名普查、村镇数据调查等,可作为地名地址数据的来源和更新渠道;共享交换是指在各行业部门信息化建设中积累的数据,通过重庆市地理信息公共服务平台进行数据交换后提供地名地址数据。众包则是通过互联网技术,向社会公众、用户开放工具,提供数据线索,作为地名地址数据的采集和更新来源。除地名地址数据库之外,平台还利用建筑物数据、路网数据、影像数据,以及电子地图数据等资源开展地名地址数据的采集、检查以及应用展示等工作。

平台层:包括地址采集与更新系统、地址数据管理系统以及地理编码引擎。地址数据采集与更新系统为平台提供数据的数据外业采集、更新、核查能力,具有外业工作任务管理、外业信息采集、内外业数据协同处理、数据成果管理等模块。地址数据管理系统实现平台地名地址数据的管理能力,具有地址数据语义分类、地址数据索引建立、地名知识图谱生产、地理编码数据发布等模块。地理编码引擎为平台提供地理编码服务,包括正向和逆向两类服务接口[3],具有地名分词、空间语义计算、空间排序与精度分析、地址门牌匹配等模块。

服务层:提供地理编码应用服务,主要包括工程管理、单条匹配、批量匹配、数据下载、接口服务、权限管理、用户管理、地图浏览等功能,向用户提供可视化的地理编码功能服务。

应用层:面向智慧重庆建设提供快速、准确、可靠的地理编码服务,支撑包括国情普查、行业应用、政府决策、公众服务、商业选址、物流配送、地理分析等各领域的应用。

2 城乡一体的地址分类与编码规范

重庆特殊的山地城市特征使得地址数据的分布规律性差,地址数据表达多样,造成了全市地名地址数据的城乡差异。为此,项目在分析总结地址数据特点的基础上,制定了地址分类与编码规范,可覆盖城市地区和农村地区的地址数据模型。具体的地址描述可表达为如下形式(见表1):

<地址>::=<行政区域名称>[基本区域限定物名称][局部点位置描述]

表1 城市地区和农村地区地址描述形式表Tab.1 Address description form of urban and rural areas

此外,考虑到人口、公安等行业精细化管理的需求,对地址数据信息详细程度非常高,我国长期以来按照行政区划自上而下进行管理的方式[4],细化到门牌号的更下一层级,具有楼栋的位置信息。比如,重庆市北部新区太湖西路8号附六号7栋,可以定位到小区内的每一栋建筑。

3 多源地址数据建库与动态更新工作流程

本项目的数据库建设覆盖重庆市全域范围,数据量达千万条,为保障数据建库质量,提高工作效率,形成了“数据共享交换+规划审批及竣工验收+互联网数据抓取+用户反馈”等多源数据更新发现渠道(如图2所示),利用内外业一体化的地址采集与更新系统,通过内外业协同工作的模式,创新了地址数据调查模式,有效提升了地址数据采集与建库的效率与水平,为地址数据库的时效性、准确性提供了有力的技术保障。

图2 多源数据发现更新工作体系Fig.2 Multi-source data discovery and update working system

4 地理编码服务平台

4.1 技术路线

区别于传统的以文本相似度为核心的匹配算法,本项目创新性地提出了利用海量地址数据建立地名知识图谱,建立“地名场计算+自然语言处理”的核心技术路线,建立了高效、准确的匹配引擎。项目具体技术路线如图3所示。

地名知识图谱工厂是地理编码引擎的基础,对地名基础空间数据进行预处理及关联分析,有效地挖掘出地名相关性的空间分布格局,形成以地名语义实体为基本组织单位的模糊地名数据库。模糊地名数据库中的地名记录对应了地名相关性的空间分布概率场。在地名语义实体基础上,整理和规范化地址库。在空间数据集预处理过程中,空间数据将根据数据语义进行分类,包括行政区划数据、地名数据、交通数据、文教卫生数据、娱乐数据及兴趣点数据等。空间数据入库时,将按照样本数据语义权重模型对各种类型数据加权,该加权值将直接影响到地名相关性概率场结果,地名数据的存储采用全球网格模型[5-7]进行。

图3 地理编码服务引擎技术路线图Fig.3 Technology roadmap of geocoding service engine

地理编码引擎在地名知识图谱库基础上,按照如下步骤进行匹配操作:

1)中文分词及地名标注。利用中文分词技术将用户输入分隔为有效的最小语素,进行地名标注,发现有效地名以及兴趣点名称。

2)空间语义推理及空间关系重建。根据地名分词结果,利用图计算关联地名实体的空间相关性,构建潜在的空间语义树。

3)空间排序及精度分析。计算出各个空间语义树的全局相关性,根据全局相关性进行排序,取相关性最大的关系作为地名定位结果。

4)综合考虑地名分词、空间关系重建及门牌地址计算结果,形成地理编码定位精度评估,返回地理编码结果。

4.2 平台功能设计

1)地址数据管理系统

提供地名地址数据的增加、删除,历史地址数据管理,标准词管理,同义词管理等功能,如图4所示。

图4 地址数据管理系统功能模块Fig.4 Address data management system function module

地址数据管理系统成果如图5所示,以向导式的方式引导用户开展数据入库、数据索引、数据发布等工作,同时考虑到入库数据处理过程时间较长,系统引入队列操作模式,力争做到一键操作完成更多任务,同时以多种方式提示用户系统的处理进度。

图5 地址数据管理系统成果截图Fig.5 Address data management system

2)地理编码应用系统

直接向用户提供地理编码应用功能,包括正向和逆向两类编码应用。支持单条匹配,也支持txt、csv等多种格式的批量匹配,如图6所示。

图6 地理编码应用系统功能模块Fig.6 Geocoding application system function module

地理编码应用系统如图7所示,用户登录系统后可以看到所有已完成和正在进行的匹配项目,可提供匹配结果下载和地图叠加等多种应用方式,方便用户使用。

图7 地理编码应用系统成果截图Fig.7 Geocoding application system

5 成果应用

项目成果广泛应用于应急管理、城乡规划、市场信用监管、教育、医疗、市政管理、地理国情普查、水利、交通、航运、生态环境保护等领域的经济建设与科学研究,为全市各行业部门54个应用系统提供地理编码服务,实现了与23个行业部门业务的有效融合,累计完成1 030余万条数据的地理编码与空间定位服务,为全市信息化建设工作提供了高水平的地理编码服务,解决传统空间化过程需要外业调查、核实造成的费时费力的问题,极大地提高了工作效率。

6 结束语

本文从服务于智慧重庆建设出发,针对重庆市山地城市的特点,研究了地址数据模型,编制了地址分类与编码规范,在此基础上开展地理编码关键技术研究,攻克了空间语义推理、自然语言精确分词、准确地名标注、机器自我学习等技术难题,研发了基于空间语义推理的地理编码服务平台,提供高效、可靠的地理编码服务。同时,构建了一套多源数据发现、更新、采集的工作机制,有效保证了平台数据的鲜活性和有效性。项目成果已经在全市范围内进行推广应用,取得了显著的经济效益和社会效益。下一步将着重从地址数据的丰富性、匹配引擎的智能化等角度继续深入研究,为构建智慧重庆大数据服务体系提供有效的技术支撑。

猜你喜欢

语义编码数据库
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
语言与语义
子带编码在图像压缩编码中的应用
Genome and healthcare
数据库
数据库
“上”与“下”语义的不对称性及其认知阐释
数据库
数据库