基于城市资源信息共享交换的地理编码库建设
——以太原市为例
2016-07-15王琪
王 琪
(1. 太原理工大学,山西 太原 030024; 2. 太原市基础地理数据中心,山西 太原 030009)
基于城市资源信息共享交换的地理编码库建设
——以太原市为例
王琪1,2
(1. 太原理工大学,山西 太原 030024; 2. 太原市基础地理数据中心,山西 太原 030009)
摘要:以太原市地理编码基础库建设为例,深入分析和探讨了地理编码库建设中涉及的资料搜集、外业采集、内业整理及标准化编码入库工作,并以此为基础库将城市各类专题信息进行地理编码匹配和定位生成各类专题地理数据集,经过整合建库生成地理编码扩展库,二者统称地理编码库。地理编码库为城市资源信息“落地”和各类专题信息共享交换提供了空间定位的依据。
关键词:地理编码库;共享交换;地名地址;地理编码对象;地理编码匹配
地名地址是百姓使用最频繁的地理空间信息,具有信息量大、类型结构复杂、空间性强、动态变化大等特点。随着各种类型空间数据的日益丰富,如何对这些异构数据进行有效融合和集成,成为地理信息科学目前迫切需要解决的问题之一[1]。2014年,太原市启动了地理编码库建设,将区划、地名、楼门牌业务进行管理,将地理编码数据更新与管理、公共服务一起纳入太原市数字地名体系的建设当中。通过业务流程的升级改造,将地理编码基础库查询与管理系统和业务管理系统串联起来,建立起数据的常态化更新机制和基于业务驱动的数据动态更新机制,最终为政务和公众应用提供了一个完整、准确、能及时更新的城市地理编码基础库。
一、地理编码概念及地理编码基础库用途
地理编码是指将坐标对、地址或地名等位置描述转换为地球表面上某位置的过程。进行地理编码时,只需要输入一个位置描述,也可以表的形式一次提供多个描述。得到的位置以带属性的地理要素形式输出,可用于制图或空间分析操作[2]。通过地理编码可快速查找到各类位置。可搜索的位置类型包括:感兴趣点或地名词典中的地名,如山脉、桥梁和店铺;基于经纬度或其他参考系统的坐标;可通过各种样式和格式表示的地址,包括街道交叉口、含有街道名称的门牌号及邮政编码等[1]。
地理编码库从本质上说是一个地理空间数据库,是一个专题地理信息系统数据库。地名地址经过地址编码整理入库后,各类地理相关信息生成地理编码基础库,应用范围非常广泛。从简单的数据分析,到业务和客户管理,再到信息发布,可在空间中显示各地址的位置,还可识别信息中所包含的模式。要实现此目的,只需查看信息或使用GIS软件提供的某些分析工具即可。此外,也可基于特定参数显示地址信息。
二、地理编码对象及分类
地理编码对象分为地名、地址和兴趣点3部分。地名包括自然地名和人文地名[3]。自然地名包括水系、山峰、海岛等地名;人文地名包括行政区域、交通、水利附属设施、单位名称等地名。
地址是由民政部门确定的使用规范的语言文字描述的地理实体的位置,主要为规范化的门(楼)址信息。地址信息为门楼址信息,主要来源于地名办所制定的地址标牌,还包括小区的楼栋信息。遇到使用街巷名和小区名描述均可的情况,街巷名优先于小区名;遇到使用门(楼)址和标志物名描述均可的情况,门(楼)址优先于标志物名。在对地址数据进行描述时,“政区”的作用是用来避免第二级地址元素的同名数据,如对“街巷”而言,“政区”的描述程度应保证“街巷”在该“政区”下只有唯一的一个对象[4-5]。
兴趣点则主要为各类公众感兴趣的信息,实地通过门牌、招牌、广告牌、宣传牌、引导牌等能判定工商户、单位、设施等兴趣点内容需采集。
三、地理编码库建设流程
城市地理编码库的建设是一个动态的过程,从业务逻辑上分为基础库和扩展库两部分。初始建设阶段,基础库的数据主要来源于从各类基础测绘成果中提取地名、通过民政部门区划地名处提供门牌地址、人工外业采集等。扩展库的数据(又名参考数据)主要来源于需要匹配的各类包含地址属性的地理要素类。扩展库中的数据经过数据清洗、编码、匹配、查重及数据融合处理后追加至基础库中,形成更新的基础地理编码库版本。通过不断的数据充实更新,地理编码基础库数据密度增加,提高了参考数据的匹配精确度和准确度。具体建设流程如图1所示。
1. 外业采集
采集内容见表1。
表1 外业采集内容
2. 内业录入
外业完成地名地址的采集调查表后,需要通过内业人员在计算机上录入这些调查表内容和地图上的地名地址位置信息,进行查漏补缺,最终形成电子化的地理编码数据成果,为建立地理编码数据库准备。
图1 地理编码库建设流程
内业处理工作分为以下4种工作方式:①录入地理编码采集表,形成电子化成果;在电子地图上录入对应地名地址标号,根据标号ID关联图-数。②仅录入地理编码采集表,形成电子化成果;软件系统自动根据已经上图的标号,关联图-数。③仅在电子地图上录入对应地名地址标号;软件系统自动根据已有垫在表格中各地址编号,关联图-数。④依据录入表格信息,凭借对地域范围的熟悉了解,利用系统在地图上对地名地址文字信息确定空间位置点。此内业采集方式适合少量数据更新维护和对地域了解熟悉情况下进行。
3. 数据规整
为了达到数据使用要求,参考《国家地理信息公共服务平台公共地理框架数据地名地址数据规范》,地名地址数据内业规整的具体内容如下:地名地址点位细分、道路名称层次递进标明、属性修改、增加标准地址名称、增加地理编码、增加地名地址所在乡镇(街办)、村(社区)、增加坐标信息、增加宗地号挂接编码、增加地理实体挂接编码、增加地址命名时间、增加地址停止使用时间。
4. 地理编码匹配
结合太原市民政部门和公安部门所采取的地理编码方法,最常用的有3种:定位到道路、定位到区域和两种相结合。其中,定位到道路主要以道路名和门牌号作为标准来进行匹配;定位到区域则主要以某个城市区域为标准进行匹配;而二者结合的方式则是在以道路名和门牌号作为标准来进行匹配的基础上,引入区域匹配,从而使定位更加准确。在具体匹配时,需要首先对地理编码基础库对应字段进行解析,道路名称决定其所处的位置类型,结合编号和类别可以判断其位置在哪个路段和区域,建筑物数量可以判断其是否处于建筑物中。建筑名称则是利用与建筑物相关的信息,给对应的地名和地址进行定位。在匹配中,通过软件工具对参考数据进行分词解析再与地理编码基础库进行空间匹配,如果参考数据位于建筑物中,则直接将建筑物地理编码赋予参考数据,否则以直接定位到区域的方法对参考数据直接定位。最后,对匹配好的参考数据赋坐标值。
通过地理编码匹配将参考数据与地理编码基础库进行名称匹配,生成新的地理编码数据集,经过整理入库更新扩展库,通过扩展库与基础库的融合处理进而更新地理编码基础库内容。根据太原市地理编码基础库的结构特点,此项工作采用了分词匹配和地名、地址的长字符串匹配两种算法,且对两种算法的匹配结果进行了权衡性的融合,给出了综合两种情况的匹配度值,最终为客户端返回了结构的排序关键字,并根据排序先后加以人工干预,实现了地理编码扩展库的更新[6]。
随着数字太原地理信息公共平台的推广应用,目前太原市民政、公安、政法委、房产局、文广局、移动通信等40个部门建立了基于公共平台的专业系统,各个系统中也逐步积累了大量的地理信息相关数据。收集其中含有地名地址信息的要素进行提取,并通过标准化、结构化处理形成符合太原市地理编码规范的地名地址记录,通过地理编码匹配入库至地理编码扩展库中,最终通过数据融合处理更新至地理编码基础库中。通过数据交换、地理编码匹配,实现太原市卫生局、药监局、教育局、工商局、旅游局等不同行业类别政务资源数据的空间化,内容涵盖医院、药店、学校、农贸市场、注册企业、旅游专题、宾馆酒店、旅行社等。
5. 数据入库
数据管理系统的数据入库分为两大部分:方案化数据入库更新及平台数据流程管理。方案化数据入库更新实现将本地数据导入数据库,流程有建立监理规则管、数据质检、方案化数据入库;平台数据流程管理实现用户通过平台上传数据入库的流程管理。
地名地址标准库共定义了5类34种数据:①门楼址信息:所属区县名称、所属区县代码、乡镇(街道办)名称、乡镇(街道办)代码、居(村)委会名称、居(村)委会代码、街路巷名称、街路巷地址代码、门楼院牌号名称、门楼院牌号编码、门楼院附加名称、门楼院附加编码、楼(排)号名称、楼(排)号编号、单元名称、单元号、房间名称、房间号。②地名信息:地名类别、标准地名、别名、简称、行业类别。③标识信息:标准地址的完整文字信息、用来唯一性标识一条地址记录的代码、地址位置标识点的横纵坐标、地理实体的唯一性标识码。④时态信息:外业调查收集该地址的日期、主管部门正式建立标准地址标牌的日期、主管部门正式折除对应地址标牌或废止该标准地址的日期。⑤其他信息:所属邮局、邮政编码、该地址是否已在公安部门登记。
四、结束语
城市地理编码库作为数字城市和智慧城市建设的基础设施,对城市信息化建设、信息共享、信息公开起着关键的作用,它既是一个技术问题,又是一个标准化问题[7]。本文针对太原市地理编码库建设总结了主要技术流程和建设经验。但地名地址建设内容十分广泛,不同地区、不同行业对城市地理编码库的理解、管理及应用也有较大差差别,其任务依然艰巨。
参考文献:
[1]赵东保,盛业华.全局寻优的矢量道路网自动匹配方法研究[J].测绘学报,2010,39(4): 416-421.
[2]曾澜.我国地理空间信息共享的分类方法和地理编码规则研究[J].地理信息世界,2006,12(6): 21-25.
[3]国家质量监督检验检疫总局. 地名分类与类别代码编制规则:GB/T18521—2001(2-15)[S].北京:中国标准出版社,2002.
[4]刘洪江,曹玉香.基于ArcGIS的地名数据库建设若干问题初探[C]∥ArcGIS暨ERDAS中国用户大会.北京:[s.n.],2004.
[5]章意锋,吴健平.程怡ArcGIS中地理编码方法的改进[J].测绘与空间地理信息,2007,6(30):116-119.
[6]马照亭,李志刚,孙伟,等.一种基于地址分词的自动地理编码算法[J].测绘通报,2011(2):59-62.
[7]张鹤,陈倬,聂丹,等.北京市城市地理编码及可行性应用分析[J].测绘通报,2011(4):65-67.
A Study of Geocoding Base Construction Based on Urban Resources Information Sharing and Exchange——Taking Taiyuan City as an Example
WANG Qi
收稿日期:2015-06-10; 修回日期: 2015-11-02
作者简介:王琪(1980—),女,博士生,高级工程师,研究方向为测绘地理信息系统。E-mail:12982061@qq.com
中图分类号:P208
文献标识码:B
文章编号:0494-0911(2016)06-0098-03
引文格式: 王琪. 基于城市资源信息共享交换的地理编码库建设——以太原市为例[J].测绘通报,2016(6):98-100.DOI:10.13474/j.cnki.11-2246.2016.0200.