多源地名地址数据融合更新技术方法研究
2020-07-27马春林
马春林
(新疆维吾尔自治区测绘成果中心,新疆 乌鲁木齐 830002)
0.引言
地名地址是最常用的社会公共信息之一,在测绘、规划、交通、邮政、电力、民生等各个领域扮演着不可或缺的重要角色,是现代社会进行各种联系、交流必不可少的基本工具和纽带。通过融合多源地名地址数据,构建权威、标准化地名地址时空数据,作为行业专题数据上图的“粘合剂”,实现行业、社会经济信息与地理空间关联的媒介和桥梁。
建设标准化、质量好的地名地址数据,是充分发挥基础地理空间数据应用服务能力的前提与保障。为构建新疆基础地理信息时空云平台应用体系,提升政府治理能力和公共服务水平,促进大数据的深化应用和快速发展,地名地址数据融合更新是一项重要的基础性工作。
1.工作目标
以“精度高、现势性好、表达丰富”为前提和目标,通过高效采集、有效融合新疆各级基础地理信息数据,汇聚各类与地名地址相关的信息,推进多源异构地名地址数据的融合、集成、服务,实现地名地址数据资源的统一管理,做到“统筹规划、整体设计、逐步实施”,规范有序地开展新疆维吾尔自治区地名地址时空数据融合更新工作。
充分利用已掌握基础资料情况,将地名数据和地址数据进行数据融合、数据预处理、数据判重及去重、地名地址标准化、实体匹配等一系列处理,实现地名地址数据的融合更新。通过标准化地名地址时空数据融合,解决因行政村边界、宗地所有权数据、天地图等各种数据来源不一、精度不同、标准各异、同物不同数、时空参考不一、边界矛盾冲突、现势性不统一等问题,避免因数据源质量不好的问题影响基础地理信息时空云平台的数据应用与服务。
2.总体原则
地名地址数据来源多样,因而存在标准不统一、现势差异性大、数据组织不相同等问题,不能直接满足客户地理编码服务业务的需求。为此要建立标准化、规范化及通用化的地名地址数据处理流程,实现标准化地名地址时空数据生产,保证数据成果质量,为地理编码服务等业务需求提供数据保障。地名地址数据处理总体要求如下:
(1)数据现势性要求:不同来源的融合数据现势性不一致时,以现势性高的数据为准。
(2)空间参考要求:融合后数据统一采用2000国家大地坐标系,坐标系单位为度,保留9位小数(0.000000001度)。高程基准:采用1985国家高程基准,高程系统为正常高;高程坐标单位为“米”。
(3)平面位置精度要求:不同来源的融合数据平面位置精度不一致时,以精度高的数据为准。
(4)属性取值要求:不同数据源中同一地物要素的相同属性项取值不一致时,依据现势性、准确性等进行一致性处理。
(5)空间关系与逻辑一致性要求:融合后的成果数据要素空间关系正确,各类信息逻辑一致。
(6)数据内容要求:融合处理后的数据,数据格式、空间参考、属性结构及属性取值应满足标准规范要求。
3.数据收集与分析
开展全疆区域内地名地址相关的数据分析工作,在了解数据来源、权威性、数据格式、空间参考、标准规范的基础上,分析数据量与数据质量等;并整理数据结构,根据数据分析结果制定融合优先级。具体数据源为全疆区域内的天地图地名地址与POI数据、基础性地理国情监测行政村数据。
(1)天地图地名数据:天地图数据中主要采用地名地址与POI中的地名数据,数据现势性为2018年春季。有着现势性好、丰富度高、更新频率快等优点,将作为本次地名数据融合的主要数据来源。
(2)基础性地理国情监测地名地址数据:基础性地理国情监测数据中主要采用行政村数据,数据现势性为2017年。国情监测数据有着位置精度高、更新频率高等优点,可作为地名数据补充数据源。
图1 数据融合技术流程图
地名数据生产流程主要包括数据预处理、数据融合及数据质检三部分。其中数据预处理包括数据转换和模型转换。数据融合包括图形属性融合、属性标准
(3)已有的地址数据及相关资料主要为天地图中的地址数据,数据现势性为2018年春季。有着现势性好、丰富度高、更新频度快等优点,将作为本次地址数据融合的主要数据来源。
4.技术方法
依据新疆基础地理信息时空云平台的建设要求,在现有地名地址数据的基础上,遵循地名地址相关数据标准,形成地名地址数据融合技术流程,主要包括数据预处理、数据融合、判重处理、去重处理、实体匹配、标准化及质检等环节,融合流程(如图1所示):
4.1 地名数据技术路线
以基础性地理国情监测行政村数据以及天地图地名数据为基础,经过数据预处理、数据融合和数据质检,形成标准化地名时空数据。技术路线(如图2所示):化、数据判重去重、外业核查、内业整理、数据编码。该阶段将数据源融合为一套标准的地名数据。
图2 地名数据技术路线
4.1.1 数据预处理
数据预处理是将原始数据经过数据转换和模型转换,形成标准地名属性结构数据,为数据融合做好准备。
(1)数据转换
数据转换包括格式转换和坐标转换。将数据格式转换为DB格式,坐标转换为CGCS2000国家大地坐标系。
(2)模型转换
根据新疆基础地理信息时空云平台地名数据标准中的属性项定义与说明,建立统一的地名数据属性存储结构。分析原始数据分类体系与新疆基础地理信息时空云平台地名数据分类体系的关系,进行模型转换,形成按照地名属性结构标准的地名数据。
4.1.2 数据融合
数据融合包括图形属性融合、属性标准化、数据判重去重、外业核查、内业整理、数据编码三个部分,为数据生产的主要工作,形成融合后的地名数据。
(1)融合原则
数据融合处理的总体原则为现势性原则、精度原则、精细度原则、拓扑一致性原则、属性处理原则、丰富性原则。多个原则共同出现时,现势性优先级最高,精度和精细度次之,其他原则辅助。
其中,行政村地名点位置以国情行政村数据为准。
(2)图形属性融合
将不同来源的数据进行图形数据融合,将同名数据进行比对,保留唯一精确的数据。如果数据属性出现矛盾,参照属性填写要求,保留更规范的属性。
同一要素对象的属性融合,宜以现势性高、准确性高的数据为准进行属性赋值或补全。具体要素位置需参考地名数据的选取指标与采集要求。
(3)属性标准化
根据地名属性定义与说明中的填写要求,对融合后的属性内容进行标准化处理。其中,地名:名称参考地名填写规范要求进行标准化;PAC码:根据融合结果提取行政地名数据,参考民政名录中行政区划的权属关系,需建立地名数据中行政村与自然村的权属关系,进行PAC码赋值。
(4)数据判重、去重
将融合后的地名点分别进行数据判重、去重,使数据唯一,保留位置精确数据、属性规范的数据。地名点根据要素间的距离、名称、简称、类别名称、地址、电话等属性信息识别重复对象,并进行去重。判重原则:一定距离范围内类型相同,名称、地址的相似度大于设定阈值;一定距离范围内类型相同,名称、简称、电话相似度大于设定阈值。
(5)数据编码
数据编码字段包括要素唯一标识、地名编码。两者均唯一标识要素且通过连接关系实现一一对应。要素唯一标识在入库时批量赋值。地名编码由3部分共20位数字组成。前9位为数据位置所在的乡镇/街道办代码,中间6位为地名类别代码,后8位为顺序码,取值范围为00000000-99999999,根据类别代码排序自动进行生成。
4.1.3 数据质检
数据质检主要对融合后数据进行质量检查,主要包括基本要求、完整性检查、图形检查、属性检查和逻辑一致性检查。具体主要有数学基础、数据格式及数据文件完整性及有效性的检查;数据位置精度及拓扑关系的检查;属性正确性、属性分类、属性精度检查;图形属性一致性及图层属性一致性检查等。
4.1.4 数据反馈
形成标准化地名数据后,将融合后的全疆标准地名数据反馈数据提供单位。
通过标准地名数据中的数据来源、数据来源标识码与数据源中的实体编码字段的对应关系,实现原始数据与地名成果数据的一一对应关系,数据提供单位可更新原始数据,并根据自身业务情况进行数据的丰富完善。
4.1.5 数据更新与维护
地名数据的更新主要包括汇交更新和反馈更新两种方式。汇交更新通过数据提供单位提供新版全量数据,项目组对比两版数据的差异,将变化内容进行数据更新、数据质检,形成更新后的地名数据。反馈更新通过数据提供变化的增量数据,直接通过数据来源和数据来源标识码进行数据更新和质检,形成更新后的地名数据。
4.2 地址数据技术路线
地址数据融合技术流程主要包括数据预处理、判重处理、去重处理、实体匹配、标准化及质检等环节,融合流程(如图3所示):
图3 地址数据技术路线
4.2.1 数据预处理
将多源数据融合为统一的数据结构。在融合过程中根据源数据属性结构与标准地址数据属性结构之间的映射关系,将源数据的属性值转换到标准地址数据的字段中,同时保留可用的辅助字段,删除无用字段。
4.2.2 判重处理
由于地址数据来源较杂,地址描述标准不一,数据精度不一,在同一数据源内部或者不同数据源之间都存在地址点重复的情况,为提高地址匹配精度,需对地址点进行重复点检测和去重。即在一定范围内比对地址数据的地址字段及其他辅助字段,计算相似度,相似度越高,重复几率越大。然后对判重结果进行审核,分析输出相似度阈值,标识出实际的重复点。
4.2.3 去重处理
根据判重结果,结合数据源的精度、现势性、逻辑一致性,叠加天地图河流、道路、居民地等数据作为辅助信息,对重复点做去重处理。
4.2.4 数据标准化处理
数据标准化主要是指对地址数据的属性字段做标准化处理。将地址字段内容转换为结构化地址描述。同步将地址内容拆分到省、市、区县、乡镇/街道办、行政村委会/社区居委会、片区、街巷、一级门楼址、自然村/居民小区、门楼址/标志物、二级门楼址、单元、楼层、室等字段中。最后为地址编码字段赋值。
4.2.5 数据质检、反馈、维护与更新
地址数据的质检、反馈、维护与更新与地名数据基本一致。其中,质检除一般检查项外还增加了拓扑一致性检查;而反馈同样是通过编码字段的对应关系,实现原始数据与地址成果数据的一一对应关系;地址数据的更新同样包括汇交更新和反馈更新两种方式,具体与地名数据一致,这里不再赘述。
5.结束语
以国家相关技术规范为依据,结合新疆基础地理信息时空云平台建设要求与新疆数据建设的现状,按照“统筹规划、顶层设计、逐步完善”的工作要求和“统一标准、规范流程”的技术要求,制定一套地名地址数据融合与更新技术方法,用来指导新疆基础地理信息时空云平台数据资源体系中地名地址数据的建设,进而有效地促进了时空大数据的深化应用和快速发展。