APP下载

基于几何精度的居民地匹配质量评估方法

2016-11-04焦洋洋徐道柱

测绘科学与工程 2016年3期
关键词:空间数据数据源度量

焦洋洋,金 澄,3,徐道柱,3

1. 西安测绘研究所,陕西 西安,710054;2. 地理信息工程国家重点实验室,陕西 西安,710054;3. 信息工程大学地理空间信息学院,河南 郑州,450001



基于几何精度的居民地匹配质量评估方法

焦洋洋1,2,金澄1,2,3,徐道柱1,2,3

1. 西安测绘研究所,陕西 西安,710054;2. 地理信息工程国家重点实验室,陕西 西安,710054;3. 信息工程大学地理空间信息学院,河南 郑州,450001

空间数据匹配是空间数据更新与维护的基础和关键。针对空间数据匹配质量评估方法欠缺的现状,以居民地为例,提出了基于几何精度的居民地匹配质量评估方法。通过分析居民地匹配质量问题的内涵,确定了以几何精度作为依据的评估方法;结合居民地匹配质量评估特点,改进一般矢量数据质量评估中的缺陷扣分模型,得到了居民地几何匹配质量评估缺陷扣分模型,从而建立了居民地几何匹配质量评分评级模型。实验表明,该方法可以有效地完成居民地匹配质量评估,具有较强的可行性和实用性。

匹配;居民地;质量评估;几何精度

1 引 言

随着国家基础地理信息数据库的建成,基础地理信息的更新与维护逐渐代替数据生产成为了主要工作[1,2]。作为地理信息更新中发现级联关系的重要步骤,空间数据匹配成为了空间数据增量更新的关键技术[2]。目前针对居民地匹配理论上的研究成果越来越多[3-5],但始终得不到广泛的实际应用,究其原因,主要是匹配质量不能得到保证。因此,如何对匹配后的数据进行质量评估,纠正匹配产生的错误,提高匹配算法的实用价值,成为地理信息更新工作中必须直面的问题。通常人们将匹配质量问题和空间矢量数据质量问题联系起来,参照矢量数据质量问题的研究方法和思路去理解匹配的质量,但是它们之间是有很大区别的,简单地依据矢量数据质量问题的研究思路和方法是远远不能满足实际需求的。目前大多数学者使用人工检查的方法检验匹配的结果,找出误匹配、漏匹配及正确匹配的实体,并用查准率查全率来评估匹配结果;也有部分学者使用自动检核的方式对匹配的结果进行修正[6,7],但自动化程度不高,不能达到完整的质量评估结论。因此,本文以居民地为例研究其匹配质量评估方法和流程,为日后其他要素的匹配质量评估提供理论和方法参考。

2 匹配质量概念的提出及研究重点

国际标准化组织ISO 9000:2005“质量术语”对质量的定义为:反映某项产品、服务满足一些明确或隐含需求能力的特性或特征的总和[8]。显然,居民地匹配质量也符合上述定义。匹配关系即为匹配处理过程所“生产”的“产品”,匹配关系的正确性、满足下一步更新及入库需要的能力即为其满足“明确”和“隐含”需求的能力。

2.1匹配质量问题的概念

正如上文对质量的定义,居民地匹配的质量是对空间数据匹配处理是否“达到”预先设定的目标,是否“满足”后续更新融合及入库要求程度的“满意度”。居民地匹配质量并不是一个一成不变的标准,它随着待匹配数据源的特点、匹配成果的用途、预先设定的匹配目标等质量影响因子的变化而变化,其内涵也随着匹配技术提高、数据源质量的改善而变化。

结合空间数据匹配的流程,匹配质量评估主要包括数据源质量评估、匹配算法质量评估、匹配过程控制、匹配结果质量评估四方面内容,其中前三项主要在数据预处理和匹配过程中完成,涉及面较广,匹配结果质量是反映匹配质量最直观、最有效、也是最便捷的内容,故将其作为主要研究内容。匹配结果质量评估通常需要对已匹配的同名实体之间的几何关系、属性关系以及拓扑关系等质量元素的相似性进行度量。不同来源空间数据的属性信息通常存在格式差异、内容差异、信息缺失等问题,拓扑关系一致性度量对数据要求较高,在匹配质量评估中不能过分依赖拓扑关系和属性信息,因此,本文选择几何精度度量作为匹配结果质量评估的唯一标准,并以此提出了基于几何精度的居民地匹配质量评估方法。

2.2匹配结果的质量评估

2.2.1匹配结果类型

Cobb(1998)等在空间数据匹配分析中将匹配结果分为匹配、未匹配两种情况[11]。可以将匹配进一步分为正确匹配和误匹配;未匹配也可分为正确未匹配和漏匹配,如图1所示。

图1 匹配结果分类

正确匹配是指参考数据源中的一个实体在目标数据源中存在一个实体与之互为同名实体,并在匹配中正确建立了匹配关系。正确未匹配是指某一数据源中实体在另一数据源中没有对应的同名实体,在匹配处理后也没有与任何实体建立匹配关系。误匹配是事实上非同名实体,即非同一地理实体或现象在不同数据中表达的实体之间,经过匹配处理,错误地建立了匹配关系。漏匹配是事实上应为同名实体的实体之间,匹配处理后并没有建立匹配关系。

2.2.2匹配结果质量评估指标

目前,在空间数据匹配研究领域并没有一个统一的标准,但有一些惯用的质量评估指标,总结起来分为两种类型。

(1)匹配效率

匹配效率(efficiency),也就是匹配速度,表征匹配过程中获得所需要结果的快慢程度,能够在一定程度上体现匹配算法的性能。计算方法为匹配数据源中所有匹配实体的个数N与匹配过程总耗时T的比值:

(1)

(2)匹配精度

图形识别领域中应用最为广泛的指标有查全率(Recall)和查准率(Precision),目前也被广泛地应用于空间数据匹配领域。

假设数据源中需要进行匹配处理的实体个数为NA,正确建立匹配关系的实体个数为NC,错误建立匹配关系的实体个数为NE。

查全率是指匹配结果中所有参与建立匹配关系的实体个数(NC+NE)与数据源中实体个数NA的比值:

(2)

查准率是指匹配结果中正确匹配实体的个数NC与所有参与建立匹配关系的实体个数(NC+NE)的比值:

(3)

本文主要研究匹配结果的质量评估方法,不对原有的匹配算法进行比较,因此,在下文中会使用查全率和查准率描述匹配结果的质量及本文评估方法的评估结果,而不用匹配速度对原匹配方法进行效率度量。

3 居民地几何匹配质量评估方法

利用几何指标的匹配质量评估的总体思路是对匹配后的同名实体进行几何相似性计算和评价,当满足指标要求时就可以判定为质量合格,不满足则需要补充判断和人工辅助判定并重新执行匹配流程。因而,当前的问题就主要体现在几何指标的选取、指标使用方式以及指标相似性计算策略、质量评估结果表示方法方面,下面将依次进行讨论。

3.1质量元素选择

与矢量数据质量匹配相同,居民地匹配质量也应当有质量元素。目前对于空间数据匹配结果的几何质量元素并没有深入的研究,也没有统一的标准。参考矢量空间数据几何精度质量元素,结合匹配质量问题自身的特点,为空间数据匹配结果质量定义了4个几何精度质量子元素:形状、位置、面积、方向。

匹配结果的几何精度与矢量数据的数据精度内涵不同,主要表示匹配完成后建立匹配关系的居民地实体之间几何信息包括形状、位置、面积、方向等的一致性,度量方法是对同名实体之间几何精度指标的相似性或差异性进行度量,以此为依据找出匹配错误,完成对匹配结果的质量评估。

形状作为空间面实体重要的几何特征,具有比其他特征更明显的识别作用,也是匹配的重要依据。在人们空间认知的过程中,首先注意到的是物体的颜色、形状、纹理及其周围的环境。尺度相同或相近的空间数据中,同名居民地实体在形状上通常较为相似,因此,本文将形状作为最重要质量子元素,进行优先度量和初次匹配判断。位置、面积、方向三种几何精度子元素的度量方法最为成熟,本文采用加权平均的方式进行综合度量,作为形状度量匹配判断后的二次判断环节。

3.2匹配关系判断方法

针对居民地形状相似性的计算方法已经有很多,但均不是十分成熟,在几何匹配中通常作为其他指标的辅助手段,且现有大多数算法都是针对一对一居民地实体匹配的情况,而在多尺度匹配中,非一对一匹配的情况有很多。因此,本文采用文献[12]中利用格网叠置分析的形状相似性度量方法,该方法能够解决质量评估中一对一及非一对一情况的形状相似性度量问题。

位置、面积、方向三种几何精度子元素的度量一般采用计算同名实体间几何差异值与其限制的接近程度来完成,故本文引入文献[13]中图形数据差的概念,使用位置数据差、面积数据差及方向数据差分别表示三种几何质量子元素的度量结果,通过加权平均的方式获得综合图形数据差作为几何匹配质量评估依据。各质量子元素的权值采用文献[14]中基于人工神经网络的方法,使用较为成熟的三层BP神经网络,并利用遗传算法优化收敛权值矩阵,将位置、面积、方向图形数据差标准化值分别输入对应神经网络输出层的神经元,使用收敛过后的神经网络确定权重向量集。

在实际评估过程中,对匹配关系的判断流程主要分为三个步骤,如图2所示。

(1)对待评估数据中已经建立匹配关系的“同名实体组合”进行形状相似性度量的初次判断,当度量值大于“相似”阈值时再进行位置、面积、方向综合图形数据差度量,否则判断为错误匹配;

(2)当形状相似的“同名实体组合”综合图形数据差度量值小于“差异”阈值时,可以判断为正确匹配,否则判断为错误匹配;

(3)将前两次判断所得错误匹配的实体与“未匹配实体”利用几何度量和人工辅助的方式进行联合补充判断,成功匹配的实体组合判断为漏匹配。

判断完成后利用判断结果对原匹配结果进行修正,可以提高匹配的质量。

图2 匹配关系判断流程

3.3质量评分评级模型

居民地几何匹配质量评估不同于空间数据质量评估,没有数量繁多、定性与定量度量混合的质量元素,只需要利用不同匹配情况实体数目即可对匹配的质量做出评估。

匹配关系正确性判断的结果中“错误匹配”和“漏匹配”都是匹配错误,也均可认为是一种“质量缺陷”。因此,本文使用一种改进缺陷扣分模型获取匹配结果质量得分。空间数据匹配的成果主要用于空间数据增量更新和融合,更新中建立匹配的同名空间实体为没有变化的实体,较为相似但没有匹配的实体作为变化实体,其他实体为删除或新增实体。“错误匹配”实体因错误地建立了匹配关系而没有进行修改、删除或新增操作,影响更新后的数据质量;“漏匹配”实体在更新中本不应进行任何操作,但是因没有匹配而产生了冗余操作,影响更新的效率。相比较而言,“错误匹配”对于更新后数据质量的影响要明显大于“漏匹配”,故对这两种类型的“缺陷”应采用不同的扣分分值。

在大数据量的匹配时,由于数据源质量、数据特点、匹配算法等因素方面的影响,产生一定数量匹配错误属于正常现象,并不像空间数据质量评估中对质量缺陷那样敏感,也就不能使用空间数据评估所使用的缺陷等级划分和扣分分值设置方法。因此,本文提出了一种改进的匹配缺陷扣分模型,设置“错误匹配”和“漏匹配”为普通缺陷和轻微缺陷,当评估得分满分为100分时,普通缺陷“错误匹配”的影响因子设为3,轻微缺陷“漏匹配”的影响因子设为1,其扣分方式为:

(4)

其中,NE为“错误匹配”实体数目;NM为“漏匹配”实体数目;NA为所有参与匹配实体数目。

依据实际数据匹配与更新作业相关规定和用户需求,将居民地几何匹配质量划分为四个等级——优秀、良好、合格、不合格。设置各质量等级相应评分分值区间见表1。

表1几何匹配质量等级评分分值区间

分制等级优秀良好合格不合格百分制[90,100][80,90)[60,80)[0,60)十分制[9.0,10.0][8.0,9.0)[6.0,8.0)[0.0,6.0)

4 实验与分析

为验证本文评估方法的有效性,通过实验对其进行验证。实验用数据为我国东部沿海丘陵地区某城市1∶5万和1∶10万数据,如图3所示。

(a) 1∶10万目标数据     (b) 1∶5万参考数据图3 居民地实验数据

本文采用居民地匹配中较为常见的基于面积重叠率相似性的双向匹配方法,对实验居民地数据进行匹配,当匹配阈值设置为0.6时,匹配结果如图4-(a)所示。图中使用红色线段连接建立匹配关系居民地实体中心的方法表示匹配结果,图中原色填充、灰色(黑色)边框的实体为建立匹配关系的“同名实体”,无色填充、灰色(黑色)边框的实体为未匹配实体。

接下来,采用本文评估方法对匹配结果进行质量评估,匹配关系判断结果如图4-(b)所示。图中红色(灰色)填充、灰色(黑色)边框的实体组合为正确匹配的“同名实体”,绿色填充、灰色边框与黄色填充、黑色边框的实体组合为错误匹配的“同名实体”,红色(灰色)填充、无边框的实体组合为漏匹配实体组合。

(a) 双向匹配结果      (b) 匹配关系判断结果图4 双向匹配评估

为全面验证本文评估方法的有效性,下面对不同匹配方法所得匹配结果进行评估。使用基于面积重叠率相似性的单向匹配方法,获得匹配结果如图5-(a)所示(匹配关系表示方法同图4-(a))。采用本文评估方法评估得到匹配关系判断结果如图5-(b)所示(判断结果表示方法同图4-(b))。经统计与计算,得到质量评估结果见表2。

(a) 单向匹配结果      (b) 匹配关系判断结果图5 单向匹配评估

表2匹配质量评估结果

匹配方法查全率查准率质量得分质量等级双向匹配51.4%97.0%94.7优秀单向匹配53.4%91.9%87.2良好

分析评估结果可知,双向匹配结果的质量要明显高于单向匹配,原因在于单向重叠相似度匹配只考虑参与匹配两实体重叠面积与其中一个实体面积的比值,相似性度量不够全面,而双向匹配没有这一缺陷,匹配质量较高。通过比较实验也可以看出,本文匹配质量评估方法能够处理不同匹配方法的匹配质量评估问题,能够正确地评估不同情况下的匹配结果质量,具有较强的有效性和鲁棒性。

5 总 结

空间数据匹配结果的质量评估是空间数据增量更新的基础,针对目前缺乏有效匹配质量评估方法的现状,本文以居民地为例,利用几何指标进行匹配关系判断,并采用改进的匹配缺陷扣分模型获得质量评估结果,最后实验表明:

(1)已匹配实体间的几何质量元素度量可以发现匹配中的错误,进而提高匹配的质量;

(2)改进的匹配缺陷扣分模型可以适应匹配质量评估领域的应用,并真实地反应匹配质量评估结果。

匹配质量评估是一项复杂繁琐的工作,本文仅在利用几何质量元素进行居民地匹配质量评估方面进行了研究,实际评估过程仍需要参考其他质量元素的度量结果,这将是下一步研究需要关注的方向。

[1]陈军, 李志林, 蒋捷等. 基础地理空间数据库的持续更新问题[J]. 地理信息世界, 2004, 2(5):1-5.

[2]COOPER A. The Concepts of Incremental Updating and Versioning[A]. Proceedings of the 21st International Cartographic Conference, August 2003:855-857.

[3]SAMAL A, SETH S, CUETO K. A Feature-based Approach to Conflation of Geospatial Sources[J]. Geographical Information Science, 2004, 18(5):459-489.

[4]BEERI C, DOYTSHER Y, KANZA Y. Finding Corresponding Objects when Integrating Several Geo-spatial Datasets [A]. Proceedings of the 13th Annual ACM International Workshop on Geographic Information Systems, Bremen, Germany, 2005:87-96.

[5]许俊奎, 武芳, 钱海忠等. 一种空间关系相似性约束的居民地匹配算法[J]. 武汉大学学报·信息科学版, 2013, 38(4):484-488.

[6]杨敏, 艾廷华, 刘鹏程等. 等高线与水网数据集成中的匹配及一致性改正[J]. 测绘学报,2012,41(1):152-158.

[7]赵东保, 徐艳杰, 张弘弢. 道路网匹配质量检核与修正机制研究[J]. 中国矿业大学学报, 2013,42(4):689-694.

[8]胡圣武. GIS质量评价与可靠性分析[M]. 北京:测绘出版社, 2006.

[9]吴芳华. 矢量地图数据质量控制的理论与实践[D]. 郑州:信息工程大学, 2002.

[10]吴娟. 基于云理论的矢量地图数据质量评估方法研究[D].郑州:信息工程大学, 2011.

[11]Cobb M, Chung M, Foley H. A Rule-based Approach for the Conflation of Attributed Vector Data[J]. Geoinformatica,1998,2(1):7-35.

[12]焦洋洋, 翟仁健, 陈艺文等. 一种利用格网叠置分析的居民地形状匹配方法[J]. 测绘科学技术学报, 2015, 32(3):310-314.

[13]姬存伟, 武芳, 巩现勇等. 居民地要素增量信息表达模型研究[J]. 武汉大学学报·信息科学版, 2013, 38(7):857-861.

[14]许俊奎, 武芳, 魏慧峰. 人工神经网络在居民地面状匹配中的应用[J]. 测绘科学技术学报, 2013, 30(3):293-298.

Settlement Place Matching Quality Evaluation Method Based on Geometric Accuracy

Jiao Yangyang1, 2, Jin Cheng1,2,3, Xu Daozhu1,2,3

1. Xi’an Research Institute of Surveying and Mapping, Xi’an 710054, China 2. State Key Laboratory of Geo-information Engineering, Xi’an 710054, China 3. Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China

Spatial data matching plays a basic and key part in spatial data update and maintenance. In order to solve the current problem of lacking ways of evaluating spatial data matching quality, a method to evaluate the quality of settlement place matching based on geometric accuracy is put forward in this paper. The connotation of settlement place matching quality problem is analyzed, and the evaluation method based on geometric accuracy is decided. According to the characteristics of settlement matching quality evaluation, the defect marking model for vector data quality evaluation is improved, and a model for settlement matching quality evaluation is obtained. Finally, the settlement geometric matching quality score rating model is established. The experiment results show that the method is effective and practicable in settlement matching quality evaluation.

matching; settlement; quality evaluation; geometric accuracy

2016-02-02。

国家自然科学基金资助项目(41171354,41101362,41171305);国家863计划资助项目(2009AA12Z305)。

焦洋洋(1989— ),男,研究实习员,主要从事地图制图综合及空间数据更新方面的研究。

P283

A

猜你喜欢

空间数据数据源度量
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
GIS空间数据与地图制图融合技术
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
元数据驱动的多中心空间数据同步方法研究
地质异常的奇异性度量与隐伏源致矿异常识别
基于真值发现的冲突数据源质量评价算法
基于文件系统的分布式海量空间数据高效存储与组织研究