多源数据“变化发现”技术初探
2021-11-10段梦梦李海亭彭明军王闪陈涛
段梦梦,李海亭,彭明军,王闪,陈涛
(武汉市测绘研究院,湖北 武汉 430022)
1 引 言
国家新型基础测绘建设武汉市试点的技术体系由“全息采集、智能处理、变化发现、实体建库、定制服务”等五项关键技术组成,其中“变化发现”技术的主要目的就是实现地理实体数据的高效更新,保证地理实体数据库及相关衍生产品的现势性。它是指利用各种技术手段智能化感知地理实体的变化,实现主动式的地理实体变化监测[1,2]。基于发现的变化信息,可以定向、定点地更新地理实体,节省更新成本。根据数据来源不同,变化发现技术可分为基于影像的变化发现[3]、基于点云的变化发现[4,5,6]以及基于互联网的变化发现[7](图1)。
图1 地理实体更新技术流程
在影像和点云数据上可以利用机器学习算法快速进行实体的识别提取,并根据两期识别结果进行对比,快速发现变化的地理实体。通过互联网可以在线抓取数据进行大数据分析,可以发现各类无法直接反映在影像数据中的地理实体变化信息,如属性变化、权属变更等信息。在实际生产中应将不同变化发现技术进行有机的融合,充分提取地理实体的多维度变化信息,实现新型基础测绘产品的“低成本、高效率”更新。
2 基于影像的变化发现
DOM、TDOM是摄影测量生产的主要数据产品,该类产品有较为丰富的地物纹理信息、较高的影像空间分辨率信息。针对这些特点,在基于影像的基础地理实体变化检测过程中,关键技术主要包括图元识别和图元变化检测两步。
2.1 图元识别
早期的遥感影像分类与识别应用较广的算法主要包括:最小距离分类法、K-均值分类算法、ISODATA聚类法等传统监督或非监督分类算法。随着影像分辨率的不断提高,传统算法在分类识别精度上遭遇瓶颈。在此背景下,以支持向量机、随机森林、人工神经网络为代表的经典机器学习算法,开始在具体分类、识别场景中得到应用。近年来,深度学习得到了快速发展,以受限玻尔兹曼机(RBM)、深度信念网络(DBN)、卷积神经网络(CNN)、自动编码器(AE)为代表的四类主流深度学习模型,也均较好地应用于遥感影像的分类识别中。基于深度学习的基础地理实体图元识别包含目标识别与语义分割(图2)。由于CNN模型在处理高维影像数据时有独特优势,其在两类任务场景中存在明显优势。
在目标识别方面,目前主流CNN学习模型通常分为两阶段算法与单阶段算法,典型的两阶段算法包括R-CNN、Fast R-CNN、FPN等模型,这类算法需要先进行候选框的生成、再进行边框回归。典型的单阶段算法包括YOLO系列,SSD、RetinaNet等模型,这类算法直接对候选框进行定位与分类,通常具有更高的效率。在语义分割方面,全卷积网络(FCN)是深度学习语义分割领域的开山之作,其他应用较为广泛的模型包括Mask-RCNN和U-Net模型,以及使用空卷积扩大感受野的DeepLab语义分割模型等。
图2 目标识别(左)与语义分割(右)
2.2 图元变化检测
在提取得到目标图元后,通过减法、除法等简单的代数运算方法对图元进行处理,得到相应的差异图,再通过利用阈值(自适应选择或手动确定)对差异图进行分割得到最后的变化检测结果。代数运算方法简便,能够很好地显示出影像中变化迅速的区域。
实验以武汉市江岸区0.5 m分辨率遥感影像为例,利用Mask-RCNN深度学习网络进行模型训练与建筑物变化检测,变化发现的结果示例如图3所示。
图3 建筑物图元的变化
3 基于点云的变化发现
与其他常用测绘技术相比,在基础地理实体的更新过程中,激光点云扫描可以以较高的精度与速度获取目标对象的三维特征变化信息。针对这些特点,基于激光点云的变化检测关键技术包括:点云配准、点云滤波、点云分类、变化信息提取。
3.1 点云配准
点云数据的配准一般分为粗配准与精确配准两步(如图4所示)。点云的粗配准指利用标靶、控制点等人为放置的一些标志,作为同名点完成的点云拼接。具有代表性的粗配准算法为RANSAC算法。对于粗配置精度不满足要求时,可以在粗配准的基础上进行精确配准。ICP算法(迭代最近点算法)为精确配准领域使用较广的算法。其原理就是利用一个误差函数去验证点云重叠区域是否吻合,以及吻合的程度是否使得拼接结果的误差最小,也就是利用最小二乘迭代来计算最佳坐标变换。
图4 点云配准步骤
3.2 点云滤波
点云滤波算法用于在三维空间中滤除点云噪音,如飞点、低点等。以使用较多的形态学滤波算法为例,该算法核心思想是基于形态学膨胀、腐蚀算子组合而成的开、闭运算(如图5所示),识别差值点云中的噪声,对差值点云数据进行精细处理。
图5 点云滤波示意图
3.3 点云分类
对于点云分类算法而言,按照所选取进行数据处理的基本单元(也即基元)的不同,可将常用点云分类算法分为五类,分别为:①基于点基元的分类算法;②基于剖面基元的分类算法;③基于体素基元的分类算法;④基于对象基元的分类算法;⑤融合多基元信息的分类算法。在实际分类任务中,针对传感器载体平台、分类目标的不同,需要选择相适应的基元分类算法。例如对于建筑物变化检测案例,多使用基于对象基元的分类算法,进行建筑物类型基础地理实体的变化提取。随机森林(Random Forest)、支持向量机(SVM)、神经元振荡网络(Neural Oscillator Network)等在内的机器学习、深度学习方法,也被成功应用于具体的分类案例中,点云分类如图6所示。
图6 点云分类
3.4 变化信息提取
不同时相点云数据的变化信息提取技术,是基于点云的基础地理实体变化检测的核心技术。该类算法主要分为三类:①DSM差值法,该类算法直接对不同时相点云进行差值类型运算(例如稳健影像差值法),获取变化信息;②信息融合法,该类算法会融合多平台传感器光谱、材质等多源信息,提取基础地理实体变化信息(如图7所示);③分类后提取法,该类算法依托点云分类算法,在点云预分类的基础上,进行不同时相点云差值数据获取。
实验以武汉市江汉区2010年和2016年的两期机载激光点云数据为例,利用DSM差值法进行点云变化检测,结果如图8所示。
图7 信息融合法
图8 点云变化检测结果
4 基于互联网的变化发现
基于互联网的变化发现是指基于自发地理信息(VGI)或者众源地理信息数据的变化发现技术。VGI数据是互联网用户共同创建、维护和应用的空间地理信息数据。根据VGI数据的性质,可以分为两大类:①属性VGI数据,包含带地理信息标识的文本、语音、图像与视频信息;②图形VGI数据,包括由用户收集的兴趣点,轨迹、地物边界等图形信息。
4.1 基于属性类VGI数据的变化发现
大部分现实空间中的自然地表或人造地物变化(如工程建设)信息,都会在一定程度上映射于互联网,并通过属性VGI数据表现出来。因此,通过获取、过滤、解析这些属性数据,检测基础地理实体的变化形式、程度是一种可行技术方案。该技术方案下变化检测所得结果,即可作为指导其他变化检测技术方案的辅助信息,亦可作为基础地理实体语义更新的依据。具体步骤一般为:互联网爬虫、地理实体变化语义知识库构建、变化信息可行度计算。
(1)互联网爬虫
通过网络爬虫获取到的HTML网页文件并不能直接揭示地理信息的变化情况,要从网页文件中获取感兴趣的信息,则需要对HTML文件进行解析,将网页内容转换成结构、内容清晰的形式,然后再从其中提取地理信息的变化情况。对HTML文件解析可以使用最原始的基于正则表达式的解析方式,正则表达式允许用户自行定制规则匹配符合各种特定规则的字符串,常用于网页内容编写规则较强部分的解析。除了正则表达式,还可以使用如HTML Parser、XPath和Beautiful Soup等在内的一系列HTML解析工具,这些解析工具使用起来更加方便、高效。
(2)语义知识库构建
基础地理实体变化语义知识库是进行基础地理实体变化信息获取和推理的基础,知识库的建立不仅是基础地理实体变化领域知识的简单罗列,还包括基础地理实体变化领域知识的表达、推理和维护等方面。基础地理实体变化语义知识库的建立主要包括:①基础地理实体要素特征词汇库建立,如水系、居民地及设施、交通和管线常见地理实体等相关的关键词;②基础地理实体要素变化特征词汇库建立,如“新建”“修复”“动工”“重建”等词汇;③地理信息要素空间关系词汇库建立,如“包含”“相接”“东边”等。
(3)变化信息可信度计算
在初步获取基础地理实体变化信息后,需要对获取到的变化信息的可信度进行校验。网络信息可信度一般可通过精确性、权威性、客观性、最新性和覆盖率5个指标来权衡。针对基础地理实体变化发现的网页可以具体考虑以下指标:基础地理实体要素词汇等级-L、网页的PageRank值-PR、网页类型权值-T、网页发布日期权值-D和网页元数据类型权值-M,具体的可信度计算实现公式如下:
C=ω1*L+ω2*PR+ω3*T+ω4*D+ω5*M
其中ω1~ω5为各指标的权重。
4.2 基于图形类VGI数据的变化发现
图形类VGI数据的获取渠道主要为互联网地图开源平台,类似平台上存储、发布的图形类VGI数据主要以矢量数据格式表现。该类数据与通过专业测绘技术获取的数据相比,在时效性、数据获取成本上存在明显优势,但在准确程度上却可能有较大偏差。针对以上这些特点,针对图形类VGI数据的变化检测通常遵循以下基本流程:①图形VGI数据配准;②相似度评价。
(1)数据配准
数据配准环节是基于图形类VGI数据的基础地理实体变化检测的基础。例如在基于OSM开源矢量数据,进行道路实体更新时,为快速检测变化发生具体位置,需首先对OSM路网数据与库内现行图元数据进行配准。按照参与配准环节基础数据的不同,数据配准方法分为与影像配准和与矢量配准。与影像配准时一般采用同名点、线和面进行匹配,计算两者之间的变换关系,可采用的主要算法包括多项式纠正、共线方程纠正与仿射变换纠正等。与矢量配准一般分为全局缓冲区增长算法和ICP算法。全局缓冲区算法将矢量弧段作为匹配基本单元,根据现实世界实体的实际宽度设定一个距离阈值,以矢量弧度为中心,距离阈值为半径生成弧段的多边形缓冲区,将缓冲区内包含的另一数据集中的弧段作为潜在匹配对象加入匹配候选集,然后在匹配候选弧度集中搜索相似度最大的弧度作为匹配的最终结果。ICP算法的基本思想则是根据某种几何特性对两类点集进行匹配,设这些匹配点为假想的对应点,根据这种对应关系求解运动参数。然后利用这些运动参数对点群进行变换。并利用同一几何特征,确定新的对应关系,最后重复上述过程,直至迭代收敛、最终完成匹配
(2)相似度评价
常用的VGI数据相似度评价主要包括:①距离相似度评价;②拓扑相似度评价;③几何形态相似度评价。距离相似度主要用于线性要素的质量检验或变化检测,常用算法包括基于Hausdorff距离的相似度算法与基于Frechet距离的相似度算法。拓扑相似度主要用于矢量面状要素的质量检验或变化检测。面积算法在拓扑相似度的评价中使用较多。形态相似度检测过程中常用算法包括中心距离角度描述子算法、傅立叶变换描述子算法以及形状上下文描述子算法等。
5 结 语
传统基础测绘的基于野外实测和遥感影像数据提取的内外业相结合的变化发现作业方式所参照的数据标准要求严格,时效性不够,数据更新周期长。新型基础测绘采用的变化发现技术可根据不同的场景采用不同的变化发现技术,提取地理实体的多种变化维度信息,实现新型基础测绘产品的“低成本、高效率”的增量式更新,是实现快速、全面发现基础地理实体空间信息、属性信息变化的重要技术手段。