自适应聚类学习的道路网提取方法
2018-11-30陈良超眭海刚
陈 光,薛 梅,陈良超,眭海刚
(1. 重庆市勘测院,重庆 401121; 2. 智慧城市时空大数据重庆市工程研究中心,重庆 401121; 3. 武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉 430079)
现有的新增道路提取方法大多都是针对不同影像类别、比例尺、影像区域和道路类型进行试验[1],从特征组合和分类方法两方面进行改进提取结果,学者们试图寻找一套通用的特征组合和有效的分类模型来完成针对所有类型道路的提取任务。然而,高分遥感影像道路网提取任务具有其特殊性,尽管遥感影像中的道路具有一些共同的特征,但是道路的多样性和场景的复杂性使得道路之间常常表现出明显的特征差异[2]。现有基于样本学习的提取方法在处理高分影像数据时主要存在两方面的问题:①道路在不同场景中表现多样;在不同源影像上也存在特征差异,难以用固定的特征和规则实现普适的道路提取任务。②基于有监督的道路提取,依赖于采样的绝对随机性,但是实现采样的随机性非常困难,一旦采样过程中存在任何偏见,提取结果就会存在差异。
基于上述分析,研究道路提取方法时,必须从道路特征的差异性出发,针对不同类型的道路发掘专属的特征,以此来完成对道路的精细化提取。本文提出一种基于自适应聚类学习的道路网提取方法。
1 方法理论
方法处理流程如图1所示。其主要由3部分构成:样本特征自动获取,样本自适应聚类,道路分类融合与验证。首先,针对分类样本选择困难的问题,利用已知道路矢量进行自动样本标注,获取全影像域的道路样本和背景样本;然后,针对高异质性样本特征训练分类器时导致的过拟合问题,提出自适应道路样本聚类策略,利用聚类后的样本分别训练分类器并提取道路对象;最后对多分类器道路提取结果进行合并与验证。
图1 道路网提取方法总体框架
1.1 道路样本特征自动化获取方法
遥感影像分类训练样本与特征的自动化快速获取已成为遥感大规模应用面临的瓶颈问题[3],遥感道路提取也不例外。本文使用SLIC[4]作为影像对象化分割方法,并将分割结果对象作为样本特征提取单元(如图2所示)。相对于传统的基于像元的影像分析,面向对象的分类方法能够综合考察像元及其邻域的光谱和空间特性,从而有效区分特征相似的地物[5]。
注:影像信息:IKONOS 1 m;参数:对象大小20,紧致度0.1。图2 道路影像SLIC分割试验
道路样本标记基于已知旧时相路网矢量数据的语义信息进行。根据经验认为远离道路矢量所在位置的区域为背景地物。由此可根据已有道路提取结果生成道路样本集和背景样本集,具体流程如下:
(1) 栅格化道路矢量数据,以半径rroad生成结构元素Sroad并执行形态学膨胀运算,生成道路样本蒙版影像Xroad;以半径rgap、rgap>rroad生成结构元素Sgap并执行形态学膨胀运算,生成蒙版影像Xgap,辅助背景样本蒙版样本的生成;以半径rbg、rbg>rgap生成结构元素Sbg并执行形态学膨胀运算,将运算结果与Xgap逻辑取反后的影像按位执行逻辑与运算,得到背景样本蒙版影像Xbg
(1)
式中,X为待处理影像;⊕为形态学膨胀运算符号;结构元素半径rroad、rgap、rbg需要根据导航路网矢量线对应的宽度信息和影像分辨率设置,蒙版影像生成示意图如图3所示。
图3 蒙版影像生成示意图
(2) 分别将道路样本蒙版影像和背景样本蒙版影像与道路对象化分割结果叠加,统计每个分割对象内部属于道路蒙版的像素数量nroad和属于背景蒙版像素的数量nbg,判定对象属于道路对象还是背景对象
(2)
式中,1标识对象为道路样本;-1标识对象为背景样本;0标识非样本对象;N为对象总数;Tarea为有效面积比阈值。
根据文献[6—7]中对光谱特征和纹理统计特征的描述,本文选择对象的光谱和纹理特征作为训练特征。高分影像中光谱特征的高度细节化使得难以仅仅根据光谱特征完成道路提取任务。纹理与局部像元灰度的空间组织相关,在识别感兴趣的目标和对象中有着非常重要的作用。本文以光谱特征和纹理特征联合构成分类器训练特征向量,具体包括:光谱特征维数为15(红、绿、蓝波段的均值、标准差、熵;色调均值、标准差;饱和度均值、标准差;亮度均值、标准差),灰度共生矩阵(GLCM)[8]纹理特征维数为24(红、绿、蓝波段GLCM的均值、方差、熵、角二阶矩、同质性、对比度、不相似性、相关性),局部二值模式(LBP)[9]纹理特征维数为18(红、绿、蓝波段LBP的均值、标准差、偏度、峰度、能量、熵),共57维特征。以图2中试验数据正负训练样本特征值的均值构建特征直方图,如图4所示。图中垂直虚线左侧为光谱特征,右侧为纹理特征。对比直方图发现,正负样本的多个特征之间具有明显的差异,表现出较好的区分性。
图4 训练样本特征均值直方图面
1.2 道路样本自适应聚类
从道路样本的获取过程和实际道路场景的多样性可知,道路样本必然是混杂了不同等级、不同场景道路,其特征集合中包含有类似的特征表现,而更多的特征则表现出较大的差异。直接利用此类样本训练分类器将导致过拟合问题,即为了得到与样本一致假设而使得训练出来的分类器过于精细复杂,判别规则过于严格,这将导致分类器对于训练样本以外的、任何与样本数据稍有不同的检测数据都会产生非道路的判别结果。本文提出一种道路样本自适应聚类策略,使得道路样本能够根据集合内特征分布情况进行重组,使得聚类后各组样本在特征空间中呈聚集分布趋势。
首先,由于在样本数相对较少的情况下,高维特征使得样本在统计上的渐近性质受到破坏[10],因此需要通过特征降维,消除无关和冗余的样本特征。本文利用Devijver[11]提出的向量相似性指数,按照黄昕[7]提出的特征选择方法进行降维处理,本文不作赘述。
然后,利用高斯混合模型(GMM)执行自适应道路样本聚类。由于类别数K未知,在实际数据处理中,需要通过多次测试、比较多个成分的拟合结果决定K值。为了能够自适应地获得类别数K,本节提出2个度量指标:分裂指数和合并指数。
(1) 设定初始K值,对原始样本执行GMM聚类处理,得到K个高斯分布模型。
(3)
式中,j、k∈K;pj(x)、pk(x)为对应高斯模型在位置x的概率值;max为取极大值函数。
(3) 定义合并指数(merge index,MI),即
(4)
若MI>TMI,则认为连线li所连接的2个高斯模型具有较大的重叠度,需要进行合并,即将总的类别数降为K-1。
(5) 重复执行上述操作,直至没有符合分裂和合并条件的高斯模型,得到最终的样本聚类数K。
最后,根据聚类结果将矢量路网标注的正样本集合分为多个集合,负样本保持不变。将每组正样本与负样本组合训练一个分类器,实现对特定类别道路的提取。
1.3 道路分类和融合
本文选择支撑向量机(SVM)分类器[12]执行道路分类提取(黄昕[7]在其博士论文中通过试验证实了SVM分类器对于光谱-结构的混合特征分类的适用性)。基于各组样本特征训练分类的结果对应了不同类型的道路。根据各类道路样本的道路提取结果,生成道路标记图像,设P(Tn)为像素p在样本组n对应的属性,则有
(5)
利用多数投票方法集成多组道路标记结果
(6)
式中,Mp代表像素p在不同样本组上被标记为道路的次数。多组融合规则定义为
(7)
式中,P是对每个像素的最终类别标记。如果一个像素在不少于1个样本组的分类结果中被标记为道路,则该像素对应道路;否则,该像素标记结果为非道路。考虑路网提取结果的连通特性,本文最后根据几何特征对混入道路提取结果的非道路对象作进一步的剔除,得到最终的道路提取结果。
2 试验与分析
试验数据对应区域为鄂尔多斯市城区局部,数据包括遥感影像与裁切后的导航路网。遥感影像为QuickBird多波段合成影像,导航路网为OpenStreetMap路网裁切数据,影像与路网矢量均具有相同的WGS-84大地坐标系,直接叠置显示后具有很好的位置套合效果(如图5所示)。影像范围内的待提取道路为典型的城区道路,包括较宽的主干道和较窄的支路,主干道上具有明显的绿化带和行道线,而支路对应的光谱特征相对均一。部分路段存在阴影遮挡的情况。试验数据具体描述信息见表1、表2。
表1 城区试验数据描述信息
表2 城区导航数据描述信息
图5 道路提取试验数据
按照本文多样本组分类融合道路提取方法,执行基于导航路网的自动样本标记与特征获取。样本标记影像如图6所示,正样本标记影像展示了范围内的道路对象,整体来看,道路光谱特征存在渐变的差异;从细部看,主干道中包含绿化带对象,从而使得局部路面光谱具有较大差异,并且受绿化带和行道线的影响,主干道与支路的纹理特征也具有较大差异。负样本则主要对应道路两旁的建筑物、裸土和植被对象,其中部分建筑物对象的光谱特征与道路较为相近。
图6 样本标记影像
样本标记与特征统计信息见表3。原始的样本特征维数为57维,包括文中提到的光谱和纹理特征,通过特征选择去除相关特征和特征抽取后的特征维数为4维;自适应混合高斯模型聚类处理将原始正样本分为3组具有较大特征差异的样本组。
表3 样本标记与特征信息
利用3组正样本与负样本分别训练SVM分类模型,模型参数与训练测试分类精度见表4。3个分类模型在最优参数配置下对测试样本集的分类精度均超过94%。
表4 分类模型训练参数
比对原始影像与分类结果的细部图像能够发现各分类器提取结果的差异(如图7所示)。分类器1提取结果主要为绿化带(如图7(a)、(b)所示),在对象化处理过程中,部分路段与植被对象特征混合,因而提取结果中还包括部分较窄的分支路段;分类器2由大部分正样本特征集合训练所得,其提取结果为影像域内的主要道路对象(如图7(c)、(d)所示);分类器3的提取结果则与斑马线、行道线等对象对应(如图7(e)、(f)所示)。
图7 各分类器提取结果局部对比
各分类器的提取结果相互补充,融合处理后得到整体的道路提取结果(如图8(a)所示),最后根据形状特征剔除部分非道路碎屑对象,得到最终的道路提取结果。道路提取结果保持了相对较为完整路网。对于新增道路,提取结果并不完整,但是仍然获得了路段的主体部分。将本方法道路提取结果与路网矢量叠加,如图8(b)所示。图中可以清晰地看出新增道路提取结果,包括图中右上角新增的主路,右侧南北走向的支路,下方多条相交路段等。
图8 道路网提取试验结果
为验证方法的有效性,选择2种主流道路网提取方法执行比对试验。选择的方法包括:Huang提出的多尺度道路提取方法[13]和Shi提出的基于形态学特征的道路提取方法[14]。对比方法试验结果如图9所示。
图9 道路提取方法对比提取试验结果
定量评估采用的评价指标包括:完整性、正确性和质量[15]。精度指标统计结果见表5。3种方法的道路提取结果均具有较好的完整性;从正确性来看,本文方法提取结果中包含的非道路对象较少,提取结果的整体质量较高。
表5 道路提取试验精度验证统计
3 结 语
本文根据道路特征多样化的特点,提出了基于自适应聚类学习的道路网提取方法,针对提取方法中的各技术点展开研究,包括:基于导航路网矢量标记的自动化道路正负样本的选择与特征提取;根据样本特征的聚集性将道路样本分为多组样本,分别训练分类器并提取不同特征的道路对象;通过融合处理将基于各分类器获得的道路提取结果进行融合。文中提出的道路样本聚类学习的思想,充分考虑了不同等级、不同场景下道路对象的多样性,从而在全局影像域内兼顾不同等级和场景的新增道路对象提取。试验以大场景新增道路提取任务为目标进行方法验证,定性和定量的分析结果表明了本文方法的有效性。当前对地观测数据获取的频率和分辨率逐步提高,路网数据快速更新的需求日益迫切,本文方法提供了新的思路,具有一定的现实意义。