APP下载

利用OpenStreetMap数据进行高空间分辨率遥感影像分类

2019-08-07郝怀旭万太礼罗年学

测绘通报 2019年7期
关键词:形态学类别运算

郝怀旭,万太礼,罗年学

(武汉大学测绘学院,湖北 武汉 430079)

随着近些年来传感器和成像技术的发展,遥感影像的分辨率不断提高。高空间分辨率遥感影像因其丰富的光谱和空间信息,广泛应用于城市土地利用制图、农作物监测、国土资源管理及灾害评估等领域[1-2]。作为一种重要的遥感影像自动解译方式,监督分类在遥感影像应用中得到了大量的应用。监督分类模型,其表现取决于训练样本的质量和数量[3]。然而样本的人工标定是一项费时费力的工作,且容易出错[4]。此外,遥感影像数据量的急剧增加,更加重了样本采集的负担。因此,如何利用现有条件自动生成样本或减少样本数量,成为最近几年的研究热点。开源数据OpenStreetMap(OSM)为这一问题提供了新的解决思路。

伴随着Web 2.0的兴起,志愿者们通过互联网分享地理数据,这种数据被称为志愿者地理信息[5](volunteer geospatial information,VGI)。作为一个典型的VGI项目,OSM在2004年创立于伦敦大学,其目的是构建一个供公众免费上传、编辑和使用的地理数据集[6]。截至2014年,OSM已有约150万名注册志愿者。公众的广泛参与和贡献,不仅汇集了海量的数据,还确保了数据的质量。研究表明,在某些国家和地区,OSM数据的数据量和准确度已经达到了专业数据的水平[7]。值得注意的是,由于OSM吸收了一部分商业公司的导航数据,且志愿者使用手持GPS设备采集轨迹数据,OSM道路数据具有较高的可靠性。基于以上事实,OSM数据作为遥感影像分析的先验信息,在影像分类领域得到应用。

最近几年,国内外一些学者就利用OSM数据进行遥感分类已经有了一些研究。文献[8]以超高分WorldView-2影像为数据源,使用OSM数据标注样本,对瓦尔帕莱索市的土地覆盖类型进行分类。文中使用贡献指数对OSM数据的可靠性进行评估,优先从贡献指数高的区域选择样本。文献[9]提出了一种结合Landsat时序数据和OSM数据进行快速城市土地覆盖制图的方法。该方法为了降低OSM数据的噪声,引入3种抗差分类算法:朴素贝叶斯、决策树和随机森林。然而,现有的利用OSM数据进行遥感影像分类的方法,没有从OSM自身数据质量出发来提高样本可靠性,导致最终分类精度不高;此外,就高分影像分类而言,现有的方法一般只使用了光谱特征,忽略了高分影像的空间特征,分类结果有待进一步提高。

针对上述问题,本文提出一种利用OSM数据进行高分影像分类的方法。为了降低OSM数据中错误信息的影响,使用聚类分析对OSM标记的样本进行提纯。由于道路与裸土之间具有相似的光谱特性,如果直接以OSM道路数据作为样本,则二者可能会被混分。顾及OSM道路数据的准确性和完整性,OSM道路数据不作为样本,而是生成缓冲区后直接叠加到分类图中。为了充分利用高分影像的空间信息,笔者引入了形态学轮廓。形态学轮廓能够提取影像的结构信息,融合光谱特征后共同输入到随机森林(random forests,RF)分类器中进行分类。为了降低数据冗余度,对原始影像进行了主成分分析(principle components analysis,PCA),获得原始影像中最具有代表性的主成分,并据此计算形态学特征。为了验证提出方法的有效性,本文以广州市番禺区为例,以覆盖此区域的高分二号高分影像及OSM数据作为数据源进行试验。试验结果表明,该方法能够得到可靠的训练样本,具有良好的分类结果。

1 基于OSM数据的高空间分辨率遥感影像分类

1.1 聚类分析

本文使用的聚类分析算法是模糊C均值算法(fuzzy C-means,FCM)。这是一种非监督分类的方法,它通过最小化目标函数来实现数据聚类,聚类结果能够体现每一个数据对聚类中心的隶属程度[10-12]。其目标函数定义为

(1)

式中,V为聚类中心集合;c为类别数;U为隶属度矩阵;n为数据总数;uij表示第j个数据和第i个类别之间的隶属度;dij表示第j个数据和第i个类别中心在特征空间的欧氏距离;m为加权指数,它控制着类别之间的分享程度,值越大,所得到的分类矩阵模糊程度就越大。

由于OSM数据提供了类别信息和位置信息,本文使用不含道路的OSM数据进行样本标定。在OSM数据的采集过程中,志愿者非专业的操作及审核制度的缺失都可能造成OSM数据的错误。这些错误可以划分为两种类型:属性类别标记错误和空间位置错误。无论是哪一种类型的错误,对于利用OSM数据生成样本而言,都可以归类为类别错误。为了去除类别错误的数据,本文使用前述的FCM算法进行样本提纯,基本原理为:对于每一类样本,首先利用FCM算法将其分为c小类,再从这些小类中剔除不可靠的小类。为了判别这些小类的可靠性,引入可靠性指数,定义如下

(2)

式中,Ri表示第i个小类的可靠性指数;ni表示属于第i个小类的数据总数;Di表示第i个小类的聚类中心到其他小类聚类中心在特征空间的平均欧氏距离;Ski表示第i小类聚类中心到第k小类聚类中心在特征空间的欧式距离;Ji表示第i小类的目标函数值。可靠性指数顾及了类别的类内距离、类间距离和数据量。一般来说,类别的类内距离和类间距离越小,数据量越大,这一类别的可靠性就越强。

1.2 形态学轮廓

数学形态学是一种非线性的影像处理理论,使用一个特定形状、尺寸和方向的结构元素来探测影像中像元之间的空间关系[13]。腐蚀和膨胀是两种基本的形态学运算,基于此还定义了开运算、闭运算,以及重建开运算、重建闭运算等。

形态学腐蚀运算的定义为

εB(I(x))=min(I(xi))xi∈B

(3)

膨胀的定义为

δB(I(x))=max(I(xi))xi∈B

(4)

从以上两式可以看出,腐蚀即为取结构元素中像元灰度的最小值,而膨胀即为取最大值。开运算和闭运算是腐蚀和膨胀的组合,开运算是先将影像腐蚀再作膨胀处理,而闭运算是先膨胀再腐蚀的过程。开运算和闭运算能够简化输入影像,移除了比结构元素更小的结构信息。然而,它们会对保留下来的结构信息的形状产生影响,为了解决这一问题,重建开运算和重建闭运算被提出。这两种操作的基本原理为:如果影像结构不满足结构元素,则它将被完全移除;否则将被完全保留。重建操作能够移除比结构元素细小的结构,同时完整地保留其他结构。据此,文献[14]提出了形态学轮廓的概念,其定义如下

(5)

式中,I为输入影像;φ为闭运算;γ为开运算;n为运算的次数。考虑到高光谱影像波段众多,文献[15]又提出了扩展形态学轮廓的概念,即先将影像降维,随后提取部分主成分的形态学轮廓,公式为

(6)

式中,m为提取的主成分数目。通过使用不同尺度的结构元素,对输入影像的每一个波段进行连续开运算和闭运算,使得原始影像的结构信息能够保留在形态学轮廓当中。本文使用主成分分析进行特征提取,这是一种非监督的方法。

本文提出方法的流程如图1所示。

2 试 验

2.1 数 据

为了验证本文提出的方法,选取由高分二号卫星采集的广州市番禺区多光谱影像。高分二号卫星发射于2014年8月19日,搭载了包括全色和多光谱在内的两种传感器。其中,多光谱传感器成像的空间分辨率为4 m,波段覆盖了蓝光、绿光、红光和近红外波段。选取的影像采集时间为2015年1月23日,包含7666×6907像素,覆盖范围为24.5 km×22.1 km,如图2所示。

用的OSM数据来源于OSM镜像站,格式为Esri Shape File。数据被设置为8个图层,分别代表兴趣点、地点、水路、铁路、道路、自然、土地利用和建筑。

2.2 测试区

考虑到影像范围较大,为了便于评价分类结果,从影像当中随机选取了两个大小相等测试区,尺寸为700×600像素,如图1、图2所示。同时,利用目视解译结合现场调研的方式,得到了测试区的实地类别图。两个测试区的影像及地物的真实类别如图3所示。从图3可以观察到,影像中的地物类别主要包括6类:建筑、森林、草地、水体、裸土和道路。

2.3 试验结果

经过试验,得到两个测试区的分类图和分类精度分别如图4、表1所示。

表1 所有测试区的混淆矩阵、总体精度、Kappa系数及每一类地物的用户精度

类别建筑森林草地水体裸土道路建筑66553285727416316982872森林1173262683124089草地98255347970377341413水体876910402990141888132795裸土6057343001389941247道路3190076016785用户精度/(%)81.2571.5378.3996.8280.5675.60总体精度:85.53% Kappa系数:0.8021

对比图4和图3可以观察到,试验得到的分类图整体上符合人工解译得到的类别图,准确率高,噪声较少。水体、森林和道路分类良好,且具有明显的轮廓;建筑、裸土和草地分类稍差,但也与类别图大体上保持一致。值得注意的有两点:首先是水体的分类效果突出,从图4的测试区2中可以看到绝大多数水体边界清晰、形状完整,构成了影像对象;其次是道路呈现线状,不与裸土混分,参照图中的多数道路被识别出来。

综合分析表1和图4可以得到:水体的分类精度最高,平均值为96.82%;建筑、裸土和道路的精度在80%左右,有部分建筑和裸土相混淆,这是因为二者具有相似的光谱特性;森林和草地的精度较低,只有70%~78%,原因是一些水体被识别为植被,这是由于植被样本中包含水体的缘故。整体而言,本文方法的总体精度达到85.53%,Kappa系数为0.802 1。考虑到样本是自动生成的,上述分类结果精度较高。

3 结 语

本文提出了一种利用OSM数据进行高分影像多特征分类的方法。首先利用聚类分析对由OSM标记得到的样本进行提纯,去除杂质;随后对高分影像进行特征提取,并对得到的主成分计算形态学轮廓,以提取影像的结构信息;最后将提纯后的样本及形态学轮廓输入分类器中进行分类。试验结果表明,可以在避免人工样本标记的同时,利用OSM数据生成精度较高、数据较多的可靠训练样本;利用得到的OSM数据,并结合空间光谱特征,可以得到较高的分类精度。

猜你喜欢

形态学类别运算
临床检验中血细胞形态学观察与分析
重视运算与推理,解决数列求和题
音乐科学研究中的思想实验——以音乐形态学研究中的四个重大发现为例
颅内后交通动脉瘤破裂出血的临床特征和形态学的危险因素
论陶瓷刻划花艺术类别与特征
一起去图书馆吧
长算式的简便运算
“整式的乘法与因式分解”知识归纳
疏肝祛瘀方对兔膝早期骨关节炎软骨组织形态学影响的研究
选相纸 打照片