基于对象分析的土地覆被提取方法对比
2022-02-18钟萧俊秦梦谣
钟萧俊,秦梦谣
(兰州大学,甘肃 兰州 730000)
遥感传感器的空间分辨率和光谱分辨率不断提高,尤其是高光谱分辨率的提高,使高光谱遥感成为遥感最重要的研究方向之一[1]。杜培军等认为高光谱遥感影像分类要继续引入模式识别与机器学习领域的新理论、新模型,发展更先进、更有效的高光谱影像分类方法[2]。刘大伟等针对高分辨率影像应用DBN 对高分辨率影像进行了基于光谱-纹理特征的分类,并与其他算法做了对比[3]。李朝奎等应用不同算法基于面向对象和规则进行了分类研究[4]。张寅丹等基于实验得出了监督方法更适合分析高分辨率遥感影像的特定目标地物提取的结论[5]。因此,本文基于对象针对监督分类算法,对比数据挖掘中的KNN、J48、SMO 三种方法,建立了靖远县地区的土地覆被。
1 研究方法
1.1 最邻近方法
KNN 分类算法是一种简单有效的高光谱影像的分类方法,是数据挖掘领域的经典算法。其思路是找到距离样本特征空间最近样本,如果这K 个样本大多数都属于同一个类别,则该样本也属于这个类别。该方法在面对高空间分辨率和高光谱分辨率时会面临维度灾难、运算时间长的问题。因此,陆海霞等做了基于对象的KNN 算法的研究,认为基于对象的KNN 算法能显著降低运算时间[6]。王小美等基于测定距离对KNN 算法进行改进,得到适用于高光谱遥感数据的分类方法[7]。王佃来等基于BP改进的KNN 算法进行了土地覆盖分类的研究,提高了KNN 算法的精度[8]。赵理君等认为KNN 算法受参数的影像程度更弱[9]。
1.2 J48 方法
J48 算法是决策树算法的一种,是C4.5 算法的一个版本,ID3 算法是其核心,ID3 算法的核心是“信息熵”[10]。J48算法在同类算法中不仅分类准确率高,而且速度快[11]。杨雪峰等针对多种决策树算法进行研究,得出了近红外数据集的分类效果优于红光数据[12],本文也选取了近红外波段。孙宇翼等对比了J48 决策树、最大似然法和基于试错性规则集的面向对象方法,认为J48 算法分类精度明显优于两者[13]。
1.3 SVM 方法
支持向量机最初用来对数据进行二值分类,原理是寻找一个满足分类要求的最优分割超平面,即不仅能分开两者,并且使两者的分类空隙最大。其区别于传统的降维方法,SVM 通过提升数据维度将非线性分类问题转变成了线性分类问题,解决了传统算法中训练集误差最小而测试集误差仍较大的问题[14]。即SVM 本身是解决二分类问题的,针对遥感影像的多分类特点,有两种解决方法:一种是集成许多二分类问题,另一种是将多个分类面的参数求解合并到一个优化问题中[15]。SMO 算法由John C.Platt 于1998 年提出,其优点在于将求解子问题的耗费转移到迭代上,然后在迭代上寻求快速算法[16]。张艳等提出了SDBSMO 算法[17]。张召针对SMO 算法只用一个阈值参数引起的问题进行了实验[18]。黎超等提出了P-SMO 算法,以冗余维的去除提高了SMO 算法的性能[19]。胡懋智等做了不同类型支持向量机算法的对比,认为SMO 算法在线性核的表现优于非线性核[20]。胡自申等通过逐步减少训练数据,证明了SVM 算法具有很好的泛化性能[21]。段秋亚等基于高分一号数据水体信息提取,对比了多种方法,得出了SVM 算法提取精度最高的结论[22]。张友静等对比了多种传统方法与SVM 决策支持树对城市植被的分类研究,证明了SVM 的优越性能[23]。薛梦姣等基于资源三号卫星对比了基于对象的多种机器学习方法的分类结果,得出了面向对象的SVM 分类方法远高于面向对象的KNN 算法[24]。
2 研究区概况及数据源
靖远县,隶属甘肃省白银市,位于黄河上游,甘肃省中东部,白银市腹地,白银市平川区从中析置。靖远县土地类型复杂多样,农、林、牧、副、渔潜力较大;水资源低于国内平均水平;为温带大陆性气候,降水集中在6-8 月份,雨热同期,光能充足,温差较大,地形复杂,可满足农作物生长条件。在6 月份,农作物长势良好。靖远县下辖13 个镇、5 个乡。2017 年,靖远县常住人口为46.18 万人,实现地区生产总值(GDP)70.68 亿元。其中:第一产业增加值24.41 亿元,第二产业增加值17.43 亿元,第三产业增加值28.84 亿元,三次产业结构比例为34.5:24.7:40.8,人均生产总值达到15 356 元。研究区的典型地物有农田、城镇居民地、乡村居民地、水系、道路、裸露山地等,如图1 所示。
图1 矫正后研究区图像
本报告选用的传感器为Landsat-8 卫星OLI 数据,条代号是130,行编号是035,传感器一共9 个波段,分别是:海岸气溶胶波段、蓝波段、绿波段、红波段、近红外波段、2 个短波红外波段、全色波段、卷云波段、2 个热红外波段。除全色波段空间分辨率为15 m、2 个热红外波段空间分辨率为100 m 外,其余波段空间分辨率都为30 m;数据产品为L1T,记录格式为BSQ,用TIF 格式存储。影像获取时间为2019 年1 月22 日,其中心时间为03:37:46;中心经度为104.536 6°,中心纬度为36.054 7°;坐标系为WGS_1984_UTM_Zone_48N;太阳方位角为112.721 146°,太阳高度角为64.210 290°。利用Landsat-8 OLI 数据,经过校正后,将多光谱30 m 空间分辨率和全色波段15 m 空间分辨率的波段,进行影像融合。融合后的影像波段信息如表1 所示。
表1 传感器参数与波段介绍
3 结果
3.1 分割结果
在易康中,利用多尺度分割算法,以9.0 的分割版本;图层权重为1,1,1,1,2,1,1;尺度参数为50;形状因子为0.1,紧致性因子为0.5。分割结果如图2 所示。
图2 分割结果图
选择特征,并导出。特征表如表2 所示。
表2 几何信息的分类特征
根据区域特点,将该地区分为7 种土地覆被,分别是:塑料大棚、山地、农田、绿地、裸地、居民地、河流。
3.2 分类结果
基于WEKA 平台选择监督分类中的J48 分类算法、IBK 算法、SMO 算法,进行模型训练、分类和验证。结果如图3 所示。
图3 分类结果图
3.3 精度评价
精度评价如表3、表4 所示。
表3 精度评价表
表4 混淆矩阵
4 结论
从实验结果可以看出,在30 m 分辨率下,分类效果一般。一方面是研究区的情况比较复杂,样本点的选取数量偏少;另一方面是在样本的选取过程中,有些区域很难辨认,导致样本选取不够精确。同时,裸地、山地、无植被覆盖的耕地很难区分,植被和有作物覆盖的耕地很难区分,导致可分性不高。从统计结果看,SMO 分类算法的正确率和Kappa 系数高于KNN 分类算法,KNN 分类算法高于J48 分类算法。
从山地的分类结果看,J48 的分类结果更符合实际,而KNN 和SMO 将小的破碎点(绿地和裸地)都分为了山地。从居民地的分类结果看,KNN 的分类效果最差,J48分类效果最好。从塑料大棚的分类效果来看,KNN 的算法最优,J48 最差。
从统计结果来看,针对本区域SMO 的分类精度最高,效果最好,KNN 次之,J48 最差。