基于多特征PolSAR数据的干旱区土地利用/覆被分类
2022-01-17卡地尔牙忙苏尔依力亚斯江努尔麦麦提张永福梁田田
卡地尔牙·忙苏尔,依力亚斯江·努尔麦麦提,张永福*,梁田田
(1. 新疆大学资源与环境科学学院,新疆 乌鲁木齐 830046;2. 新疆大学绿洲生态教育部重点实验室,新疆 乌鲁木齐 830046)
土地利用/ 覆被遥感分类的精度和准确性取决于景观的复杂性、遥感数据类型、空间分辨率、大气条件、采用的图像处理技术和分类方法等因素的综合效益[1]。因此,绘制土地利用/ 覆被图分类方法的选择与改善、精度提升等成为研究者们重点考虑的问题。针对土地覆被分类的数据选择,传统的单幅影像像素特征来进行图像分类在不同分辨率尺度的图像分类上难以获得较高精度的图像分类结果[2]。数据融合是弥补传感器导致遥感数据局限性的有效方法[3]。全极化合成孔径雷达数据(PolSAR)包含目标地物的物理、化学特性和几何特性有关的有用信息,不同目标极化模式对地表面的敏感度不同,有助于识别不同的土地类型[4],但不具备地物光谱特征,雷达成像过程中的压缩、阴影、透视纠缩、叠掩、斑点噪声等因素均影响图像分类的准确性[5]。被动遥感范畴中的光学遥感数据不仅有高空间分辨率,而且可获取地物光谱特征信息,因此,全极化雷达数据多种极化特征信息与光学遥感数据的融合有助于提高地物识别度和图像分类精度[6-7]。诸多研究表明,机器学习算法针对复杂地物分类与弱后相散射目标的分类效果与传统图像分类更佳[8-9]。
为实现干旱区土地覆被信息的精确提取和多源遥感数据信息充分利用,本研究以新疆于田绿洲为靶区,采用全极化PALSAR-2 数据与Landsat-8 光学影像和多种地物信息提取指数来构建囊括后相散射特征、光谱特征以及多种地物信息提取指数的特征数据集,并采用随机森林算法来完成基于多源数据集的土地覆被分类与特征变量贡献率定量评估,同时与支持向量机和决策树算法进行图像分类性能对比,讨论了多源遥感数据融合方法在干旱区土地覆盖分类和盐渍地信息提取上的应用潜力。
1 数据与方法
1.1 研究区
研究以新疆于田绿洲为研究靶区,该区地处81°08′59″E ~82°00′03″E,36°44′59″N ~37°12′04″N 之间,位于昆仑山中段北麓、塔里木盆地南缘克里雅河流域,北为塔克拉玛干大沙漠与沙雅县接壤,中部为冲积平原地带,面积约3.95 万km2,地势南高北低,自南向北形成高山、戈壁、沙漠等地貌单元[10](图1)。研究区属暖温带内陆干旱沙漠性气候,昼夜温差大,年平均气温为11.6 ℃,降水稀少,年平均降水量为47.7 mm,蒸发量为2 432.1mm,降水量远低于蒸发量[11]。因地形、人类活动和地下水的变化等因素,盐渍化土壤主要分布在于田绿洲与沙漠的交错带和内部人类活动频繁区域[12]。
图1 研究区Landsat OLI 图像(左)与对应的PALSAR-2 图像(右)
1.2 数据集
本文选用2015-04-23 于田绿洲PALSAR-2 全极化雷达数据,工作波段是频率为1.2 GHz 的L 波段,对其进行数据预处理,包括数据导入、多视处理、噪声滤波、DEM 数据的获取、地理编码和辐射定标、重采样等,得到最后的实验数据。同时,采用2015-05-03 Landsat-8 OLI 数据提取了8 种不同地物光谱特征指数,多光谱数据进行主成分变换后的前3 种主成分变量(PCA-1、PCA-2、PCA-3)等特征信息。
1.3 目标极化分解理论
利用目标极化分解方法可更加全面地反映地物的物理、化学及几何特性[13]。Huynen[14-17]等分别提出不同观点和角度的分解方法。极化目标分解是将散射矩阵和协方差矩阵分解为具有特定物理意义的若干散射机制的总和。每个散射机制代表典型的目标和电磁波的作用过程,可直接反映观测目标的结构和物理化学特征,从而有效地揭示物体的散射特性[18]。目前应用的极化分解方法主要分为基于散射矩阵的相干目标分解和基于二阶统计模型的非相干目标分解2 种[19]。本研究利用ENVI-5.3 软件的SARscape5.2.1 模块对预处理后的全极化PALSAR-2 数据进行H/A/α极化分解、Pauli 分解、Krogager 极化分解等3 种极化分解,其特征变量信息见表1。
1.4 分类方法
随机森林是结合决策树分类模型和特征随机选取思想的集成式机器学习算法[20]。该算法在选择训练样本和构建基分类器的过程中都引入了随机性。其生成N棵决策树分类模型{h(x,θk),k∈N+},在以决策树为基学习器构建Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机属性选择,对于任何第k棵树,生成的随机向量θk均为独立同分布于先前生成的θ1,…,θk-1,每一棵决策树之间无关联性[9]。它使用训练集和参数集θk来生成多棵决策树得到集成式分类器,其为自变量。通过Bagging 算法采样出T个含m个训练样本的采样集,基于每个采样集训练出一个基学习器,再将基学习器进行结合,减少了树之间的相关性和泛化误差[21]。其判别函数定义为如下:
式中,H(x)表示对样本x的预测值;Dt表示基分类器ht实际使用的训练样本集。
随机森林较好的解决了过拟合的问题,提高算法的泛化性,具有一定的控制泛化能力等优点,同时该算法还可以定量评价输入变量对分类结果的贡献率,被誉为“代表集成学习技术水平的方法”[22]。
本次研究利用Python 包管理和环境管理软件的Anaconda3 的应用程序Jupyter Notebook 中进行了随机森林算法调参数,对研究区5 个特征集组合的数据进行解译,特征分量贡献率分析及分类精度评估。在同一训练集与验证集体系下,选择机器学习算法中较常用的SVM 分类与决策树分类对最佳特征组合进行图像分类,如表1 所示。
表1 特征数据信息
2 实验与结果
2.1 实验方案
本文将研究区PALSAR-2 与Landsat OLI 数据中获取的25 个特征变量构建5 种特征组合(表2)。根据2015 年5 月获得的实地勘察数据,利用ArcGIS10.4软件的空间分析模块进行野外采样点数据的随机等分,分别得到了均匀分布的训练集与验证集,并将研究区地物粗分为植被、水体、沙地、轻度盐渍地、中度盐渍地和重度盐渍地等6 种类型。
表2 特征组合实验方案
2.2 结果与分析
针对以上提出的5 组实验方案均利用随机森林算法(默认500 棵树),调整参数进行图像分类得到了研究区土地覆被分类成果(图2),多种特征变量的融合有助于提高PALSAR-2 图像的分类准确率,有利于弥补雷达数据中的斑点噪声和较低空间分辨率的影响。于田绿洲植被分布比较集中,中-轻度盐渍地分布较广,主要在绿洲外围植被覆盖度较低、植被受到破坏的荒漠与绿洲交错带以及大部分耕作土壤等区域,在绿洲中部也有部分重度盐渍地交错分布在中-轻度盐渍地之中,因此不同程度的盐渍地在农田灌溉区以及农田和裸露地之间的过渡带上可能会出现混淆情况。
图2 特征组合RF 算法分类结果
通过分类精度(表3)可见,不同数据集分类精度存在明显的差异,全极化PALSAR-2 数据与目标极化分解特征分量的融合有效的减少了相干斑点噪声的干扰,使分类总精度从71.11%提高到88.87%,Kappa 系数从0.653 4 提高到0.866 3。通过水体、植被、盐渍等典型地物指数以及Landsat OLI 数据的主成分分析前三波段等光学遥感特征变量与PALSAR-2 数据4 种极化的融合,对提高分类精度的影响较小,分类精度分别提升0.62%、1.34%,当特征数据集包含目标极化分解特征分量和光谱特征数据时,分类精度从88.87%提高到93.24%,Kappa 系数分别为0.866 3,0.873 9,0.882 4和0.918 8。
表3 特征组合分类精度
为对照5 种特征组合实验在单个地物类型上的分类精度,采用了精确率(Precision),召回率(Recall)和F1 分数(F1-score)等3 种评估指标。精确率是针对预测结果而言,衡量所有预测为正的样本中实际分类结果也为正样本的概率。召回率是衡量在实际为正的样本中被预测为正样本的概率。F1 分数表示精确率和召回率之间的调和平均值[23]。通过地物分类评估指标(图3)可见,不同特征分量的有序组合,使地物分类的精确率有明显的变化,特征组合Ⅴ的精确率、召回率和F1 分数均大于0.8,与特征组合Ⅰ相比具有较好的分类效果。
图3 地物分类精度统计
特征变量的不同组合对分类精度产生不同影响,其每一个变量在数据集分类中的贡献也随着发生变化。通过分析特征变量对数据集分类的贡献率(Importance),选择适合研究区域的数据类型来构建数据集对复杂的土地覆被分类可有效减少错分、混淆等情况。图4 计算出了RF 分类中使用的不同特征变量的相对贡献,每一个特征对分类的贡献是标准化精度差。从贡献率变化可见,对于PolSAR-2 图像,目标极化分解方法中Pauli 分解的3 种特征分量K1、K2、K3和Krogager 分解的KD、KH 等极化特征分量的贡献率最大,可归因到雷达目标极化分解方法具有一定的减少相干斑点噪声的特点。其次,从Landsat OLI 数据提取的NDVI、RVI、NDWI、NDSI 以及SI-3、PCA-1等光谱数据对特征集的地物分类有一定的贡献。雷达植被指数(radar vegetation index,RVI_R)、Entropy、Anisotropy 等特征变量在本研究贡献率较低。
图4 特征变量贡献率分布
本研究选择机器学习算法中较常用的SVM 分类与决策树分类,同一分类体系下进行对特征组合Ⅴ的图像分类,进一步检验RF 算法对特征组合Ⅴ的分类效果(图5)。分类结果表明,相比SVM 分类与DT 分类,随机森林算法具有较好的分类精度(表4),分类精度分别为81.33%,88.25%和93.24%,Kappa 系数分别为0.775 7,0.858 8 和0.918 8。随机森林算法在特征数据集的分类中有所优势,诸多学者也得到了同样结果[24],但由于PALSAR-2 数据空间分辨率的局限性,地物光谱特征与后向散射特征具有部分相似性等因素均影响分类结果。以上3 种机器学习分类算法的分类精度(表4)情况,对后向散射机制(底墒表面散射)和光谱特征具有相似性的轻度盐渍地、中度盐渍地和重度盐渍地之间的混淆、错分、混分情况在3 种分类方法中均存在,总体分类精度在SVM 分类、DT 分类和随机森林分类中分别为81.33%、88.24%、93.24%,相比另2 种分类算法,随机森林分类算法比较有优势,误分率只有6.76%。综合分析分类样本体系下的3 种分类方法的结果来看,随机森林分类对多源遥感特征数据集分类性能较好。
图5 特征组合Ⅴ的SVM、决策树、随机森林分类结果
表4 SVM、决策树、随机森林分类精度对照
3 结 语
本文采用随机森林图像分类算法,对于田绿洲全极化PALSAR-2 数据、PALSAR 数据目标极化分解、多种光学遥感地物信息提取指数等光谱特征数据构建的特征数据集的组合进行土地利用/覆被分类,并对每一组特征变量的图像分类贡献率定量评估。实验结果可见:
1)多源遥感数据的有效融合有助于提高地物识别准确率,该结果与李萌[25]等的研究结果一致。
2)对于PALSAR-2 图像,贡献率最大的特征变量分别来自Pauli 分解的3种特征分量K1、K2、K3 和Krogager 分解的KD、KH。其次,从Landsat OLI 数据提取的NDVI、RVI、NDWI、NDSI 以及SI-3、PCA第一波段等光谱特征数据对特征数据集的地物分类有一定的贡献。PALSAR-2 图像的相干目标分解和非相干目标分解方法的耦合利用有助于提高不同散射机制的正确识别与分类。
3)通过对照SVM 分类、决策树分类和随机森林分类算法的土地利用/覆被分类绘图精度,随机森林分类性能略优于SVM 和决策树分类。验证了随机森林算法在地理大数据背景下获取复杂土地覆被信息的可行性。