基于不同特征的随机森林极化SAR图像分类①
2019-08-22陈媛媛郑加柱魏浩翰张荣春
陈媛媛, 郑加柱, 魏浩翰, 张荣春, 欧 翔
1(南京林业大学 土木工程学院,南京 210037)
2(南京邮电大学 地理与生物信息学院,南京 210023)
遥感图像计算机分类一直是遥感领域的研究热点,分类精度的提高对于国土资源的监测与保护具有重要的意义[1]. 近些年,随着遥感技术的飞速发展,各种传感器平台不断发射升空,为地表监测提供了丰富的数据源[2,3]. 极化SAR尤其是全极化SAR图像作为新的遥感手段,由于具有多个极化通道,可以获取更加丰富的地表信息,因此逐渐被用于地表分类及信息提取中[4,5].目前,极化SAR图像散射信息提取主要采用极化分解的手段,不同的极化分解方法提取的特征参数对地物的敏感性也不尽相同[6]. 极化SAR图像中除了散射信息,还包含有丰富的纹理信息[7]. 目前的研究大多基于其中的某一类特征进行分类或信息提取,如果将极化SAR中的不同特征结合起来,势必会提高地表的分类精度. 因此,本文以江苏沿海滩涂为实验区域,不仅采用H/α和Freeman两种分解算法提取SAR图像中的极化特征参数,而且采用灰度共生矩阵提取纹理特征; 然后将提取的所有特征进行不同的组合; 最后采用随机森林模型对不同特征集合进行滩涂的分类和精度评估.结果表明仅用纹理特征对沿海滩涂进行分类时效果较差; 利用极化分解提取出的散射特征进行分类的结果要优于矩阵元素特征的分类结果; 综合了极化散射特征和纹理特征的组合方式在沿海滩涂的分类中可以取得最优的分类结果,总体精度和Kappa系数可以达到94.44%和0.9305,表明极化SAR图像中蕴含的不同方面的特征在滩涂分类中具有一定的互补性.
1 极化SAR图像特征提取
1.1 极化分解特征
本文采用采用经典的H/α分解[8-10]和Freeman[11,12]分解来提取极化SAR图像中的极化散射特征参数.H/α分解是对相干矩阵进行基于特征值/特征向量的分解,相干矩阵的形式如下:
式中,λi为相干矩阵的特征值,且∞≻λ1≥λ2≥λ3≻0,µi为与特征值对应的特征向量.
利用该分解可以得到以下参数:
Freeman3分解是由Freeman和Durden提出的一种典型的基于非相干分解的分解算法[11,12]. 它将协方差矩阵C3分解为体散射、二面角散射和表面散射等三种散射机制的线性组合的形式,如下:
其中,〈[C3]〉surface对应表面散射; 〈[C3]〉double对应二面角散射; 〈[C3]〉vol体散射. fs、fd、fv分别对应于体散射分量的贡献、二面角散射分量的贡献及表面散射分量的贡献. 三种散射体对应的功率为:
1.2 纹理特征
灰度共生矩阵是像元距离和角度的矩阵函数,它通过计算图像中的一定距离和一定方向的两点灰度之间的相关性来反映图像在方向、间隔、变化幅度以及快慢上的综合信息[7,15]. 本文根据灰度共生矩阵计算了四种统计量,分别是熵、差异性、均匀性、角二阶矩,公式如下:
2 随机森林模型
随机森林是近些年发展起来的一种机器学习模型[16-18]. 该模型的理论基础是决策树,是对决策树进行组合得到的,即在变量和数据的使用上进行随机化,生成很多决策树分类模型{h(X,θk),k=1,…},每棵树之间是没有关联的,其中参数集θk为独立同分布的随机向量,在自变量X给定时,每个决策树分类模型都采用投票的方法产生最优的结果. 当原始数据进入随机森林后,每棵决策树都对其进行分类,最后取所有树中出现频率最高的分类结果作为最终结果.
① 采用自助法(Bootstrap)有放回地从原始训练数据集中随机抽取k个自助样本集,利用这k个样本集构建k棵决策树.在这一过程,每次未被抽取的样本组成k个袋外数据(Out-Of-Bag,OOB);
② 设有N个特征,则在每一棵树的每个节点处随机抽取n个特征(n≤N),通过计算每个特征蕴含的信息量,选择一个分类能力最强的特征进行分裂,这样决策树的某一个叶子节点要么是无法继续分裂的,要么里面的所有样本都指向同一个分类;
③ 每棵树都不进行剪枝,使其最大限度地生长;
④ 所有决策树组成随机森林,随机森林构建后,将新的样本输入分类器中,对于每个样本每棵决策树都对其类别进行投票,分类结果按决策树投票数决定.
3 实验与分析
3.1 实验数据及实验方案
本实验选用L波段全极化ALOS PALSAR数据对江苏沿海滩涂进行分类,研究区域如图1所示. 此外,还选取了2008年5月获取的QuickBird高分光学影像及Google Earth卫星图像作为辅助数据,以便对结果进行目视判读. 根据图像地物覆盖类型,将研究区域分为水体、道路、鱼塘、沙滩、农田、芦苇和盐蒿等6种典型地物.
图1 研究区域:(a) 研究区域位置; (b) 研究区域对应的Pauli图像
通过H/α分解、Freeman3分解和灰度共生矩阵算法一共得到7个极化特征和4个纹理特征,加上相干矩阵的6个相干矩阵元素,一共得到17个特征,根据表1对它们进行不同的组合. 然后采用随机森林模型对特征向量进行分类,本文实验的技术流程如图2所示,具体步骤为:(1) 利用多视处理、滤波算法等对原始图像进行预处理; (2) 对滤波后的图像进行H/α和Freeman分解,获取极化分解特征; (3) 利用灰度共生矩阵计算Pauli图像的纹理特征; (4) 特征组合;(5) 选择训练样本和验证样本; (6) 利用随机森林算法对表1中的不同特征组合向量进行分类; (7) 计算分类精度.
表1 不同特征组合方式
图2 技术路线
3.2 实验结果及精度评估
为了减少监督分类中选择样本对最后结果产生的影响,本次实验中选取同一组训练样本,选取随机森林模型对5组不同的特征组合实施分类,结果如图3所示. 并利用同一组验证样本计算每个分类结果中的总体精度、生产者精度、用户精度和Kappa系数,从而进行定量评估(表2).
通过与高分辨率QuickBird影像和谷歌地图卫星影像比较进行目视判读. 仅利用极化SAR图像蕴含的纹理特征进行分类时,所有地物被分成了海洋、道路和鱼塘三种,且总体精度和Kappa系数都很低,仅分别为30.38%和0.1508,而农田、沙滩、芦苇与盐蒿等根本无法识别出来. 当把相干矩阵的6个元素作为极化特征向量组进行分类时,精度相较于仅利用纹理特征的分类结果总体精度提高了31.31%,Kappa系数提高了0.3629,且能把部分农田、沙滩、芦苇与盐蒿等识别出来,但是生产者精度和用户精度这两个指标在道路这一地类上却有大幅下降,大部分道路被误分成了农田和沙滩,说明这些地物在极化SAR图像中呈现较为相似的散射特性. 通过图3(c)、图3(d)及表2可以看出,当对利用极化分解算法提取出的极化特征集进行分类时,总体精度与相干矩阵元素得到的分类结果相比提升了12%以上,Kappa系数提升了0.17以上,这说明了极化分解可以挖掘出极化SAR矩阵元素所不能表达的信息. 而比较H/α分解和Freeman分解这两种分解算法的分类结果及精度可以看出,利用Freeman模型分解算法得到的极化散射特征比H/α分解得到的极化特征对沿海滩涂更加敏感,分类效果更好,精度更高. 当把所有特征组合在一起进行分类时,虽然有少部分鱼塘被误分为了海洋,这可能是因为他们均发生奇次散射的缘故,但总体精度达到了94.44%,Kappa系数达到了0.9305,所有地类的生产者精度和用户精度与其他方法相比均有所提高,这说明,利用不同分解算法提取的极化特征参数对不同地物的敏感性不同,综合极化SAR图像中的纹理信息和极化散射信息进行分类时可以有效地提高分类精度,它们在滩涂分类中具有一定的互补性.
4 结论与展望
本文利用不用的极化分解算法和灰度共生矩阵分别从极化SAR图像中提取出极化特征参数和纹理特征参数,并将这些特征组成不同的特征集,然后利用随机森林方法对江苏沿海滩涂的全极化ALOS PALSAR影像进行了分类. 实验表明,纹理特征除了对道路较为敏感,对其他地类的分类效果都比极化特征差; 采用极化分解算法提取的极化特征对滩涂的分类效果要优于矩阵元素特征; 综合了极化散射特征和纹理特征的组合方式在沿海滩涂的分类中可以取得较好的分类结果,表明极化SAR图像中蕴含的不同方面的特征在滩涂分类中具有一定的互补性.
图3 分类结果
表2 不同特征组合下的分类精度