APP下载

一种高光谱图像的半监督分类方法

2018-03-07李彩虹赵祎霏

测绘通报 2018年2期
关键词:光谱聚类密度

李彩虹,赵祎霏

(1. 兰州大学信息科学与工程学院,甘肃 兰州 730000; 2. 兰州大学资源与环境学院, 甘肃 兰州 730000)

高光谱技术将图像和光谱相结合,可以更清晰、多层次地表达地物特征。高光谱遥感技术在海洋监测、精细农业、环境监测等领域获得了成功的应用[1-3]。高光谱图像分类是遥感领域研究的重要问题之一。针对传统图像聚类算法多利用像元的光谱信息、较少考虑图像的空间信息、容易受到噪声干扰的问题,文献[4]提出了一种整合超像元分割和峰值密度的高光谱图像聚类算法。杨凯歌等[5]提出了一个优化子空间SVM集成的高光谱图像分类方法,该方法采用支持向量机(SVM)作为基分类器,并通过SVM之间的模式差别对随机子空间进行k-means聚类,最后选择每类中J-M距离最大的子空间进行集成,从而实现高光谱图像分类。针对主动学习算法能主动从大量未标记样本中选择最能提高分类器性能的样本加入训练集,可从小的非最优训练集建立高性能的分类器这一特点,以及传统主动学习算法熵值装袋查询的多值偏置问题,提出了改进的均值熵值装袋查询算法[6]。孙乐等[7]提出一种新的两分类器融合的高光谱图像空谱联合分类方法,即稀疏性解混和子空间多项式逻辑回归分类器融合的高光谱图像分类方法。通过融合高光谱遥感影像的光谱和空间结构信息,基于主成分分析降维,文献[8—9]分别提出了增量分类算法和基于图的半监督分类方法。基于稀疏表示,模糊C均值算法,稀疏流形学习方法和其他一些技巧,许多学者还提出了一些性能优越的高光谱分类方法[10-12]。然而,由于高光谱图像具有高维数、高冗余和高噪音等特点,如何给出好的高光谱分类方法,依然是一个挑战性的问题。

半监督分类通过标记少量样本,从而达到了提高精度的目的。通常采用的随机标注方法有时并不能真实反映类的结构,利用基于密度的抽样方法克服了这一缺点。另外,对于高光谱图像的高维特征,采用动态时间扭曲距离可以更好地反映出像素之间的相似性。因此,基于密度的抽样和动态时间扭曲距离,本文改进了主动学习的半监督模糊聚类方法。试验结果表明,可以得到理想的分类效果。

1 半监督模糊聚类

1.1 基于密度的数据抽样

基于密度的抽样[13-14]是根据数据的局部密度确定抽样样本。给定一个数据集和抽样率,该方法可以得到一个保持原始数据分布特征的抽样集,因此,所得到的标签样本更真实地反映了原始类结构的情况。

给定一个具有n个样本点的d维数据集D和抽样率σ∈[0,1],首先通过将每个属性划分为等长的k份,进而将样本划分为多个子空间。统计每个格中样本点的个数,将格中样本点的个数作为格的点密度,每个格中的点有同样的概率被抽中。

抽样概率函数f(i)定义为

(1)

式中,e∈[0,1]是一个控制抽样的参数。e=0意味着一般的抽样方法,本文令e=0.5。

全部的抽样数为

(2)

式中,M为划分子空间的个数。

总体抽样率σ为

(3)

由式(1)和式(3),得到了每个子空间中的抽样率

(4)

1.2 动态时间扭曲距离

动态时间扭曲距离[15]最早应用于语音识别问题,进而在时间序列的分类中也获得了成功的应用。如果把高光谱图像中每个像素点的光谱看作一个序列,显然可以用动态时间扭曲距离计算两个像素点之间的相似程度。

假设有像素点x=(x1,x2,…,xn)和y=(y1,y2,…,yn),xi表示像素点x的第i个波段的值,则x与y之间动态时间扭曲距离的计算如下

DTWx,y=dxi,yj+min[dxi-1,yj-1,

dxi,yj-1,dxi-1,yj]

(5)

式中,dxi,yj表示欧氏距离或曼哈顿距离。本文采取的是欧氏距离。

动态时间扭曲距离的计算应满足以下条件:

(1) 边界条件:路径起始点为(x1,y1),终止点为(xn,yn),即时间序列端点对齐。

(2) 连续性:对于弯曲路径上任意相邻两点(xi,yj)和(xs,yh),满足s-i≤1,h-j≤1,即每次只能沿矩阵相邻元素移动。

(3) 单调性:对于弯曲路径上任意相邻两点(xi,yj)和(xs,yh),满足s-i≥0,h-j≥0,即弯曲路径只能沿着时间轴单向移动。

1.3 半监督模糊C均值聚类

Pedryc[16]提出一种半监督模糊C均值算法,通过一部分有标签样本的类别信息来引导无标签样本点的最终分类,分类信息在目标函数的计算中同样起到一定的作用。由于该方法可以利用有标签的信息提高聚类精度,因此被进行了多种改进。文献[11]在分析了前人工作的基础上,提出了一种较简单的半监督模糊C均值算法,改进后的目标函数如下

(6)

修改后的隶属度公式和质心更新公式如下

(7)

(8)

聚类中心的公式也可写成

vj=1-σvXU+σvXL

新的聚类中心的计算包括了两部分,由有标签样本点计算的聚类中心和无标签样本点计算出的聚类中心按照一定比例相加得到。显然,当σ=0时,该方法退化为FCM算法。

1.4 基于密度抽样的半监督模糊C均值聚类

由于高光谱图像的波段可能高达220个,对所有的波段进行等长划分子空间,显然复杂度是指数形式的。因此,首先计算每个波段的方差并进行排序,选择前3个方差值大的波段进行子空间划分。在半监督模糊C均值聚类中,用动态时间扭曲距离代替原算法中的欧氏距离。

本文所提出的算法描述如下:

步骤1:计算所给高光谱图像所有波段的方差,并进行排序。

步骤2:划分子空间,对于给定的抽样比例σ,通过式(4)在每个子空间进行抽样,得到有标签样本的集合XL。

步骤3:利用式(5)计算式(6)。

步骤4:通过式(5)计算式(7)和式(8)并更新隶属度和质心。

步骤5:当Js-Js-1<ε(指定的阈值)时,输出隶属度矩阵。

2 试验与分析

试验采用了由机载可见光/红外成像光谱仪AVIRIS所采集到的高光谱Indian Pines数据集,其波长范围为0.4~2.5 μm,光谱分辨率为10 μm,数据尺寸为145×145×200,地面分辨率20 m,其分类结果如图1所示,包含16种地物类型。Pavia University数据是由ROSIS传感器于2003年采集的意大利帕维亚大学的遥感图像。图像包括103个光谱波段,波长范围在0.43~0.86 μm之间,空间分辨率为1.3 m,像素个数为610×340,共有9个类,其分类结果如图2所示。这两幅高光谱数据集均广泛地应用于测试各种高光谱分类算法。通过计算方差,取最大的3个,10等分划分空间,然后进行密度抽样。

图1 Indian Pines的分类结果

图2 Pavia University的分类结果

分别采用OA值和Kappa系数来衡量分类结果,显然大的OA值和Kappa系数对应着好的分类结果。在抽样比例为5%、10%和20%的情况下,将所提出的算法和其他算法,如MS、BT、MBT、nEQB[17-20]、FCM和SFCM[11]算法进行了比较,试验结果表明,利用本文算法得到的分类结果优于其余6个算法。图3和图4分别给出了5种算法在16个类上的分类结果,7种算法的OA值与Kappa系数的比较结果。

图3 5种算法在Indian Pines数据集上的分类精度比较

图4 7种算法在Indian Pines数据集上OA值与Kappa系数的比较

在图3中,SFCM算法[11]的值是在样本抽样率取为20%得到的精度值。从图4可以看出,采用本文提出的算法所得到的分类精度(OA=0.901 4和Kappa=0.883)高于其余6种算法(最高为OA=0.889 3和Kappa=0.861)。对于类wheat,Hay-windrowed、Grass-trees和Hay-windrowed、MS和BT算法展示了其卓越的分类能力。整体上可以得到理想的分类效果,意味着采用密度的抽样更能反映出原始数据的类结构,动态时间扭曲距离可以更好地描述高维数据的相似性。随着标记比例的增加,整体分类精度展示出提高的趋势,符合半监督分类的思想。在标记比例5%的情况下,分类精度略高于FCM算法,表示有标签的样本在分类过程中起到了引导分类的作用。更多的比较结果,可以参考文献[7—8]给出的其他算法的分类结果。

由于Pavia University数据集类结构依然有不均衡的特点,因此各种算法对每个类的划分呈现出了不同的结果。在图5中可以看出,对于Painted metal sheets类,MS和BT算法都展示出了很好的分类能力,几乎能够分对所有的样本点。在Meadows、Gravel和Trees 3个类的划分中,本文的算法表现出优秀的分类能力。图6说明了本文所提出的算法可以得到整体最佳的分类效果。

图5 5种算法在Pavia U数据集上的分类精度比较

图6 7种算法在Pavia U数据集上OA值与Kappa系数的比较

3 结 论

针对标记高光谱图像样本成本较高的问题,本文提出了一种通过标记少量样本的半监督模糊分类算法。采用密度的标记方法克服了随机标记不能反映原始数据类结构的缺点,从而改善了分类精度。动态时间扭曲距离在一定程度上反映了两个像素点波段形状的相似性,从而受噪音点的影响较小。虽然试验结果表明了该算法在两幅广泛使用的高光谱图像上取得了良好的分类效果,然而由于高光谱数据的复杂性和多样性,如何给出分类精度高、速度更快的分类算法,依然是一个十分值得研究的问题。

[1] 杨国鹏,余旭初,冯伍法,等.高光谱遥感技术的发展与应用现状[J].测绘通报,2008(10):1-4.

[2] 杜培军,夏俊士,薛朝辉.高光谱遥感影像分类研究进展[J].遥感学报,2016, 20(2): 236-256.

[3] 张良培, 黄昕. 遥感影像信息处理技术的研究进展[J].遥感学报,2009, 13(4):559-569.

[4] 于文博,王忠勇,李山山,等. 整合超像元分割和峰值密度的高光谱图像聚类[J].中国图象图形学报,2016,21(10):1402-1410.

[5] 杨凯歌,冯学智,肖鹏峰,等. 优化子空间SVM集成的高光谱图像分类[J].遥感学报,2016, 20(3):409-419.

[6] 李宠 ,谷琼,蔡之华,等. 改进的主动学习算法及在高光谱分类中的应用[J]. 华中科技大学学报(自然科学版),2013, 41(S2):274-278.

[7] 孙乐,吴泽彬,冯灿, 等. 一种新的两分类器融合的空谱联合高光谱分类方法[J].电子学报,2015,43(11):2210-2217.

[8] 王俊淑,江南,张国明, 等. 融合光谱一空间信息的高光谱遥感影像增量分类算法[J].测绘学报,2015,44(9):1003-1013.

[9] 程志会,谢福鼎. 基于空间特征和纹理信息的高光谱图像半监督分类[J].测绘通报,2016(12):56-59.

[10] 罗甫林.高光谱图像稀疏流形学习方法研究[J].测绘学报,2017,46(3):400.

[11] 谢福鼎,李壮, 基于改进的半监督FCM 算法的高光谱遥感影像分类[J]. 测绘通报, 2016(9):60-62.

[12] 邵远杰,吴国平,马丽.属类概率距离构图的半监督高光谱图像分类[J].测绘学报,2014,43(11):1182-1189.

[13] HUANG J B, SUN H L, KANG J M, et al. ESC: An Efficient Synchronization-based Clustering Algorithm[J]. Knowledge-based Systems, 2013, 40:111-122.

[14] KOLLIOS G, GUNOPULOS D, KOUDAS N, et al. Efficient Biased Sampling for Approximate Clustering and Outlier Detection in Large Data Sets[J]. IEEE Transactions on Knowledge and Data Engineering, 2003, 15(5):1170-1187.

[15] MACIEJ L. Hierarchical Clustering of Time Series Data with Parametric Derivative Dynamic Time Warping[J]. Expert Systems with Applications,2016, 62(15):116-130.

[16] PEDRYC Z W, WALETZKY J. Fuzzy Clustering with Partial Supervision [J]. IEEE Transactions on Systems Man & Cybernetics Part B, 1997, 27(5): 787-795.

[17] TUIA D, VOLPI M, COPA L, et al. A Survey of Active Learning Algorithms for Supervised Remote Sensing Image Classification[J]. IEEE Journal of Selected Topics in Signal Processing, 2011, 5(3): 606-617.

[18] TONG L, KRAMER K, SAMSON S, et al. Active Learning to Recognize Multiple Types of Plankton[J]. Journal of Machine Learning Research, 2004,6(4): 478-481.

[19] TUIA D, RATLE F, PACIFICI F, et al. Active Learning Methods for Remote Sensing Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(7): 2218-2232.

[20] LI J, BIOUCAS J M, PLAZA A. Hyperspectral Image Segmentation Using a New Bayesian Approach with Active Learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(10): 3947-3960.

猜你喜欢

光谱聚类密度
基于三维Saab变换的高光谱图像压缩方法
『密度』知识巩固
密度在身边 应用随处见
高光谱遥感成像技术的发展与展望
基于K-means聚类的车-地无线通信场强研究
“玩转”密度
密度应用知多少
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法