基于改进的半监督FCM算法的高光谱遥感影像分类
2016-12-15谢福鼎
谢福鼎,李 壮
(辽宁师范大学城市与环境学院,辽宁 大连 116029)
基于改进的半监督FCM算法的高光谱遥感影像分类
谢福鼎,李 壮
(辽宁师范大学城市与环境学院,辽宁 大连 116029)
分类是空间数据挖掘研究的主要问题之一。由于无监督分类忽视了样本信息,往往得不到理想的精度。而监督分类需要标记大量的样本点,带来了巨大的工作量。因此半监督分类逐渐成为空间数据挖掘的研究热点之一。本文通过改进FCM算法的目标函数和迭代过程,提出了一种新的半监督FCM算法(SFCM),该算法充分利用了有标签样本点在迭代过程中的作用。本文选取了在高光谱图像分类中广泛使用的Indian Pines和Pavia University两幅高光谱遥感影像作为试验对象。结果显示,随着有标签样本点比例的增加,分类精度也随之增加,且分类结果较好。
半监督学习;SFCM算法;高光谱遥感影像;分类
分类是空间数据挖掘研究的最基本问题之一。目前,分类研究已经在遥感、土地利用、海岸线监测、森林监测、大气监测等领域取得了很好的成果。根据样本点是否有类信息,这些算法可以分为两类:监督方法和无监督方法。典型的监督算法有支持向量机、神经网络及它们的各种变形等[1-4];经典的无监督算法有模糊c-均值、基于密度的算法等[5-6]。监督方法每个样本点都有类信息,然而收集到的地理数据基本都是没有类信息的,标记这些样本点工作量巨大,因此这类方法的应用在某种程度上受到了限制。而无监督分类算法完全忽视了样本的类信息,得到的结果往往不够理想。因此,半监督分类方法的研究成为了目前的热点。
一、半监督FCM算法
1. FCM算法
1973年,Dunn提出了经典的Fuzzy C-means算法(FCM)[7]。对于给定的样本点集合X={x1,x2,x3,…,xn},xi∈Rd(i=1,2,…,n),n为样本点个数。FCM算法通过优化下面的目标函数,将数据集分为c个类,
(1)
(2)
(3)
2. 半监督FCM算法
Pedrycz[8]提出的半监督算法引入了有标签点的隶属度矩阵F=[fij],j=1,2,…,c,i=1,2,…,n。该算法的目标函数表示如下
(4)
式中,α(α≥0)按照经验取值为无标签样本点与有标签样本点个数的比值;bi是一个二值向量,即
(5)
此方法通过引入有标签样本点的隶属度矩阵使无监督算法改进成半监督算法。
Stutz[9]在Pedrycz所提出的算法基础上作了改进。改进后的目标函数为
(6)
式(4)和式(6)都引入了有标签样本点的隶属度矩阵以达到半监督的效果。
二、改进的半监督FCM算法
首先对数据集X进行随机标记,每类中被标记样本点的比例为α。于是将数据集X分为XL和XU两部分,其中XL表示有标签样本点,XU表示无标签样本点。α表示有标签样本点在总样本点中的比重。有标签样本点在迭代过程中类别信息保持不变,只对质心的更新起作用。因此,改进后的目标函数为
(7)
为了引导无监督样本点进行分类,充分发挥有标签样本点的作用,使分类效果更好,质心稳定速度更快,修改隶属度公式和质心更新公式为
(8)
(9)
聚类中心的公式也可以写为
vj=(1-α)vXU+αvXL
显然,当α=0,即有标签样本点个数为0时,所提出的半监督FCM算法退化为无监督经典FCM算法。当α=1时,即所有的样本点都被标记,算法不进行迭代。因此,所提出的算法可以被理解为经典FCM算法的一般化。
三、试验结果及分析
为了测试本文提出算法的有效性,选取了两幅高光谱遥感图像Indian Pines(如图1所示)数据集和Pavia University(如图2所示)数据集进行了试验。试验结果的衡量采用OA值和Kappa系数,OA值和Kappa系数越大,说明分类的结果越精确。结果表明,通过所提出的算法可以得到理想的结果。此外,在每类样本分别被标记5%、10%、15%和20%的情况下,还将所提出的算法与MS[11]、BT[12]、MBT[13]、nEQS[14]、FCM算法进行了比较,结果表明本文算法得到的精度高于这5种算法得到的结果。
图1 Indian Pines影像
图2 Pavia University影像
Indian Pines数据是1992年由红外成像光谱仪(AVIRIS)采集到的印第安纳西北部的混合农业和林地地区的遥感影像。由表1可以看出,在每类样本随机标注5%的情况下, OA值84.05%,高于其余5种算法得到的最高值83.34%。同样Kappa系数值0.825,也高于由FCM算法得到的0.82。在标记较少的情况下,本文算法类似于FCM算法,但由于有少量的标签样本,因此优于FCM算法是合理的。但对于Hay-windrowed、Oats和Wheat这3类,其余4种算法得到的分类精度都在92%以上,表现出了很好的分类能力。在Alfalfa、Corn-notill、Corn-mintill、Buildings-Grass-Trees-Drives这4个类上,本文算法优于其余5种算法得到的结果。在其余类上,利用本文算法得到的结果与其余5种算法结果类似。显然,随着标记样本点的增加,分类精度逐渐提高。
表1 6种算法在Indian Pines数据集上的比较结果 (%)
Pavia University数据是由ROSIS传感器于2003年采集的意大利帕维亚大学的遥感图像。试验结果见表2。从每类的样本点个数可以看出,该数据集是非均衡数据集,即每类中样本点的个数差异较大。利用所提出的算法,在标记5%的情况下,总体分类精度均超过90%。除去Asphalt和Bare Soil两类外,其余每类的分类精度也超过了90%。在Asphalt、Meadows、Gravel、Self-Blocking Bricks上,本文算法表现出了卓越的分类性能。在Painted metal sheets和Shadows上,其余5种算法的分类能力很好,精度都到达了90%以上。
表2 6种算法在Pavia University数据集上的比较结果 (%)
四、结束语
本文提出的算法在两幅高光谱图像上的试验结果表明,该算法可以有效解决高光谱图像的分类问题。对于不同的遥感数据,随着有标签样本点比重的增大,分类精确度逐渐增加。由于大多数实际数据都只具有很少一部分有标签的样本或无标签的样本,而标记所有样本不仅费时费力,而且在有些情况下是不可能实现的。因此,本文所提出的方法具有一定的实用性。
[1] SILVA T C, ZHAO L. Semi-supervised Learning Guided by the Modularity Measure in Complex Networks[J]. Neurocomputing, 2012,78(1):30-37.
[2] MU OZ-MARI J,BOVOLO F,GO MEZ-CHOVA L,et al. Semisupervised One-class Support Vector Machines for Classification of Remote Sensing Data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010,48(8):3188-3197.
[3] 赵冬泉, 党安荣, 陈吉宁. 监督分类方法在图片资料专题信息提取中的应用研究[J]. 测绘通报, 2006(11):32-34.
[4] 贾永红. 人工神经网络在多源遥感影像分类中的应用[J]. 测绘通报, 2000(7):7-8.
[5] ZENG S, TONG X, SANG N, et al. A Study on Semi-supervised FCM Algorithm[J]. Knowledge and Information Systems, 2013,35(3):585-612.
[6] HAMASUNA Y, ENDO Y. On Semi-supervised Fuzzy C-means Clustering for Data with Clusterwise Tolerance by Opposite Criteria[J]. Soft Computing, 2013,17(1):71-81.
[7] DUNN J C. A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact Well-separated Clusters[J]. J.Cybern, 1974,3(3):32-57.
[8] PEDRYCZ W, WALETZKY J. Fuzzy Clustering with Partial Supervision[J]. IEEE Transactions on Systems, Man, and Cybernetics, 1997,5(27):787-795.
[9] STUTZ C, RUNKLER TA. Classification and Prediction of Road Traffic Using Application-specific Fuzzy Clustering[J]. IEEE Transactions on Fuzzy Systems, 2002,10(3):297-308.
[10] TUIA D, VOLPI M, COPA L, et al. A Survey of Active Learning Algorithms for Supervised Remote Sensing Image Classification[J]. IEEE J. Sel. Topics Signal Process, 2011,3(5):606-617.
[11] LUO T, KRAMER K, GOLDGOF D B, et al. Active Learning to Recognize Multiple Types of Plankton[J]. J. Mach. Learn. Res., 2005,6(4):589-613.
[12] LI J, BIOUCAS-DIAS J, PlAZA A. Hyperspectral Image Segmentation Using a New Bayesian Approach with Active Learning[J]. IEEE Trans. Geosci.Remote Sens., 2011,49(10):3947-3960.
[13] TUIA D, RATLE F, PACIFICI F, et al. Active Learning Methods for Remote Sensing Image Classification[J]. IEEE Trans. Geosci. Remote Sens., 2009,47(7):2218-2232.
HyperspectralImageClassificationBasedonImprovedSemi-supervisedFuzzyC-meansAlgorithm
XIE Fuding,LI Zhuang
谢福鼎,李壮.基于改进的半监督FCM算法的高光谱遥感影像分类[J].测绘通报,2016(9):60-62.
10.13474/j.cnki.11-2246.2016.0293.
P237
B
0494-0911(2016)09-0060-03
2016-01-14;
2016-05-27
谢福鼎(1965—),男,博士,教授,从事模式识别、空间数据挖掘、复杂网络、高光谱图像分类等方面的研究。E-mail:xiefd@lnnu.edu.cn