APP下载

基于DLSVM算法的高分辨率遥感图像分类研究

2015-01-22舒振宇王典洪海涛洋

关键词:超平面阈值向量

舒振宇,王典洪,周 城,海涛洋

(1中南民族大学 电信学院,武汉 430074; 2中国地质大学 地球物理与空间信息学院,武汉 430074)

基于DLSVM算法的高分辨率遥感图像分类研究

舒振宇1,2,王典洪2,周 城1,海涛洋1

(1中南民族大学 电信学院,武汉 430074; 2中国地质大学 地球物理与空间信息学院,武汉 430074)

为了进一步提高高分辨率遥感图像的分类精度及效率,融合支持向量机SVM及局部支持向量机KNNSVM算法,借助主动学习相关理论,提出了基于距离的局部支持向量机算法(DLSVM).该算法通过对未标记样本和超平面之间的距离与预先设定的距离阈值相比较,判断是否需要进一步建立局部支持向量机KNNSVM来确定样本的类标.对实际的高分辨率遥感图像分类的实验结果显示:在合适的距离阈值与K值的设置下,该算法能够提高支持向量机SVM的分类精度,同时大大降低KNNSVM算法的时间消耗.

高分辨率遥感图像分类;支持向量机;局部支持向量机

近年来,分辨率越来越高的卫星不断被送上太空,高分辨率地面图像的获取也越来越容易.然而空间分辨率与时间分辨率的不断提高也使得遥感图像的数量呈指数级不断增加,给遥感图像的处理带来越来越严峻的挑战.面对遥感图像的海量数据,利用机器学习及数据挖掘技术实现计算机自动处理图像数据成为主要方法.其中,具有分类精度较高、鲁棒性好、支持小样本训练集及稀疏性好等特点的支持向量机技术[1]是遥感图像分类的重要方法之一,并在实践中得到广泛应用[2,3].然而,Steinwart[4]证明传统的支持向量机SVM模型是不满足全局一致性要求的,这使得其分类效果在面对某些训练集时分类精度不高.为了提高SVM的分类表现,弥补其不满足全局一致性的不足,局部支持向量机技术(Local SVM)由Brailovsky等[5]于1999年提出,通过给传统支持向量机的核函数添加两个乘子使其具有了局部性.但是添加乘子的局部支持向量机因为在样本空间计算距离,导致算法的性能对不同的数据集差异较大.Zhang等人[6]提出了SVM-KNN算法,将KNN算法与SVM算法进行了融合.SVM-KNN也是在样本空间寻找近邻,因此,算法的性能也不太稳定.为了弥补SVM-KNN存在的不足,Blanzicrii和Melgani[7]提出了K近邻局部支持向量机算法(KNNSVM),该算法在核空间寻找待分类样本的近邻,提高了局部支持向量机算法性能的稳定性,成为了局部支持向量机的代表性算法.后来,LSVM[8]、PSVM[8]、Falk-SVM[9]以及协同聚类等[10]优化KNNSVM的算法相继被提出.

通过SVM对4幅高分辨率遥感图像分类结果的统计分析,发现错误样本的分布都在距离超平面较近的地方,而这些位置上的样本点如果用局部支持向量机算法KNNSVM进行分类则正确率较高,因此考虑借鉴主动学习的理论,通过计算待分类样本与超平面的距离考虑对距离不同的待分类样本选择SVM或KNNSVM进行分类来进一步提高遥感图像的分类精度.

1 SVM分类器错分样本的分布统计

支持向量机的构建是基于支持向量而不是所有训练样本,因此,其运算速度快,鲁棒性好,被广泛运用于海量数据的遥感图像分类领域.为了深入分析支持向量机SVM分类器分类错误样本的分布特点,我们运用4幅由Quickbird得到的高分辨率两类遥感图像进行实验.

根据支持向量机原理,分类器是由与超平面距离为1的被称之为支持向量的训练样本建立的.因此,对已有的4幅高分辨率遥感图像运用支持向量机SVM进行分类,对每一个测试样本计算其与超平面的距离,并根据距离统计被错分的样本数.

表1统计了离超平面的距离小于1和离超平面距离大于1的两类样本利用SVM分类的精度情况.从表中可以看出,与超平面距离大于1的样本分类的正确率远大于距离小于1的样本分类的正确率.在错分样本中,距离小于1的样本数也多于距离大于1的样本数.这说明采用SVM进行分类时,离超平面越近,样本的被错分的概率就越大.

为了进一步说明错分样本的分布情况,我们对错误样本离超平面距离的不同区间进行了样本数量的统计,如图1所示,横坐标表示离超平面的距离,纵坐标表示该区间错分样本数占总错分样本数的百分比.从图中可以看到,错误样本主要堆积在离超平面距离较近的范围,特别是在区间[0,1]之内.从数据值大小来看,数据A中在小于1的范围内集中了近80%的错分样本,数据B和C在离超平面小于2的距离范围内集中了近80%的错分样本,而数据D在此距离内也集中了72%的错分样本.因此,说明当样本离超平面距离越近时,其被错分的概率越大,也就是说,离超平面越近的点其类标归属的不确定性越大.另一方面,当样本点远离超平面时,其被错分的可能性将大大减少.

为了验证对于这些SVM容易错分的样本,KNNSVM算法是否会有更好的表现,我们比较了与超平面距离小于1的样本利用SVM和KNNSVM分类的精度情况,如图2所示.

图2中,横坐标表示K值的大小,纵坐标表示分类的精度,其中三条曲线分别代表SVM,KNNSVM和KNNSVM在不同K值中精度的平均值.对于数据A、B和C,KNNSVM的分类精度值高于SVM,仅在数据D中,SVM大于KNNSVM.说明当样本距离超平面小于1时,KNNSVM的分类精度高于SVM.因此,可以考虑对这些样本建立局部支持向量机KNNSVM以提高样本的分类精度.

基于上述分析可知,利用SVM分类器,超平面附近的点其类标的不确定性最大,最容易被错分,而局部支持向量机KNNSVM算法对这类样本分类的精度更高,效果更好,因此找到这些易错分的样本,并对它们建立局部支持向量机有利于进一步提高支持向量机SVM的分类表现.传统SVM错分样本更多地集中在离超平面较近的范围,这类样本就是信息量较大、错分可能性较大的样本.主动学习方法就是一种寻找信息量最大的未标记样本,然后通过对其进行标注后将其加入到训练集,以得到更优化的分类器.而主动学习中常用的方法之一就是寻找不确定性最大的未标记样本(信息量最大),即最容易被错分的未标记样本.对这种未标记样本的搜寻与我们想要找的最容易错分的未标记样本一致,因此,我们将借助于主动学习的理论来寻找这些容易错分的样本.

2 基于边缘不确定性的主动学习采样策略

基于不确定性选择训练样本是运用最广泛,也是最简单的主动学习样本采样策略.其核心理念是选择分类器认为最难分的训练样本,然后获取其类标后,将其加入到训练集.对于二分类问题,找到的训练样本是属于正类或负类概率最接近于0.5 的样本.常用的不确定性的计算有两种方法,基于边缘的方法和后验概率的方法.基于边缘的方法主要针对支持向量机模型,后验概率主要是计算测试样本属于某一类概率值的大小.围绕本文的研究问题,选择基于边缘的不确定性样本采样策略.

基于边缘的不确定性样本选择策略是基于SVM分类器提出的,计算训练样本的不确定性的方法是通过计算每个训练样本到分类边缘的距离.对二分类问题,不确定性计算函数可以表示为(1)式:

(1)

其中,SV表示支持向量,αj为非零的系数,yj表示支持向量xj的类标,其中+1为正类,-1为负类,K(xj,xi)表示xj,xi的内积.

Tong和Chang[13]提出了边缘样本选择方法(MS),即按照每一个未标记样本离分类面的距离来判定该未标记样本是否被选择加入到训练集中,他们认为包含最大信息量的未标记样本就是离分类面距离最近的样本,因此,这个样本应该被找出来向专家询问其类标,并在得到其所属类别后将其加入到训练集中.因此,MS策略可以表示为(2)式:

(2)

3 DLSVM

综上所述,从分类精度分析,支持向量机SVM算法对距离超平面较近的样本分类精度较低,而对远离超平面的样本的分类表现较好;同时,局部支持向量机KNNSVM在这些离超平面较近的点上的分类精度较高.融合SVM及KNNSVM两个分类器的优势,为了进一步提高支持向量机SVM的分类性能,同时优化KNNSVM的分类时间,借助于主动学习基于边缘的采样策略,我们提出了基于距离感知的局部支持向量机算法(DLSVM).

3.1 DLSVM算法描述

DLSVM算法的核心就是利用主动学习中基于边缘不确定性的采样策略,寻找离超平面距离在设置的距离阈值THRE内的未标记样本xi,在支持向量中寻找xi的K个近邻建立局部支持向量机得到xi的类标记.公式描述如(3)式.因为错分样本点主要集中在超平面附近,而支持向量是与超平面距离为1的点,因此在支持向量集中寻找的近邻更能代表该未标记样例的分布特点,节省搜寻近邻的时间.

(3)

其中,SV是支持向量集,N是所有训练集的样本个数,k是近邻个数,THRE是距离阈值.K个近邻的选取公式如(4)式:

(4)

该公式对K个近邻进行排序,其中xrxi(1)是核空间中距离未标记样例xi最近的支持向量,而xrxi(j)是特征空间中距离排名第j的支持向量.

3.2 DLSVM的算法流程

基于距离的局部支持向量机(DLSVM)算法的核心思想,通过对传统SVM分类易错的近距离样本建立局部支持向量机,来提高分类器对近距离样本的分类精度,从而提高整体分类效果.因此,DLSVM的算法具体描述如下.

(1)在整个训练集学习SVM分类器模型M.

(2)对输入样本xi,先采用模型M对其分类,得到分类结果标签A;同时计算样本xi到超平面的距离Dist.

(3)比较距离Dist与阈值Thre的大小,如果Dist

(4)对于支持向量机模型M,建立支持向量的集合C,以集合C为训练集对样本xi进行KNNSVM分类,得到类结果.进入第(6)步.

(5)模型M对样本xi的分类结果A即为xi的最终分类结果.进入下一步.

(6)是否还有样本需要分类,有就跳转到第一步进行下一样本的分类;否则结束.

4 实验及实验结果分析

为了测试DLSVM算法的分类表现,我们利用该算法对实践中的高分辨率遥感图像进行了分类,具体的实验方案及结果分析如下.

4.1 实验数据及方案

实验采用的遥感图像如图3所示.

选择的训练样本数据以及测试样本数据如表2所示.实验从算法的运行时间及分类精度等两个维度对算法进行了测试.同时,为了对比实验效果,将距离阈值设定为从0开始以0.5递增直至2.5,大于2.5作为一个单独的步长.实验结果记录了算法精度、算法运行时间以及采用KNNSVM分类的样本比例等参数.所有的支持向量机算法及KNNSVM的核函数均采用RBF核函数.

4.2 实验结果

DLSVM算法在不同距离阈值Thre以及不同近邻K值下的运行时间变化曲线如图4所示,图5是不同距离阈值Thre以及不同近邻K值下的精度变化曲线,而表3则统计了4幅遥感图像的样本在不同距离阈值下采用KNNSVM分类的样本比例.实验结果分析如下.

4.2.1 算法的运行时间

图4是DLSVM算法随不同的距离阈值以及不同近邻K值算法运行时间变化的曲线图,图中横坐标是不同的近邻数K值,纵坐标是DLSVM算法运行时间,图中的不同曲线表示在不同距离阈值下DLSVM的时间变化.其中,当距离阈值Trhe=0时,所有的样本都采用传统的SVM算法分类,因此其结果与传统的SVM一致;当阈值Trhe=∞时,所有样本都采用KNNSVM算法,但不同的是,KNNSVM寻找近邻是在全部训练集中进行的,而这里是只在支持向量集中寻找K个近邻.分析图中曲线可以得到如下结论.

(1)随着K值的增加,除了传统的SVM曲线外,其他的曲线全部随之增加,特别是,曲线的斜率也不断增加.说明当K值增大时,运行时间的消耗增长速度不是一定的,而是不断增加的.因此,K值越大,时间的消耗增长得越快.

(2)当距离阈值THRE从0到2.5,再到∞时,总体上,时间的消耗也越来越大.并且,THRE=2.5的曲线与THRE=∞的曲线之间的差值特别小,在数据A、B和D中,两条曲线甚至出现部分重合.说明,利用局部支持向量机KNNSVM分类的样本点几乎都集中于距离超平面2.5以内的范围内.并且,基于距离感知的局部支持向量机DLSVM的时间消耗是小于KNNSVM的(除Trhe=∞的情况).

(3)当选择的K值较小时,如K≤25时,不同距离阈值的曲线差值非常小,即当K比较小时,由KNNSVM算法增加的时间消耗很小.

为了进一步证明样本采用不同算法的比例,除了测试DLSVM算法的运行时间外,我们还计算了不同距离阈值下利用KNNSVM分类的样本数,如表3所示.

从表3中可知,当距离阈值从THRE=0到THRE=2.5时,利用KNNSVM分类的样本数持续增加,特别是到THRE=2.5时,对数据A和B,90%以上的样本点都是采用KNNSVM,说明训练样本点基本集中于距离超平面2.5的距离以内.

4.2.2 算法的精度分析

图5是DLSVM在不同距离阈值Thre及不同近邻K值情况下,算法精度的变化曲线.图中横坐标是不同的近邻数K值,纵坐标是DLSVM算法精度的百分比表示,图中的不同曲线表示在不同距离阈值Thre下DLSVM的精度变化.其中,当阈值Trhe=0时,所有的样本都采用传统的SVM算法分类,因此其精度不随近邻K值的变化而变化,是一个定值;当阈值Trhe=∞时,所有样本都采用KNNSVM算法,但不同的是,KNNSVM寻找近邻不是在全部训练集中进行的,而这里是在支持向量集中寻找K个近邻.根据图中显示结果,可以得到如下的实验结论.

(1)当K ≤45,Thre≤1.0时,DLSVM精度高于传统的SVM算法.

(2)当THRE不变时,在数据B、C和D中,DLSVM的精度在K值从0开始增加时,开始会随之增加,达到一个高峰后慢慢趋于平缓.

(3)当K值一定时,且K≤45时,A、B、C和D数据基本呈现出THRE≤1.0时的精度曲线在传统SVM的曲线之上,THRE≥1.0的精度曲线在SVM以下,同时也高于KNNSVM(Thre=∞).其原因在于当距离阈值Thre取较大值时(Thre>1.5),近邻由于是在支持向量集中搜索,此时找到的近邻可能不是真正离样本最近的样本,特别是在K值很小的时候.此时导致算法精度有明显的下降.而当K>45时,THRE的曲线从0.5到2.5基本高于或趋近于传统SVM的精度值;另一方面,THRE从0.5到2.5的精度曲线也趋近于KNNSVM(Thre=∞),说明基于距离感知的局部支持向量机DLSVM的精度与KNNSVM相当.同时,由于K值较大,寻找到的近邻更多,更能代表训练样本的真实特征,因此,Thre取较大值时(Thre>1.5),分类精度比K值小的时候更高.

4.2.3 算法结果综合分析

结合DLSVM算法的精度和时间两个方面,可以看到当K值增加时,时间消耗增大;同时距离阈值THRE增加时,时间消耗也是增加的.但是在K值偏小时,不同距离阈值THRE的消耗时间差值较小.另一方面,当K值较小时,且距离阈值THRE ≤1.0时,在4个高分辨率遥感图像分类中都显示了基于距离感知的局部支持向量机DLSVM的算法精度明显高于传统SVM.因此,我们认为设定较小的K值,和距离阈值THRE ≤1.0,既能提高传统SVM分类器的分类精度,同时在时间消耗上与传统支持向量机SVM差别不大,这样的DLSVM优于传统的SVM,又比局部支持向量机KNNSVM算法耗费的时间更短.

因此,综合对传统支持向量机SVM错分样本的特征分析,基于距离感知的局部支持向量机DLSVM算法在实际应用中可以选择较小的距离THRE和K值.如本实验中的高分辨率数据A、B、C和D可以选择THRE=1.0,K≤45,这样设置后得到的DLSVM算法的运行结果优于传统的SVM且与KNNSVM的精度相当,但在时间消耗上远小于局部支持向量机KNNSVM.

5 结语

高分辨率遥感图像分类是遥感图像处理的第一步,直接影响遥感图像在实践运用中的效果,因此,提高高分辨率遥感图像的分类精度与效率对进一步发挥遥感图像的巨大价值具有重要作用.支持向量机SVM技术具有分类精度较高、支持小样本训练集及鲁棒性好的特点,但对距离超平面近的样本分类精度不高;而局部支持向量机KNNSVM分类器满足局部一致性的条件,与SVM相比具有分类精度更高,分类时间更长.因此,借助于主动学习理论,融合SVM及KNNSVM优势的DLSVM算法能够发扬两种算法的长处.通过对实际高分辨率遥感图像分类的实验证明,在设定合适的阈值与K值的条件下,该算法的分类精度能够高于SVM,和KNNSVM保持一致,而分类时间远远小于KNNSVM.

[1] Cortes C, Vapnik V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.

[2] 樊利恒, 吕俊伟, 于振涛, 等. 基于核映射多光谱特征融合的高光谱遥感图像分类法[J]. 光子学报, 2014, 43(6): 630001-630001.

[3] Moustakidis S, Mallinis G, Koutsias N, et al. SVM-based fuzzy decision trees for classification of high spatial resolution remote sensing images[J]. Geoscience and Remote Sensing, IEEE Transactions on, 2012, 50(1): 149-169.

[4] Steinwart I. Support vector machines are universally consisitent[J]. Jounal of Complexity, 2002,18(3):768-791

[5] Brailovsky V L, Barzilay O, Shahave R. On global, local, mixed and neighborhood kernels for support vector machines[J]. Pattern Recognition Letters, 1999, 20(11): 1183-1190.

[6] Zhang H, Berg A C, Maire M, et al. SVM-KNN: Discriminative nearest neighbor classification for visual category recognition[C]//Computer Vision and Pattern Recognition. 2006 IEEE Computer Society Conference on. New Jersey:IEEE, 2006: 2126-2136.

[7] Blanzieri E, Melgani F. Nearest neighbor classification of remote sensing images with the maximal margin principle[J]. Geoscience and Remote Sensing, IEEE Transactions on, 2008, 46(6): 1804-1811.

[8] Cheng H, Tan P N, Jin R. Efficient algorithm for localized support vector machine[J]. Knowledge and Data Engineering, IEEE Transactions on, 2010, 22(4): 537-549.

[9] Segata N, Blanzieri E. Fast and scalable local kernel machines[J]. The Journal of Machine Learning Research, 2010, 11: 1883-1926.

[10] 尹传环, 牟少敏, 田盛丰,等. 局部支持向量机的研究进展[J]. 计算机科学, 2012, 39(1): 170-174.

[11] Lewis D D, Catlett J. Heterogeneous uncertainty sampling for supervised learning[C]//IEEE. Proceedings of the eleventh international conference on machine learning.New Jersey: IEEE, 1994: 148-156.

[12] 吴伟宁, 刘 扬, 郭茂祖, 等. 基于采样策略的主动学习算法研究进展[J]. 计算机研究与发展, 2015, 49(6): 1162-1173.

[13] Tong S, Chang E. Support vector machine active learning for image retrieval[C]// ACM. Proceedings of the ninth ACM international conference on Multimedia. Texas: ACM, 2001: 107-118.

Research on the Classification of the High Resolution
Remote Sensing Images Based on DLSVM

Shu Zhenyu1,2, Wang Dianhong2,Zhou Cheng2,Hai Taoyang1

(1 College of Electronics and Information, South-Central University for Nationalities, Wuhan 430074, China;2 Institute of Geoscience & Geomatics, China University of Geosciences, Wuhan 430074, China)

In order to further improve the classification accuracy and efficiency of the high resolution remote sensing images, a local support vector machine algorithm based on distance (DLSVM) with combining the algorithms of the Support Vector Machine (SVM) and the Local Support Vector Machine (KNNSVM) under the assistance of the Active Learning theory is proposed. Through comparing the distance from the unlabeled samples and the hyper plane with the threshold, the label of the unlabeled samples are determined by building a KNNSVM classifier or not. Experimental results on the real high resolution remote sensing images classification show that the proposed algorithm can improve the accuracy of the SVM and decrease time consuming of the algorithm KNNSVM greatly with the right threshold and K.

high resolution remote sensing images; SVM; KNNSVM

2015-09-02 *通信作者 周 城(1978-),男,讲师,博士,研究方向:图像处理,E-mail:czhou@scuec.edu.cn

舒振宇(1978-),男,讲师,博士,研究方向:图像处理,E-mail:zhenyushu@scuec.edu.cn

湖北省自然科学基金资助项目(BZY14019)

TP39

A

1672-4321(2015)04-0078-07

猜你喜欢

超平面阈值向量
向量的分解
基于非线性核的SVM模型可视化策略
全纯曲线正规族分担超平面
土石坝坝体失稳破坏降水阈值的确定方法
有限维Banach空间中完备集的构造
聚焦“向量与三角”创新题
采用红细胞沉降率和C-反应蛋白作为假体周围感染的阈值
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
基于迟滞比较器的双阈值稳压供电控制电路