APP下载

基于多核SVM的高光谱影像植被精细分类

2016-11-04秦进春

测绘科学与工程 2016年1期
关键词:单核植被光谱

秦进春,张 丽,彭 宇

1.西安测绘研究所,陕西 西安,710054;2.地理信息工程国家重点实验室,陕西 西安,710054;3.中国天绘卫星中心,北京,102102



基于多核SVM的高光谱影像植被精细分类

秦进春1,2,张丽1,2,彭宇3

1.西安测绘研究所,陕西 西安,710054;2.地理信息工程国家重点实验室,陕西 西安,710054;3.中国天绘卫星中心,北京,102102

植被自身复杂的生长环境和垂直分布结构,使得高光谱影像中的植被特征受到大量异构信息影响。在对植被进行精细分类时,随着植被类别的增加,植被样本信息量大大增加,但植被各类别之间的可分性却在下降,采用单核映射方式对所有植被样本进行处理的分类方法难以得到可靠的分类精度。多核学习方法能够以全新的核函数映射方式对复杂的样本信息进行处理,本文将多核学习方法引入植被精细分类中,提出基于多核SVM的高光谱影像植被精细分类方法,实验结果表明该方法可以显著提高分类精度,在树种识别、精细农业等方面具有广泛的应用前景。

高光谱影像;多核支持向量机;植被精细分类

1 引 言

高光谱影像数据中蕴含着丰富的光谱信息,使得植被种类识别与分类成为可能[1],但是植被精细分类的精度却受到了诸多因素的限制。主要有以下两方面的原因:一是受光谱分辨率和数据质量的影响,不同植被类型的光谱曲线差异不够明显,往往很难进行区分;二是分类方法对多类别精细分类的适应性不够,当植被类别较多的情况下,常规分类方法的分类精度下降比较明显,并且很难达到树种级别的区分[2]。目前,很多学者都在探索研究新的精细分类算法,以提高精细分类精度。

支持向量机(Support Vector Machine,SVM)已经被广泛用于高光谱植被分类中,相比传统分类算法有更高的分类精度[3]。但SVM是基于单个特征空间的单核函数方法,面对复杂样本数据时,单核函数就无法充分挖掘数据信息。因此,出现了利用多核代替单核的多核支持向量机,该方法利用多个核函数对不同来源数据进行分类[4]。尚坤等[5]设计了一种基于合成核支持向量机的高光谱影像分类方法,使用不同的波段选择方法将数据分组,每组数据使用不同的核函数进行分类处理,得到了较好的结果,但其多核函数权系数是通过人工给定的,主观性较强;谷延锋等[6]提出了一种典型多核学习方法对高光谱图像进行分类,利用统计显著性代替耗时的最优核组合搜索法来确定核函数和权系数。

本研究的目的是将简单多核学习引入到植被分类问题中,提出利用多核支持向量机对高光谱植被进行精细分类,并与支持向量机等传统算法进行实验对比,探索如何利用多核支持向量机分类算法来提高植被精细分类精度。

2 多核SVM分类原理

2.1SVM分类

原始的SVM是一种二类分类模型,在非线性情况下,SVM可以通过一定形式的核函数将输入数据非线性的映射到高维特征空间中,并使得数据在高维特征空间中可分,从而构造出最优分类超平面。图1以二维分布情况为例,对最优分类线进行说明。

图1 SVM最优分类线示意图

非线性SVM的学习问题可形式化为如下凸二次规划问题,即SVM的原始问题:

(1)

其中,w为分类超平面的法向量,b为偏移量,C为惩罚系数,ξi为松弛变量。

有训练样本集T={(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,yi∈Y={+1,-1},i=1,2,…n,φ(xi) 表示一个映射,则可通过拉格朗日函数法推导出原始最优化问题的对偶问题:

(2)

其中,k(xi,xj)为核函数,C为惩罚参数。SVM应用中使用较多的是线性核函数、多项式核函数、高斯径向基核函数以及Sigmoid核函数。

2.2多核学习的对偶问题

根据核函数的性质可知,如果K1和K2是在X×X上的核,那么下面的函数也是核函数:

(3)

如果X×X上有M个核函数,那么根据核函数组合特性,下面的函数也是核函数:

(4)

上式是多核学习中核函数的通用形式,它是由多个基核函数线性凸组合而成,式中Km是基核函数,M是基核函数的个数,dm是基核函数线性组合的权系数。分析可知,解决多核学习问题的核心在于对权系数dm的答解。文献[7]在综合考虑分类精度和计算时间的基础上,提出了一种简单多核学习解决方案,并推导证明了简单多核学习方法与多核学习的原始问题是一致的,但是简单多核学习方法在样本和维数较大时,多核矩阵会因过大而导致内存溢出。因此,本文在简单多核学习方法框架下,采用梯度下降法对多核学习原始问题进行答解,从而得到多核学习原始问题的近似最优解。根据文献[7]直接给出包含权系数dm

的简单多核学习优化问题:

(5)

(6)

与式(1)类似,可以根据SVM的答解方法,采用拉格朗日函数将式(6)中的目标函数J(d)转化为一个包含变量dm的凸优化问题,即:

(7)

式(7)中αi,vi与SVM问题中拉格朗日系数相似,λ和ηm是约束dm的拉格朗日系数。而对偶问题又是拉格朗日的极大极小问题,因此,首先求解L对wm,b,ζ,d,α,υ,λ,η的梯度,并置为0,有:

(8)

将式(8)中各式带入式(7)后对α和λ求极大值,即得多核学习的对偶问题:

(9)

2.3多核学习的梯度解

(10)

若式(10)的最优解α*与dm无关,则J(d)对dm的微分为:

(11)

式(11)可以计算出目标函数J(d)的梯度,则通过梯度下降方向来更新满足约束的d值:

(12)

式中,γ为更新步长,Dt为梯度下降方向。

(13)

式中,ε为阈值。通过迭代计算后,能够得到各基核函数参与核矩阵计算的权系数,从而计算出每一类别的决策函数J(d)。

3 实验与分析

3.1植被精细分类流程

(1)高光谱数据波段较多,算法进行训练时容易造成核矩阵过大,影响训练速度,因此首先对原始数据进行波段选择预处理;

(2)由已知地面实测信息采集植被训练样本和测试样本;

(3)选择所需的基核函数及MKSVM的多类分类策略,并对多核函数参数进行初始化设置;

(4)利用梯度下降法迭代计算多核函数权系数;

(5)利用植被训练样本对MKSVM进行训练,得到分类训练模型;

(6)对高光谱数据进行植被精细分类实验,并利用测试样本计算分类结果的混淆矩阵,从而得到总体分类精度、Kappa系数以及单类用户分类精度。

3.2实验区域

实验数据为2001年7月12日利用中科院上海技术物理研究所研制的OMIS航空高光谱成像仪拍摄的陕西省延河流域枣园镇影像,影像波长范围为455.7nm~1642.4nm,影像大小为1323×512像素,空间分辨率为6.6m。影像区域内主要是森林、灌木丛以及草原植被景观,是我国保存较为完好的温带落叶林区[8]。枣园数据信息较为丰富,并且在拍摄之后进行了该区域的实地调绘工作,因此对该区域的样本信息获取较为准确。实验区域野外调绘结果如图2所示,样本分布情况如图3所示,样本信息如表1所示。

图2 枣园高光谱数据野外实地调绘图

图3 枣园高光谱数据样本分布图

表1枣园高光谱数据样本信息

标号名称数量标号名称数量1苹果园地4542葡萄园地3833草地3594好玉米地2745柳树林地356刺槐坡地4137枯苗地4198菜地4229水池36910白杨树20611土豆地26012国槐林地12413一级阶地22814桃园地23415松树苗林地22316一般玉米地44117西瓜地29318苗圃地23219豆角地18420刺槐林地18321胡芝子草坡地21622梨园地275

3.3多核函数参数设置

在简单多核学习过程中,多核函数有单个核函数不同参数和不同核函数不同参数两种组合方式。实验采用第二种组合方式,并选择高斯径向基核函数和多项式核函数作为基核函数,其表达式分别为:

k(x,z)=exp(-||x-z||2/2σ2)

(14)

k(x,z)=(x·z+1)p

(15)

式中,σ为高斯核参数,p为多项式系数。

3.4实验结果与分析

为了对比MKSVM的精细分类效果,实验还利用单核SVM、Fisher判别法以及光谱角匹配法(Spectral Angle Mapping,SAM)这三种常用的传统分类方法对高光谱数据进行了植被精细分类,实验结果如图4所示,精度比较如表2所示。

表2枣园高光谱数据植被精细分类精度对比

名称SAM分类(%)Fisher分类(%)SVM分类(%)MKSVM分类(%)苹果园地100.00100.00100.00100.00葡萄园地93.1894.8296.55100.00草地83.1489.2796.8498.87好玉米地50.7990.28100.00100.00柳树林地84.7858.5778.0896.83刺槐坡地98.1692.38100.00100.00枯苗地55.4586.4392.7092.72菜地67.6484.5291.6794.12水池51.5679.7289.5885.93白杨树56.0059.6464.7068.00土豆地79.3189.23100.0088.97国槐林地59.8266.1282.9774.39一级阶地68.5178.6477.7883.72桃园地98.3196.5885.2499.16松树苗林地61.1274.7482.7184.51

续表2

图4 枣园高光谱数据植被精细分类结果

图5 惩罚系数与分类精度和Kappa系数关系图

分析图4和表2可知,MKSVM获得了最高的分类精度,相比SAM分类、Fisher分类和单核SVM分类分别提高了17.24%、9.4%、4.41%;分析单个植被类别用户使用精度可以看出,在22类地物(主要为植被)中,MKSVM获得了16个类别的最佳用户使用精度,充分说明了MKSVM更能适应多类别精细分类的情况,无论是总体分类精度还是单个类别用户精度,相比于单核SVM都有提高,对Fisher分类和SAM分类更是有明显的优势。

实验中发现不同的核函数参数设置对植被分类提取的精度和算法总体运行时间有较大影响。从图5的关系曲线图也可以看出,惩罚系数C的变化会导致MKSVM分类精度的变化,当惩罚系数在10000时,分类精度和Kappa系数最佳,随着惩罚系数的增大,精度变化不明显,但是会造成运行时间的极大增加。此外,MKSVM虽然能够较好地解决多类别植被精细分类问题,但是随着数据量的增加,MKSVM的计算量也显著增加,其计算速度明显低于其他三种分类方法。

4 结 论

本文在分析单核函数对非线性特征等问题适

应性不足的基础上引入多核函数的概念,将MKSVM用于植被精细分类。该方法以多个核函数线性加权组合的方式代替单个核函数,并通过迭代解算每个单核SVM问题,采用梯度下降法答解多核权系数,从而实现对植被的分类。实验部分详细分析了利用MKSVM对高光谱影像中植被进行精细分类的流程。实验结果表明,MKSVM能够有效提高植被要素的分类精度,对多类别植被精细分类有较好的适应性,在总体分类精度和Kappa系数上都高于单核SVM等传统分类方法,在树种识别、精细农业等方面将具有广泛的应用前景。

[1]余旭初,冯伍法,杨国鹏等.高光谱影像分析与应用[M].北京:科学出版社,2013.

[2]李小梅,谭炳香,李增元等.CHRIS高光谱图像森林类型分类方法比较研究[J].遥感技术与应用,2010,25(2):227-234.

[3]马心璐,任志远,王永丽.支持向量机在高光谱遥感图像植被分类中的应用[J].农业系统科学与综合研究,2009,25(2):204-207.

[4]汪洪桥,孙富春,蔡艳宁等.多核学习方法[J].自动化学报,2010,36(8):1037-105.

[5]尚坤,李培军,程涛.基于合成核支持向量机的高光谱土地覆盖分类[J].北京大学学报(自然科学版),2011,47(1):109-114.

[6]Yanfeng Gu,Chen Wang,Di You.Representative Multiple Kernel Learning for Classification in Hyperspectral Imagery[J].IEEE Transactions on Geoscience and Remote Sensing,2012,50(7):2852-2865.

[7]Rakotomamonjy A,Bach F,Canu S,etc.Simple MKL[J]. Journal of Machine Learning Research,2008,1-34.

[8]杨国鹏.基于机器学习方法的高光谱影像分类研究[D].郑州:信息工程大学,2010.

Sophisticated Vegetation Classification Based on Multiple Kernel SVM Using Hyperspectral Images

Qin Jinchun1,2, Zhang Li1,2,Peng Yu3

1.Xi’an Research Institute of Surveying and Mapping, Xi’an 710054, China 2.State Key Laboratory of Geo-information Engineering, Xi’an 710054, China 3.Tianhui Satellite Center of China, Beijing 102102, China

Due to the complicated growth environment and vertical distribution structure, the vegetation characteristics in hyperspectral images are influenced by a large amount of heterogeneous information. During the sophisticated classification of vegetation, the amount of vegetation sample information increases greatly with the enrichment of vegetation types, but the separability between different classification decreases. Therefore, it is difficult to achieve reliable classification accuracy by processing all samples with classification methods based on single kernel function. By contrast, multiple kernel learning method using new kernel function mapping mode can deal with complicated sample information. The new method is introduced to solve vegetation classification problems, and sophisticated classification method based on multiple kernel SVM is proposed. Sophisticated vegetation classification experiment is conducted using hyperspectral images with real ground vegetation data, and the results show that the method can significantly improve the classification accuracy and has a wide application in species identification, precision agriculture and other fields.

hyperspectral image; multiple kernel SVM; sophisticated vegetation classification

2015-09-29。

秦进春(1989—),男,研究实习员,主要从事高光谱影像应用技术研究。

P223

A

猜你喜欢

单核植被光谱
基于三维Saab变换的高光谱图像压缩方法
基于植被复绿技术的孔植试验及应用
与生命赛跑的“沙漠植被之王”——梭梭
绿色植被在溯溪旅游中的应用
星载近红外高光谱CO2遥感进展
基于原生植被的长山群岛植被退化分析
苦味酸与牛血清蛋白相互作用的光谱研究
三种不同分子标记技术对灵芝单核体多态性的研究
单核Ru(Ⅲ)-edta类配合物的合成﹑结构及性质研究
苯并咪唑衍生的单核钴(Ⅱ)和单核镍(Ⅱ)配合物与DNA和蛋白质的结合反应性及细胞毒活性研究