基于支持向量机的高光谱遥感影像分类
2020-02-25肖博林
肖博林
摘 要:高光谱遥感是将成像技术和光谱技术相结合的多维信息获取技术。自发展以来,已在各个方面都显示出了巨大的研究潜力,成为遥感应用最广泛的领域之一。然而,如何充分利用高光谱遥感数据提供的丰富的地表信息,以及如何在如此大量的信息中提取有用信息,是摆在研究者面前的一项重要课题。高光谱遥感影像处理的一项重要内容就是地物目标的分类。文章基于支持向量机算法原理,提出了一种应用于高光谱影像的分类机制,并在印度松树(Indian Pines)和帕维亚大学(Pavia University)数据集上进行了验证实验,取得了较高的分类精度。
关键词:高光谱遥感;支持向量机;分类算法
中图分类号:TP751 文献标志码:A 文章编号:2095-2945(2020)04-0022-03
Abstract: Hyperspectral remote sensing is a multi-dimensional information acquisition technology that combines imaging technology and spectral technology. Since its development, it has shown tremendous research potential in all aspects, and has become one of the most widely applied fields of remote sensing. However, how to make full use of the rich surface information provided by hyperspectral remote sensing data and how to extract useful information from such a large amount of information is an important issue facing researchers. An important content of hyperspectral remote sensing image processing is the classification of ground objects. Based on the principle of support vector machine algorithm, this paper proposes a classification mechanism applied to hyperspectral imagery, and has performed verification experiments on the Indian Pines and Pavia University Dataset, which has achieved higher Classification accuracy.
Keywords: hyperspectral remote sensing; support vector machine; classification algorithm
1 概述
高光谱遥感又称成像光谱遥感,是将成像技术和光谱技术相结合的多维信息获取技术[1]。高光谱遥感数据因其有着丰富的光谱信息和地物空间分布信息,极大地提高了识别和区分各类地物的能力。目前高光谱遥感已在社会生活各个方面都凸显出了巨大的研究潜力,在精细农业、地质调查、生态建设、海洋遥感、军事侦察等方面具有重要的研究价值和意义。
鉴于高光谱遥感数据丰富的光谱信息和地物空间分布信息,极大地提高了区分和识别各类地物的能力。因此对高光谱遥感影像进行分类是人们获取信息价值的重要途径之一,通过分类可以清晰地认识地物的空间分布,从中发现规律,并将图像中所有像元划分为不同的土地覆盖类型,由此进行专题信息的提取或是专题地图的制作,从而反映出某类地物的空间分布以及各类地物的详细情况。
2 本文分类算法
支持向量机[2](Support Vector Machine,SVM)是Vapnik团队开发出来的一种基于统计学习理论的机器学习算法,是统计学习理论中最新颖、最具实用性的方法之一。SVM的特点是可以同时最小化经验误差和最大化分类间隔,即通过寻找一个既能保证分类精度,又能使两类数据之间间隔最大化的超平面来实现监督学习。该方法具有较强的非线性和高维数据处理能力,也较好地解决了维数灾难问题,是当前国际机器学习界的研究热点之一[3]。
在SVM中,模型在较高维空间中构造一个超平面或一组超平面。SVM的超平面线性模型可以定义为:
其中?准(x)是变换后的特征空间。间隔定义为从决策超平面到数据集中最近点的最小距离。在SVM问题中,我们试图构造决策边界超平面,以使数据集的边际最大化。对于每个数据点,ti是目标标签,其中t∈{-1,1}。在我们的方案中,问题是非线性可分,所以我们将使用软边距SVM,并引入松弛变量ξi≥0。ξ允許对轮廓进行错误分类。当ξi>1时,数据点被错误分类。同时,我们应具有以下不等式约束:
这是因为对于tn=1的点,我们需要使y(xn)>0,对于tn=-1的点,必须使y(xn)<0。从数据点xn到决策边界的距离为硬边距由下式给出:
为了找到最大的边距解决方案,我们简化了软边距的松弛变量,SVM问题最终变为:
变量C是正则化参数,用于控制边距和分类错误的容忍度之间的权衡。由于SVM问题是凸优化问题,因此我们总是可以从模型中获得全局最优值。有了最佳决策边界,我们可以使用它来将数据集分类为不同的标签。
3 实验分析
3.1 实验数据
印度松树(Indian Pines,IN)数据集是AVIRIS(机载可见光/红外成像光谱仪)传感器于1992年在印第安纳州西北部的测试场地上收集的场景,具有145×145个像素和224个光谱反射带,通过去除覆盖吸水区域的20多个频带,将频带数量减少到200个。其中可用的土地覆盖被指定为16个类别。如图1所示。
帕维亚大学(Pavia University,UP)数据集是ROSIS传感器于1991年在意大利北部帕维亚上空飞行时拍摄的场景,具有610×340像素,空间分辨率为1.3m。丢弃有噪声的频带之后,使用剩余的103个频带用于评估,共包含9种城市土地覆盖类型。如图2所示。
3.2 精度评价方法
对高光谱遥感图像分类进行评价指的是依据地面实况图来评估所分得的结果的准确性。常用评价方法主要有总体分类精度、平均分类精度以及Kappa系数等。下面对这些评价指标进行具体的介绍。
(1)总体分类精度(Overall Accuracy,OA)
总体分类精度(OA)等于被正确分类的像元总和除以总像元数。被正确分类的像元数目沿着混淆矩阵的对角线分布,总像元数等于所有真实参考源的像元总数。公式如下,N代表样本总数,n为类别数目。
(2)平均分类精度(Average Accuracy,AA)
平均分类精度(AA)指的是每一类分类精度的平均值,即采用各个类别分类精度(CA)除以类别总量N,其公式如下:
(3)Kappa系数
Kappa系数是通过把所有真实参考的像元总数(N)乘以混淆矩阵对角线(hkk)的和,再减去各类中真实参考像元数与该类中被分类像元总数之积之后,再除以像元总数的平方减去各类中真实参考像元总数与该类中被分类像元总数之积对所有类别求和的结果。Kappa系数综合考虑了混淆矩阵中的各个因子,能比较全面的反映总体分类的精度,Kappa系数的值越大,代表相应的分类算法的精度越高。一般公式如下:
3.3 实验结果
图3和图4可视化了基于支持向量机的高光譜影像分类结果,表3给出了精度评价的三个指标。可以看出,两类数据集的分类结果还算令人满意,但是也存在些许噪声点。例如IN数据集中玉米地和大豆地之间,以及农作物和树木之间错分较为明显,这可能是因为其光谱特征距离较小而导致的(异物同谱);UP数据集只是在裸地中出现了些许金属板数据点,可能因为数据本身质量较好,所以错分的现象不是很明显。
4 结束语
本文基于支持向量机算法原理,提出了一种高光谱影像的分类机制,并在印度松树数据集和帕维亚大学数据集上进行了验证实验,取得了良好的分类精度。鉴于分类过程中出现的错分现象,接下来的研究重点将对此进行进一步的探讨。针对数据本身存在的“同物异谱”或是“异物同谱”问题,提出更完善的分类机制,以及对分类后的结果做进一步的降噪和平滑处理。
参考文献:
[1]Goetz A F H , Vane G , Solomon J E , et al. Imaging Spectrometry for Earth Remote Sensing[J]. Science, 1985,228(4704):1147-1153.
[2]Vapnik V N. 1998. Statistical Learning Theory. New York: John Wiley&Sons.
[3]杜培军,林卉,孙敦新.基于支持向量机的高光谱遥感分类进展[J].测绘通报,2006(12):40-43+53.
[4]张良培.光谱分析在高光谱遥感中的应用[D].武汉:武汉测绘科技大学,1998.
[5]牟多铎,刘磊.ELM与SVM在高光谱遥感图像监督分类中的比较研究[J].遥感技术与应用,2019,34(01):115-124.
[6]李静,吴孔江.基于PCA和极限学习机的高光谱遥感分类研究[J].北京测绘,2018,32(07):794-799.