基于决策树多分类支持向量机岩性波谱分类*
2014-03-23王正海何凤萍祖玉川
王正海,方 臣,何凤萍,祖玉川,王 磊,王 娟
(1.中山大学地球科学系,广东 广州 510275;2.广东省地质过程与矿产资源探查重点实验室,广东 广州 510275;3.湖北省地质调查院,湖北 武汉 430034)
高光谱遥感作为一种新兴的遥感技术在地质领域得到了广泛的应用,特别是高光谱数据能以足够高的波谱分辨率、丰富的波谱信息区分各种矿物和岩石在电磁波谱上显示的诊断波谱特性,进而定量识别不同的矿物成份,因而在地质矿物分类及制图上具有良好的应用前景[1-2]。然而,高光谱数据量大、维数高的特点又使其在处理上具有特殊性。目前常用的多光谱遥感图像的一些分类方法不能对高光谱数据进行有效处理,如人工神经网络分类、独立成分分析等在高维问题中无法有效解决Hughes现象和保证小样本下的分类精度问题[3-5]。
支持向量机(SVM)在1979年由Vapnik首先提出,算法的基本思想是为了寻找分离两种类别的数据集之间的超平面,然后通过机器学习,在潜在高维空间中寻找最优分类边界,实现最优分类[5-6]。作为小样本统计学习的最佳理论,支持向量机应用于分类时具有适用于高维特征空间、小样本统计学习及抗噪声影响能力强等特点,正在成为人工智能和机器学习领域新的研究热点。
由于支持向量机主要是解决两类的分类问题,而野外实测岩石样品有多种类型,因此需要对支持向量机算法加以改进来实现多类分类,为此,本文提出了一种基于决策树的多分类的支持向量机算法(DT-SVMs),通过构建多个两类支持向量分类机来实现多分类,建立一种基于决策树的多类分类支持向量机的野外实测岩性波谱分类模型。
1 方 法
本文首先对野外实测岩石波谱数据进行预处理,如波谱曲线光滑、水汽影响波段去除等,然后,对预处理后实测岩石波谱数据进行特征提取,找到岩石波谱差异信息,构建岩性波谱特征参数空间。由于支持向量机主要是解决两类的分类问题,而实测岩石波谱有多种类型,因此需要对支持向量机算法加以改进来实现多类分类。本文引入了一种基于决策树的多分类的支持向量机算法,通过构建多个两类支持向量分类机来实现多分类,即岩石波谱预处理、特征提取、决策分类数构建和支持向量机分类四个步骤来实现岩石样品的分类识别。
1.1 特征提取
地物波谱特征分析是高光谱遥感信息提取的基础。区分和找到不同地物的波谱差异,是通过遥感技术识别地物的关键。本文利用野外波谱仪获取岩石波谱信息,研究野外采集岩石波谱特征,选择出能够有效反映地物属性的波段区间,从中发掘表征岩石特性的诊断波谱区间和特征参数,进而实现岩石波谱分类。
1.1.1 包络线去除 原始岩石波谱的谱形特征变化不明显(图1),包络线去除法可以有效地增强岩石波谱的谱形特征变化[7-8]。包络线直观来看相当于波谱曲线的“外壳”,近似与曲线中各个波峰点连起来的折线,在求出包络线后可以对波谱曲线进行包络线去除,包络线去除后的波谱曲线是原始波谱曲线与包络线的比值[9]。
图1 包络线去除前后的波谱曲线
1.1.2 吸收谷特征参数 为了准确的表述波谱吸收波段的位置形态,通过岩石波谱曲线吸收谷的特性分析,引入吸收波段波长位置(P)、深度(h)、宽度(w)、对称度、面积(A)六个波谱吸收特征参量[7-9]。吸收波段位置是吸收峰反射率最小值处的波长;吸收深度为吸收谷点M到两个肩部端点Ss、Se所组成的“非吸收基线”的距离;宽度指最大吸收深度一半处的波谱带宽;对称度可定义为以过吸收位置的垂线为界线,右边区域面积与左边区域面积比值,面积为宽度和深度的综合参数(图2)。
图2 波谱吸收特征参量
由于水汽吸收的干扰,岩石波谱曲线被划分为350~1 300、1 500~1 800、2 000~2 400 nm三个波段区间。在2 000~2 400 nm可以提取波谱的吸收特征,对该区间吸收谷计算吸收深度(h)、吸收宽度(w)、吸收面积(A)、吸收对称性、吸收指数(SAI)。在1 500~1 800 nm岩石反射率曲线变化比较平缓,无法找到不同岩石类型的波谱差异,舍弃。实测岩石波谱在750~1 000 nm有比较明显的上升趋势,不同岩性的波谱曲线上升幅度有所差异。为此,通过多项式拟合的方法将该波段的曲线用多项式y=kx+b表达,这样利用参数k和b就可以表达该波段曲线的上升特征(图3)。
图3 不同岩性的波谱曲线
1.2 支持向量机分类器
1.2.1 支持向量机基本思想 支持向量机最开始是研究两类的线性分类问题,核心思想就是把数据非线性映射到高维特征空间,在高维特征空间中构造具有低 VC 维的最优分类超平面,使分类风险上界最小。基本思想可以由图4得出,图4中,实心点和空心点代表两类样本,H为分类线。
图4 线性可分情况下的最优分类线
假定训练样本数据(x1 ,y1),…,(xi ,yi),x∈Rn,y∈{+1,-1},可以被一个超平面分开,进行正归化后,此时分类间隔为2/‖w‖,为了使分类间隔最大,即‖w‖2最小。因此最优分类问题可以表示成一个二次规划问题,即求函数
s.t.yi((w·xi)+b)≥1,i=1,…,l
的最小值。我们可以通过寻求上式的对偶问题来求解最小值,为此可以引入Lagrange函数
其中,αi>0为Lagrange系数,然后对w和b求Lagrange函数的极小值[10-13]。
1.2.2 核函数 上述介绍的是基于线性分类的支持向量机,而实际上分类问题更多是非线性分类,因此,需要把线性支持向量机推广到一般的非线性支持向量机。通过样本数据变换到高维空间中实现非线性分划到线性分划的转化。为此,需要引入核函数,其定义为:如果存在Rn到Hilbert空间H的变换
使得
K(x,x′)=(Φ(x)·Φ(x)′)
定义函数K(x,x′)为核函数,常用的核函数有多项式核函数、径向基(RBF)核函数、Sigmoid核函数等[14]。
1.3 基于决策树多分类支持向量机(DT-SVMs)
支持向量机主要用于解决两类的分类问题,岩石波谱数据有多种类别,因此需要对标准的支持向量机进行改进。本文探索研究引入基于决策树的多类支持向量机,在训练层的顶层结点构建一个超平面把某一类和其他所有类分离,然后在剩下的类中继续构建一个超平面把其中一类分离出来,重复上述操作直到所有类都被一一分离出来。如何分析各个类别之间的关系是应用此方法的关键。本文采用了基于欧氏距离的决策树。
对于两个类i和j,两个类之间的欧氏距离,首先计算每个类的中心位置
Xi是类i的所有样本向量,ni是类i的样本数,类i和j的欧氏距离是
dij(=dji)=‖ci-cj‖
比较各个类别之间的欧氏距离来决定决策树的构建顺序,其具体构建步骤为(图5)。
1)依次计算一类样本Xi的中心与其他所有类别Xj的中心的欧氏距离dij;
2)对于类i,定义它与其他类的欧氏距离的最小值为i的距离li
将(i=1,…,N)按从大到小的顺序排列,有最大的那一类将被首先分离,以此可以构建该类与剩下所有类的超平面;
3)如果遇到多个类的的值是相等的,可以比较这些类第二最小距离的大小,然后按照(2)中的方法处理,如果也出现相等的情况则按上述方法继续比较下去,直到所有类别都能分离出来;
4)最后,各类按顺序依次构建N-1个支持向量分类机,将所有类别分离出来。
图5 决策树示意图
2 分类实验
2.1 波谱数据预处理
FieldSpectr Fr野外波谱仪测量的数据是在350~ 2 500 nm范围内地物波谱的反射率。为了避免水汽吸收对波谱整体形态和数据处理的影响,通过分析具体数据和借鉴有关文献的结论,剔除了3个水汽吸收峰影响严重的波段区域,具体的剔除范围为1 350~1 416、1 800~1 970、2 470~2 500 nm。剔除水汽吸收波段后对剔除的部分采用插值方法处理,本文采用的是三次多项式拟合的插值方法。
2.2 基于DT-SVMs的高光谱分类模型构建
本文使用的岩石波谱采集自云南北衙地区,该地区有大型金矿床,因此主要采集与矿化有关的蚀变岩和围岩,包括铁化白云质灰岩、铁化白云质泥灰岩、灰岩角砾岩、斑岩和微晶灰岩等。选取了6类岩石波谱数据,共48个波谱数据,首先对波谱中噪声比较大的两个波段区进行过滤并重新插值,然后对整个波谱进行平滑处理以消除锯齿,再使用包络线去除找到波谱曲线中比较明显的波峰波谷位置的波长。对350~1 000 nm波段的曲线进行多项式拟合提取参数k和b;对2 000~2 400 nm波段的吸收谷计算吸收深度、吸收宽度、吸收面积、吸收对称性、吸收指数。表1是部分岩石波谱曲线通过计算提取的11个特征参量。
3 实验结果与讨论
3.1 实验结果
对于研究的48个岩石样品波谱数据,选取32个样品作为训练样本,其余16个样品作为测试样本用来检测分类机的分类精度。首先,对32个训练样本的变量进行归一化处理,以消除各参量之间的差异,便于对比分析。通过各类中心计算各类别之间的欧氏距离(表2)。该6类岩石的分类顺序依次为类2、类1、类5、类3、类6、类4。这样就需要构造5个支持向量分类机,每个分类机的惩罚因子C通过网格遍历和交叉验证的方法获得最优值,经过测试C的最优值分别为C1=2、C2=32、C3=2、C4=512、C5=2,最终的分类结果如表3。由表3中可以看出:16个测试样品有1个样品被错误分类,分类精度为93.75%。有一个深灰色铁化白云质泥灰岩错分成铁化白云质灰岩。
3.2 讨论
针对地面岩石波谱的高维、多类特点,本文首先详细研究了岩石波谱的曲线特征,根据吸收特征提取了吸收位置、吸收深度、吸收宽度、吸收对称性、吸收面积和吸收指数等特征参数,结果表明提取的特征参数可以很好地保留岩石波谱的特征信息;其次,在分析SVM分类方法的基础上,引入决策树思想(即根据各类样本中心的欧氏距离的大小依次分离),构建了一种基于决策树的多分类支持向量机的地面岩石高光谱遥感分类模型。结果表明在岩石波谱分类有很好的推广性。
基于决策树的多分类支持向量机的地面岩石高光谱遥感分类模型,在以下方面还有待进一步深入研究:①岩石波谱特征并没有出现与矿物波谱完全对应特征吸收带,原因可能是岩石混合波谱的成像机理不明或波谱预处理不当,如何有效实现岩石波谱分解,建立相应的岩石波谱与矿物波谱的量化对应模型,矿物波谱与元素含量的对应模型是进一步推动遥感地质发展的契机;②决策树判别准则的选取以及SVM核函数的选择和改进是进一步提高分类精度的研究方向。
表1 部分岩石波谱的特征参量1)
Table 1 Descriptive characteristic spectrum parameters from a part of rocks
类别编号K1K2K3K4K5K6K7K8K9K10K111by1 0190 3480-0 00230 4930 5770 6792 3210 08880 2380 0163-0 52581 0493by1 0210 12920 08380 4830 5890 6772 3310 07540 2380 0082-0 64301 0694wlp 0340 2902-0 01060 5360 5770 6862 3280 14500 2590 0163-0 21871 14592wds 0460 2360-0 06800 4220 9951 1302 2000 17500 1120 0114-0 22261 1865wds 0490 2527-0 05560 4120 9961 1262 2060 18070 1180 0137-0 45401 1761wds 0500 2757-0 07020 4200 9991 1282 2060 15110 1200 0093-0 47671 16683by2 0160 2421-0 04520 5030 5660 6842 3190 04380 1240 0026-0 22511 0370by3 0000 3951-0 08710 5070 5680 6862 3140 05320 1230 0034-0 14451 0523by3 0040 5789-0 10150 5100 5630 7222 3150 07260 1220 0043-0 10541 06674wds 0300 22790 10200 4950 5610 6812 3100 20890 1320 0129-0 00561 2125wds 0360 4621-0 09890 5250 5650 6922 3130 16560 1430 0107-0 11651 1741wds 0620 2853-0 08070 4890 5600 6722 3270 11360 1290 0107-0 39811 10255by1 0060 2505-0 00460 4970 5620 7432 3060 12460 1310 0134-0 06251 0509by2 0480 4214-0 09460 4970 5700 6822 3160 08410 1490 0054-0 26431 0789jgb 0060 3201-0 11410 5070 5480 6752 3190 11180 1230 0114-0 36401 06806hnp 0300 2786-0 07070 4980 5800 6772 3100 06760 1610 0058-0 09081 0725by2 0460 3821-0 12500 4920 5830 6762 3190 07680 1630 0052-0 26791 0782wds 0000 2508-0 01970 4820 5860 6922 3140 30110 1600 0513-0 09611 0693
1)1表示灰黄色蠕虫状泥灰岩;2表示紫红色含砾粘土砂砾岩;3表示灰色白云质砂屑灰岩;4表示灰色泥砂胶结灰岩角砾岩;5表示深灰色铁化白云质泥灰岩;6表示红色铁化白云质灰岩;K1:多项式拟合系数k;K2:多项式拟合系数b;K3:吸收谷位置λ1/μm;K4:吸收峰位置λ2/μm;K5:吸收谷位置λ3/μm;K6:吸收谷位置λ4/μm;K7:吸收深度H;K8:吸收宽度D/μm;K9:吸收面积S;K10:吸收对称性K;K11:吸收指数SAI
表2 样本间欧氏距离
表3 岩石波谱分类结果
参考文献:
[1]张宗贵,王润生,郭小方,等. 基于地物光谱特征的成像光谱遥感矿物识别方法[J]. 地学前缘, 2003,10(2):437-443.
[2]陈文霞,陈安升,蔡之华. 基于高光谱吸收特征参数的分类研究[J].计算机工程与应用,2008,44(28):230-232.
[3]ZHU Guobin, BLUMBERG Dan G. Classification using ASTER data and SVM algorithms: The case study of Beer Sheva, Israel[J]. Remote Sensing of Environment,2002,80(2):233-240.
[4]ANDERS Knudby, ELLSWORTH LeDrew, ALEXANDER Brenning. Predictive mapping of reef fish species richness, diversity and biomass in Zanzibar using IKONOS imagery and machine-learning techniques[J]. Remote Sensing of Environment,2010,114(6):1230-1241.
[5]BJOM Waske, JON Atli Benediktsson. Fusion of support vector machines for classification of multisensor data,Geoscience and Remote Sensing[J]. IEEE Transactions on,2007,45(12):3858-3866.
[6]MATTIA Marconcini, GUSTAVO Camps-Valls, LORENZO Bruzzone. A composite semisupervised SVM for classification of hyperspectral images[J]. Geoscience and Remote Sensing Letters, IEEE,2009,6(2):234-238.
[7]梁亮,杨敏华,李英芳. 基于ICA与SVM算法的高光谱遥感影像分类[J]. 光谱学与光谱分析,2010,30(10):2724-2728.
[8]杨佳佳,姜琦刚,赵静,等. 基于改进的SVM技术和高光谱遥感的标准矿物定量计算[J]. 吉林大学学报:地球科学版,2012,42(3):864-871.
[9]徐元进,胡光道,张振飞. 包络线消除法及其在野外光谱分类中的应用[J]. 地理与地理信息科学,2005,21(6):11-14.
[10]黄婷婷,韦志辉,修连存,等. 基于吸收峰加权的岩矿光谱匹配方法研究[J]. 岩矿测试,2011,30(5):584-589.
[11]Vladimir Naumovich Vapnik. The nature of statistical learning theory[M]. 北京:淸华大学出版社,2000.
[12]谭琨,杜培军. 基于支持向量机的高光谱遥感图像分类[J]. 红外与毫米波学报,2008,27(2): 123-128 .
[13]唐发明. 基于统计学习理论的支撑向量机算法 [D]. 武汉:华中科技大学, 2005.
[14]张学工. 关于统计学习理论与支持向量机[J]. 自动化学报,2000,26(1):36-46.