基于主成分分析与Fisher判别的NIR木材识别1)
2013-09-18杨金勇
杨金勇
(北京林业大学,北京,100083)
李学春
(广东省海洋工程职业技术学校)
黄安民
(中国林业科学研究院木材工业研究所)
于仕兴 王学顺
(北京林业大学)
木材识别是一种根据木材的结构特征(包括内部组成特征与外部形态特征)的差异而进行分类判别的方法。传统的木材识别是根据木材的树皮、颜色、气味等作为主要识别依据以及通过制作显微切片,观察木材构造特征,并一一对照木材检索表来确定木材种类的。但是这些传统方法过度依赖于木材解剖学知识和实践经验,且识别过程复杂、费时、成本高。近些年来,随着新技术的开发和应用,国内外学者在木材识别新技术、新方法方面进行了大量的研究[1-4],木材树种识别技术不断提高。特别是随着计算机技术、人工智能技术和现代光谱技术的发展,智能计算机辅助光谱技术进行木材树种识别被广泛关注,成为木材识别技术新的研究热点。
近红外光谱(NIR)是指波长在780~2500 nm范围内的电磁波,是物质含氢基团(C—H、O—H、N—H、S—H、P—H等)振动的倍频和合频吸收。近红外光谱分析技术是近年来迅速发展起来的一门高新技术,主要用于有机物质定性和定量分析。近红外光谱技术作为一种先进的检测技术,具有操作简便、预测快速准确、无损识别等优点,已在众多领域得到了广泛的应用[5-8]。我国已开始将其用在木材科学的研究中,并取得了很好的应用效果[9-15]。在近红外光谱的判别分析中,主成分分析是常用的数据处理方法,它可结合软独立识别分类模型(SIMCA)、偏最小二乘回归—判别分析(PLS-DA)等化学计量学方法,它们都是在种类识别上的发展较成熟的常用技术[16-17],但是这些方法往往忽略对原始数据的预处理选择。
本研究以采集的4种木材(3类松树和桉树)的光谱数据作为研究目标对象,结合多元数据处理中的Fisher判别分析模型[18],比较了不同数据预处理技术对判别模型的影响,并采用两阶段建模方式进行木材的分类识别研究。
1 材料与方法
1.1 材料
本研究所采用的实验材料为3种松树样品(马尾松、落叶松、樟子松)与大叶桉树样品。3种松树样品数分别为42、64、46个;大叶桉样品数为30个,共计182个样品。木材样品由中国林业科学研究院木材工业研究所提供,并在中国林科院近红外光谱实验室采集木材光谱。实验室的采集设备是美国分析光谱仪器公司(Analytical Spectral Devices Inc.)的Field Spec®近红外光谱仪,光谱仪的波长范围在350~2500 nm。在采集光谱的过程中实验室内的温度、湿度等外界环境条件保持基本常态((22±1)℃,含水率10%以下)。
1.2 方法
对于采集的木材样品光谱数据利用光谱分析软件The Unscrambler9.7及数学统计软件SPSS、Matlab与Excel等进行数据处理,软件的操作运行平台为Win7 x64。
1.2.1 光谱数据的预处理
由仪器提取得到的光谱数据一般要进行预处理,以削减光谱噪声的干扰,在一定程度上减弱基线漂移影响,从而达到光谱特征信息增益的目的。本研究重点关注的是大于780 nm的长波谱段的特征信息,故对原始光谱做了删减处理,剔除350~779 nm波段,保留大于780 nm的光谱数据。
在进行光谱分析时,通常需要借助一系列数据的优化处理技术使光谱数据中所蕴含的光谱特征信息突显出来,为建立数学模型提供更优质的光谱数据。导数光谱既可以消除基线漂移和平缓背景等因素对光谱分析的不利影响,同时又能提供比原光谱更高的分辨率和更清晰的轮廓变化。为了对比不同光谱处理方法对判别模型的影响,本研究对原始光谱进行一阶导数光谱和二阶导数预处理,求导过程中采用相同的五步指数平滑法对导数光谱中的噪声进行弱化处理,并与原始光谱进行对比,以3组光谱数据作为输入数据分别建立木材树种识别模型。
1.2.2 主成分分析降维
近红外光谱由于信息重叠严重,因此需要结合化学计量方法对其进行数据压缩,以解决光谱重叠、相关性过强等干扰信息的问题。化学计量方法中的主成分分析(PCA)是统计学中经典的数据降维算法。由于木材原始光谱是高维的数据集,如果直接利用原始光谱建立判别分析模型,光谱中具有的多重共线性、信息重叠等不利因素的影响,会造成所建模型出现过拟合现象,降低模型分析精度。在建立分析模型前,本研究采用主成分分析对多维数据进行压缩处理,将处于高维空间的原始数据通过仿射变换投影到低维空间中。经主成分分析后,用数量较少的主成分得分可以解释原有的绝大部分信息,在大大提高建模运算速度的同时,又能避免过拟合的现象。因此,主成分分析是光谱分析技术中常用的数据提取优化方法,在选择主成分数量时按方差解释度原则进行提取,3组数据经主成分分析的解释度如图1所示。可以看出,3组光谱信息经过主成分分析压缩后,原始光谱经5~6个主成分变量分析,解释度就已经开始越近100%;均以98%的解释度作为选取原则,二阶导数光谱取40个主成分时光谱的解释度达到要求,一阶导数光谱需要的主成分数量最多,需要取50个主成分以满足解释度98%的条件。
图1 三组数据的主成分分析解释度
因此用这些新计算出的综合变量可以在一定精度下代替原来的高维数据,以作为判别模型的输入数据。为了后面对判别分析模型进行评价,需要设立训练样品集与预测样品集,本研究按照2/3训练的原则进行样品集的处理,不同样品的训练集、预测集数目如表1所示。
表1 不同样品的训练集、预测集数目
1.2.3 Fisher判别分析
Fisher判别是应用广泛的判别方法,针对于多类别样本有建模迅速、精确度高等优点,而且在判别之后可保留各类别特征函数,在Fisher判别空间中能反映出各类别的差异。Fisher判别的核心思想是投影,它实际是将高维空间中的样本利用线性函数变换到低维空间中,再用方差分析的思想,构造类间离差平方和与类内离差平方和之比进行判别,因此Fisher判别分析是一种对距离判别的改进判别方法。
针对 p 维空间中的点(x1,x2,…,xp),借助方差分析的思想构造一个判别函数:
其中各系数ci的确定原则是使类与类之间的差别最大,而使每个类内部的各样本点的相似性最强;借助方差分析的角度,就是依据组间均方差与组内均方差之比最大的原则来进行判别。
通过两个极性条件可为训练集样本中的每一个类求出最优的Fisher判别函数,对于一个m类的样本,得m个判别函数
那么,将每个待判别样本代入判别函数可求出m个判别得分,根据这些得分的数值就能按照距离判别的方法进行判别。一般用前2个典型判别函数生成的二维空间可以对所判样本的总体情况进行了解,较理想的判别结果往往是几个类别各自聚集在一起,相互有明显的分割界限。
2 结果与分析
2.1 判别准确率
将3组主成分得分数据导入SPSS统计软件,进行Fisher线性判别分析。这里采用两步判别的思想——先检查松树与桉树两大类的判别效果,再来评定马尾松、樟子松与落叶松3种同属松树的判别结果。通过比较两组不同的判别结果以分析原始光谱与经预处理后的光谱数据对判别模型的影响。因此,模型对桉树与松树两属的识别率以及3种松树间的松属识别率进行分类统计。
表2 种属木材间的判别统计结果
表2结果显示3组数据的判别结果都能将桉树与松树两类准确判别,识别率均达到100%,而且经过低阶导数预处理后判别模型的精度均较原始光谱的预测精度增加,其中二阶导数光谱精度提升明显。从训练集与预测集角度分析,只考虑3种不同松树间样本,得到判别准确率统计结果。
表3 3种松树判别的训练集与预测集准确率
从表3中可看出经预处理后的光谱数据均明显优于原始光谱数据,说明预处理起到优化目的,而且二阶导数光谱在训练集和预测集的判别精度较一阶导数光谱均有大幅提高。
将121个训练集样本和61个测试集样本的判别结果按照树种种类列出判别结果,能够进一步对判别模型对松属间的识别存在的误判细节进行分析,这里取二阶导数光谱的判别结果。
2.2 判别分类空间
利用前两个典型Fisher变量生成二维空间,可以看出桉树样本全部集中在右侧,而3种松树则位置邻近聚集在空间中部。从判别空间中,马尾松相对较为孤立偏远,而樟子松和落叶松相对距离较近,易出现错判,3类的质心点未出现明显重合现象。
表4 二阶导数光谱判别模型结果
图2 二维Fisher判别空间图
3 结论
本研究利用基于主成分分析的Fisher判别方法,分别建立桉树与3种不同松树木材光谱识别模型,对于桉、松两种不同树种木材识别效果很好。同属于松树的3类木材树种在化学构成上具有很强的相似性,在经过数据预处理后,以经过主成分分析和预处理后的光谱数据作为输入变量所建立的优化Fisher多分类松树识别模型,能达到较好的判别精度。因此基于主成分分析的Fisher判别方法结合木材近红外光谱的木材树种识别方法具有很好的应用研究价值。
[1]王学顺,戚大伟,黄安民.基于小波变换的木材近红外光谱去噪研究[J].光谱学与光谱分析,2009,29(8):2059-2062.
[2]曹槐,路帆,李虹,等.不同来路海洛因近红外光谱的支持向量机模式识别[J].计算机与应用化学,2009,26(3):287-291.
[3]何锡文,邢婉丽,史慧明.模式识别及其在分析化学中的应用[J].分析科学学报,1995,11(4):64-70.
[4]杨忠,江泽慧,费本华,等.近红外光谱技术及其在木材科学中的应用[J].林业科学,2005,41(4):177-183.
[5]吴桂芳,何勇.应用可见/近红外光谱进行纺织纤维鉴别的研究[J].光谱学与光谱分析,2010,30(2):331-335.
[6]李晓丽,何勇,裘正军.一种基于可见—近红外光谱快速鉴别茶叶品种的新方法[J].光谱学与光谱分析,2007,27(2):279-282.
[7]史春香,杨悦武,郭治昕,等.近红外光谱在中药质量控制中的应用[J].中草药,2005,36(11):1731-1733.
[8]李彦周,闵顺耕,刘霞.近红外化学模式识别方法及应用研究[J].光谱学与光谱分析,2007,27(7):1299-1303.
[9]姚胜,蒲俊文.近红外光谱分析技术在木材材性分析中的研究进展[J].光谱学与光谱分析,2009,29(4):974-978.
[10]马明宇,王桂芸,黄安民,等.人工神经网络结合近红外光谱用于木材树种识别[J].光谱学与光谱分析,2012,32(9):2377-2381.
[11]张鸿富,李耀翔.近红外光谱技术在木材无损检测中应用研究综述[J].森林工程,2009,25(5):26-31.
[12]Kelley S S,Rials T G,Snell R,et al.Use of near infrared spectroscopy to measure the chemical and mechanical properties of solid wood[J].Wood Science and Technology,2004,38(4):257-276.
[13]Schimleck L R,Evans R.Estimation of wood stiffness of increment cores by near infrared spectroscopy:the development and application of calibrations based on selected cores[J].Iawa Journal,2002,23(3):217-224.
[14]李改云,黄安民,王戈,等.近红外光谱法快速测定毛竹Klason木质素的含量[J].光谱学与光谱分析,2007,27(10):1977-1980.
[15]黄安民,江泽慧,李改云.杉木综纤维素和木质素的近红外光谱法测定[J].光谱学与光谱分析,2007,27(7):1328-1331.
[16]江泽慧,费本华,杨忠.光谱预处理对近红外光谱预测木材纤维素结晶度的影响[J].光谱学与光谱分析,2007,27(3):435-438.
[17]周健,成浩,叶阳,等.基于近红外的Fisher分类法识别茶叶原料品种的研究[J].光学学报,2009,29(4):1117-1121.
[18]杨忠,江泽慧,吕斌.红木的近红外光谱分析[J].光谱学与光谱分析,2012,32(9):2405-2408.