一种叶片光谱信号的多层次特征提取方法

2016-05-11MultilevelFeatureExtractionStrategyforLeafSpectralSignal

自动化仪表 2016年3期

关键词：波段波长校正

A Multilevel Feature Extraction Strategy for Leaf Spectral Signal

李　响1　吕　勇1张倩暄2(北京信息科技大学仪器科学与光电工程学院1，北京　100192;北京雪迪龙科技股份有限公司2，北京　102206)

一种叶片光谱信号的多层次特征提取方法

北京市自然科学基金资助项目(编号:4154071);

北京市组织优秀人才基金资助项目(编号:2014000020124G105)。

修改稿收到日期:2015－01－06。

第一作者李响(1982－)，男，2012年毕业于北京航空航天大学光学工程专业，获博士学位，讲师;主要从事光电检测方向的研究。

0　引言

叶片作为植物机体最重要的组成部分，不仅是光合作用的主要场所，而且在果实成熟过程中充当了重要的角色［1－2］。植物叶片生化参数(叶绿素和水分)无损检测在精细农、林业等领域具有重要的意义。光谱检测技术以其快速、无损、实时等优点在各个研究领域发挥着重要的作用。

植物叶片在可见/近红外波段(400～1 100 nm)的吸收特征没有近红外波段复杂，尤其是在可见区域，主要受到色素即叶绿素吸收的影响。虽然叶绿素吸收峰相对比较明确，但对于活体检测时，物质的吸收之间存在相关干扰，再加上散射等物理因素的影响，会使这些特征峰发生漂移或重叠。另外，随着季节的变更，植物生长期以及健康状态的改变，其自身机体的保护机制也会使色素的特征吸收波长发生蓝移或者红移［3］。因此针对不同目的的校正模型(数据自身特点和物质结构特点)，需要选择不同的建模波长，从而说明波长选择算法对于叶绿素含量的检测具有重要的意义。

本文对叶片生化参数检测模型的简洁性和稳健性进行探讨，提出了一种多层次特征信息提取算法。

1　多层次特征信息提取方法

对于多变量校正方法，为不丢失光谱信息，可用全部光谱数据建模，但这样不仅计算量大，校正模型的预测精度也未必能达到最佳值。波长优选的目的是从光谱中提取最有效的谱图特征信息，建立最佳的校正模型，简化运算，并降低模型维护的复杂性。因此选择包含最佳信息的特征波长是建立多变量校正模型的关键［4］。

本文所述多层次特征信息提取方法，在进行特征信息提取时，首先应用后向间隔偏最小二乘法进行特征波段选择，先选择有用信息波段，实现无用信息的剔除。然后再在有用信息里消去信息的共线性。

1.1特征信息提取理论依据

传统的校正模型可以表达为:

式中: C为样本的浓度信息矩阵; R为光谱响应变量矩阵; B为估计的回归系数矩阵; E为误差矩阵。为了不失一般性，R和C均为归一化的矩阵(即零均值标准方差)。

光谱测量的基本原理是通过式(1)估计回归系数B，然后可对未知样本进行预测，得到浓度C的信息。

相关研究证明［5］，回归系数B的无偏估计为:

假设误差服从独立同分布，模型的预测均方根误差mesp可表达为:

由式(2)和式(3)可知，增加光谱数据的变量个数可提高模型的预测误差。但实际过程中，这个是不可能实现的，还需要考虑到光谱R和浓度C的误差。

假设光谱与浓度的误差独立同分布，考虑R和C的误差，将式(3)表达为一阶形式:

式中: bi和ri分别为B和R的第i个元素。

若光谱模型中包括J个波长变量，式(4)可记为:

将式(4)与式(5)联立，得到msep的变化量:

假设原来的回归系数的估计误差受后添加的变量的影响不大，因此式(6)近似为:

从式(7)可看到，增加的波长变量有两方面特点。一方面，第一项一定为负，这是因为对增加的波长变量进行拟合，变量个数多的原始波长处的回归系数的平方和一定小于没有增加之前的;另一方面，可类似求得后面两项必定为正。因此，当增加了变量处的光谱数据误差较大或者增加的变量处的回归系数的误差较大时，mesp会随着变量的增加而增加。

选择具有较大SNR的波长以及对回归系数估计误差小的变量(不确定度小)，可提高模型的精度。波长变量的不确定度大是指波长处包含着一些不能够用目前的校正集样本校正的因素。这些因素可能受测量中的各种非线性影响，如实验条件、仪器漂移物理属性导致的漂移或较大的随机误差等。波长处大的不确定度是指波长的增加会明显增加模型的复杂度，说明该波长包含了与目标浓度无关的信息，需要更多的主成分来提取信息。

1.2特征波段的选择

间隔偏最小二乘(interval partial least squares，iPLS)由Nørgaard等人［6］提出，其克服了与化合物无关的因素，使得校正模型稳定，依赖模型精度最小化选择最佳波长间隔组合，能够有效地消除无用信息。其主要原理为:将整个光谱范围分割成为许多小的等间距区间，然后在每个区间构建PLS模型，通过验证计算各子区间的预测均方根误差(root mean square error of cross validation，RMSECV)。当RMSECV最小时，对应的因子为该区间的最佳因子，因此可建立局部最优PLS模型。

iPLS的主要目的是优化PLS模型的预测能力，并提高模型的解释能力。

间隔偏最小二乘可有效地将物质的特征波段选择出来，消除那些无用波段，减少不确定度大的波长，从而提高模型的精度。但同时会导致另一个问题的出现，当物质的特征波段不止一个时，如水分，其理论吸收峰在760 nm和970 nm附近，为提高模型的精度，这两个特征波段应该均被选入。因此需要对间隔偏最小二乘选择好的波段进行组合，组合的方式有很多种，如前向逐步选择、后向逐步选择、基于GA算法的选择等。虽然方法不同，但结果是类似的，这里采用后向逐步选择法(backward interval partial least squares，BiPLS)。后向选择的方式，逐渐减少建模的区间间隔数，直到RMSECV减少后又开始增加。这时的间隔组合即为最佳区间组合，其原理如图1所示。

图1　BiPLS实现流程图Fig.1　Flowchart of BiPLS realization

1.3特征波长的提取

在选取了有用信息波段之后，再选择特征波长来消除波长变量之间的共线性。连续投影算法(successive projection algorithm，SPA)是Araújo M C U等人［7］于2001年提出的一种变量选择方法，它可最大程度地消除变量之间的共线性，以有效地进行特征波长的选择。由于该方法对噪声的敏感性较大，因此一些微弱吸收的波长会被忽略掉。本文将其应用在不确定度小的波段范围内进行选择，克服了该缺点。

连续投影算法是一种向前选择变量方法，开始时选择一个变量，然后通过投影算法，每迭代一次增加一个新变量，直到选定最佳的N个变量为止。SPA的目的是选择具有最少冗余信息的变量，解决变量间的共线性问题。SPA选择变量的过程基本原理是，在未选出的剩余变量集中，找到一个新变量，且该变量在上一个已选出变量的正交子空间中具有最大投影值。需要注意的是，进行初始设置时，开始变量Xstart及选择变量个数N的选择很关键。N在校正集样品数之间变化，通常可对每一对(Xstart，N)参数进行多元回归分析，具有最小的预测均方根误差的(Xstart，N)参数就是初始设置的最优值。其算法为:

①令start =1～p;

②Xsel(0)= Xstart;

③令N =1～(n－1);

④令Xsel(0)为Xcal的初始列向量;

⑤令n =1～N;

⑥令Xnot为未选择的变量，即Xnot= { j，1≤j≤p并且j{ Xsel(n)，…，Xsel(N)} } ;

⑦计算Xj在Xsel(n－1)的正交子空间上的投影，即:

式中: P为投影算子。

⑧令sel(n)= arg(max‖PXj‖)，j∈Xnot;

⑨令Xj= PXj，j∈Xnot;

⑩n = n +1，返回⑥直到n = N;

⑪选择的变量集合为{Xsel(n); n =0，…，N－1};

⑫用选择的变量建立PLS模型，对于每对(Xstart，N)，计算验证集预测均方根误差(root mean square error of prediction，RMSEP)，即:

式中: ym和^ym分别为第m个验证集样本的参考值和预测值; M为验证集样本个数。

⑬start = start + 1，返回②直到start = p，迭代结束;

⑭根据最小RMSEP (Xstart，N)值选择最优的变量子集。

将前述优选的特征波段数据采用SPA投影算法消除变量的非线性因素，得到最终的特征变量用以建立校正模型，可有效地选择反映目标参数的特征信息，同时还可有效地提高模型的精度。

2　叶片光谱特征信息提取实验

将本文提出的多层次特征信息提取算法应用于植物叶片光谱数，并与目前主流波长选择算法进行比较，研究本算法的有效性。

2.1实验部分

采集6片绿色水平不同的绿萝叶片，所选样本均是健康的、颜色均匀、无花青素或明显损伤的叶子。分别采集每个样本在6个不同位置上的光谱，共测得36条光谱，原始光谱如图2所示。所获36个样本的叶绿素含量范围为8.79～38.4 mg/kg，均值为22.7 mg/kg，标准差为12.8 mg/kg。

图2　叶绿素数据的原始光谱图Fig.2　The original spectrum of chlorophyll data

仪器采用海洋光学的USB4000便携式光谱仪，用直径为400 μm的反射光纤和PRH－1光纤支架，以及陶瓷标准反射板，仪器的有效波长范围为450～1 050 nm波段，共计3 149个波长。

2.2数据预处理

在对数据建模之前，采用小波分析的方法对其进行去噪，并采用OPLEC方法校正。由于样本位置差异引起的光谱差异，校正后的光谱图如图3所示。

图3　OPLEC校正后的光谱图Fig.3 Spectrogram after OPLEC correction

2.3实验结果分析

将各种波长选择算法和本文提出的多层次特征信息提取算法分别应用在叶绿素含量模型中，从模型的精度、复杂度以及变量的可解释性3个方面进行分析。

波段选择前后叶绿素含量模型的精度对比和各种波长选择算法在叶绿素数据的应用曲线分别如表1、图4所示。

表1　波段选择前后叶绿素含量模型的精度对比Tab.1 Precision comparison of Chlorophyll content model before and after the waveband selection

图4　各种波长选择算法在叶绿素数据的应用曲线Fig.4　The application curves of various wavelength selection algorithms in Chlorophyll data

从表1中可看到，基于物理意义选择波长的算法(除了SIMPLISMA)选出的波长数目都很多，大约是原始光谱的三分之一。从图4中可发现，VIP类算法即图4(a)和4(b)中被选出的波长集中在几个波段内，450～500 nm、520～570 nm、620～800 nm，以及1 010～1 050 nm范围内，叶绿素两个特征峰(450 nm、670 nm)被选出。UVE类算法即图4(c)和图4(d)不同于VIP类算法的波段是720～890 nm和960～1 010 nm，除了前面叶绿素的吸收峰和反射峰之外，UVE选出的波段主要集中在短波近红外区域(760～1 100 nm)，在精度方面，VIP类算法对模型精度的提高是有效的，尤其是Bootstrap－VIP，RMSECV从2.29降低为2.07，RMSEP 从3.13降低到3.01，分别降低了9.6%和3.8%。但UVE类算法的效果却不理想，减少了建模的复杂度，同时也丢失了一部分信息，使得PLS模型的主成分个数也降为4。UVE类算法考察的是波长回归系数的稳定性，因此一些不是目标因素引起的变异较大的波长可能被选出，反而不利于模型精度的提高。

图4(e)所示SIMPLISMA算法，虽然大大地降低了光谱的复杂性，但精度没有提高，这是所列几种方法中模型精度最差的一种。回归点位移(regression point displacement，RPD)只有1.99，表明该模型是不可预测的。SIMPLISMA算法考察的是光谱自身的差异，与被测参数自身无关，将波长按所包含的变异信息从大到小依次排列。因此，其对光谱的质量要求很高，当光谱质量不高时，就无法选出真正与目标浓度相对应的波长。

图4(f)是采用本文提出的BiPLS－SPA混合波长选择算法选出的10个波长，分别是483.84 nm、512.4 nm、513.24 nm、513.86 nm、555.21 nm、581.7 nm、694.65 nm、706.83 nm、910.92 nm、913.76 nm。这些波长涵盖了叶绿素a的吸收峰(690 nm，700 nm)和叶绿素b的吸收峰(480 nm)。其余的波长是叶绿素a和b吸收都很小的波长，如图5所示。

图5　叶绿素a和叶绿素b的吸收光谱图Fig.5　The absorption spectrums of chlorophyll a and chlorophyll b

图5说明BiPLS－SPA选出的波长具有明确的物理意义，可解释性强，对选出的波长建立PLS模型。由表1可知，与原始PLS模型相比，新建模型不仅提高了模型精度，RMSECV降低了26.3%，而且增强了模型的预测能力，RMSEP降低了24.0%。

2.4实验结论

对于本组数据，VIP和UVE两种方法是较有效的波长选择方法，但前者是选择有效的，后者是消除无用的，因此从效果上来看，二者不仅减少了波长个数，而且还在一定程度上提高了预测精度或者和原始模型的精度维持一致。SIMPLSIMA方法无论是叶绿素数据还是水分数据模型精度都较差，这与光谱质量的噪声大有关系。研究表明，该算法对噪声异常敏感，因此在使用之前，应该采用相应的去噪措施。PLS模型自身具有抑制噪声的作用，因此SIMPLSIMA算法在本文的数据应用中不是最佳的波长选择算法。Bootstrap－VIP及EMCUVE，多次重复VIP和MCUVE方法，期望在统计上给出某些波长的重要性，但并未取得期望的效果。在参数相同的情况下，两者期望相同，但前者比后者所需要的波长要多。如进行波段优选，VIP方法要较UVE方法略胜一筹，前者选择的波长都集中于一些固定的区域，而后者所选的波长在整个波段范围内散开，但物理原因不明确。这几种方法的共同特点是确定所需阈值较困难，需要不断尝试，给出最佳参数，因此，计算量较大且复杂。

本文所述多层次特征信息提取算法，物理意义明确，不需要参数设置，有效地选出了各生化参数的特征吸收波段，剔除了不相关波段的无用信息或冗余信息。采用连续投影算法消除选出波段内的共线性，最大程度地降低建模的复杂性。

3　结束语

特征信息提取是建立高精度校正模型的一个重要环节，减少模型复杂度的同时也增加模型的稳定性。最佳的波长选择算法不仅要求改善校正模型的精度，还要求容易解释，以更加真实地反映物质的相应特性。本文在比较了常用的波长选择算法的基础上，提出了一种多层次特征信息提取算法。该方法首先消除与目标浓度无关的无用信息，突出光谱中的微弱信号，然后极大地消除剩余光谱变量之间的冗余信息，降低其共线性。该算法选出的波长具有较强的可解释性，物理意义明确。与常用的几种波长选择算法即VIP、UVE、SIMPLISMA以及由它们衍生的相关算法进行对比，结果表明，多层次特征信息提取算法不仅可有效地提取光谱的特征信息，而且选择的变量易于解释，可有效提高建模效率并提高模型精度和稳定性。

参考文献

［1］谭昌伟，王纪华，黄文江，等.高光谱遥感在植被理化信息提取中的应用动态［J］.西北农林科技大学学报:自然科学版，2005，33(5): 151－156.

［2］Gitelson A A，Merzlyak M N.Spectral reflectance changes associate with autumn senescence of Aesculus hippocastanum L.and Acer platanoides L.leaves Spectral features and relation to chlorophyll estimation［J］.Journal of Plant Physiology，1994，143(7):286–292.

［3］Gregory A C.Alan K K.Leaf optical properties in higher plants: linkingspectral characteristicstostressandchlorophyll concentration［J］.American Journal of Botany，2001，88 (4 ): 677－684.

［4］李丽娜.近红外光谱微弱信息提取技术研究［D］.北京:北京航空航天大学，2011.

［5］王惠文.偏最小二乘回归方法及其应用［M］.北京:国防工业出版社，1999.

［6］NØrgaard L，Saudland A，Wagner J，et al.Interval partial least squares regression (iPLS): a comparative chemometric study with an example from near－infrared spectroscopy［J］.Applied Spectroscopy，2000，54(6):413－419.

［7］Araújo M，Saldanha T，Galvao R，et al.The successive projections algorithm for variable selection in spectroscopic multicomponent analysis［J］.Chemometrics and Intelligent Laboratory Systems， 2001，57(8):65－73.

A Multilevel Feature Extraction Strategy for Leaf Spectral Signal

李响1吕勇1张倩暄2
(北京信息科技大学仪器科学与光电工程学院1，北京100192;北京雪迪龙科技股份有限公司2，北京102206)

摘要:对叶片生化参数检测模型的简洁性和稳健性进行探讨，提出了一种多层次特征信息提取算法。在进行特征信息提取时，首先应用后向间隔偏最小二乘法进行特征波段选择，先选择有用信息波段，剔除无用信息，然后从有用信息里消去信息的共线性。实验结果表明，多层次特征信息提取算法不仅可以有效地提取光谱的特征信息，选择易于解释的变量，而且提高了检测精度。

关键词:光谱分析特征提取信号处理生化参数检测无损检测最小二乘法

Abstract:The simplicity and robustness of the leaf biochemical parameter detection model are investigated，and a multilevel feature information extraction algorithm is proposed.When the feature information is extracted，the first thing to do is applying the backward interval partial least square method for selecting feature wavebands，the useful information waveband is selected，to implement rejection of the useless information; then the collinearity of the information is eliminated from the useful information.The experimental results indicate that the multilevel feature extraction algorithm can effectively extract the feature information of spectrum，and select the variable that easily to be explained，as well as improve the detection accuracy.

Keywords:Spectrum analysis Feature extraction Signal processing Biochemical parameter detection Nondestructive testing Least square method

中图分类号:TH－3; TP2

文献标志码:A

DOI:10.16086/j.cnki.issn1000－0380.201603008