近红外光谱的数据分析方法研究进展

2022-11-25陈裕凤聂斌詹国平周冠芮李欢何雁江西中医药大学计算机学院南昌0004深圳市南山区蛇口人民医院广东深圳58067江西中医药大学药学院南昌0004

江西中医药大学学报 2022年2期

★ 陈裕凤聂斌詹国平周冠芮李欢何雁（.江西中医药大学计算机学院南昌 0004；.深圳市南山区蛇口人民医院广东深圳 58067；.江西中医药大学药学院南昌 0004）

近红外光谱（near infrared spectroscopy，NIRS）技术是一种简单、高效的分析技术，具有分析速度快、无损伤性、样品无需预处理等优点。鉴于此，近红外光谱分析技术被广泛应用于食品、纺织、药品和农业等领域。通常近红外光谱在投入到实际应用前，需要完成以下6 个工作流程：收集样品、数据预处理、特征选择、建立模型、评价模型、转移模型。由于近红外光谱的吸收灵敏度低、谱带重叠严重，并且用近红外光谱仪测量数据过程中引入噪声和无关信息，因此建模前往往需要先对原始光谱进行预处理和特征选择；又因为建模是近红外光谱分析的核心，所以建模方法的选择也至关重要。

NIRS 光谱分析过程中所用方法的综述性文章已有部分报道。褚小立等［1］综述了近红外光谱分析中光谱预处理和特征选择方法；袁洪福等［2］综述了一些常用的化学计量学方法；周昭露等［3］综述了NIRS 在中药质量控制应用中的化学计量学建模方法和技术并对未来发展做了展望。褚小立综述中较少涉及建模方法；袁洪福介绍了一些经典校正方法和常用于定量分析的主成分分析（principal component analysis，PCA）和偏最小二乘法（partial least squares，PLS），未提到用于定性分析的常用方法；周昭露的综述涉及到NIRS 数据的采集、预处理、分组、波段选择、建模以及模型的验证和评价，内容较为全面，但倾向于方法的应用。本文主要根据原始光谱图中出现的常见干扰不同介绍数据预处理方法；根据方法类型不同介绍光谱特征选择方法；根据应用不同介绍建模方法。介绍光谱预处理，特征选择，建模方法的原理、优缺点，为近红外分析相关研究者在实际应用分析中提供参考。

1 数据预处理

光谱信号测量过程中容易受测量条件、仪器性能、样品分布不均等因素影响，导致采集到的光谱图中伴有背景噪声、基线漂移、散射光等无关信息的干扰，这些无关信息会对校正模型的检测精度和稳定性产生影响。本文从降低噪声、消除基线漂移、校正散射光三个主要的干扰方面进行探讨。

1.1 降噪的方法

由于光谱仪检测到的光谱信号中包含有效信息和噪声，一般采用数字滤波的方法降噪。目前,常用的滤波方法有平滑法、傅里叶变换等。

1.1.1 平滑法平滑是常用的降噪方法之一，其本质是对光谱曲线进行低通滤波，滤除高频噪声，保留有效的低频信息。原理是假设光谱中的噪声为零均值随机白噪声，若多次测量取平均值可能减少随机噪声，提高信噪比。常用的信号平滑方法有移动平均平滑法和Savitzky-Golay 卷积平滑法。

移动平均平滑法是最简单的平滑方法。假设窗宽为（2w+1），即每个窗口内含有（2w+1）个波长点，用每个窗口内的均值替代窗口中心点x0的测量值，窗口依次向右移动，直到完成对所有波长点的平滑。移动平均平滑法中，窗宽是一个重要的参数，需要在计算前被定义好,窗宽的大小对信号平滑的效果产生影响。

Savitzky-Golay 卷积平滑法的基本思想和移动平均平滑法类似，它是基于多项式，选取固定大小范围的移动窗口，利用最小二乘法对数据进行最佳拟合，从而求得最佳估计值，其实质是一种加权平均法，更强调中心点的作用。

1.1.2 傅里叶变换傅里叶变换（fourier transform，FT）是数字信号处理方法，它能够实现时域与频域之间的转换，其实质是将原始光谱分解成不同正弦波的叠加和［4-6］。FT 能将信号的时域特征和频域特征联系起来，可用于信号分析和信号处理。FT 的降噪过程：先通过TF 将时域谱转换为频域谱；再选择合适的低频率信号，采用FT 将原始光谱重构。

FT 虽然具有很强的频域局部定位和频域局部化能力，但缺乏时间定位和时间局部化能力。因此，傅里叶变换仅适用于平稳信号，不能反映出频域随时间变化的非平稳信号。为克服傅里叶变换的缺陷，研究者提出来小波变换［7］。

1.2 散射光的校正方法

在获取非均匀样品的近红外光谱过程中，固体颗粒的大小、形状、密度等物理因素会影响光的散射，会对模型的稳定性产生影响。通常使用物理方法和数学校正的方式来减少光谱散射的影响，本文主要从数学校正角度，研究多元散射校正（multiplicative scatter correction，MSC）和标准变量变换（standard normal variate，SNV）两种方法。

1.2.1 多元散射校正多元散射校正是由芦永军等［8］提出的一种多变量散射技术，它可以有效地消除颗粒分布不均匀或颗粒大小的散射影响导致的基线平移和偏移现象，提高相关光谱的信噪比。MSC 是通过“理想光谱”来修正光谱数据的基线平移和偏移现象。首先，该方法认为每条光谱都应该与“理想光谱”呈线性关系。而实际中无法获取真正的“理想”光谱，则采用校正集的平均光谱作为“理想光谱”。其次，每个样品的基线平移量和偏移量可以通过最小二乘问题求得。一般情况下，MSC适用于散射与波长、样品溶度变化无关的情况，而处理组分性质变化较宽的样品效果较差。

1.2.2 标准正态变量变换标准正态变量变换主要用于减少由于颗粒大小不均匀、颗粒表面散射、光程变化对漫反射光谱的影响［9］。SNV 算法是假设每条光谱曲线中各波长点对应的吸光度满足一定的统计分布，利用该分布对光谱曲线进行校正。它是将原始光谱数据减去这条光谱数据的均值，再除以这条光谱数据的标准偏差。

MSC 算法是对一组光谱进行处理，SNV 则是单独处理一条光谱，因此一般认为SNV 的校正效果比MSC 强。

1.3 基线校正的方法

使用近红外光谱仪器检测样品时，温度的变化、仪器本身的机械电子器件如光源、检测器的变化都容易造成光谱旋转和基线漂移。目前，一阶导数常用于消除NIRS 光谱中的基线漂移，二阶导数用于消除NIRS 光谱的旋转［10］。对光谱的求导方式有Savitzky-Golay 求导法和直接差分法。直接差分法处理低分辨率的光谱数据时会存在求导结果失真的问题，它通常用于高分辨率的光谱数据。由于Savitzky-Golay 求导法是通过最小二乘法计算导数系数，该方法可以有效地避免计算结果失真的问题［11］。导数法处理光谱数据的优点是可以分辨重叠光谱、提高分辨率和灵敏度、消除基线和其他背景的干扰，不足之处是在求导的过程中会放大噪声，特别是对信噪比较低的光谱数据。因此，导数法通常是用来处理信噪比和分辨率较高的光谱数据，或者在求导之前先用平滑法降噪。

2 光谱特征选择

实验数据通常会存在光谱特征冗余现象，导致所建模型的预测精度降低。因此，采用光谱特征选择的方法，去除光谱特征中的冗余特征和无关特征，可以提高光谱分析速度和精度，优化模型的性能。本文主要研究基于区域和基于单变量的两类光谱特征选择方法。

2.1 基于区域的光谱特征选择方法

2.1.1 间隔偏最小二乘和组合间隔偏最小二乘间隔偏最小二乘法［12］（interval partial least squares，iPLS）是一种光谱特征波段选择的方法，其原理如下：首先，选择一个大小合适的窗宽w，将原始光谱划分为n 个窗宽为w 的区间；其次，在这n 个区间中分别进行iPLS 处理，再通过比较每个区间的某些评价指标（如RMSECV、RMSECP）选择出一个最优区间；最后，以最优区间为中心单向或双向扩充（或消减）特征波长点，得到最佳的波长区间。

iPLS 的优点是通过图形可呈现每个波长区间的模型，从光谱图中找到与待测样品相关性最大的波长区间，并且可将全谱模型与波长区间模型进行比较。但缺点是只能选择一个最佳波长区间建模，未考虑多种波长区间组合的情况。为克服该问题，有研究者在iPLS 基础上提出了组合间隔偏最小二乘法（SiPLS）［13］。SiPLS 是在同一次波长划分中，将不同个数的、局部模型精度较高的波长区间的任意组合，得到误差最小且相关系数最大的波长区间组合，共同预测样品的含量或品质。然而，SiPLS的运算次数和运算时间会随着组合波长区间个数的增加而增加。

2.1.2 移动窗口偏最小二乘移动窗口偏最小二乘（moving windows partial least squares，mwPLS）是选择一个窗宽大小合适的窗口，该窗口沿着光谱轴依次向右移动，每移动一个波长点，就采用交互检验方式建立一个模型，选择RMSECV 和RMSEP值最小对应的波长区间就是最佳波长区间［14］。mwPLS 的优点是在有干扰的情况下，模型仍然稳定。此外，窗宽是重要的参数，它会影响模型的精度和预测能力。

2.2 基于单个变量的光谱特征选择方法

2.2.1 连续投影法1965 年，Bregman 首先提出连续投影法（successive projection algorithm，SPA）来解决凸可行问题，但现在它在生物医学成像、信号处理、光谱计量学等领域已经得到了广泛的应用［15-16］。SPA 是一种向前循的特征选择算法，从一个特征开始，分别计算它在未被选入的特征上的投影，将投影特征最大时对应的特征引入到新的特征组合中，算法循环n 次结束，n 为需要提取的特征数量。每一个新选入的特征，都与前一个特征的共线性最小。因此，SPA 算法只需选择原始光谱数据中少量几列冗余度低的数据，就能概括绝大多数样品的光谱变量信息，提高校正模型的预测能力和稳定性。

2.2.2 无信息变量消除法无信息变量消除法（uninformative variables elimination，UVE）是由Centner等人提出的变量筛选方法［17-18］，用于去除建模过程中不提供有效信息的变量，即无信息变量。其目的是减少建模过程中变量的个数，降低模型的复杂性，改善模型的质量。UVE 方法过程如下：一是将自变量矩阵与因变量矩阵进行回归，并选取最佳主因子个数；二是在PLSR 模型中添加一组与自变量矩阵维数相同的随机噪声矩阵，将自变量矩阵与噪声矩阵组合得到组合矩阵；三是采用留一交叉验证法对组合矩阵与因变量矩阵进行PLSR 回归，求得回归系数矩阵；四是由系数矩阵的标准差和均值，求出均值和标准差的比值，选择出噪声矩阵均值和标准差的比值的最大绝对值作为阈值；五是去除自变量矩阵中均值和标准差的比值小于阈值的变量，并将剩余变量组成新矩阵。

3 化学计量学方法

化学计量学方法通常分为定量分析和定性分析两大类，一般用于近红外光谱分析中的模型建立。常用的定量分析方法有PLS、多元线性回归法（multiple linear regression，MLR）、主成分回归（principle component regression，PCR）、支持向量机（support vector machine，SVM）等。定性分析方法有k 近邻法（k-nearest neighbor，KNN）、BP神经网络（BP-ANN）、簇类的独立软模式分类法（soft independent modeling class analogy，SIMCA）等。

3.1 定量分析方法

3.1.1 线性方法（1）偏最小二乘：S. Wold 等人于1983 年提出偏最小二乘的概念，PLS 融合典型相关分析、主成分分析、多元线性回归方法于一身［19］。PLS 具有许多传统分析方法不具有的优点：适用于样本量少、变量多的情况；能够处理自变量的多重相关性问题；可根据需要，使用全部或部分信息用于建立模型等。PLS 目前在近红外光谱分析领域中应用广泛，可用于食用油、玉米、烟草、药品等复杂成分分析［20-22］。（2）多元线性回归：在回归分析中，两个或两个以上的自变量称之为多元线性回归。MLR 的计算结果易于理解，计算不复杂。然而，该方法不适用于非线性关系的数据，且使用MLR 方法的前提是样本数量必须大于特征数量。因此，用多元线性回归建模前通常需对原始光谱进行特征选择［23］。（3）主成分回归：主成分回归（PCR）是一种结合主成分分析和多元线性回归的统计方法［24］。它用PCA 降维得到的主成分为新变量做回归分析，主要解决多元共线性问题。由于新变量之间互不相关，这可以克服MLR 中模型不稳定的问题。王铎等［25］采用PCR 方法建立定标模型用于大豆育种材料脂肪酸含量的快速测量。

3.1.2 非线性方法（1）支持向量机：支持向量机（SVM）是一种非线性的分类方法，常用于“二分类”问题中。该方法的目标是在训练集的样本集空间中寻找最大间隔超平面［26］。SVM 即可线性分类，也能通过核函数用于非线性分类。支持向量机在NIRS 光谱模式识别中得到了广泛的应用［27］。SVM 的分类思想简单，只要找到与样本间隔最大的超平面即可，计算开销小。但是SVM 方法存在一些缺点：如不适应于多分类问题，对缺失数据、参数调节及核函数选择敏感。（2）人工神经网络：人工神经网络（ANN）非线性模型的建立是模拟人脑的活动过程，模拟人的脑细胞建立神经元，许多相关联的神经元形成神经网络，再反复对神经网络上的参数调整，直到预测误差均方根小于设定的阈值或模型训练达到最大迭代次数。ANN 具有自适应学习能力、能处理非线性问题、集体运算能力、具有较强的容错性等优点，被广泛应用在人工智能和模式识别领域。神经网络的种类繁多，包括径向基函数网络、BP 神经网络、卷积神经网络等，其中BP 神经网络在光谱分析中应用较为广泛。刘欢等［28］分别采用PLS、PCA 结合BP 神经网络、PLS 结合BP 神经网络方法建立鲫鱼新鲜度定量预测模型。

3.2 定性分析方法

3.2.1 线性方法主成分分析：主成分分析利用“降维”的思想，将原始变量通过线性组合得到若干个主成分，且各主成分之间互不相关。使用主成分降维，通过累计贡献率来确定主成分数。PCA 不仅用于近红外光谱特征选择，还可用降维得到的数据分布建立定性模型。李跑等［29］利用PCA 方法对大米进行鉴别分析，付小环等［30］采用PCA 法建立茯苓定性模型。PCA 可降维，但PCA 得到的主成分却失去物理意义。

3.2.2 非线性方法（1）k-近邻法：k-近邻法（KNN）是常用的分类方法，其核心是依据距离判断待测样本的类别，将待测样品将被指派到它的k 个近邻中的多数类中［31-32］。KNN 方法简单、易于理解，但当训练数据量较大的时候需要占用大量的存储空间，并且距离计算过程耗时。因此，KNN 适用于特征少，样本量少的数据集。在光谱分析中，KNN 方法常用建立定性模型［33-34］。（2）BP 神经网络：BP 神经网络不但可建立定量分析模型，还可建立定性分析模型。徐子杰等［35］基于多参考相关系数法和BPANN 建立矿物药紫石英的近红外光谱定性模型。苗静等［36］将二维相关近红外谱参数化方法BP-ANN结合，建立判别模型实现牛奶的真假鉴别。

除了定量分析和定性分析两类建模方法外，还有SIMCA、偏最小二乘判别分析、移动标准偏差法等其他方法，它们常用于水果、木材、农产品、中药等鉴别分析［37-45］。

4 总结

数据预处理、特征选择、建模方法是近红外光谱分析中重要的三个步骤。根据应用的特点，方法的原理、优缺点，恰当地选择这些方法有益于解决实际应用。数据预处理方法能够减少无关信息和噪声信息的影响，提升模型的预测精度和稳定性；特征选择目的是选择对建模有益的波长点，减少变量数量、提高模型的训练效率；根据不同的实际问题选择合适的建模方法有助于提高模型的质量。

本文简要介绍光谱预处理、特征选择和建模过程中部分方法的原理、特点、应用，为相关学者研究与应用起到抛砖引玉的作用。然而，近红外分析过程中仍然存在一些需要解决的问题。如（1）模型的转移：近红外分析中，有时同一种方法在类似应用中效果也较好，如果能进行模型转移，则可减少部分重复工作，提升效率；（2）算法的选择和结合：光谱预处理、特征选择及建模三个过程不是单独的，是相辅相成的。因此，如何利用现有的各过程方法的原理、优缺点，将它们有效地结合或做相应的改进提升模型质量值得进一步研究。