联合区间高斯过程的近红外光谱波长选择方法及应用
2016-06-15尹燕燕
徐 琛, 尹燕燕, 刘 飞
江南大学轻工过程先进控制教育部重点实验室, 自动化研究所, 江苏 无锡 214122
联合区间高斯过程的近红外光谱波长选择方法及应用
徐 琛, 尹燕燕, 刘 飞*
江南大学轻工过程先进控制教育部重点实验室, 自动化研究所, 江苏 无锡 214122
针对近红外光谱应用, 提出了一种基于高斯过程(GP)模型的波长选择算法, 即联合区间高斯过程(synergy interval gaussian process, siGP)算法。 首先将全光谱区域划分为一系列无重复且间距相等的区间, 再选取最优的若干个区间联合建立GP模型, 由于GP模型具有非线性处理能力, 因此该方法可以减少非线性的影响。 以红曲菌固态发酵过程中过程参数水分含量和pH值的检测为例, 新算法对水分含量、 pH值的预测集相关系数(rp)分别为0.956 4和0.977 3, 预测均方根误差(RMSEP)分别为0.012 7和0.161 0, 参与建模的数据点由全谱的1 500个分别减少到225个、 375个, 在对独立样本的预测上, 表现出较好的精度。 与传统联合区间偏最小二乘(siPLS)波长选择算法对比, siGP算法预测效果更好: 对水分含量和pH值,rp在GP模型预测时提高了3.37%和3.51%, RMSEP在GP模型预测时提高了29.4%和34.8%。 表明siGP结合GP模型能够有效选择波长区间以及提高近红外模型的准确性, 对进一步实现近红外光谱技术在线检测具有参考价值。
近红外光谱; 高斯过程模型; 联合区间高斯过程(siGP); 红曲菌; 水分含量; pH值
引 言
近年来, 近红外光谱技术(NIR)作为一个过程分析工具, 被广泛应用于石油、 环境、 食品、 医药、 工业等领域[1-4]。 与传统实验室分析方法相比, NIR具有高效、 快速、 无损、 无污染等特点。
建立NIR定量分析模型, 以往大多使用线性回归方法, 如主成分回归(PCR)、 偏最小二乘(PLS); 但由于光谱数据中, 不可避免的会出现非线性因素, 一些非线性建模方法被提出, 如人工神经网络(ANN)[5]、 最小二乘支持向量机(LS-SVM)[6]等。 波长选择是NIR建模中非常重要的步骤, 可以减少无效信息对NIR模型的影响, 降低模型复杂度。 目前, 被广泛应用的波长选择算法有遗传算法(GA)、 连续投影算法(SPA)、 无信息变量消除(UVE)、 间隔偏最小二乘(iPLS)等。
iPLS算法是将NIR模型建立在全光谱区域中最优的一个区间上, 但在全光谱区域, 有效的波长区间不止分布在一个区间, 因此联合区间(si)的思想被提出[7], 通过选取几个(通常是2, 3, 4)区间联合建立NIR模型。 在实际过程中, 过程参数与光谱数据之间常常具有一定的非线性, 因此, 为了提高模型精度, 须在波长选择时考虑非线性因素。
作为一种新的机器学习方法, 高斯过程(GP)模型可以处理复杂的非线性问题, 且泛化能力强[8-10]。 与ANN和LS-SVM相比, GP模型作为一种非参数概率模型, 在给出模型预测值的同时, 还可以给出预测值对模型的精度函数; GP模型的优化参数相对较少, 学习速度快, 而且更易收敛。 近几年, 国内外学者逐步重视这一研究热点, 并在一些领域得到了成功应用[11-12]。
将GP方法引入近红外光谱检测, 提出一种融合GP模型和联合区间策略的波长选择算法: 联合区间高斯过程(siGP)算法, 为近红外光谱技术建立定量分析模型, 在波长选择阶段, 提供了一种处理光谱非线性因素的新思路, 并应用到红曲菌固态发酵过程参数水分含量和pH值的快速检测中。
1 siGP波长筛选原理及方法
1.1 GP算法描述
对于给定光谱数据样本集A={(xi,yi)},i=1,…,n,xi∈Rd,yi∈R,n表示训练样本数,d表示输入向量维数。 对于一个新的样本输入x, 预测分布的均值和方差如式(1)所示
(1)
(2)
其中,c(x)=[c(x,x1),…,c(x,xn)]T是训练样本和测试样本之间的协方差向量,C是训练样本之间的协方差矩阵,c(x,x)是测试样本自身的方差,y=[y1,y2,…,yn]T。
GP模型可以选择不同的协方差函数, 我们选择高斯协方差函数
(3)
其中,ν是控制协方差的量度,ωd为每个输入的测度权重。
(4)
为了得到最优的参数θ, 首先在合理范围内选择一个随机值, 再用共轭梯度法搜索得到一个最优的θ[12]。 确定参数θ之后, 对于测试样本x, 用式(1)和式(2)来估计均值和方差, 高斯过程的输出即为估计的均值。
1.2 siGP算法
siGP算法类似于siPLS算法的思想, 筛选波长区间步骤如下:
(1)采用间隔策略将全谱数据划分为n个区间, 区间无重复且间距相等;
(2)选取n个区间中2, 3和4个子区间, 排列组合后分别建立GP校正模型, 并求解每个组合的交叉验证均方根误差(RMSECV);
(3)重复以上步骤, 对全光谱区域划分的不同的n个区间进行求解;
(4)寻找最小的RESECV对应的区间数及对应的子区间组合数;
(5)输出最优波长变量数据。
此处, RMSECV的计算公式如下
(5)
2 实验部分
2.1 样本制备
实验室制备单个样本的过程为: 首先, 培养基的斜面孢子用接种铲刮取, 放入20 mL无菌生理盐水中, 获得孢子悬浮液, 取500 mL三角瓶, 里面盛有100 mL种子培养基, 将孢子悬浮液接种到其中, 在32 ℃, 150 r·min-1恒温振荡培养36~48 h后, 得到种子液。 在250 mL三角瓶中装入固态发酵培养基, 灭菌后, 用三角瓶盛放5 mL的种子液, 在培养箱中培养108 h。
实验样本分5个批次进行制备, 前4个批次共制备148个样本, 构成建模所需的校正集和预测集, 第5批次制备10个样本, 作为独立批次验证模型的准确性。
2.2 光谱采集
实验室选用Thermo Antaris MX傅里叶-近红外快速分析仪, 采集范围10 000~4 000 cm-1, 分辨率为8.0 cm-1, 扫描次数为16次。 采集光谱时, 将样本压实, 光纤探头紧贴样本表面, 通过TQ软件完成光谱采集。 图1为前4个批次148个样本的原始光谱图。 表1为这148个样本水分含量和pH值的分布情况。
图1 原始光谱图
ComponentNo ofsamplesMaxMinMeanStandDeviationMoi Con1480 68020 37110 52810 0479pH1488 085 777 09570 7888
3 结果与讨论
3.1 样本集的选择与光谱预处理
建模样本集为实验最终获得的148个样本。 选用基于变量间欧氏距离的K-Stone(K-S)方法划分校正集和验证集, 该方法在特征空间中均匀选取样本, 很好的解决了人为选取的盲目性。 最终选取了校正集样本100个, 验证集样本48个。
由图1可知, 在4 000 cm-1附近, 存在很大的无规律仪器噪声, 因此, 选取波长4 219~10 000 cm-1间1 500个光谱数据作为建模所需数据点。 对选中的光谱数据分别运用标准正态变量变换、 多元散射校正、 一阶导数、 二阶导数以及其组合进行预处理, 比较发现, 不做预处理的光谱数据, 得到的效果最好。 出现这种情况的原因可能为: 对数据进行预处理的同时, 伴随着有效信息的丢失, 以及高斯过程建模可以很好的减少噪声的影响。
3.2 siGP波长选择
对光谱数据进行适当的波长选择, 可以降低模型复杂度, 获得预测精度高的模型。 分别将1 500个波长点划分为6~20个波长区间, 子区间组合数为2, 3, 4, 图2和图3为RMSECV得到的关系图。
图2 水分含量siGP选择不同区间组合的RMSECV
图3 pH值siGP选择不同区间组合的RMSECV
由图2和图3可知, 对于水分含量, 当RESECV获得最小值0.013 6时, siGP算法选择了将光谱划分为20个区间并按[5, 10, 20]区间组合的波长区间。 对于pH值, 当RESECV获得最小值0.161 2时, siGP算法选择了将光谱划分为16个子区间并按[1, 5, 8, 16]区间组合的波长区间。 表2为选择区间组合对应的波段区间。
表2 siGP选择的波长区间(cm-1)
由表2中可得出: 对于水分含量, siGP算法选取的波段区间6 824.2~7 109.4 cm-1在水分子对称伸缩振动组合频吸收峰6 900 cm-1附近, 5 379.4~5 664.5 cm-1波段区间包含5 620 cm-1附近一个比较弱的组合频吸收; 固态培养基中有机氮被菌体消耗后产生的氨类物质会导致pH的变化, siGP算法选取的4 223.5~4 581.8 cm-1包含氨类物质N—H键4 525 cm-1处的强吸收峰, 6 731.8~7 090.1 cm-1包含6 803 cm-1附近的一级倍频吸收峰。
3.3 模型建立与分析
对校正集样本中的水分含量、 pH值, 分别用siGP算法优选的波长变量建立GP模型, 并对预测集样本进行预测, 预测结果如图4和图5。 评价指标为均方根误差和相关系数[13]。 从图中可以看出, 两个模型的拟合度和预测精度均较好, 相关系数达到0.95以上, 预测精度可以满足在红曲菌发酵过程中的条件。 表3和表4给出了与传统方法偏最小二乘建模的对比分析。
图4 NIR预测值与参考值(水分)对比
图5 NIR预测值与参考值(pH)对比
从表3和表4的结果可以得出: siGP方法选取波段所建的GP模型取得了最好的预测效果。 在对水分含量和pH值建模过程中, 波长点数分别从1 500个数据点减少到225和375个数据点。 对比传统线性波长选择方法及建模方法, 从RMSEP上看, 水分含量的预测精度分别比全谱PLS模型、 siPLS选取波段的PLS模型和全谱GP模型提高了23.5%, 29.4%和13.0%, pH值的预测精度分别比全谱PLS模型、 siPLS选取波段的PLS模型和全谱GP模型提高了22.7%, 34.8%和5.2%, 表明siGP算法选取波段所建的GP模型, 减少了光谱数据非线性的影响。
表3 siGP方法和传统方法得到的水分结果对比
表4 siGP和传统方法得到的pH结果对比
3.4 独立样本预测
采用独立的第5批次样本, 进一步验证所建模型准确性和适用性。 取第5批次10个样本, 分别测定这10个样本的水分含量和pH值以及光谱数据, 采取siGP算法选择波长后, 用已建成的GP模型对水分含量和pH值进行预测, 获得的发酵时间曲线如图6和图7。
由图6和图7可知, 近红外光谱法和常规理化方法取得了较为一致的结果, 采用高斯过程所建模型的适用性和预测精度都较好, 可用于快速检测红曲菌固态发酵过程参数水分含量及pH值。
4 结 论
以红曲菌固态发酵过程中水分含量和pH值的快速检测为例, 提出了一种近红外光谱非线性波长选择算法, 即联合区间高斯过程(siGP)算法, 减少了非线性的影响, 并表现出比传统siPLS波长选择算法更好的性能。 研究结果表明, siGP结合GP模型在红曲菌固态发酵过程参数建模上, 提高了模型的预测精度, 降低了模型的复杂度。 近红外光谱技术结合高斯过程方法可以实现过程参数的快速检测, 对实现过程参数在线检测具有参考价值。
图6 水分含量发酵时间曲线
图7 pH值发酵时间曲线
[1] Zou Xiaobo, Zhao Jiewen, Povey M J W, et al. Analytica Chimica Acta, 2010, 667(1): 14.
[2] Agelet L, Hurburgh C. Jr. Critical Reviews in Analytical Chemistry, 2010, 40(4): 246.
[3] Balabin R, Smirnov S. Analytica Chemica Acta, 2011, 692(1): 63.
[4] Chen M L, Khare S, Huang B, et al. Industrial & Engineering Chemistry Research, 2013, 52(23): 7886.
[5] Blanco M, Coello J, Iturriaga H, et al. Chemometrics and Intelligent Laboratory Systems, 2000, 50(1): 75.
[6] Chauchard F, Cogdill R, Roussel S, et al. Chemometrics and Intelligent Laboratory Systems, 2004, 71(2): 141.
[7] Chen Q S, Zhao J W, Liu M H, et al. Journal of Pharmaceutical and Biomedical Analysis, 2008, 46(3): 568.
[8] Chen T, Morris J, Martin E. Chemometrics and Intelligent Laboratory Systems, 2007, 87(1): 59.
[9] Rasmussen C E, Williams C K I. Massachusetts Institute of Technology: The MIT Press, 2006.
[10] HE Zhi-kun, LIU Guang-bin, ZHAO Xi-jing, et al(何志昆, 刘光斌, 赵曦晶, 等). Control and Decision(控制与决策), 2013, 28(8): 1121.
[11] Chen T, Wang B. Neurocomputing, 2010, 73(13): 2718.
[12] LEI Yu, YANG Hui-zhong(雷 瑜, 杨慧中). CIESC Journal(化工学报), 2013, 64(12): 4434.
[13] Peng Jiangtao, Jiang An, Peng Silong. Analytica Chemica Acta, 2010, 667(1): 14.
*Corresponding author
Near Infrared Spectroscopy Wavelength Selection Method and the Application Based on Synergy Interval Gaussian Process
XU Chen, YIN Yan-yan, LIU Fei*
Key Laboratory of Advanced Process Control for Light Industry (Ministry of Education), Institute of Automation, Jiangnan University, Wuxi 214122, China
Based on Gaussian Process (GP), a wavelength selection algorithm named Synergy Interval Gaussian Process (siGP) model is proposed in this paper by using near infrared spectroscopy technology. Full spectrum is divided into a series of unique and equal spacing intervals, before selecting optimal several intervals to establish GP model. Due to the GP model with nonlinear processing ability, the method reduces the disadvantages of nonlinear factor. Taking the near infrared spectrum data of moisture content and pH in solid-state fermentation of monascus as performance verification object of this new algorithm, the prediction correlation coefficient (Rp) of moisture content and pH are 0.956 4 and 0.977 3, respectively. The root mean square errors for prediction set (RMSEP) are 0.012 7 and 0.161 0, respectively. Data points participating in modeling decrease respectively from the original 1 500 to 225 and 375. In the prediction for independent samples, it shows good accuracy. Comparing with traditional synergy interval partial least squares (siPLS) algorithm, the results show that the siGP achieves the best prediction result. The prediction correlation coefficient of moisture content and pH in new algorithm has increased respectively by 3.37% and 3.51% under the model of Gaussian Process, with increases of 29.4% and 34.8% in the root mean square errors for prediction set. This study shows that the combination of siGP and GP model can select wavelength effectively and improves the prediction accuracy of the NIR model. This method is reference for realizing the online detection and optimization control.
NIR; GP model; siGP; Monascus; Moisture content; pH
Mar. 7, 2015; accepted Jul. 25, 2015)
2015-03-07,
2015-07-25
国家自然科学基金项目(NSFC 61273087), 江苏省产学研前瞻性联合研究项目(BY2013015-27)资助
徐 琛, 1990年生, 江南大学自动化研究所博士研究生 e-mail: wxjnxc@163.com *通讯联系人 e-mail: fliu@jiangnan.edu.cn
O657.33
A
10.3964/j.issn.1000-0593(2016)08-2437-05