APP下载

基于Adaboost及谱回归判别分析的近红外光谱固态发酵过程状态识别

2016-06-15刘国海夏荣盛

光谱学与光谱分析 2016年1期
关键词:固态特征提取分类器

于 霜,刘国海,夏荣盛,江 辉

1. 苏州工业职业技术学院机电工程系,江苏 苏州 215000 2. 南京航空航天大学机电学院,江苏 南京 210016 3. 江苏大学电气信息工程学院,江苏 镇江 212013

基于Adaboost及谱回归判别分析的近红外光谱固态发酵过程状态识别

于 霜1, 2,刘国海3*,夏荣盛3,江 辉3

1. 苏州工业职业技术学院机电工程系,江苏 苏州 215000 2. 南京航空航天大学机电学院,江苏 南京 210016 3. 江苏大学电气信息工程学院,江苏 镇江 212013

为了实现固态发酵过程状态的快速监测,以饲料蛋白固态发酵为实验对象,开展了基于近红外光谱分析技术的饲料蛋白固态发酵过程状态定性识别研究。首先利用Antaris Ⅱ型傅里叶变换近红外光谱仪采集140个固态发酵物样本的近红外光谱,并采用标准正态变换(SNV)光谱预处理方法对获得的原始光谱进行预处理;其次,采用谱回归判别分析(SRDA)法对预处理后的近红外光谱进行特征提取;最后,采用最近邻(NN)分类算法作为弱分类器建立固态发酵过程状态识别模型,并对测试集样本进行识别。结果显示,与利用主成分分析(PCA)法和线性判别分析(LDA)法提取的光谱特征建立的识别模型结果相比较,SRDA-NN识别模型获得的结果最佳,在测试集中的正确识别率达到94.28%;为了进一步提高识别模型的准确率,将自适应提升法(Adaboost)与SRDA-NN方法结合,提出了Adaboost-SRDA-NN集成学习算法来建立饲料蛋白固态发酵过程状态的在线监测模型。通过Adaboost算法提升后的SRDA-NN模型预测性能得到了进一步增强,Adaboost-SRDA-NN模型在测试集中的正确识别率达到100%。试验结果表明:在近红外光谱定性分析模型校正过程中,SRDA方法能有效地对近红外光谱数据进行特征提取,以实现维数约简;另外,Adaboost算法能很好地提升最终分类模型的预测精度。

光谱分析;近红外;特征提取;谱回归判别分析;Adaboost

引 言

近红外光谱分析技术作为一门快速、无损的现代分析技术,已在生物发酵领域取得了一些研究成果[1-6]。我们采用近红外光谱分析技术对饲料蛋白固态发酵过程进行状态识别。但是由于近红外光谱数据具有高维性和易干扰性的特点,在利用光谱数据建立状态识别模型前,通常会采用相应的特征提取方法对数据进行降维,从而降低模型的复杂度和提高模型的识别准确率[7]。

主成分分析法(principal component analysis, PCA)是一种常用的无监督算法,在进行特征提取时易导致样本间有用类别信息丢失;线性判别分析法(linear discrimination analysis, LDA)作为一种经典的有监督算法,能够充分利用样本间已知的类别信息,使投影后的样本具备最佳的可分离性,但是LDA算法面临复杂的广义特征分解问题[8];而谱回归判别分析法(spectral regression discriminant analysis, SRDA)作为一种新型的特征提取方法,将LDA算法中广义特征分解问题转化为解决一系列正则化的最小二乘问题,大大简化了计算过程[9]。本工作采用SRDA方法对近红外光谱数据进行特征提取,对降维后的光谱数据利用最近邻(nearest neighbors,NN)算法建立识别模型。为了进一步提高模型的识别准确率,将自适应提升算法(Adaboost)与SRDA-NN方法相结合,提出了Adaboost-SRDA-NN集成学习算法,并成功应用于固态发酵过程的状态识别,与单一的LDA-NN与SRDA-NN两种方法的识别准确率相比,提升效果显著。

1 实验部分

1.1 样本

在GTG-100固态发酵装置中进行饲料蛋白固态发酵实验,每隔12 h采集4个样本,一个批次的发酵过程结束之后可获得28个样本。相同材料和条件下发酵5个批次,共获得140个样本。每获得一个样本,便利用AntarisⅡ光谱仪采集该样本的近红外光谱数据和测量样本的pH值。图1所示为不同发酵时间采集样本中具有代表性的一个样本的实测pH值与其发酵时间之间的关系。

Fig.1 Relation between incubation time and pH value of fermented substrate

依据图1中所示pH值的变化趋势,可将整个固态发酵过程分为三个阶段:延滞期(采样点0和12 h)、指数期(采样点24,36和48 h)、稳定期(采样点60和72 h)。每个阶段分别采集的样本数为40,60和40。建模前,按照3∶1的比例从三个阶段中选取训练集样本105个,测试集样本35个。定义稳定期阶段的样本为发酵完成状态,延滞期和指数期两个阶段的样本为发酵未完成状态[5, 10]。

1.2 近红外光谱采集

使用Thermo Scientific公司的Antaris Ⅱ傅里叶变换近红外光谱仪,配备InGaAs检测器,以内置参比为背景,利用漫反射式积分球附件采集发酵物样本的近红外光谱。实验室温度保持在25 ℃左右,湿度基本恒定。扫描波数范围为10 000~4 000 cm-1,扫描次数为16次,分辨率为8 cm-1。将发酵物样本装入仪器配套的样品杯中,充分压实,每个样本在不同位置采集3次,并将其平均光谱作为该样本的原始光谱。

1.3 方法原理

1.3.1 SRDA特征提取算法

(1)

式(1)中的最优解可以转化成下列广义特征向量求解问题

Sba=λSta

(2)

(3)

关于快速解决式(3)的特征分解问题,文献[9]提出了谱回归判别分析(SRDA)法来有效解决这一问题。

1.3.2 Adaboost-SRDA-NN算法

Adaboost是一种迭代提升算法,基本思想是把多个不同的弱分类器加以集成,构成一个强分类器。我们采用的Adaboost-SRDA-NN算法是把SRDA特征子空间的最近邻分类器作为弱分类器,然后通过Adaboost算法得到由多个弱分类器组成的强分类器。具体算法过程描述如下[11]:

Step 1:训练集样本{(x1,y1), …, (xm,ym)},其中xi为样本点,yi为对应类别标签,初始化训练集样本数据的分布权值W1(i)=1/m,i=1, 2…m,假定进行T次循环迭代,初始化迭代次数t=1。

Step 2:按照当前权重分布从训练样本中选取p(p

Step 6:令迭代次数t=t+1。

Step 7:若t≤T,返回Step 2;若t=T+1, 执行Step 8。

2 结果与分析

2.1 近红外光谱数据预处理

为了消除原始光谱数据中所包含的无关信息,在进行特征提取之前,采用标准正态变换(standard normal variate transformation, SNV)方法对原始光谱数据进行预处理,预处理过后的光谱如图2所示。

Fig.2 Spectrum preprocessed by SNV

2.2 特征提取过程

分别采用主成分分析法(PCA),线性判别分析法(LDA),谱回归判别分析法(SRDA)对预处理过后的数据进行特征提取,其中PCA方法以累积贡献率达到99%作为特征提取标准得到9个特征变量;LDA 和SRDA方法分别获得1个特征变量。然后采用最近邻分类(NN)算法对特征提取过后的数据分别建立状态识别模型,并利用测试集样本进行校验。三种方法的识别结果如表1所示。其中SRDA与传统的PCA和LDA两种特征提取方法相比,能更好的对近红外光谱数据进行特征提取,建立的SRDA-NN模型对测试样本的识别准确率达到了94.28%,要高于其他两种模型。

Table 1 Recognition results of different models

2.3 Adaboost-SRDA-NN算法建模

为了进一步提高模型的识别准确率,以SRDA算法结合最近邻分类算法构建的模型作为弱分类器,通过Adaboost提升算法构建一个强分类器模型,最后采用测试集数据对强分类器模型进行校验。图3所示为该算法迭代次数与模型识别正确率之间的关系。从图3中可以看出,随着迭代次数的增加,该模型的正确识别率也逐渐增加。其中,在2轮迭代之后,该模型对固态发酵过程状态的识别准确率已经达到94.28%以上,逐渐趋于稳定,5轮迭代结束之后,状态识别的准确率达到了100%,算法提升效果明显。因此,针对本工作的研究对象,该算法迭代次数最终选择为5,所建模型效果最佳,对测试集独立样本的正确识别率为100%。

Fig.3 Discrimination rates of SRDA-Adaboost-NN model according to different interations

3 结 论

采用近红外光谱分析技术结合Adaboost-SRDA-NN算法对饲料蛋白固态发酵过程状态进行定性识别。所采用的SRDA特征提取算法相比传统的PCA和LDA两种算法,能更有效地对近红外光谱数据进行特征提取,降低模型的复杂度;提出的Adaboost-SRDA-NN算法能很好地对饲料蛋白固态发酵过程状态进行识别,具有较高的识别正确率。

[1] HU Yao-hua, LIU Cong, HE Yong(胡耀华,刘 聪,何 勇). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2014, 34(4): 922.

[2] Reboucas M V, Santos J B, Pimentel M F, et al. Chemometrics and Intelligent Laboratory Systems, 2011, 107(1): 186.

[3] Jiang H, Liu G, Mei C, et al. Analytical Methods, 2013, 5(7): 1872.

[4] Jiang H, Liu G, Mei C, et al. Analytical and Bioanalytical Chemistry, 2012, 404(2): 603.

[5] Jiang H, Liu G, Xiao X, et al. Microchemical Journal, 2012, 102: 68.

[6] Jiang H, Liu G, Mei C, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2012, 97: 277.

[7] LEI Meng, LI Ming(雷 萌,李 明). CIESC Journal(化工学报), 2012, 63(12): 3991.

[8] Seetohul L N, Scott S M, O’Hare W T, et al. Journal of the Science of Food and Agriculture, 2013, 93(9): 2308.

[9] Gui J, Sun Z N, Cheng J, et al. IEEE Transactions on Circuits and Systems for Video Technology, 2014, 24(2): 211.

[10] JIANG Hui, LIU Guo-hai, MEI Cong-li , et al(江 辉,刘国海,梅从立,等). Transactions of the Chinese Society for Agricultural Machinery(农业机械学报), 2012, 43(10): 114.

[11] Wang J, Zhang Y. Technology for Education and Learning. Springer Berlin Heidelberg, 2012. 259.

*Corresponding author

State Recognition of Solid Fermentation Process Based on Near Infrared Spectroscopy with Adaboost and Spectral Regression Discriminant Analysis

YU Shuang1, 2,LIU Guo-hai3*,XIA Rong-sheng3,JIANG Hui3

1. Mechanical and Electrical Engineering, Suzhou Institute of Industrial Technology, Suzhou 215000, China

2. Mechanical and Electrical Engineering, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China

3. School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China

In order to achieve the rapid monitoring of process state of solid state fermentation (SSF), this study attempted to qualitative identification of process state of SSF of feed protein by use of Fourier transform near infrared (FT-NIR) spectroscopy analysis technique. Even more specifically, the FT-NIR spectroscopy combined with Adaboost-SRDA-NN integrated learning algorithm as an ideal analysis tool was used to accurately and rapidly monitor chemical and physical changes in SSF of feed protein without the need for chemical analysis. Firstly, the raw spectra of all the 140 fermentation samples obtained were collected by use of Fourier transform near infrared spectrometer (Antaris Ⅱ), and the raw spectra obtained were preprocessed by use of standard normal variate transformation (SNV) spectral preprocessing algorithm. Thereafter, the characteristic information of the preprocessed spectra was extracted by use of spectral regression discriminant analysis (SRDA). Finally, nearest neighbors (NN) algorithm as a basic classifier was selected and building state recognition model to identify different fermentation samples in the validation set. Experimental results showed as follows: the SRDA-NN model revealed its superior performance by compared with other two different NN models, which were developed by use of the feature information form principal component analysis (PCA) and linear discriminant analysis (LDA), and the correct recognition rate of SRDA-NN model achieved 94.28% in the validation set. In this work, in order to further improve the recognition accuracy of the final model, Adaboost-SRDA-NN ensemble learning algorithm was proposed by integrated the Adaboost and SRDA-NN methods, and the presented algorithm was used to construct the online monitoring model of process state of SSF of feed protein. Experimental results showed as follows: the prediction performance of SRDA-NN model has been further enhanced by use of Adaboost lifting algorithm, and the correct recognition rate of the Adaboost-SRDA-NN model achieved 100% in the validation set. The overall results demonstrate that SRDA algorithm can effectively achieve the spectral feature information extraction to the spectral dimension reduction in model calibration process of qualitative analysis of NIR spectroscopy. In addition, the Adaboost lifting algorithm can improve the classification accuracy of the final model. The results obtained in this work can provide research foundation for developing online monitoring instruments for the monitoring of SSF process.

Spectral analysis; Near infrared spectroscopy; Feature extraction; Adaboost

Oct. 27, 2014; accepted Feb. 4, 2015)

2014-10-27,

2015-02-04

国家中小型企业创新基金项目(12C26213202207),中国博士后科学基金面上项目(2014M550273)资助

于 霜,女,1981年生,苏州工业职业技术学院机电工程系讲师 e-mail: szyushuang@126.com *通讯联系人 e-mail: ghliu@ujs.edu.cn

O657.33, Q815

A

10.3964/j.issn.1000-0593(2016)01-0051-04

猜你喜欢

固态特征提取分类器
固态Marx发生器均流技术研究
Sn掺杂石榴石型Li7La3Zr2O12固态电解质的制备
透明陶瓷在固态照明中的应用进展
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于Daubechies(dbN)的飞行器音频特征提取
基于实例的强分类器快速集成方法
Bagging RCSP脑电特征提取算法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
宽禁带固态功放在导航卫星中的应用