APP下载

近红外漫反射光谱结合神经网络检测小麦蛋白质含量

2015-03-23赖立群麻望琼陈华才

中国计量大学学报 2015年1期
关键词:乘法预处理光谱

赖立群,麻望琼,陈华才

(中国计量学院 光学与电子科技学院,浙江 杭州 310018)

近红外漫反射光谱结合神经网络检测小麦蛋白质含量

赖立群,麻望琼,陈华才

(中国计量学院 光学与电子科技学院,浙江 杭州 310018)

为了实现对小麦蛋白质含量的快速检测,提出了基于近红外光谱结合神经网络的小麦蛋白质检测方法.以160个小麦样品为对象,采集其近红外漫反射光谱,并以国标法分析小麦样品蛋白质含量,作为参考值.样品随机分成预测样品集和定标样品集,其光谱经标准归一化、去趋势等预处理后,采用BP神经网络和偏最小二乘法分别建立蛋白质含量定标模型.BP神经网络模型的预测相关系数和预测均方根误差分别为0.98和0.270 4%.而偏最小二乘法模型的预测相关性系数和预测均方根误差分别为0.98和0.303 8%.结果表明,两种方法建立的模型都具有较好的预测相关性和预测效果,其中BP神经网络模型优于偏最小二乘法模型.用非线性BP神经网络结合相应算法建立模型检测小麦蛋白质含量的定标模型可以提高检测准确性.

近红外光谱;小麦蛋白质;无损检测;神经网络;偏最小二乘法

蛋白质是评价小麦品质的重要指标之一,快速无损检测小麦蛋白质含量在小麦育种、栽培管理以及粮食收购等环节具有重要的意义[1].近红外光谱信息主要来源于含氢基团O-H,N-H,C-H的倍频和组合频,包含了键强度、化学组分、电负性和氢键等信息[2].近红外光谱检测技术具有检测速度快、成本低、无化学处理、无损检测、无预处理等优点[3],经过几十年的发展与完善,已经逐步应用于农作物、食品的成分检测,成为化学分析法的重要补充技术,提高了检测效率.陈锋等[4]以426个小麦品种为样品,建立了小麦蛋白质含量和水分含量的定标模型,得到了较高的决定系数.闫李慧等[5]对面粉水分含量进行检测,预测均方根误差(RMSEP)为0.381%.郑咏梅等[6]利用偏最小二乘法(PLS)建立了检测整粒小麦蛋白质含量的近红外模型,模型具有较好的稳定性.由于近红外光谱在反映物质的化学组成和浓度的同时,也受到物质的粘度、粒度、表面纹理、密度等物理性质的影响[7],以及仪器、及环境的散射信号、基线漂移、基底噪声等干扰,适当的光谱预处理可以消除光谱中与样品浓度无关的其他影响因素的干扰,提高测定的化学成分与图谱的相关性,使建立的校正模型具有更好的准确性和稳定性.通常采取多元散射校正(MSC)、标准归一化(Standard Normalization)、去趋势(Detrend)、导数(Derivative)等方法对样品近红外光谱进行预处理.近红外定标模型通常分为线性模型和非线性模型两类,线性模型主要包含逐步多元线性回归,主成分回归,偏最小二乘法等,其中偏最小二乘法分析技术在现阶段应用较多.非线性分析技术主要包含人工神经网络(ANN)、非线性偏最小二乘法、局部权重回归分析等.杨南林[8]、禹山林[9]、汤彦丰等[10]通过神经网络结合相应光谱预处理算法,建立数学模型对谷物的鉴别和质量判定进行分析,有着较高的准确率.本文基于人工神经网络建立了检测小麦蛋白质的含量的近红外光谱模型,并同偏最小二乘法模型进行了比较.

1 材料与方法

1.1 实验材料

具有一定蛋白质含量梯度的小麦样品160份,按国标GB/T 5511—2008《谷物和豆类氮含量测定和粗蛋白质含量计算:凯氏法》测定小麦样品的蛋白质含量,作为参考值.样品蛋白质实际含量(质量分数)范围9.7%~15.6%.根据蛋白质含量的高低,选取81个样品用于定标模型的建立,剩余的79份组成预测样品集,用于对定标模型预测效果的检验.

1.2 仪器设备和光谱采集

实验仪器为德国布鲁克MPA型傅里叶变换近红外光谱仪,大光斑偏心旋转样品池,硫化铅(PbS)检测器.小麦样品不做任何处理直接进行近红外光谱采集,采用漫反射吸收光谱法.光谱采集时,样品池相对于入射光斑做偏心旋转,以增大扫描范围,减少样品不均一造成的误差.扫描范围4 000 cm-1~10 000 cm-1(1 000~2 500 nm),分辨率32 cm-1,扫描30次平均.

1.3 光谱数据预处理和模型建立

实验数据预处理和模型建立通过Matlab编程实现.光谱经标准归一化、导数、去趋势等预处理后,采用偏最小二乘法、人工神经网络建立定标模型,根据预测模型的相关系数R,预测均方根误差RMSEP和平均相对误差MRE来比较不同模型的预测效果.

2 实验结果与分析

2.1 神经网络校正模型的建立

光谱经过预处理,用PCA方法提取主成分光谱,如图1,前6个主成分累积贡献达98.25%.前6个主成分经过标准化处理后作为神经网络的输入节点,建立定标模型,并进行内部交叉验证,全样品集验证和预测样品集外部验证.

图1 主成分累积贡献率Figure 1 Cumulative scores with factors

图2 隐含层个数与预测均方根误差的关系Figure 2 Correlationship between the hidden layers and the RMSEP

图3 训练集、预测集、所有数据集与标准输出关系Figure 3 Correlationship between the reference values and the predicted values

在图3中,实线代表训练集样品,虚线代表所有样品集,点划线代表验证集样品.分析结果见表1.训练数据得到的预测均方根误差值为0.259 6%,相关系数为0.98,而验证数据的相关系数R为0.97,预测均方根误差为0.357 8%.而所有样品集的相关系数R和预测均方根误差与验证数据的值相比较都有相应的提高,这是因为随着数据收集的越多,训练的精确度会越来越高.

表1 模型结果

2.2 与其他方法的比较

另外通过偏最小二乘法结合小波消噪预处理建立模型得到实验数据,与神经网络得到的结果进行比较,可以看出,神经网络的校正模型优于偏最小二乘法模型,从神经网络的处理时间来看,神经网络模型耗时小.这是因为偏最小二乘法是线性回归方法,但是由于近红外光谱是不仅反映了物质的组成和性质特征,同时样品化学成分之间关系复杂,易发生缔合作用,影响得到光谱的准确性,而偏最小二乘法模型是不能解决这些因素导致的非线性干扰.而且神经网络具有自学、自适应的能力,随着样品集的多样化,检测模型得到的结果会更加接近常规化学分析法得到的标准值,见表2.

表2 神经网络模型和偏最小二乘法模型各项数据比较分析

3 结 语

从上面的分析结果可以看出,神经网络在近红外光谱的数据处理中有着较大的优势,特别是解决非线性数据处理的方面,数据处理方便,准确性高,具有较高的自适应和灵敏度;优于偏最小二乘法的校正模型.祝诗平用PLS模型检测,得到相关系数0.97,交叉校验预测均方根误差为0.498 3%[11],相比较本实验得到相关系数(0.98)和预测均方根误差(0.270 4%),可以看出神经网络模型的预测精度更加准确,同时神经网络的综合收敛速度快,耗时少,也更适合于光谱数据的非线性数据的分析.但同时神经网络也存在一些有待解决的问题,例如隐含层传输函数的选择,网络结构的设计,以及与高效合理的光谱预处理算法的联合,需要后来者更加深入的研究.

[1] NOMAN M M.用近红外反射估测小麦蛋白质含量[J].国外农学—麦类作物,1989(5):28-29. NOMAN M.M. Measure wheat protein content with near-infrared reflectance spectroscopy[J]. Journal of Triticeae Crops,1989(5):28-29.

[2] 孙来军,王乐凯,钱海波,等.基于近红外透射光谱分析技术的小麦蛋白质含量测定[J].中国农学通报,2011,27(3):29-35. SUN Laijun, WANG Lekai, QIAN Haibo, et al. Measurement of wheat protein content based on nearinfrared transmission spectroscopy[J]. Chinese Agricultural Science Bulletin,2011,27(3):29-35.

[3] 李宁,闵顺耕,覃方丽,等.近红外光谱法非破坏性测定黄豆籽粒中蛋白质、脂肪含量[J].光谱学与光谱分析,2004,24(1):45-49. LI Ning, MIN Shungeng, QIN Fangli, et al. Nondestructive determination on protein and fat content of soybean based on near-infrared spectroscopy[J]. Spectroscopy and Spectra Analysis,2004,24(1):45-49.

[4] 陈锋,何中虎,催党群,等.利用近红外透射光谱技术测定小麦品质性状的研究[J].麦类作物学报,2003,23(3):1-4. CHEN Feng, HE Zhonghu, CUI Dangqun, et al, Study on determination of wheat quality traits by near infrared transmission Spectroscopy[J]. Journal of Triticeae Crops,2003,23(3):1-4.

[5] 闫李慧,王金水,金华丽,等.基于近红外光谱技术的面粉水分无损检测模型的建立[J].现代食品科技,2011,27(2):235-238. YAN Lihui, WANG Jinshui, JIN Huali, et al. Establishment of nondestructive testing model of the moisture content in wheat flour based on near infraredspectroscopy[J]. Modern Food Science and Technology,2011,27(2):235-238.

[6] 郑咏梅,张军,陈星旦,等.短波近红外光谱的整粒小麦蛋白质PLS方法的定量分析[J].光谱学与光谱分析,2004,24(9):1047-1049. ZHENG Yongmei, ZHANG Jun, CHEN Xingdan, et al, Quantitative analysis of whole wheat protein based on near-infared spectroscopy by PLS mode[J]. Spectroscopy and Spectra Analysis,2004,24(9):1047-1049.

[7] 王秀荣,廖红,严小龙.应用近红外光谱分析法测定大豆种子蛋白质和脂肪含量的研究[J].大豆科学,2005,24(3):199-201. WANG Xiurong, LIAO Hong, YAN Xiaolong. Research on the determination of protein and fat content of soybean seed based on near infrared spectroscopy[J]. Soybean Bulletin,2005,24(3):199-201.

[8] 杨南林,程翼宇,瞿海斌.用人工神经网络-近红外光谱法测定冬虫夏草中的甘露醇[J].分析化学研究报告,2003,31(6):664-668. YANG Nanlin, CHENG Yiyu, QU Haibin. Determination of mannitol inCordycepssinensisby neutral network based on near infrared spectroscopy[J]. Chemical analysis of Research Report,2003,31(6):664-668.

[9] 禹山林,朱雨杰,闵平,等.傅立叶近红外漫反射非破坏性测定花生种子蛋白质及含油量[J].花生学报,2003,32(增刊):138-143. YU Shanlin, ZHU Yujie, MIN Ping, et al. Non-destructive determination on protein and soil content by Fourier method based on near infrared Reflectance spectroscopy[J]. Journal of Peanut Science,2003,32(suppl):138-143.

[10] 汤彦丰,张卓勇,范国强.中草药大黄的近红外光谱和人工神经网络鉴别研究[J].光谱学与光谱分析,2004,24(11):1348-1351. TANG Yanfeng, ZHANG Zhuoyong, FAN Guoqiang. Identification about near infrared spectrum of rhubarb by neutral network[J]. Spectroscopy and Spectra Analysis,2004,24(11):1348-1351.

[11] 祝诗平,张一鸣,张小超.小波消噪及其在小麦蛋白质含量近红外光谱分析中的应用[J].西南农业大学学报,2003,25(6):522-525. ZHU Shiping, ZHANG Yiming, ZHANG Xiaochao. Wave-denosing in application of wheat protein content based on near infrared spectroscopy[J]. Journal of Southwest Agricultural University,2003,25(6):522-525.

[12] 尼珍,胡昌勤,冯芳.近红外光谱分析中光谱预处理方法的作用及其发展[J].药物分析杂志,2008,28(5):824-829. NI Zhen, HU Changqin, FENG Fang. The development and function of spectral pretreatment in near infrared spectra analysis[J].Chinese Journal of Pharmaceutical Analysis,2008,28(5):824-829.

[13] 汤守鹏,姚鑫锋,姚霞,等.基于主成分分析和小波神经网络的近红外多组分建模研究[J].分析化学研究报告,2009,37(10):1445-1450. TANG Shoupeng, YAO Xinfeng, YAO Xia, et al. Res earch on multi component mode based on wave neutr al network and PCA[J]. Research Report of Chemical analysis,2009,37(10):1445-1450.

[14] 禇小立,袁洪福,陆婉珍.近红外分析中光谱预处理及波长选择方法进展和应用[J].化学进展,2014,16(4):528-542. CHU Xiaoli, YUAN Hongfu, LU Wanzhen. The development and application on spectra pretreatment and wavelength selection method[J]. Chemistry in Progress,2014,16(4):528-542.

Wheat protein nondestructive analysis with near infrared reflectance spectroscopy combined with artificial neutral networks

LAI Liqun, MA Wangqiong, CHEN Huacai

(College of Optical and Electronic Technology, China Jiliang University, Hangzhou 310018, China)

To nondestructively analyze protein content in wheat grain, we put forward a method based on the near-infrared reflectance spectroscopy combined with artificial neutral networks. The near-infrared reflectance spectra of 160 wheat samples were acquired and divided into calibration sets and prediction sets randomly. The reference values of the protein content of the samples were analyzed with the national standard method. The spectra were pretreated with the methods of standard normalization and detrend. The calibration models were established with the algorithm of the back-propagation artificial neural network(BP-ANN) and the partial least square(PLS), respectively. The coefficient of determination (R) and the root mean square error prediction (RMSEP) of the BP-ANN model were 0.98 and 0.270 4%, while that of the PLS model were 0.98 and 0.303 8%. It indicates that it is feasible to use the near infrared spectroscopy combined with an appropriate algorithm model to nondestructively analyze the protein content of wheat. The non-linearal BP artificial neutral network model is better than the PLS model.

NIR; wheat protein; non-destructive analysis; artificial neural network; partial least squares

1004-1540(2015)01-0055-05

10.3969/j.issn.1004-1540.2015.01.010

2014-09-18 《中国计量学院学报》网址:zgjl.cbpt.cnki.net

浙江省重点科技创新团队项目(No.2010R50028).

S512.1;S123

A

猜你喜欢

乘法预处理光谱
算乘法
基于三维Saab变换的高光谱图像压缩方法
求解奇异线性系统的右预处理MINRES 方法
我们一起来学习“乘法的初步认识”
高光谱遥感成像技术的发展与展望
高COD二噻烷生产废水预处理研究
《整式的乘法与因式分解》巩固练习
把加法变成乘法
基于预处理MUSIC算法的分布式阵列DOA估计
基于膜过滤的反渗透海水淡化预处理