基于可见近红外光谱分析技术的马铃薯品种鉴别方法
2016-06-15陈争光范学佳
陈争光, 李 鑫, 范学佳
黑龙江八一农垦大学信息技术学院, 黑龙江 大庆 163319
基于可见近红外光谱分析技术的马铃薯品种鉴别方法
陈争光, 李 鑫, 范学佳
黑龙江八一农垦大学信息技术学院, 黑龙江 大庆 163319
基于可见-近红外光谱分析技术, 提出了一种快速鉴别马铃薯品种的方法。 以三种不同品种共计352个样本的马铃薯作为主要研究对象, 随机将其分为建模集(307个样本)和预测集(45个样本)。 对其中的建模集样品进行可见-近红外光谱分析, 将获取的光谱图像通过多元散射校正(MSC)和窗口大小为9的Savitzky-Golay(S-G)一阶卷积求导方法预处理, 消除颗粒大小、 表面散射及光程变化对漫反射光谱影响, 降低原始光谱曲线的随机噪声影响。 然后用偏最小二乘法(PLS)对数据进行降维、 压缩, 使用主成分分析方法(PCA)获得的前4个主成分累计贡献率达到96%以上, 并从前4个主成分图谱中提取20个吸收峰作为输入变量, 经过试验, 得到一个20(输入)-12(隐含)-3(输出)结构的3层BP神经网络。 最后利用该模型对预测集样本进行品种鉴别, 识别正确率达到100%。 此方法能较为快速、 准确地鉴别马铃薯的品种, 为马铃薯品质检测与鉴别提供了新思路。
可见-近红外光谱; 马铃薯; BP神经网络; 偏最小二乘; 品种鉴别
引 言
作为我国四大农作物之一的马铃薯, 年产量近9 000万吨, 仅黑龙江省马铃薯年产量达到700多万吨。 从2015年起, 中国将启动马铃薯主粮化战略, 推进把马铃薯加工为主食, 因此马铃薯将成水稻、 小麦、 玉米外的又一主粮。 随着杂交技术的不断发展, 马铃薯的新品种也逐渐增多, 单从外表通过肉眼很难区分马铃薯的类别。 使用传统的生化鉴别方法存在费时、 费力、 破坏样本并存在化学污染等不足。 因此, 研究一种高效, 无损的鉴别方法显得尤为重要。
人类发现近红外光谱区已经有200多年的历史, 但是真正将近红外光谱分析技术应用于工农业生产则是近几十年的事。 光谱分析技术具有效率高、 速度快、 无损、 无污染等特点, 能够利用测量所得的波段对物质进行定性或定量分析, 已在食品、 药品、 石油化工等诸多领域被广泛应用。 将光谱技术应用于农产品检测方面, 国内外学者利用近红外光谱技术在农产品(玉米、 谷物)品质检测方面进行了大量的研究, 将光谱技术应用于马铃薯研究方面, 国内外学者的研究兴趣主要集中在使用光谱技术对某一品种单一组分(如淀粉[1]、 蛋白质[2]、 还原糖等)或病理[3]的检测。 将光谱技术应用于农产品类别识别方面, 国内外研究较少, 周子立等[4]提出一种基于近红外光谱技术的大米品种快速鉴别方法, 用可见光-近红外光谱技术结合小波变换数据压缩技术对来自三个不同地区的大米进行了分类研究, 取得了较好的效果。 牛晓颖等使用近红外漫反射光谱对不同品种草莓进行无损鉴别的方法, 并分析了各品种草莓品质指标的差异性。 将光谱技术应用于马铃薯品种鉴别方面的报道尚不多见, 代芬等以近红外荧光光谱和近红外拉曼光谱作为检测手段鉴别马铃薯品种, 比较两种光谱的鉴别效果, 但研究中没有考虑光谱散射对数据处理的影响。 因为即便是相同品种的马铃薯, 其物理性质(大小、 形状、 表面粗糙程度)仍有很大差异, 由此产生的散射光极易干扰到荧光光谱的效果, 从而导致灵敏度较低, 鉴别效果不明显。 由于近红外光谱波段信息量大、 光谱重叠, 马铃薯表皮情况复杂很难直接从原始光谱中提取有效信息, 若直接利用原始光谱进行分析建模, 所得模型的稳定性差、 精度低, 影响分析结果。 本文利用光谱仪获取马铃薯的可见-近红外光谱数据, 在对光谱曲线进行预处理基础上采用偏最小二乘法对光谱进行降维、 数据压缩和主成分提取, 用所得的主成分结合BP神经网络建模, 实现对马铃薯的品种鉴别。
1 实验部分
1.1 仪器与软件
使用的是美国ASD公司制造的FieldSpec UV/VNIR手持式可见-近红外光谱仪, 光谱测定范围为325~1 075 nm, 采样间隔3 nm。 光源为两个100 W白炽灯泡。 数据处理软件为ViewSpecPro, The Unscrambler X 10.3和MATLAB R2013b。
1.2 样品
从当地农贸市场购买三种常见的马铃薯各一袋, 分别为讷河马铃薯、 内蒙黄瓤、 内蒙白瓤(分别用A, B, C表示)。 选取的样本数A为142, B为84, C为126, 共计352个样本。 样本随机分成建模集和预测集, 建模集样品数为307个, 预测集为45个(每个品种各随机选择15个样本)。
1.3 光谱的获取
仪器预热30 min并进行优化和白平衡后开始测量, 光源置于仪器两侧, 仪器探头与样本垂直, 距离约2~3 cm, 如图1所示。 实验时, 每个样本扫描32次取平均值作为样本实验数据。
图1 实验平台
1.4 光谱预处理
光谱图像主要反应物质的组成成分和成分含量, 因为受环境中多种因素(光照、 粒度、 密度、 表面纹理等)的干扰, 原始光谱曲线会产生基线漂移[5]并且含有噪声, 由于光谱曲线中325~400 nm之间受噪声影响严重, 因此研究范围以400~1 075 nm为主。 为了消除光谱曲线中基线平移和偏移的影响, 采用多元散射校正(MSC)方法分别处理三个品种的马铃薯光谱, 增强光谱曲线与成分含量的相关性。 再用Savitzky-Golay一阶卷积求导, 窗口尺寸为9[6]。 该处理流程避免了直接使用求导方法造成噪声放大的弊端, 并且可以得到比原始光谱更高的分辨率和更清晰的波形变化, 有助于后期模型的建立, 提高模型的稳定性和可靠性。
1.5 偏最小二乘与人工神经网络
使用偏最小二乘(partial least squares, PLS)对光谱进行降维时[7-8], 同时分解光谱矩阵(自变量矩阵X)和浓度矩阵(因变量矩阵Y), 并将浓度信息引入到光谱矩阵分解过程中, 在计算主成分之前, 交换光谱矩阵与浓度矩阵的得分, 从而使光谱主成分和该组分含量直接进行关联。
人工神经网络(Artificial Neural Network, ANN)具有很强的学习能力、 鲁棒性、 自适应性及高度非线性表达能力[9]。 ANN中最常用到的是BP(Back Propagation)神经网络, 它是一种信息正传递, 误差反向传播的多层前馈网络, 信息通过输入层、 隐含层到达输出层, 如果输出层没有输出期望值, 则计算误差变化值并反向传播, 网络通过误差信号自行更正各层神经元的权值, 使输出不断逼近期望值。 利用训练数据对构建的网络进行训练, 通过网络的自学习而产生预测能力, 从而实现预测集中的样本分类。
2 结果与讨论
2.1 马铃薯的可见-近红外反射光谱
图2所示为截取后的400~1 075 nm范围内三种马铃薯的典型可见-近红外反射光谱曲线, 波谱的趋势大致相同, 说明不同品种马铃薯组分基本相同, 曲线的差异主要是由于不同品种马铃薯主要成分含量差异所致, 各自的特征较为明显。 利用PLS对预处理后的光谱进行分析, 对不同种类的马铃薯进行分类。
图2 三种马铃薯的可见-近红外光谱反射图
2.2 偏最小二乘对马铃薯品种的聚类分析
图3所示为通过对光谱进行多元散射校正和窗口宽度为9的S-G一阶卷积求导预处理后的效果图, 从图中可以看出预处理之后的谱线有了明显的变化, 不同品种之间的差异较图2更加明显, 为接下来的品种鉴别工作奠定了基础。 用PLS对处理后的光谱数据进行分析, 在计算主成分时尽可能地保证方差最大, 更多地提取数据内有效信息, 并且尽量利用光谱变量与浓度之间的线性关系与浓度最大程度地相关联。 图4所示为使用PLS处理之后, 以前3个主成分PC1, PC2, PC3作为坐标轴, 对建模集中的样品进行聚类之后的效果, 聚类效果非常明显。 通过观察, 三个样本分布在坐标的不同区域。 样本B在三维坐标系的中心带, 而样本A和样本C分居两侧, 并且样本各自的聚合度非常好, 没有大幅度跨象限的现象。
图3 预处理后的三种马铃薯光谱图
图4 马铃薯主成分(PC1, PC2, PC3)得分图
2.3 基于BP神经网络马铃薯品种鉴别模型的建立
全谱数据中混杂着一些无效或干扰信息, 用全波段数据进行建模会影响模型的稳定性、 精确度和运算速率。 挑选出有代表性的光谱特征数据进行模型建立能大大提高运算效率。 如图5所示为全谱范围的前4个主成分图谱, 其累计贡献率达到96%以上, 选取20处最能反应光谱信息的吸收峰所对应的波长作为光谱特征数据。 由于PC1和PC2累积贡献率达86%, 包含了样品中大部分特征信息, 因此选取这两个主成分的全部吸收峰, 共计13个; 而PC3和PC4累积贡献率为10%, 贡献率相对较低, 其主成分会掺杂有噪声, 因此选取这两个主成分的显著吸收峰, 共7个。 对选取的20个特征峰数据进行归一化处理作为BP神经网络的输入, 神经网络各层传递函数选用S型(Sigmoid)函数, 学习速率设为0.1, 最大迭代次数为2 000, 通过调整隐含层节点数来优化网络结构, 用试凑法反复测试, 最终得到的最佳网络结构为20(输入)-12(隐含)-3(输出)的3层BP神经网络模型, 通过训练得出样本正确分类百分比为99.15%, 平均绝对误差为0.012。 对预测集的45个样本进行分类, 预测准确率达到100%, 如表1所示。
图5 全谱范围的前四个主成分图谱
序号真实值预测值序号真实值预测值序号真实值预测值1AA(99 78%)16BB(99 98%)31CC(99 91%)2AA(98 74%)17BB(98 68%)32CC(97 97%)3AA(99 97%)18BB(99 72%)33CC(98 91%)4AA(97 63%)19BB(96 98%)34CC(98 78%)5AA(99 96%)20BB(97 41%)35CC(99 90%)6AA(98 77%)21BB(98 93%)36CC(99 96%)7AA(99 73%)22BB(99 98%)37CC(98 13%)8AA(99 99%)23BB(99 94%)38CC(97 72%)9AA(99 58%)24BB(97 23%)39CC(98 64%)10AA(98 51%)25BB(97 82%)40CC(96 86%)11AA(97 26%)26BB(98 53%)41CC(98 89%)12AA(99 95%)27BB(99 51%)42CC(99 11%)13AA(99 99%)28BB(99 98%)43CC(97 81%)14AA(98 98%)29BB(99 98%)44CC(99 61%)15AA(99 79%)30BB(98 59%)45CC(99 58%)
3 结 论
运用可见-近红外光谱分析技术结合BP神经网络建模对三种马铃薯样本进行了品种鉴别。 采集三种马铃薯的反射光谱作为研究样本, 经过多元散射校正和S-G一阶卷积求导后, 用PLS进行数据压缩, 将前4个主成分的吸收峰作为输入变量, 建立了20-12-3结构的BP神经网络模型, 对预测集样本分类的正确率达到100%, 能够高效、 准确地对马铃薯品种进行鉴别, 并且不损坏样本结构, 克服了传统方法检测的弊端。 研究表明该方法可以用于马铃薯品种鉴别和分类, 可以作为有效手段加以推广、 应用。
[1] WU Chen, HE Jian-guo, LIU Gui-shan, et al(吴 晨, 何建国, 刘贵珊, 等). Food and Machinery(食品与机械), 2014, 30(4): 133.
[2] López, A, Arazuri S, Jarén C, et al. Procedia Technology, 2013, 8: 488.
[3] HUANG Tao, LI Xiao-yu, XU Meng-ling, et al(黄 涛, 李小昱, 徐梦玲, 等). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2015, 35(1): 198.
[4] ZHOU Zi-li, ZHANG Yu, HE Yong, et al(周子立, 张 瑜, 何 勇, 等). Transactions of the Chinese Society of Agricultural Engineering(农业工程学报), 2009, 25(8): 131.
[5] NI Zhen, HU Chang-qin, FENG Fang(尼 珍, 胡昌勤, 冯 芳). Chinese Journal of Pharmaceutical Analysis(药物分析杂志), 2008, 28(5): 824.
[6] LI Xin, CHEN Zheng-guang(李 鑫, 陈争光). Heilongjiang Agricultural Sciences(黑龙江农业科学), 2015, 2: 132.
[7] Alvarez Sánchez B, Priego Capote F, García Olmo J, et al. Journal of Chemometrics, 2013, 27(9): 221.
[8] Peerapattana J, Shinzawa H, Otsuka K, et al. Journal of Near Infrared Spectroscopy, 2013, 21(3): 195.
[9] Wang S, Zhang Z, Ning J, et al. Analytical Letters, 2013, 46(1): 184.
Method for the Discrimination of the Variety of Potatoes with Vis/NIR Spectroscopy
CHEN Zheng-guang, LI Xin, FAN Xue-jia
College of Information Technology, Heilongjiang Bayi Agricultural University, Daqing 163319, China
Potato (Solanum tuberosum L.) , as one of the most important carbohydrate food crops in the China ranking thefourth after rice, wheat and maize, plays a significant role in national economy. Since there are many varieties of potato, the quality such as physical sensory property and chemical components, differ drastically with the variety of potato. Different potato varieties are suitable for different utilization. Thus, the rapid and nondestructive identification of potato cultivars plays an important role in the better use of varieties. Near infrared (NIR) spectroscopy has raised a lot of interest in the classification and identification of agricultural products because it is a rapid and non-invasive analytical technique. In this study, a rapid visible (VIS) and near infrared (NIR) spectroscopic system was explored as a tool to measure the diffuse spectroscopy of three different species of potatoes. 352 potato samples (Sample A 142, Sample B 84, Sample C 126) from different sites in Heilongjiang province of China, obtained from peddlers market, were randomly divided into two sets at random: calibration set and prediction set, with 307 samples and 45 samples respectively for each set. The potatoes in the calibration set were tested with visible-near infrared spectroscopy method. The spectral data obtained from this test were analyzed with near infrared spectral technology, along with data processing algorithm, i.e., Savitzky-Golay (S-G) smoothing and multiplicative scatter correction (MSC). The spectra data was firstly transformed by multiplicative scatter correction (MSC) to compensate for additive and/or multiplicative effects. In order to reduce the noise components from a raw spectroscopic data set, Savitzky-Golay smoothing and differentiation filter method were introduced. It was proved that, with the soothing segment size of 9, many high frequency noises components can be eliminated. Based on the following analysis with principal component analysis (PCA), partial least square (PLS) regression and back propagation artificial neural network (BP-ANN), a near infrared discrimination model was established. The results obtained from the partial least squares (PLS) analysis showed a positive cumulate reliability of more than 96% for the first four components. The clustering effect was also getting better. After that, twenty absorption peaks extracted from the first four principal components were applied as BP neural network inputswhile a three layers BP neural network [20(input) - 12(implicit) - 3 (output)] was constructed, upon which the recognition accuracy of potato varieties for those Prediction Set samples reaches 100%. As a result, the model established in this study can rapidly and accurately identify potato varieties without any destruction, which provides a new way for potato quality detection and variety identification.
Vis-NIRS; Potato; BP neural network; Partial least squares (PLS); Discrimination
Jun. 1, 2015; accepted Nov. 28, 2015)
2015-06-01,
2015-11-28
高等学校博士学科点专项科研基金项目(20124105110004), 黑龙江省科技计划项目(GA09B501-2)和黑龙江省教育厅科研项目(12521370)资助
陈争光, 1973年生, 黑龙江八一农垦大学信息技术学院副教授 e-mail: ruzee@sina.com
O433.4; S532
A
10.3964/j.issn.1000-0593(2016)08-2474-05