基于可见光回归分析的苹果糖度检测的实验
2021-05-09曹锡磊陈琦杜湘婷
曹锡磊 陈琦 杜湘婷
摘 要:基于光谱仪、可见光以及数据回归分析,设计了实验光路进行了苹果的糖度分析。光谱仪选用海洋光学的光谱仪,采用了200 nm至1 000 nm的白光光源进行实验,数据采用了PLSR算法进行回归分析,采用红富士进行实验,通过标准光谱仪预实验获取对糖度较为敏感的波长,发现在570 nm、682 nm出现了吸收峰,并使用PLSR算法进行回归分析,实验结果显示相关系数r达到了0.721,可以证明其有预测效果。
关键词:可见光;苹果糖度;回归分析
中图分类号:TS255.7 文献标识码:A文章编号:2096-4706(2021)20-0131-04
Experiment of Apple Sugar Content Detection Based on Visible Light Regression Analysis
CAO Xilei, CHEN Qi, DU Xiangting
(Fujian Normal University, Fuzhou 350117, China)
Abstract: Based on spectrometer, visible light and data regression analysis, an experimental light path is designed to analyze the sugar content of apple. The spectrometer is a Marine Optics spectrometer, and the white light source from 200 nm to 1 000 nm is used for the experiment, data are regressed and analyzed by PLSR algorithm, Red Fuji apple is used for the experiment, the wavelength sensitive to sugar is obtained through the pre experiment of standard spectrometer. It is found that there are absorption peaks at 570 nm and 682 nm, and the regression analysis is carried out by PLSR algorithm. The experimental results show that the correlation coefficient r reaches 0.721, which can prove it has reached prediction effect.
Keywords: visible light; apple sugar content; regression analysis
0 引 言
农产品作为副食,已经成为人类补充营养的重要来源之一,在这些农产品中,诸如苹果、香蕉等水果含有着极其丰富的营养。随着经济的发展,人们的生活水平在不断地提高,与此同时,人们对副食的需求量及其质量要求也在不断提高,目前我国水果行业不断地发展,规模在不断的扩大,已经成为产值达万亿级的产业。相较于全球而言,我国水果消费量极高,目前已经是水果消费大国,行业规模极大,水果产业对我国GDP有着巨大贡献,截至2018年,水果行业的市场规模达到了约两万亿元。在产量上,2018年我国水果产量就已接近3亿吨,稳居世界第一[1]。因此对于农产品的质量检测就成为一个十分值得探究的课题。
随着我国人民生活质量的提高,对于食品质量的检测要求也隨之增高,据调查,目前市场主流糖度检测为有损检测,对于需要无损检测的应用场景有着致命缺陷,有损检测技术逐渐无法满足于当代人们对于食品质量检测的需求,在不破坏水果的前提下,依靠人的主观判断水果品质显然不够稳定,且费时费力。
国内外主流的无损检测多研究的是近红外光谱,由于智能手机的摄像头无法获取此波段的光谱,这使得主流无损检测技术难以运用于智能手机,在农产品的无损检测中对于可见光方面的研究十分不足。
相较于近红外光谱,可见光对光栅的要求较低,比较容易获得光谱,且使用可见光作为光源可以节约成本,功率较低,节能环保。实验采用了苹果进行糖度检测,由于苹果内部不同成分对不同波长的光吸收程度的不同,通过分析苹果表面反射的光线可以在保证苹果不受损伤的前提下对苹果的糖度进行预测。
1 理论部分
1.1 PLSR算法
PLSR算法(Partial least squares regression),其全称为偏最小二乘回归算法,是一种基于多因变量Y对多自变量X回归建模方法,其中,将糖度与吸光度进行回归分析,PLSR算法在回归分析的过程中,不仅仅对单一变量进行分析,而是综合考虑了自变量与因变量主成分之间的相关性[2]。
PLSR算法的原理为设多个因变量yi以及多个自变量xb,通过观测n个样本点来研究自变量以及因变量的统计关系,即波长对应的强度与糖度有关成分的相关程度,以此建立自变量与因变量的统计数据列表{x1…xi}、{y1…yb},令t1为自变量数据表线性组合中的成分,对应u1为因变量数据表线性组合的成分,在为回归分析提取成分时需满足两个条件:
(1)自变量与因变量中所提取的成分应携带其数据表中的变异信息。
(2)自变量与因变量中所提取的成分应尽可能相关。
提取出自变量和因变量的成分之后,PLSR算法实施对自变量提取成分的回归分析,同时进行因变量提取成分的回归。若得到的回归分析方程即吸光度和糖度之间可以达到一个满意的拟合度,则算法运算将被终止,否则,算法将获取X对自变量提取成分解释后的剩余信息,同时取Y对因变量提取成分解释后的剩余信息进行第二轮的成分提取。这个过程将会一直持续到能达到一个较满意的精度,之后运算终止。若最终对自变量共提取m个成分,偏最小二乘回归将通过实施对应的提取m个因变量成分,然后再表达成yk关于原变量x1,x2,…,xi的回归方程。在对吸光度与糖度的回归分析中可以得到一整套每个波长对应糖度相关程度的回归分析模型。
1.2 剔除离群点
在建立可见光谱模型时,将实验所取得的样品集分为两个部分,分别为训练用的校正集以及验证用的预测集两部分,用校正集的样本进行回归分析模型的构建,当能找到一套回归模型后使用其来预测预测集的样本,通过比较通过模型拟合出的预测值与使用标准量具记录的真实值之间的差异,来判断模型预测性能的好坏。RMSEC和RMSEP是预测值与其真实值之间的误差平方和和均方根值。RMSEC和RMSEP由以下公式计算:
2 实验部分
2.1 仪器设备
光谱仪采用了海洋光学的光谱仪(USB 4000,Ocean Optics Inc.U.S.)、波长范围为200 nm ~ 1 045 nm的白光光源、抬升装置以及传输用光纤探头。使用配套的SpectraSuite软件连接光谱仪收集数据,标准糖度仪采用速为(SWEVY)手持式折光仪糖分测量仪。算法方面采用The Unscrambler X软件中内置的PLSR算法进行回归分析。
2.2 实验方法与步骤
实验场地使用遮光布进行暗环境的搭建,让光纤探头以固定距离倾斜对准苹果赤道,电脑连接海洋光学的光谱仪准备随时获取光谱数据并进行记录保存,控制探头与苹果距离,尽量选择光滑处进行实验,如图1所示,以排除因表面凹凸不平导致的错误数据,对每个照射点进行标记并使用标准量具进行真实值获取[4]。
具体步骤如下:
(1)选用苹果种类为红富士,光源、光谱仪通过光纤相互连接,连接运行时注意保持光纤顺畅以避免传输过程中受到影响,光纤探头放置于苹果正上方约2 cm的距离然后固定。
(2)取下苹果并将白板置于探头下2 cm处,拉上遮光布避免环境光影响,通过电脑记录基准白板的光谱数据。实验每更换一种苹果将进行一次环境数据的记录,并且在处理时分开进行处理;且此后每次测量都不可拉开遮光布。
(3)将探头偏移一个角度,使其与苹果正面形成一个小角度倾角,以避免镜面反射的干扰。
(4)对共计60个苹果进行绕赤道取样,得到了300组漫反射光谱数据。在获取光谱数据同时对测量点进行标记,挖取果肉榨汁使用速为手持糖度仪对标记点的糖度进行测量记录。挖取果肉速度要快,避免氧化对测量造成影响。
(5)使用SpectraSuite软件进行数据的导出,导出格式为txt,使其可以导入MATLAB进行初步处理。
(6)将整理好的数据转化为吸光度,将暗背景与基准白板同时导入以消除环境以及光源产生的误差,最后使用吸光度公式进行转化。
2.3 实验数据处理及结论
实验一共收集了几种算法进行最佳算法组合选择,分别为连续投影算法(successive projections algorithm, SPA)、Kennard–Stone(KS)、交叉验证法、偏最小二乘回归(Partial least squares regression, PLSR)[5]。SPA算法用于选择特征波长,KS算法和交叉验证法用于选择出训练集和预测集,PLSR用于建立回归模型。根据R2、校正均方根误差和预测均方根误差这三个指标,在全光谱+KS+PLSR和全光谱+交叉验证+PLSR的比較中我们选择了交叉验证法,在全光谱+交叉验证+PLSR和SPA+交叉验证+PLSR的比较中我们选择了全光谱。
实验将SpectraSuite软件的数据进行导出,相关仪器参数设置为:
(1)数据:Sun Jun 13 10:39:54 CST 2021
(2)暗光谱:否
(3)参考光谱:否
(4)光谱仪:QEB1452
(5)积分时间(微秒):100 000 (QEB1452)
(6)去除暗噪声:否(QEB1452)
(7)使用脉冲信号/灯:否(QEB1452)
(8)光谱像素值:1 044,其中初始数据波长范围为247.25 nm~1 045.27 nm。
部分初始数据如表1所示。
将光强转换为吸光度,将初步获得的吸光度数据进行归一化处理,并进行吸光度曲线的绘制。通过观察曲线可以发现3种苹果均在570 nm、682 nm存在吸收峰,如图2所示。记录这两个吸收峰,并将差距较大的曲线剔除。
将吸光度数据导入The Unscrambler X软件,使用PLSR算法进行回归分析,在剔除了误差较大的点后,取存在吸收峰的570 nm、682 nm进行筛选后,在其他具有较小关系系数的波长辅助预测下,预测集相关系数r方值达到了0.721,如图3、4所示。
由此得到最优算法为全光谱+交叉验证+PLSR算法。此外在对数据进行处理时还发现,用PLSR算法进行离群点的剔除能够大大增加预测的精度和稳定度。实验数据证明了570 nm、682 nm这两个吸收峰与糖度之间在回归模型中分别存在着相对于其他波长而言较大负相关系数以及正相关系数。
通过算法以及回归模型对采集的部分样本进行了预测,得到如表2所示的数据。
3 结 论
实验找到了两个与糖度分别具有较大相关系数的波长,但是存在着容易受到苹果本身具有的不规则斑点的影响,并且损伤部分也会对预测结果造成不同程度的影响,建议可以在研究糖度的同时对不同的斑点、损伤部分进行特征波长的提取,并在回归分析时剔除掉相应的波长相关系数。其次,此次所寻找的波长是针对三类苹果的共同特征波长,建议可以尝试将单种苹果拿出进行进一步的分析研究,进一步优化单种苹果的预测模型。
实验所使用的光源波段为可见光波段,这意味着该研究的成果更加有利于向商业化的便携式糖度检测仪与智能手机结合,但是使用现成光谱仪不方便进行小型化开发,建议可以通过采集光源照射苹果后周围产生的图像进行特殊的图像处理获得理想的分析图像,并采用神经网络算法进行进一步分析建模。
参考文献:
[1] 何琳纯.中国水果市场发展分析研究 [J].中国管理信息化,2020,23(19):149-150.
[2] 罗批,郭继昌,李锵,等.基于偏最小二乘回归建模的探讨 [J].天津大学学报,2002(6):783-786.
[3] 毕荣道,赵旻.基于PCA及霍特林T2分布的在线近红外建模研究 [J].电子技术与软件工程,2021(13):189-191.
[4] ZHANG Y Q,CHEN Y,WU Y,et al. Accurate and nondestructive detection of apple brix and acidity based on visible and near-infrared spectroscopy [J].Applied optics,2021,60(13):4021-4028.
[5] 高升,王巧华,付丹丹,等.红提糖度和硬度的高光谱成像无损检测 [J].光学学报,2019,39(10):355-364.
作者简介:曹锡磊(2001.05—),男,汉族,广东廉江人,本科在读,研究方向:工程光学。