基于色敏传感器结合光谱技术的大米储藏期鉴别
2019-06-27陈全胜林金金
林 颢 王 卓 陈全胜 林金金
(江苏大学食品与生物工程学院, 镇江 212013)
0 引言
大米是消费最广泛的谷物之一,大多数国家都会把大米作为战略资源来储存以应对突发状况[1]。因富含蛋白质、淀粉和脂肪等营养物质,随着储藏时间的延长,新鲜大米将会发生陈化。大米中的脂类物质由于不稳定性会发生水解或者氧化反应,并开始散发出异味[2]。因此,气味常作为一种判断大米新鲜度的指标。
传统检测气体的方式主要采用感官评定和气相色谱质谱联用仪(GC-MS)[3]。感官评定具有一定主观性,且大米储藏过程中会产生有害气体,易对实施嗅觉和味觉方面评定的评价人员造成健康威胁,使感官判别分析不适于大米的陈化检测。而 GC-MS 技术操作繁琐、成本高、耗时较长使其不能应用于大米新鲜度的快速检测中[4]。嗅觉可视化技术是近几年兴起的一种表征气体的新方法[5],该方法利用酯类、醇类、醛类、酸类等挥发性有机物质与色敏传感器反应,使构成传感器的特定色敏材料的电子产生能级跃迁,即在宏观上表现为颜色的变化[6]。通过CCD相机获取反应前后色敏材料的RGB差值可对挥发性气体进行定性定量的分析。这种技术已经在判别鉴定肉类新鲜度[7]、食醋种类[8]、红茶发酵程度[9]等研究中取得了较好的分类或定量效果。然而,基于嗅觉可视化技术获取的变化信息主要是通过提取反应前后的RGB差值图像来表征的,即每个色敏材料的颜色变化仅通过R、G、B3个分量来表征。因此,较少的有效信息量可能会一定程度上限制判别大米储藏时间的正确率。
本文以氟硼吡咯类化合物作为制作色敏传感器的色敏材料,并且使用色敏传感器结合可见/近红外光谱技术对大米储藏时间进行鉴别。通过提取与不同储藏时间大米挥发性气体反应后色敏材料的光谱信息,从更多维的数据水平上对大米的储藏时间进行鉴别。在数据处理过程中,应用联合区间偏最小二乘法(Si-PLS)筛选各色敏材料光谱数据的最佳变量区间[10],随后分别采用遗传算法(GA)、蚁群算法(ACO)[11]和无信息变量消除(UVE)方法[12]进行变量筛选,并用PCA(主成分分析)和LDA(线性判别分析)算法建立大米的储藏时间预测模型。
1 材料与方法
1.1 实验材料
选用中粮集团的福临门苏软香型大米作为研究对象,将购于当地旅游超市的新鲜大米置于恒温恒湿箱内储藏,设定储藏温度为40℃,空气相对湿度为80%。实验时,依据大米在培养箱中的不同时长将其分为储藏期0、1、2、4、6个月的样品,每个储藏期取30份,每份准确称量8.0 g,共获取150组样品。将各组样品按照2∶1的比例随机分配为训练集和校正集。训练集样本(100份)用于建立储藏时间预测模型,校正集(50份)用于评价判别模型的性能。
1.2 实验仪器
实验所用可见/近红外光谱检测系统如图1所示,由卤素灯、光纤、光谱仪、色敏传感器和计算机组成。光谱仪为USB2000+型可见/近红外光谱仪(美国Ocean Optics公司),所用传感器型号为线阵CCDILX554B,测量的波长范围为300~1 000 nm。SD1200型卤素灯(超微光学公司,中国台湾)功率为10 W。
图1 可见/近红外-色敏传感器检测系统Fig.1 Detection system of visible/near-infrared combined with colorimetric sensor array1.色敏传感器 2.光源 3.可见/近红外光谱仪 4.计算机 5.光纤
1.3 实验方法
1.3.1光谱采集
通过前期的实验,选取3种对大米挥发性气体敏感的氟硼吡咯类化合物作为色敏材料,由经典林赛方法在实验室制得[13]。将色敏材料分别以2.0 mg/mL的质量浓度溶解于二氯甲烷中,并用毛细管(0.5 mm×10 mm)吸取溶液至管长的1/5处,点在3 cm×1 cm的反相硅胶板(德国Merk公司)上,使各色敏材料扩散形成的印染区域大小保持一致,以构成3×1的色敏传感器阵列,如图2所示。一个传感器对应采集一份大米样品的储藏挥发性气体信息,本实验共制备150个色敏传感器用于判别不同储藏时间的大米且制备完成后立即用于实验以减小外界因素影响。所用色敏材料的名称和简称为8-(4-溴苯基)- 4,4-二氟硼二吡咯甲烷(BrBDP)、8-(4-硝基苯基)- 4,4-二氟-6-溴硼二吡咯甲烷(NO2BrBDP)、8-(4-硝基苯基)- 4,4-二氟-2,6-二溴硼二吡咯甲烷(NO2Br2BDP)。
图2 色敏传感器阵列Fig.2 Colorimetric sensor array
将制成的色敏传感器正面朝上固定在保鲜膜上,并把大米样品倒入洁净玻璃皿中,迅速将带有传感器的保鲜膜覆盖于玻璃皿顶部并密封好,使色敏传感器能够与气体充分接触。之后将玻璃皿放入温度设置为45℃的恒温箱内,以加速反应,待大米的挥发气体与色敏材料充分反应14 min后取出色敏传感器,通过可见/近红外光谱技术采集反应后的传感器阵列的反射光谱数据。光谱采集参数设置如下:积分时间为50 ms,平滑度为5,平均次数为10次。每个色敏传感器能够获得3条光谱数据,每条光谱共1 024个变量。因此,共采集450条光谱数据。
1.3.2光谱变量筛选
在变量筛选前,先用标准归一化处理方法(SNV)对光谱进行预处理以校正光谱由光散射产生的影响[14]。为了降低光谱变量筛选时的盲目性并缩小搜索范围,Si-PLS算法首先用于筛选每条光谱的最佳数据区间[15]。将光谱数据分成15~30个区间,从中联合2~4个区间,使用交互验证均方根误差作为参考标准以选择最佳联合区间, 交互验证均方根误差越小所选区间代表性越高。尽管Si-PLS减小了数据维度,但是在数据中大量具有多重共线性的数据仍然增加了建立大米储藏时间预测模型的计算负担。因此,分别使用3种不同的变量筛选算法来选择特征波长,即UVE、GA和ACO。
UVE为一种基于回归系数稳定性分析的光谱变量筛选算法,它能防止所建的模型处于过拟合状态,并提高模型的预测性能。 UVE 的一般操作步骤如下:在光谱矩阵中加入具有与光谱变量数相等的随机噪声变量,用偏最小二乘法(PLS)建立模型,以此获得回归系数矩阵并计算光谱变量的稳定性。若某光谱变量的稳定性小于某一阈值时将被剔除[16-17]。
图4 各色敏材料的平均光谱曲线Fig.4 Average spectrum of each color-sensitive material
GA算法是模拟生物进化遗传过程中自然选择和生物进化的随机化搜索方法,利用遗传算子进行选择、交换和突变等操作使光谱变量“优胜劣汰”,最终筛选出最佳光谱变量[18-19]。其一般的运行步骤如图3所示。
图3 GA运行步骤Fig.3 Running step of GA
ACO是一种基于优化寻找路径的群集智能演化计算方法。其灵感源于自然界中真实蚁群的觅食行为,先行的蚂蚁会在经过的路径上释放信息素,后续的蚂蚁能够感知这些信息素,并根据信息素和信息素强度的反馈机制来选择路径。在ACO的优化方案中,所有蚂蚁一起搜索有关自身行为和问题特征的信息,通过蚁群的协作以修改行动策略,最终得到一个最优方案。ACO模型一般有3个核心的算法步骤:选择概率、局部信息素更新和全局信息素更新[20]。
1.3.3模式识别法
经3种算法(GA、ACO和UVE)分别筛选后,为了建立预测模型对不同储藏时间大米的识别,同时进一步地确定最佳波长变量筛选方法,将通过3种不同变量提取算法筛选后的数据进行模式识别。使用PCA和LDA两种分析方法区分不同储藏时间的大米,所建立的模型通过训练集和校正集的正确识别率来判定模型,最终选出最优的大米储藏时间预测模型。
2 结果与分析
2.1 光谱分析
将色敏传感器分别与150份不同储藏时间的大米样品挥发性气体反应,然后提取3种色敏材料的光谱数据,共获得450条光谱曲线。通过计算得出BrBDP、NO2BrBDP和NO2Br2BDP这3种色敏材料采集的大米在不同储藏时间内的平均光谱曲线,结果如图4所示。可以发现,在与不同储存时间的大米挥发性气体反应后,每种色敏材料获得的光谱均存在差异,这表明色敏传感器的显色反应会因储藏时间的不同而有所区别。此外,波长范围400~500 nm以及550~620 nm处光谱数据具有明显的差异。因此,通过提取可见/近红外光谱以表征色敏传感器信号变化,对大米储藏期进行预测具有可行性。
2.2 最佳光谱区间筛选
首先使用Si-PLS算法分别对经过SNV预处理后的3类光谱进行初步筛选,数据处理的结果如表1所示。BrBDP在区间数为26时获得最佳联合区间:1、5、14和16子区间。NO2BrBDP在区间数为29时获得最佳联合区间:5、6、8和16子区间。NO2Br2BDP在区间数为24时获得最佳联合区间:6、8、9和11子区间。因此,变量的总数从3 076缩小为500个。将各色敏材料提取出来的光谱数据区间整合作为新的数据集以进一步提取有效变量。
表1 Si-PLS光谱区间筛选结果Tab.1 Spectral interval screening results of Si-PLS
2.3 光谱变量优选
2.3.1UVE变量优选
将经Si-PLS初步筛选后的光谱数据用UVE算法提取其有效光谱变量。图5(T表示变量稳定性系数)显示了UVE变量的稳定性结果,中间的竖直线为随机噪声变量和波长变量的分割线,左边为波长变量,右边为随机噪声变量。上、下两条水平虚线分别表示变量稳定性系数的上、下阈值。若波长变量的变量稳定性系数在上下阈值之间被称为无用信息波长变量,需要剔除。而变量稳定性系数在两阈值之外的波长变量为有用信息变量,需要保留。因此,共优选出68个光谱波长变量。
图5 UVE处理后各变量的稳定性Fig.5 Stability of each variable in UVE analysis
2.3.2GA变量优选
将经Si-PLS初步筛选后的光谱数据用GA算法提取其有效光谱变量。在使用GA算法之前,将控制参数设置为:初始种群大小为50,最大选取变量500,交叉概率Pc=0.5,变异概率Pm=0.01,遗传迭代次数为100,适应度函数为交互验证均方根误差。图6展示了所有波长在计算过程中被选择的次数,图中虚线以上的69个变量的频数超过了5,将这些变量作为最终筛选结果。
图6 各光谱变量的选择频数Fig.6 Selection frequency of each variable
2.3.3ACO变量优选
将经Si-PLS初步筛选后的光谱数据用ACO算法提取其有效光谱变量。应用ACO算法进行特征波长选择之前,首先对ACO算法的参数进行初始化设定。本文设置蚁群大小为20; 因所有节点在初始化时信息素的强度都相同, 则设置信息素强度τ=1,蚂蚁对各个节点选择的概率一致,则启发因子α=1;能见度η=1,为减少算法的随机性,使得期望启发因子β=2,信息素耗散常数ρ=0.95,并将种群的进化代数设置为150。图7是用ACO算法筛选出来的20个变量以及对应的权重系数。
图7 ACO算法变量提取结果Fig.7 ACO algorithm variable extraction result
2.4 模式识别结果
2.4.1主成分分析
主成分分析作为一种简化数据集的统计技术,能够将多维变量的数据计算转变为较低维度。其原理是对变量进行重组,得到一组互不相关但能表示原数据集绝大部分信息的新变量,即主成分(PCs),以此在主成分图上直观呈现不同储藏时间大米的聚类趋势。图8展示了由Si-PLS-UVE、Si-PLS-GA和Si-PLS-ACO共3种不同变量筛选方法提取的数据产生的三维主成分分析图。其中,由Si-PLS-UVE-PCA方法得到的结果显示前3个PCs的累计方差贡献率为97.52%,Si-PLS-GA-PCA方法得到的主成分贡献率为97.68%以及Si-PLS-ACO-PCA方法的结果为92.81%。可以看出,不同储藏时间的大米样本之间在各个变量提取算法中基本能区分开,新鲜大米和储藏1个月的大米在空间模型上距离较近且有小部分重合,可能在大米储藏的前期其挥发性有机物质的种类及其含量变化趋势不大,但是两个储藏期的样本都各自有一定的聚类趋势。
图8 不同变量提取算法的三维主成分得分Fig.8 Principal component analysis of wheat with different variable extraction method
2.4.2线性判别方法
LDA算法的原理是通过搜寻一种线性变换,使得组内距离与组间距离的比值最大化。本研究在基于PCA计算的基础上,将PCs作为潜变量输入。表2为3类不同变量筛选算法的LDA分类结果。用Si-PLS-UVE所提取的光谱变量建立预测模型后,取主成分数为9时,训练集的正确识别率为98%,校正集的正确识别率为96%。用Si-PLS-GA所提取的光谱变量建立预测模型后,取主成分数为7时,训练集的正确识别率为92%,校正集的正确识别率为92%。用Si-PLS-ACO所提取的光谱变量建立预测模型后,取主成分数为10时,训练集的正确识别率为98%,校正集的正确识别率为90%。由此可见,Si-PLS-UVE提取光谱变量所建立的预测模型识别率最高。在预判集中仅两份新鲜大米样品被误判为1个月的储藏期,这与上述PCA所得结果一致,新鲜大米和储藏1个月的大米之间的判别存在一定的误差,整体而言,通过色敏传感器-可见/近红外光谱技术对大米的储藏时间进行区别的结果较好。
表2 不同变量筛选算法的LDA分类结果Tab.2 LDA classification results of three variable screening algorithms
3 结束语
利用色敏传感器结合近红外光谱技术对大米中的可挥发性气体的表征可对大米的储藏时间进行快速、直观的鉴别。使用3种氟硼吡咯类色敏材料制作色敏传感器,并用可见-近红外光谱技术提取光谱信息。并对不同的变量提取算法进行了比较,确定了由Si-PLS-UVE算法提取光谱信息后,所建立的预测模型判别率性能最优,训练集和校正集的识别率分别达到了98%和96%。在大米储藏时间的检测研究中提供了一种可行的方法。