拉曼光谱结合模拟退火的小麦粉灰分含量检测
2019-06-14刘冬阳孙晓荣刘翠玲尚经开张天阳冯雨晨
刘冬阳 孙晓荣 刘翠玲 尚经开 张天阳 冯雨晨
(食品安全大数据技术北京市重点实验室,北京工商大学计算机与信息工程学院,北京 100048)
小麦具有营养价值高、容易储藏等特点,因此国家将其作为重要的商品粮食。中国是全球小麦生产量与消费量最大的国家,并且每年还需进口千万吨的小麦,基本将其全部用于生产小麦粉产品以满足国民的日常食用需求[1]。灰分是小麦粉的一种主要成分,是指经高温灼烧后残留下的无机成分占小麦粉的百分比。灰分会影响面制食品的口感和色泽,如全麦面包的灰分含量就会高于馒头的含量,国标检测常用的手段为850 ℃高温定时法,费时费力且人工成本高[2]。近几年小麦粉安全事件频繁发生,这也揭露了小麦粉品质检测存在的问题和漏洞,体现了对小麦粉品质进行高效准确检测的重要性。
目前,拉曼光谱技术已被广泛应用于材料、化工、石油、高分子、地质等多个领域。在食品检验方面,Bruno等人[3]建立大豆油中共轭亚油酸(CLA)定量分析模型,相关系数R2达到0.97,实验结果理想。Stefanov等[4]利用拉曼光谱结合PLS算法测定牛奶中支链脂肪酸,相关系数大于0.65。Di Anibal等[5]运用多种拉曼光谱技术检测了烹饪香料中的苏丹红,结果显示表面增强拉曼检测结果最佳,说明表面增强拉曼光谱技术可用于区分出苏丹红掺假香料。张克勤等[6]采用激光拉曼技术检测了五谷中的糖类和蛋白质,结果表明碳水化合物含量高于蛋白质。
模拟退火算法在很多优化问题上都有应用,但应用于光谱技术的研究较少,尤其是在拉曼光谱分析技术中的应用更是少之又少。石吉勇等[7]基于SAA优化食醋总酸含量的定量模型,筛选出17个总酸特征波数点,其预测集R2为0.921优于原始谱图定量模型效果。Balabin等[8]对比16种优化谱区算法对生物柴油特征的提取结果,得出模拟退火算法是优化效果明显的算法之一。
拉曼光谱谱峰覆盖了5~4 000 cm-1波数范围,同时拉曼光谱在采集时所需样本也较少,因此无论是无机物还是有机物,拉曼光谱都可以测得[9-12]。旨在多角度寻求最优检测方法,丰富小麦粉检测手段,运用11种不同预处理方法组合进行光谱预处理,再结合模拟退火算法优化波数,后建立偏最小二乘定量分析模型,提升模型整体预测能力和稳健性,确定拉曼光谱检测小麦粉品质可行性并优化模型。
1 实验设计与光谱采集
1.1 材料与试剂
1.1.1 用于定量分析的样本
126个小麦粉样本全部取自北京古船小麦粉厂,其种类包括富强粉,麦芯粉,精制雪花粉和面包粉。样本中灰分真实值来自古船小麦粉厂检验人员按照国标法 GB5009.4—2016标准用电热板碳化,进箱式马弗炉灼烧测得的数据。灰分定量分析实验随机取92份样本作为校正集,34份样本作为测试集,灰分的取值范围为0.46%~0.85% 。
1.1.2 仪器与设备
实验采用DXR激光共焦显微拉曼光谱仪采集小麦粉样本的拉曼光谱。激光共焦显微拉曼光谱仪参数设置为:激光波长780 nm,激光能量20 Ev,光栅400 lines/mm,光阑50 mm,估计分辨率4.7~8.7 cm-1,扫描次数16次,采集曝光时间为5 s。
1.2 方法
1.2.1 拉曼光谱的采集
在扫描样本前,首先要以实验室内空气为背景,检测光学台内激光。待激光能量值趋于稳定后,取少量小麦粉样本放置在载玻片上,再一同放置在10倍物镜下,调节物镜与载物台之间的距离直到能清楚地观察到小麦粉在显微镜下的成像,关闭样品舱门,小麦粉在10倍物镜下成像如图1所示。实验采用面扫描,每次取9个点,扫描出9条光谱,图2为1次扫描单点的小麦粉样本拉曼光谱图。
图1 小麦粉在10倍物镜下成像
图2 小麦粉拉曼光谱图
1.2.2 模拟退火算法
模拟退火算法(SAA)起源于金属的退火原理,材料先经过升温能量变大,原子发生移动,再经冷却能量减小,移动减慢,最后在常温时达到全局稳定状态。而在模拟退火算法中,相当于算法先进行随机搜索,在经每一次状态转移后,进行局部搜索,最终找到最优解。
拉曼光谱的波长点相当于退火材料的微观状态,在确定目标函数和初始温度后,随机选择一组波数作为初始解,并开始迭代。在迭代过程中,若新的目标函数优于前一解的目标函数,则将其作为最优解。否则由接受准则判别是否接受这个解,满足则进行当前解和目标函数的迭代,否则放弃新解。在迭代过程中算法内置记忆器记录了迭代过程中出现的最优解和目标函数值,为了防止多个极值同时存在,在迭代终止时得到的历史最优解,即为优选的波数点。
1.2.2.1 接受准则
接受准则用于迭代过程中判别算法是否接受当前解,有利于模拟退火算法最终选择最优解,是实现全局搜索的要素。
由解i到解j的接受概率由式(1)函数确定:
(1)
式中:f(i)、f(j)分别表示解i、j的目标函数,t表示温度/ ℃。
1.2.2.2 目标函数
目标函数是模拟退火寻优过程的主要依据。在用拉曼光谱技术分析时,目标函数通常选择校正模型的相关系数R2、交互验证校正标准偏差(RMSECV)或者预测标准偏差(RMSEP)作为参数。
1.2.2.3 冷却进度表
冷却进度表包含了模拟退火控制进程的所有参数,初始温度T0,衰减因子α,马尔可夫链长度Lk和终止条件S。当T0足够大时算法的搜索范围也会变大,但同时也增加了算法优化的时间,因此降温策略选择指数降温Tk+1=Tk×α。通常选取足够小的衰减因子α用于避免马尔可夫链过长,而终止条件S的值无限接近于0。
由模拟退火算法的原理可以看出,初始点选择不具有依赖性,对于随机搜索算法这是十分重要的优势,避免了因初始点选择不当造成的优化失败,同时以一定几率接受劣质解,保证算法不陷入局部最优且增加了寻优灵活性。算法隐含并行性,采用并行策略优化提升了收敛速度和解的质量,善于搜索复杂区域,因此选择了该算法进行波数筛选[13-14]。
2 结果与分析
实验建立了关于灰分含量的PLS定量校正模型,并对检验集样本进行预测。在不经过波数筛选时,小麦粉中灰分拉曼全谱PLS定量模型实验结果R2为0.724 3,RMSEC为0.0760,RMSEP为0.089 8,RPD为1.365 0,RMSEP/RMSEC为1.182 2。
实验选用了导数、卷积(SG)平滑、归一化、标准正态变换(standant normal variate transformation, SNV)、多元散射校正(multipicative scatter correction, MSC)共五种常用的光谱预处理法,构成了11种优化组合方法,并通过模拟退火算法优化波数[15-17]。
由于冷却进度表参数的设置是模拟退火算法寻优过程的关键,实验针对初始温度以及衰减因子两个重要参数进行了不同取值的对比分析,探索适合小麦粉PLS定量模型的最优设置。由于模拟退火算法是一种随机优化方法,因此在每一组参数建立模型时,均优化5次后取平均值作为该模型的实验结果。模型的RMSEC和RMSEP随初始温度变化如图3所示。
图3 RMSEC与RMSEP随初始温度变化曲线
由图3可知,模型的RMSEC和RMSEP随初始温度的升高逐渐减小,RMSEC在400、2 000和10 000 ℃数值较小,RMSEP在2 000 ℃ 数值较小。主要原因在于足够大的初始温度可以保证模型搜索全面,但随着温度的增加,优化速度明显降低,因此综合以上因素,实验选取400 ℃ 作为初始温度。模型的RMSEC和RMSEP随衰减因子α变化如图4所示,可以看出,RMSEC和RMSEP在整体趋势上随衰减因子增高而降低,但是在0.98之后数值有所回升,RMSEC和RMSEP均在α为0.97时数值最小,因此实验选取α=0.97作为衰减因子。
通过以上实验以及参考相关文献,研究最终选择的冷却进度表参数为T0=600 ℃,α=0.98,Lk=400,S=0.000 001 ℃[18-19],最终建立了关于灰分含量的PLS定量分析模型,优化模型结果如表1所示:
图4 RMSEC与RMSEP随衰减因子变化曲线
R2RMSECRMSEPRPDRMSEP/RMSEC0.724 30.076 00.089 81.365 01.182 2SAA0.983 80.018 30.019 26.394 81.045 6+SAA0.987 40.016 20.016 87.306 61.036 7SG+SAA170.980 30.020 20.020 65.952 21.019 5250.974 60.023 00.021 15.802 60.920 3SG++SAA170.980 60.020 00.015 97.701 30.794 2250.975 10.022 70.020 85.900 20.915 6SG+SNV+SAA170.987 50.016 10.015 08.167 90.931 8250.984 90.017 70.020 95.866 31.180 0SG+MSC+SAA170.972 20.024 00.018 16.757 80.755 6250.955 80.030 30.023 75.182 40.781 8SG++SAA170.962 40.027 90.028 64.291 61.024 3250.975 10.022 70.019 46.316 30.854 6SG++SAA170.937 10.036 10.041 02.994 61.133 8250.941 80.034 70.026 24.672 60.755 8SG++SNV+SAA170.965 30.026 80.020 95.869 90.779 2250.956 60.030 00.025 04.903 00.833 9SG++MSC+SAA170.967 70.025 90.026 44.642 11.020 7250.980 00.020 30.022 25.524 81.091 0SG++SNV+SAA170.964 10.027 30.031 53.893 11.154 1250.972 60.023 80.022 85.373 30.957 1SG++MSC+SAA170.937 20.036 10.043 32.834 51.198 8250.952 30.031 40.031 13.944 50.988 9
从实验结果可以看出,优化组合方法结合模拟退火算法处理灰分定量模型后,模型各评价参数都有大幅度提升,11种预处理组合方法对性能参数有不同程度的影响,但在满足模型稳健性的前提下,所有优化方式都可以满足检测准确性要求。其中SG(平滑17个点)+SNV+SAA的优化方式效果最优,相关系数R2为0.987 5,RMSEC和RMSEP分别为0.016 1和0.15,RPD高达8.167 9,波数由3 320个点筛选为110个点,模型稳健性参数良好,定量模型及预测结果如图5所示,其中横纵坐标分别表示小麦粉中灰分含量所占的百分比。
图5 SG(17)+SNV+SAA的灰分拉曼定量模型
3 结论
本实验建立了小麦粉中灰分拉曼全谱PLS定量模型,经11种优化组合方法处理并通过模拟退火算法优化波数。实验结果表明,不同的优化组合方法对指标有一定程度的影响,其中SG(17)+SNV+SAA的优化方式效果最佳,这是因为卷积平滑法本身是一种加权平均方法,通过多项式对移动窗口内信息进行拟合,其更加强调中心点的中心作用, 而SNV消除了固态或粉末状样本颗粒大小、表面散射及光程变动对光谱的影响, 二者相综合,使各项指标大幅度提升,模型的准确性和稳健性得到保障。从实验结果中可以看出,在模型待测组分浓度与波数相关性以及模型预测准确性方面展现了自身的优越性,预测准确性和误差分布范围也比较好。实验结果显示,拉曼光谱技术经过预处理并结合模拟退火算法对小麦粉中灰分组分的定量分析有一定的可行性,本研究为小麦粉组分的定量分析提供了一种新的方法途径,也为建立一个准确性高、稳定性强、可应用于实际生产工作的优秀小麦粉检测模型提供借鉴。