APP下载

可见近红外光谱结合多元统计分析的面粉吸水率检测模型构建

2023-09-11吴永清黄璐瑶崔雨同郭波莉张影全

光谱学与光谱分析 2023年9期
关键词:吸水率面粉波长

吴永清, 唐 娜, 黄璐瑶, 崔雨同, 张 波, 郭波莉, 张影全*

1. 中国农业科学院农产品加工研究所/农业农村部农产品加工综合性重点实验室, 北京 100193

2. 韶关学院生物与农业学院, 广东 韶关 512005

引 言

面粉与水混合和面形成具有一定粘弹性的面团, 并经过后续一系列加工制成不同面制品。 面粉吸水率是评价面粉质量、 预测面制品加工特性的重要品质性状。 面粉吸水率(吸水量)是指每百克水分含量为14%面粉在粉质仪中揉合成最大稠度为500 FU面团时所需添加水的毫升数[1]。 面粉吸水率高低不仅影响面制品成品质量, 而且与生产成本直接相关; 面粉吸水率越高, 出品率越高, 生产成本越低[2]。 我国小麦的吸水率较低, 平均为57%, 极少数品种达到65%~70%[3]。 目前吸水率的测定主要参照GB/T 14614—2006《小麦粉面团的物理特性吸水量和流变学特性的测定粉质仪法》利用粉质仪检测[4]。 检测过程需要测试人员通过多次加水量的尝试, 才能使面团的最大稠度达到规定的标准(500 FU), 测定方法费时费力[5]。 如何快速检测面粉吸水率是小麦及面制品加工行业亟待解决的技术难题。

近红外光谱技术是一种快速、 无损的检测方法, 其原理是有机物的O—H、 N—H、 C—H等含氢官能团近红外光(波长780~2 526 nm)相互作用形成不同的近红外光谱, 通过不同样品的光谱信号, 开展物质的定性、 定量分析[6]。 近年来, 近红外光谱检测技术在小麦籽粒水分含量[7]、 灰分[7]、 蛋白含量[7-8]、 种子活力[9]、 硬度[10]、 酚类物质[11]、 脂肪酸[12]等品质检测中得到了广泛应用。 可见近红外全波长光谱比较复杂、 存在共线性干扰以及光谱数据易受到杂散光、 噪声、 基线漂移等因素的干扰等问题, 特征波长提取、 光谱预处理等方法可有效处理以上问题, 提高模型的准确度[13-14]。 姜明伟等[10]采用一阶求导(1stDer)对小麦硬度的光谱进行预处理后, 采用竞争性自适应重加权(CARS)算法筛选特征波长, 从而建立偏最小二乘回归(PLSR)模型, 该模型能够准确预测小麦硬度。 Chen等[15]采用标准正态变换(SNV)、 1stDer、 二阶求导(2stDer)对面粉光谱进行预处理, 采用支持向量机回归(SVR)建立总蛋白和湿面筋检测模型。 Ye等[16]采用改进的模拟退火(ISA)结合连续投影算法(SPA)提取了14个特征波长, 基于特征波长建立的小麦蛋白质含量PLSR模型预测标准误差(SEP)从0.071 6降低到0.052 8, 效果较好。 面粉吸水率是面粉中蛋白质、 淀粉等物质综合作用的结果, 影响因素较多, 与全光谱或优化后的特征波长不一定是简单的线性关系。 因此, 多元线性回归(MLR)、 主成分回归(PCR)、 偏最小二乘回归(PLSR)等线性方法建立的定量模型不可避免地会受到其泛化性能的影响。

拟采用2种线性定量分析模型方法(PLSR、 PCR)和1种非线性定量分析模型方法(SVR)将光谱信息和面粉吸水率进行关联, 分别建立面粉吸水率的定量分析预测模型。 在优选的建模方法的基础上, 针对全波长光谱比较复杂、 存在共线性干扰问题, 采用CARS、 区间随机蛙跳(iRF)、 迭代保留信息变量(IRIV)和连续投影(SPA)算法提取特征波长, 筛选最优的特征波长提取算法, 优化与小麦粉中面粉吸水率高度相关的特征波长。 针对光谱数据易受到杂散光、 噪声、 基线漂移等因素的干扰等问题, 基于最优的建模方法和特征波长提取算法提取的特征波长, 采用标准化(NL)、 1stDer、 基线校正(BL)、 SNV和去趋势化(DT)5种方法对光谱进行预处理, 筛选最优的光谱预处理方法, 以减少杂散光、 噪声、 基线漂移等因素对光谱数据的干扰。 最终建立最佳的面粉吸水率近红外检测模型, 以期为面粉生产企业、 面制品加工企业、 食品质量检测部门等提供一种快速、 无损的检测方法。

1 实验部分

1.1 试验材料

2021年夏收时, 采集黄淮冬麦区大田种植的主栽小麦品种籽粒样品150份, 采集的样品进行后熟、 晾晒、 清理等处理后, 采用MLU202型实验磨粉机(无锡布勒机械制造有限公司)实验室制粉, 出粉率控制在70%左右。 磨制好的面粉装入自封袋备用。

1.2 近红外光谱采集

采用IM9500型可见近红外分析仪(美国珀金埃尔默公司)进行面粉近红外光谱扫描, 其有效光谱范围为570~1 100 nm, 共1 061个波长。 光谱数据采集时对每份小麦面粉样品进行3次扫描, 导出相应的平均光谱数据, 图1为150个小麦面粉样品的原始光谱图。

图1 样品原始光谱

1.3 面粉吸水率化学值检测

参照《粮油检验小麦粉面团流变学特性测试粉质仪法(GB/T14614—2019)》, 采用粉质仪(德国布拉本德公司)测定。

1.4 面粉吸水率分析

150份面粉样品吸水率平均值为63.12%±3.25%, 变幅为53.10%~74.5%, 样品具有一定代表性(表1)。 将150个面粉样品按照吸水率从低到高依次排列, 每隔4个样品挑选1个样品为预测集, 校正集样本共120个, 预测集样本共30个。 从表1可知, 校正集样本的吸水率最大值和最小值与整体样本相同, 平均值大于整体样本, 标准差和变异系数大于整体样本, 说明校正集分布均匀, 具有足够的代表性。 校正集样本吸水率范围在53.10%~74.50%之间, 平均值为63.32%, 涵盖了预测集样本最大值和最小值, 标准差和变异系数大于预测集样本, 符合建模标准。

表1 样本吸水率分析

1.5 近红外建模方法、 特征波长提取算法和光谱预处理方法筛选

采用PLSR、 PCR2种线性定量分析模型和SVR 1种非线性定量分析模型将光谱信息和面粉吸水率进行关联, 分别建立面粉吸水率的定量分析检测模型。 在优选的建模方法的基础上, 采用CARS、 iRF、 IRIV和SPA算法提取特征波长, 筛选最优的特征波长提取算法。 基于最优的特征波长提取算法提取的特征波长和建模方法, 采用NL、 1stDer、 BL、 SNV和DT5种方法对光谱进行预处理, 筛选最优的光谱预处理方法, 以减少杂散光、 噪声、 基线漂移等因素对光谱数据的干扰。 最终建立最佳的面粉吸水率可见近红外检测模型。

1.6 模型评估指标

1.7 光谱数据分析软件

采用The Unscramber X 10.4软件进行NL、 1stDer、 BL、 SNV和DT光谱预处理和建立PLSR和、 PCR和SVR模型, 采用Matlab R2019b软件调用libPLS_1.98软件包来实现CARS、 iRF和IRIV特征波长提取, 采用Matlab R2019b软件调用gui_spa软件包来实现SPA特征波长提取。 采用Excel进行图表整理。

2 结果与讨论

2.1 不同建模方法对面粉吸水率检测模型性能的影响

表2 基于不同建模方法的面粉吸水率模型效果

2.2 特征波长提取

2.2.1 CARS

采用CARS算法提取面粉吸水率相关特征波长, 蒙特卡罗采样次数N设置为100, 光谱预处理方法为均值中心化(mean-centering), 选择变量个数由10折交叉验证建立的PLS模型RMSECV最小值确定。 随着采样次数增加, 变量数、 RMSECV和每个变量回归系数路径如图2所示。 由图2(a)可知, 随着采样次数的增加, 采样次数小于10时, 采样变量数快速递减, 采样次数大于10时, 采样变量数慢速递减, 说明算法在筛选变量有精选和粗选过程。 图2(b)是十折交叉验证RMSECV变化趋势, 随着采样次数的增加, PLS交叉验证RMSECV值先递减又递增的变化, 其中采样次数在61时达到最小值, 为2.3362。 表明在1~60次, 近红外光谱中与面粉吸水率大量的无关信息被剔除, 61次后, RMSECV明显递增, 表明剔除了光谱中有效数据导致模型性能变差。 图2(c)表示1061个波长变量随着采样次数的增加回归系数的路径变化, “*”所对应的位置即为RMSECV值最小处。 采样次数为61所得的波长变量子集定为与面粉吸水率相关的特征波长变量子集, 包含24个波长, 占原波长数(1061)的2.66%。

图2 CARS算法特征波长提取

2.2.2 iRF

采用iRF算法提取面粉吸水率相关特征波长, 蒙特卡罗采样次数N为200, 在整个光谱上移动的固定窗口大小W为10, 初始化的子区间数Q为20, 设置最大因子数A为10, 光谱预处理方法为均值中心化(mean-centering)。 iRF变量筛选的依据是各变量具有差异的选择可能性, 图3中大部分敏感波段集中在894、 912.5、 980以及1 063.5 nm附近。 设定选择阈值为0.2, 最终根据概率值大小选出20个特征波长。

图3 iRF算法特征波长提取

2.2.3 IRIV

IRIV算法的目的是剔除无关变量和干扰变量, 保留与面粉吸水率相关的特征变量。 该算法利用10折交叉验证方法建立PLS模型选择特征变量, PLS模型中最大主因子数为10。 IRIV算法一共进行了7轮, 如图4所示, 前3轮迭代变量个数迅速减少, 从1 061个变量减少到73个, 然后变量个数减少的速度放缓, 第6轮迭代后完全剔除了无信息变量和干扰变量, 进行反向消除操作。 经过第7轮的反向消除最终选择了16个与面粉吸水率相关的特征变量。

图4 IRIV算法特征波长提取

2.2.4 SPA

采用SPA算法对面粉样本的特征波长进行提取。 如图5(a)可知, 特征波长数为118个时, RMSE值达到最小值为0.066 8。 图5(b)所示是提取到的118个波长。

图5 SPA算法特征波长提取

2.3 不同特征波长提取算法对面粉吸水率检测模型性能的影响

特征波长提取不仅可以简化模型结构, 而且可以剔除不相关、 低贡献的波长, 提高运算速度, 降低设备开发成本[19]。 将CARS、 iRF、 IRIV和SPA算法提取的特征波长光谱与国标法测定的面粉吸水率进行关联, 分别建立面粉吸水率的PLSR定量分析预测模型, 建模结果见表3。

表3 基于全波长和特征波长的面粉吸水率模型效果

小麦粉的吸水率与其破损淀粉含量、 蛋白质含量、 湿面筋含量之间呈现显著的正相关关系[20]。 采用CARS算法提取的24个特征波长中, 896.5~961 nm之间的20个波长为C—H化学键基频振动的三级倍频附近的谱段, 对应的面粉化学成分为淀粉; 981~1 077.5 nm之间的4个波长为N—H化学键基频振动的二级倍频附近的谱段, 对应的面粉化学成分为蛋白质[21]。 即面粉吸水率与淀粉含量和蛋白质含量相关, 与前人研究结果一致。

2.4 不同光谱预处理方法对面粉吸水率检测模型性能的影响

近红外光谱易受到杂散光、 噪声、 基线漂移等因素的干扰, 因此需要对光谱进行预处理[13]。 采用NL、 1stDer、 BL、 SNV和DT5种光谱预处理方法单一和组合的方式对CARS方法提取的特征波长的光谱数据进行预处理, 分别将原始的光谱及预处理后数据和相应的面粉吸水率化学值进行关联, 建立PLSR定量预测模型, 并用预测集的光谱数据和相应的面粉吸水率化学值对模型进行检验。

表4 基于不同光谱预处理方法的面粉吸水率模型效果

复合预处理中是NL分别结合其余4种预处理方法所建模型效果较好, 其中NL+1stDer效果最佳。 该方法虽然比单独进行NL预处理效果更好, 但是光谱数据进行了2次预处理, 加重了运算负担, 降低了光谱处理的速度, 如果将该方法用于实际生产, 必定会影响检测效率。 因此, 确定预测面粉吸水率最佳的光谱预处理方法为NL。

3 结 论

猜你喜欢

吸水率面粉波长
HPLC-PDA双波长法同时测定四季草片中没食子酸和槲皮苷的含量
面粉大战
热固复合聚苯板吸水率快速测试方法及其影响因素分析
浅谈外加剂和配合比对泡沫混凝土降低吸水率的影响
面粉多少吨
面粉为什么会爆炸
小灵通磨面粉
双波长激光治疗慢性牙周炎的疗效观察
日本研发出可完全覆盖可见光波长的LED光源
贺兰口砂岩吸水率的研究