小米米粉碱消值的高光谱快速预测
2021-10-17王国梁余克强王文俊郭二虎李志伟
王国梁, 余克强, 成 锴, 刘 鑫, 王文俊, 李 洪, 郭二虎, 李志伟*
1. 山西农业大学农业工程学院, 山西 太谷 030801 2. 山西农业大学谷子研究所, 山西 长治 046000 3. 西北农林科技大学机械与电子工程学院, 陕西 杨凌 712100
引 言
随着现代人对生活品质的提升以及健康产业兴起, 小米产业作为山西省“有机旱作”农业发展的龙头产业, 其深加工产品市场价值逐渐被大众所普遍肯定, 而小米米粉又以其独特的食味品质优势, 现已成为婴幼儿辅食佳品。 小米米粉中主要成分是淀粉, 淀粉在一定条件下具有晶体性不可逆的特点, 在加入足量水情况下, 将其混合液加热、 升温, 淀粉吸水膨胀、 溶解呈现出这种特性, 而这一现象称为糊化现象。 其中碱消值是能够直接反应糊化特性的主要特征指标, 碱消值越低, 糊化温度越高, 直链淀粉含量越高, 而小米米粉口感粘糯性变差[1-2], 最终影响小米产品的市场价格。 通常利用人工评级、 冷碱糊化法和粘度速测仪(rapid visco analyser, RVA)测定淀粉粘度特征值来评价小米米粉的糊化特性及品质[3]; 而人工评级人为因素大, 结果不可靠; 冷碱糊化法和RVA粘度测定耗时, 破坏样品理化特性, 并且制备样品操作程序繁琐, 成本太高, 因此, 样品批量处理和实现快速检测存在一定困难。
高光谱技术是一种通过精确采集被测物每个像素点的连续光谱信息, 并对被测样品的感兴趣区域(region of interest, ROI)数据提取和处理, 从而反映被测物组成成分和分子结构的无损检测技术, 具有检测效率高, 不破坏被测样品的理化特性, 检测时间短并具有线上实时分析等特点。 目前高光谱技术已广泛被应用在土壤和农产品的分类、 成分反演等农业检测相关工作中[3-14]。 Shao等利用高光谱成像结合化学计量学方法对不同种类的米粉进行分类、 判别, 运用竞争性自适应重加权采样法(competitive adaptive reweighted sampling, CARS)建立最小二乘支持向量机回归模型, 对品种分类的结果最好[4]; Chen等采用连续投影算法结合多元线性回归对谷子蛋白质、 糖类和粗脂肪含量进行近红外光谱特性分析, 结果表明利用谷子近红外光谱数据能够反演谷子中蛋白质和糖类含量[5]; Chen等运用随机蛙跳(random frog, RF)算法提取特征波段结合高斯过程回归预测木材含水模型效果最好[6]。 当前, 小米米粉的高光谱研究主要集中在品种分类和成分反演等方面[4-5], 而针对小米米粉糊化特性的研究相关报道仍然较少。
以晋东南地区“羊肥小米”主产地采集到的小米米粉作为实验样本, 运用高光谱仪器采集小米米粉光谱数据, RVA仪器测定小米米粉碱消值指标, 结合化学计量方法, 建立快速检测小米米粉碱消值预测模型, 旨在寻求一种快速、 无损、 低成本预测小米米粉碱消值的方法。 通过探索小米米粉糊化特性与高光谱之间的联系, 间接反映小米米粉中直链淀粉占比, 为小米米粉品质评级及加工提供参考依据, 进而为小米米粉碱消值传感器的开发提供理论支撑。
1 实验部分
1.1 样本制备
样本材料“羊肥小米”收获于山西省长治市武乡县。 在大田收获季采集实验样本材料过程中, 采用棋盘式取样法取样, 取样点数1 800个, 单点采样面积2 m2, 将相邻5个采样点采集到的材料混匀, 得到实验样本358份经清选、 自然晾晒、 去壳、 研磨、 过80目筛, 取得待测小米米粉样品, 并采用四分法取样[7], 被测样品先用于小米米粉高光谱数据采集, 然后进行实验室碱消值测定。
1.2 仪器与数据采集
采用美国Headwall Photonics公司的高光谱成像仪采集光谱数据。 该设备工作组件主要包括: 高光谱成像仪(光圈1.4, 焦距25 mm)、 钨丝灯、 可移动式扫描平台、 电脑等。 数据采集设备参数为: 光谱通道步长4.715 nm, 采集范围900~1 700 nm, 共包含170个波段。 为能采集到清晰图像, 调整平台移动速度为16 mm·s-1, 曝光时间0.9 ms, 被测样品上表面距镜头300 mm。
实验前, 采集暗背景(反射率0.1%)图像B, 扫描白背景(反射率99.9%)图像W, 采集样品的绝对图像I, 根据式(1)校正为相对图像X[8]。 每采集3幅高光谱图像, 重复一次光谱校正。
(1)
进行高光谱数据采集时, 将被测样品装入直径5 cm, 高度1 cm的圆形试验器皿内, 采样过程中要保证样品表面处理平整、 紧实, 将被测样品置于推扫平台上, 每份样品推扫三次, 采集光谱数据, 同一样品3次推扫, 取均值、 编号, 按实验时序保存。
1.3 小米米粉碱消值测定
采用澳大利亚Newport公司生产粘度分析仪, 根据GB/T 24852—2010方法测得小米米粉碱消值[9]。
1.4 小米米粉高光谱数据处理方法
光谱数据采集时, 在被测样品感兴趣区域ROI, 按像素点逐一选择, 提取光谱数据矩阵, 并进行均值运算, 得到每个样品在各个光谱波段的平均光谱值。 利用Kennard-Stone算法(K-S)将光谱数据按照2∶1分为训练集和预测集[10-11]。 对光谱数据全波段、 CARS[4,12]和RF[6,13]算法选择特征波段后建立偏最小二乘回归(partial least square regression, PLSR)预测模型, 模型评估利用相关系数(correlation coefficient,R)值。 为消除噪声对光谱数据的影响, 提高模型预测精度, 进一步对原始光谱数据分别运用S-G, 多元散射校正(multiplicative scatter correction, MSC)和S-G+MSC进行预处理[14], 再利用CARS和RF法选择特征波段, 建立PLSR模型。 光谱数据处理软件主要有The Unscrambler X 10.1(CAMO, Norway)和MATLAB 2018a(The MathWorks, USA)。
2 结果与讨论
2.1 小米米粉碱消值统计分析
称重(3±0.01) g小米米粉样品(按12%湿基校准)与(25±0.1) mL水(按12%湿基校准)在铝盒中混匀, 置于RVA分析仪中进行碱消值检测, 3次重复测量碱消值, 取每份样品3次测量均值为该实验最终值。 小米米粉碱消值统计结果见表1。
表1 小米米粉碱消值统计结果
2.2 小米米粉光谱特性
图1为小米米粉平均光谱曲线, 由于靠近光谱量程首尾两端(≤900 nm和≥1 700 nm), 光谱反射率噪声较大, 故截取光谱可用范围为950~1 650 nm, 光谱数降为148条, 在每幅图像中的ROI提取光谱数据, 经均值运算后组成358×148待数据处理的光谱数据矩阵。 从图1可看出, 曲线吸收峰值主要集中在980, 1 210和1 450 nm附近, 其中980和1 210 nm处主要受被测样品淀粉影响, 1 450 nm处受被测样品中水分子吸收影响[12]。 利用小米米粉全波段绘制成的光谱曲线变化平滑, 但会存在数据重叠、 平移和微小噪声的问题。 为提高精度, 对特征波段提取后的数据矩阵进行预处理。
图1 小米米粉平均光谱曲线
2.3 特征波段的选择
2.3.1 CARS特征波段选择
CARS是借鉴达尔文进化论“优胜劣汰”的理论思想, 数据处理采用该算法进行光谱特征波段快速选择[10]。 图2为CARS选择特征波段的过程和主要参数的变化曲线, 其中图2(a)表示被测样品数随采样次数增加的变化趋势; 图2(b)中可以看出通过交叉检验(cross validation, CV)得到随采样次数增加均方根误差(root mean square error cross validation, RMSECV)的变化曲线, 该曲线在1—26平滑下降, 27—50逐步阶梯状回升, 最小值出现在26, 此点处RMSECV达到最小值; 从图2(c)中回归系数(regression coefficients, RC), 变量最优选择出现在图2(c)中蓝色星号竖线标注的位置, 在这点处尽可能多的保留了变量信息并选择出特征波段。 经过CARS特征波段选择, 共有16条特征波段被选出, 分别为964, 1 006, 1 053, 1 166, 1 171, 1 195, 1 213, 1 218, 1 223, 1 246, 1 298, 1 308, 1 350, 1 378, 1 444和1 529 nm。 其中964, 1 006和1 053 nm在O—H三级倍频附近(980 nm), 1 166, 1 171, 1 195, 1 213, 1 218, 1 223, 1 246, 1 298, 1 308, 1 350和1 378 nm在C—H二级倍频及组合频附近(1 220, 1 360 nm), 1 444 nm此处O—H键与样品中水分子的吸收峰重合[12](1 450 nm)与淀粉的近红外特性相应。
图2 利用CARS算法的特征变量选择
2.3.2 RF特征波段选择
RF是以统计学思想为理论基础, 通过重复计算各变量被选概率来评价变量, 具有不易过拟合优点[11]。 RF算法运行前, 先设置相关参数(迭代参数、 运行次数、 初始跳转变量、 候选变量集被选概率等), 依据相关文献[13]选择0.4作为特征变量阈值, 运行次数50次, 将运算后的均值作为变量评价的标准, 每个波长被选择的可能性(selection probability, SP)如图3所示。 在SP曲线中, 可以发现有些特征值具有极高的SP值, 这些峰值与小米米粉碱消值有极高的相关性。 最终选出10条特征波段, 分别为964, 1 053, 1 171, 1 195, 1 218, 1 223, 1 242, 1 270, 1 275和1 279 nm。 采用RF与CARS选出特征波段大部分重叠, 这些特征波段与C—H和O—H键的倍频吸收有关系, 并与淀粉的近红外特性相应。 执行CARS和RF运行结果虽均为随机, 但为保证波段选择的有效性, 两种算法通过多次运算(均设定50次), 从而达到减少随机因素的影响[10]。
图3 利用RF算法的光谱波段被选概率
2.4 小米米粉碱消值的PLSR回归模型建立
表2列出采用全波段(RAW)和特征波段(CARS、 RF提取)建立的小米米粉碱消值偏最小二乘回归模型。 从结果看出用RAW建立的PLSR,Rp值最高为0.77; 采用CARS、 RF提取特征波段建立的PLSR,Rp值分别为0.72和0.7,Rp值降低; 究其原因在于这两种方法只提取到了部分与O—H键和C—H键光谱特性有关的光谱数据[12-13], 而导致其他相关数据信息的丢弃。 通过采用CARS、 RF提取特征波段建立的PLSR,Rp值与运用RAW建立的PLSR接近, 这反映了采用CARS和RF建模具有可行性, 可以对小米米粉高光谱反射率进行碱消值的预测。
表2 不同特征波段提取方法PLSR模型结果
为了提高模型预测精度, 基于表2运算结果, 对光谱数据预处理, 从表3中可看出, MSC处理后光谱数据[14]Rp值达到0.83, 精度最高。 因此, 对原始光谱数据采用MSC预处理所得到的回归模型, 数据集的拟合程度较高, 训练集与校正集的拟合情况如图4所示。
表3 不同预处理方法对原始数据PLSR模型分析结果
图4 采用MSC预处理下的训练集和预测集拟合情况
对MSC预处理的光谱数据分别进行二次CARS和RF特征波段提取, 从表4中可看出, 两种算法各选择10条特征波段, 前者选出964, 978, 992, 1 053, 1 166, 1 218, 1 246, 1 270, 1 275和1 553 nm, 后者选出978, 992, 1 053, 1 171, 1 195, 1 218, 1 242, 1 246, 1 270和1 275 nm, 从以上数据结果可以看出经MSC预处理后提取的特征波段数量减少, 但与未进行预处理的回归模型相比,Rp值变化不大, 这也说明CARS和RF具有一定的稳定性, 可以作为小米米粉高光谱反射率预测碱消值的参考方法。
表4 采用MSC预处理下的不同特征波长提取方法PLSR预测模型结果
从以上数据处理结果看, 在不破坏小米米粉内部理化特性的情况下, 采用MSC预处理光谱数据, 建立快速检测小米米粉碱消值预测模型, 能够反演小米米粉碱消值。 从而反映小米米粉中直链淀粉的占比, 进而为小米米粉品质评级、 加工及小米米粉碱消值传感器的开发提供参考依据和数据支撑。
3 结 论
采用高光谱技术可以实现小米米粉碱消值快速检测, 进一步为小米米粉品质评级及加工提供参考依据, 主要结论为:
(1)采用全光谱波段、 CARS和RF提取特征波段建立的小米米粉碱消值偏最小二乘回归模型, 结果表明三者Rp值较为相近, 全波段最高Rp为0.77, 同时采用CARS和RF建模具有可行性, 能够利用小米米粉高光谱反射率反演其碱消值。
(2)采用MSC预处理原始数据并作出PLSR模型分析,Rp值达到0.83。 对经MSC预处理的数据集, 再次作CARS和RF特征波段提取, 建立回归模型。 实验结果能够为小米米粉品质评级、 加工及碱消值传感器的开发提供参考依据和数据支撑。