高光谱图像技术检测大曲发酵过程中的水分含量
2020-06-06叶建秋黄丹平田建平黄丹罗惠波王鑫张力
叶建秋,黄丹平*,田建平,黄丹,罗惠波,王鑫,张力
1(四川轻化工大学 机械工程学院,四川 宜宾,644000) 2(四川轻化工大学 生物工程学院,四川 宜宾,644000)
白酒是中国独有的蒸馏酒,拥有上千年历史和文化传承,凭借其特殊酿造工艺,深受国人喜爱[1]。而曲块作为白酒生产中的发酵剂和生香剂,直接影响白酒发酵质量和口感,是传统固态发酵蒸馏酿酒的重要物质保障,对曲酒出酒率和优级品率有较大影响[2],常有“曲乃酒之骨”、“有好酒必有好曲”等精辟论断。大曲理化指标之一的水分含量,与菌类生长代谢密切相关,而菌类生长代谢与大曲品质有直接关系。在培曲过程中,随发酵时间的延长大曲的水分逐渐减小,发酵产生的游离水越多,其挥发性能越强,大曲的成熟度越佳。因此在不同发酵时期水分含量变化也成为考量大曲质量优劣的重要因素[3]。
目前大部分酒企主要通过人工检测品定成品大曲质量[4]。人工评定质量无法量化指标,容易受主观感觉影响,导致判断结果不准确。传统大曲工艺很难保证大曲品质的一致性,不能有效调控大曲发酵品质[5]。因此,亟需一种快速无损的方法判断曲块发酵过程水分含量[6]。高光谱成像技术是光谱技术和图像技术的有机结合,成为一种新兴的快速检测技术[7]可以获取待测样品空间信息和光谱信息,能够快速、无损的对样本进行定量及定性分析。目前高光谱技术主要应用在农作物检测[8-10]及食品[11-12]等相关领域研究,如孙红等[13]利用高光谱成像技术对马铃薯叶片含水率进行检测和可视化研究,应用相关性分析和随机跳蛙算法筛选特征波长,通过偏最小二乘回归(partial least squares regression,PLSR)建立模型,最终选用RF-PLSR模型对马铃薯叶片含水率进行可视化显示;邹小波等[14]通过高光谱检测枇杷叶片三萜酸含量及分布,通过联合区间偏最小二乘法(synergy interval partial least squares, siPLS)建立模型;谢安国等[15]通过高光谱检测调理牛肉煎制中品质变化,采用支持向量机(support vector machine, SVM)建模并应用粒子群(particle swarm optimization, PSO)优化参数,使用主成分分析降维处理后牛肉光谱数据进行水分含量预测。但在曲块发酵水分含量检测方面,目前没有将高光谱技术应用于曲块发酵水分含量研究。
因此,本研究采用高光谱技术[16]研究大曲理化指标中水分含量这一重要指标[17],以浓香型大曲为研究对象,提出一种基于高光谱技术、图像处理技术对曲块发酵水分含量进行检测的方法。区别于一般高光谱分析中应用一个像素点谱信息的方法,本研究利用高光谱相应波段图像纹理信息,检测不同曲房不同点位曲块发酵过程中水分含量。最终为大曲发酵过程水分含量检测提供依据。
1 系统、数据与降维
1.1 总体流程
本研究总体叙述流程如图1所示。通过高光谱相机采集相应光谱数据采集;通过主成分分析(principal component analysis,PCA)和特征波段实验,提取相应波段图像;采用灰度共生矩阵算法对所提取大曲发酵高光谱图像信息纹理特征; 并通过PLSR、SVR、BP神经网络(back propagation neural network ,BPNN)的纹理特征建模效果比较,选择最优模型方案;剔除异常样本,扩大训练数据,得到最优模型效果和参数。
图1 整体流程图Fig.1 Overall flow chart
1.2 硬件设备与数据采集
本研究采用曲块高光谱系统进行线性扫描采集数据,该系统光谱范围为900~1 700 nm,采样间隔为3.5 nm。硬件系统由芬兰FX17系列高光谱相机、2个150 w卤素光源、电控移动平台、计算机组成。曲块数据采集时,设置最佳采集进光量,使每个波段反射率达到最大动态范围的80%~90%,避免白光参考点饱和导致采集数据扭曲。
对某酒企曲块发酵过程中数据进行采集,现场采集2间曲房的数据,其取样点位如图2所示。分别在1号曲房与2号曲房设置4个取样点位,即①、③、④、⑦四个点位。分别采集2个曲房4个不同点位曲块发酵状态的高光谱数据,连续采集20 d,每次所采集的不同发酵状态的曲块将其碾碎成曲粉,一部分用于理化、生化指标等化学检测,一部分用于高光谱图像采集。因此本研究最终一共采集2(曲房)×20(天数)×4(点位)共160组大曲高光谱数据。依据日期、曲房和点位编号对数据进行命名。如4月18日采集1号曲房①号点的数据命名为4-18-1-1。
图2 曲房点位分布示意图Fig.2 Point distribution diagram of koji house
1.3 数据降维
大曲高光谱数据不同波段间相关性强,数据量大,波段数量多。为提高运算速度,减少无关数据干扰,可进行合理的降维处理[18]。本研究在寻找大曲纹理特征参数过程中采用PCA和实验分析水分特征波段2种方法来实现大曲发酵高光谱数据降维处理。
1.3.1 高光谱数据主成分分析
PCA 变换过程是呈线性的。在PCA变换过程当中,新坐标当中第1个坐标即为第1个主成分,第2主坐标即为第2个主成分,依次类推,并且这些坐标点之间也是相对独立的。通过主成分得分图形能够对被测样本主成分地位进行表达[19]。
对大曲粉末高光谱数据做全波段PCA,得到前99.99%的主成分图像共3个,如图3所示,其中第1主成分PC1累积贡献率达到99.75%。
a-原图;b-PC1;c-PC2;d-PC3图3 主成分分析Fig.3 Principal component analysis
1.3.2 大曲发酵过程水分特征波段
根据查阅相关参考文献可得[20-21],水分在近红外波段接近冰点的吸收峰有979、1 200、1 453 nm,随着温度升高水的吸收峰会发生位移。为验证找到合适特征波段,设计不同物质水分梯度的实验,其中更接近曲粉成分的面粉水分梯度实验如表1所示。
表1 面团水分高光谱实验参数Table 1 Moisture hyperspectral experiment of dough
最终获取大曲水分怀疑特征光谱为980、1 220、1 450 nm波段左右,并以此为基础,应用相应特征光谱图像对大曲发酵过程水分定量检测展开研究。
2 水分建模实验与分析
2.1 灰度共生矩阵特征提取
灰度共生矩阵是一种描述纹理特征的常用方法,灰度共生矩阵一般有4个特征参量: 对比度(contrast, CON)、相关性(correlation, COR)、能量(angular second moment, ASM)和熵(entropy, ENT)[22]。通过图像预处理后,根据连通域重心坐标在怀疑波段大曲粉末部分划分出6个区域(如图4所示),分别计算内部灰度共生矩阵参数,再求平均值作为该波段灰度共生矩阵参数。对4个特征变量提取均值和标准差,其中均值和标准差是描述数据集中趋势和离散程度的2个最重要测度值。
a-连通域重心;b-感兴趣区域(ROI);c-区域分割图4 灰度共生矩阵预处理Fig.4 Gray level co-occurrence matrix preprocessing
分别计算6个区域的对比度、相关性、能量、熵,求出6个区域灰度共生矩阵参数平均值,该平均值代表原图大曲粉末灰度共生矩阵参数。用此方法对图3中PC1、PC2、PC3以及在上述实验中发现的怀疑波长中的1 220、1 450 nm共5个波段内基于灰度共生矩阵的4个特征参数进行计算。表2为6组PC1灰度共生矩阵参数,同样方法再算得PC2、PC3、1 220 nm、1 450 nm灰度共生矩阵参数。
表2 PC1灰度共生矩阵参数表Table 2 PC1 gray level co-occurrence matrixparameter table
2.2 建模效果对比
通过上述方法对所有大曲高光谱数据进行灰度共生矩阵参数提取后,本研究分别选用PLSR、SVR、BPNN方法进行建模拟合分析。样本选用一号曲房80组大曲粉末高光谱数据中PC1、PC2、PC3、1 220 nm、1 450 nm这5个波段的灰度共生矩阵参数。样本划分采用稳定性较好的SPXY分集算法, 50组作为训练集,30组作为测试集,分别与对应大曲水分含量进行关联建模,得到模型参数如表3所示。
表3 怀疑波段建模效果Table 3 Suspicious band modeling effect
采用PLSR、BPNN、SVR三种回归算法分别对PC1、PC2、PC3、1 200 nm、1 450 nm五个特征波段图像进行灰度共生矩阵参数与水分含量指标建模预测时,BPNN对应的决定系数(R2)均比SVR、PLSR大,均方根误差(root mean square error, RMSE)也比后2种模型小。由此得出,在3种模型效果中BPNN建模效果最好。
在 PC1、PC2、PC3、1 220 nm、1 450 nm五个波段图像纹理特征建模拟合中,1 450 nm特征波段拟合效果最好,同模型拟合中训练集与测试集决定系数都比另外4个波段高,以模型效果最好的BPNN建模效果看,训练集R2与RMSE为0.810 1和0.034 2,测试集R2与RMSE为0.830 1和0.029 1。其次是PC3与PC2建模效果稍好,PC1与1 200 nm特征波段建模效果无参考价值。
2.3 性能评价
通过上述建模实验效果,可以看出BPNN模型的1 450 nm特征波段图像纹理特征建模效果最好,为进一步验证与评价,选用更多样本做建模实验,对1号与2号曲房160组大曲光谱数据计算其1 450 nm波段图像灰度共生矩阵参数,应用SPXY分集算法,选用100组数据作为训练集,60组作为预测集。应用BP神经网络拟合算法与对应水分含量指标进行关联建模。训练集相关系数R2为0.801 6,RMSE为0.037 2。
100组训练集建模效果相比之前,50组大曲样本建模效果R2与RMSE都有所下降,分析原因如下:在采集大曲高光谱数据时没有考虑到大曲图像纹理特征参数与理化指标存在联系,因此没有针对大曲纹理特征参数对大曲粉末样本做相应预处理,导致大曲粉末样本中出现异常大曲粉末样本数据(图5)。异常大曲粉末样本的曲粉颗粒较大,表面分布不均匀,导致其纹理特征参数异常,无法与水分含量形成良好关联,建模效果不佳。
图5 大曲异常样本Fig.5 Daqu abnormal samples
因此本研究采用K-mean聚类算法进行异常样本数据剔除,设置聚类类别为1,当计算出聚类中心后,设置距离阈值为3,判断聚类各数据到聚类中心距离是否小于距离阈值。最终通过K-mean聚类算法剔除异常数据20组,剩余140组数据样本中选用90组作为训练集,50组作为预测集进行水分含量预测模型训练。最终建模效果如图6和图7所示,训练集R2为0.826 9,RMSE为0.033 5。测试集R2为0.848 4,RMSE为0.028 7。
图6 训练集建模效果图(R2=0.826 9;RMSE=0.033 5) Fig.6 Training set modeling rendering
图7 测试集效果图(R2=0.848 4;RMSE=0.028 7) Fig.7 Test set rendering
3 结论
本文通过高光谱特征波段的纹理信息与水分含量指标关联建模的方式,实现对大曲粉末水分含量快速检测。应用主成分分析和特征波段对应二维信息进行灰度共生纹理提取,以CON、COR、ASM和ENT四个特性与水分含量进行关联拟合,并且通过PLSR、SVR、BP神经网络模型效果进行对比,选择最优预测模型。最终利用K-mean聚类算法剔除异常样本,通过实验可验证,以1 450 nm特征波段图像纹理特征进行的水分含量预测模型中BPNN模型效果最好,训练集R2与RMSE为0.826 9和0.033 5,测试集R2与RMSE分别为0.848 4和0.028 7。该波段效果优于主成分分析和1 200 nm特征波段所得图像纹理特性的水分含量检测效果。该高光谱特征波段图像纹理特征与水分含量关联检测的方法,为实现大曲水分含量的快速定量检测提供理论依据,具有一定理论参考价值。