模式识别方法在酒行业中的应用研究进展
2023-05-10韩云翠王冠霖吕志远刘玉涛张梦梦卢春玲邱振清汪俊卿
韩云翠,王冠霖,吕志远,刘玉涛,张梦梦,卢春玲,邱振清,汪俊卿
1.齐鲁工业大学(山东省科学院)生物工程学院,山东 济南 250353;2.济南趵突泉酿酒有限责任公司,山东 济南 250115;3.北京航空航天大学 计算机学院,北京 100191
随着大数据和人工智能的兴起,酒行业正在经历数字化智能管理的变革,一系列智能酿造机、智能摘酒机、智能勾兑系统、供应链与产品数字化智能管理平台正在推动酒业全产业链的转型升级。设备与平台的使用需依托数据的处理分析,而模式识别方法建模是数据分析与应用的核心。模式识别是通过区分样本的不同特征来划分样本的一种计算机机器学习方法,模式识别方法的迅速普及归功于计算机强大的学习和分类能力[1],模式是指样本所处环境与客体,模式的自动处理和判读是通过计算机用数学技术方法来实现的。识别问题[2]是一个分类任务,类可以由领域专家定义(监督学习)或根据模式的相似性学习(无监督分类)。分类对象由多维属性向量表示,利用决策边界对这些向量所跨越的空间进行细分。模式识别建模过程是将训练样本或例子进行归纳,根据经验判断,输出一个目标函数,使系统能够准确的预测未知数据或对给定数据做出判别,以实现建模目的[3]。经验以训练数据集的形式存在,它有助于在新的和看不见的任务上获得准确的结果。训练数据集包含一个现有问题领域,学习者使用该领域数据建立一个通用模型,该模型能在新数据中产生基本准确的预测[4]。
传统酒业,尤其是白酒发酵和摘酒方面,主要依靠工人师傅的经验,缺少统一的评判标准,使白酒酿造过程[5-6]无法量化,质量参差不齐,制约了酒行业的发展。将利用模式识别方法建立的模型应用到酿造机器的控制系统,实现机器设备对重要工艺参数的准确判断是关键。本文总结了模式识别方法的类别与特点及其在酒行业中的应用,以对使用模式识别方法建模来解决酒行业中遇到的问题提供参考。
1 模式识别方法建模一般过程
模式识别方法应用的关键是获取准确的分析数据和找到合适的判定标准。通过将仪器测量的理化数据作为输入单元,将应用的系统判断作为教师数据,使用选定的模式识别方法进行学习训练,达到目标应用的结果。模式识别算法开发过程包括数据的收集、数据的预处理、数据转换为模型可用的数据形式、测试集建立模式识别算法模型、测试集评估模型效果、应用模型等过程,如图1所示。
图1 模式识别方法构建模型流程图
2 酒行业中模式识别方法特点与应用
2.1 偏最小二乘法
偏最小二乘法(partial least squares,PLS)是定量光谱分解技术,其分解方式与主成分回归略有不同。主成分回归是先将光谱矩阵分解成一组特征向量和矩阵,并将他们与浓度作为一个单独的步骤进行回归[7]。PLS是在分解过程中直接使用浓度信息,它从自变量矩阵和因变量矩阵中提取偏最小二乘成分,有效地降维,并消除自变量间可能存在的复共线关系,明显改善数据结果的可靠性和准确度[8],是目前化学计量学中最有效的分析方法之一。因此,PLS常用于酒中成分检测方面,吉鑫等[9]以核磁共振氢谱(1H NMR)技术为检测手段,结合偏最小二乘回归算法,建立了白酒中6种酸,3种醛的PLS定量分析模型,解决了白酒的核磁共振氢谱中各微量组分信号重叠,无法定量的难点,该模型范围误差比≥3.7,相关系数R2为0.93~0.99,预测偏差<0.7,模型预测精度较高,拟合效果较好,为白酒真实性鉴别中1H NMR非目标指纹图谱技术的应用奠定了基础。此外,PLS与近红外、中红外光谱技术联合应用在酒中香味物质及白酒酒醅理化参数快速检测方面取得了很好的效果[10-14],具体应用见表1。
表1 偏最小二乘法应用一览表
2.2 主成分分析法
主成分分析法(principal component analysis,PCA)能在不损失或很少损失的情况下对变量间的相关性进行分析,同时还可得到各主成分对结果的不同贡献比率。PCA可做数据降维处理,将多个有相互关系或无相互关系的复杂变量重新组合,形成一组新的相互间无关联的变量就是主成分,降维简化后的数据间的互相干扰大大减少,使分析变得简单明了[15]。降维能降低测试成本,提高分类精度,是保持模式维数尽可能小的关键[2]。在智能化食品感官分析中,PCA不仅可确定食品理化特征与感官特征的相关性,还可降低计算机处理的数据维度[16],是一种寻找与感官剖面数据相匹配的挥发物数量最小的技术[17]。唐维川等[18]检测了7个轮次酱香型基酒风味物质,结果表明各轮次基酒中总酸含量随轮次数增加而减小,总酯含量呈先上升后下降的趋势,主成分分析结果表明正丙醇、乙酸乙酯和乙酸累计贡献率可达到89.30%,酱香型白酒7个轮次基酒可以通过主成分分析法结合风味物质的差异性实现准确区别和评价。利用现代仪器分析检测手段结合PCA模式识别方法[18-23]在香型分类、真假酒鉴定、产地溯源、质量等级判断等方面的应用见表2。
表2 主成分分析法应用一览表
2.3 人工神经网络
人工神经网络(artificial neural network,ANN)算法中的人工神经元模仿的是一些体系结构使用带有本地支持的函数端口,在这个结构中传递函数是一个硬阈值,一个神经元是否触发取决于它的净输入值[24]。ANN包括输入层、输出层和隐藏层,隐藏层最佳层数与神经元最优个数是构建网络的关键问题,设置隐藏层要合理,层数太多容易导致过度拟合的问题;隐藏的神经元数量越少,创建的子区域就越少,网络就倾向于聚集点并将它们映射到相同的输出。每个神经元的输出是非线性变化,分类时,来自前一层加权输入形成的分离曲线,与同一层的其他神经元一起定义最终的分类边界。当神经元数量较多时,由于过度训练,过拟合风险增加,而广义性能下降。必须有足够的数据点进行训练,以确保在每个隐藏层获得的分区正确地分离数据。在网络中,包含了输入神经元,输出神经元及L个隐含层,训练学习问题被简化为寻找最优权值,从而优化代数函数。ANN在监督学习的许多分类任务中表现良好,但在无监督方式进行训练时比预训练阶段的表现要差[25]。人工神经网络包括反馈网络和前向网络,反馈网络的各神经元间有反馈,而前向网络由于各层间没有反馈,只能由前一级推向下一级依靠简单非线性的函数多次复合来解决问题。反向传播人工神经网络(back propagation artificial neural network,BP-ANN)包括信号的前向传播和误差的反向传播两个过程,网络实际输出值和期望输出值的误差均方差最小值是通过梯度搜索技术也就是梯度下降法实现的,是目前使用最多的一种误差逆向传播算法训练的前馈神经网络[26]。另外,卷积神经网络 (convolutional neural network,CNN) 的开发解决了以复杂图像为输入数据的问题,在该网络中,由所有图像共享的卷积核连接了上下层神经元,从而将图像引入神经网络系统中。在酒行业中,神经网络模式识别算法的应用面广泛,Ce’sar Roma’n R.等[27]利用神经网络预测有问题的葡萄酒发酵,研究了用点法和发酵法两种不同的数据输入方法,通过改变预测变量总糖、酒精、甘油、密度、有机酸、氮化合物和发酵时间,发现发酵数据输入的结果优于按点输入的结果,总结出使用3个预测变量糖、密度、酒精在72 h的发酵数据就可100%预测正常发酵和异常发酵。目前,ANN在看花摘酒、成品酒勾兑、品牌鉴别、分析酒质变化影响因素等方面的应用[28-36]见表3。
表3 神经网络法应用一览表
2.4 支持向量机
支持向量机(support vector machine,SVM)是一种监督类型的学习方法,用于识别分类与分析数据,尤其是分类、回归和时间序列预测[37]。SVM利用两个非平行的超平面,在最小化到一个类的距离的同时远离另一个类。SVM可用于解决线性或非线性分类问题,这取决于解决问题所使用的核函数,如果样本对于整个分类空间是线性可分的,就可用线性核函数把样本明确地分成不同的类别[38],允许有少数样本划分的模糊。当面临的问题是非线性时,就可以使用多项式核函数、sigmoid核函数、RBF核函数等将二维平面不能线性划分的样本在更高维度空间里线性可分,从而解决非线性分类问题。SVM在鉴定白酒年份、判断白酒质量等级、白酒自动化生产等方面都有应用研究[39-45],具体结果见表4。田万春等[42]为解决白酒自动化生产过程中准确率不高问题,用SVM建模方法与红外成像仪联合,直方图处理了酒醅表面的红外灰度图像,构建的探汽模型准确率达到了了96%,满足了生产工艺要求;李慧星等[46]将浓香型白酒挥发性香味物质与酒醅微生物数据信息结合,建立二者间关系模型,取得了应用技术创新成果,为优化生产工艺做参考。
表4 支持向量机应用一览表
2.5 其他模式识别方法与不同方法组合使用
除以上4种建模方法外,还有K近邻法、聚类分析、遗传算法等模式识别算法,这些模式识别算法在酒行业中单独使用较少,一般与其他算法组合使用。K近邻法 (KNN) 是一种简单有效的机器学习算法,在特征向量空间中,如果一个样本附近的K个最邻近样本属于某个类别,则该样本也属于这一类别[47]。KNN不需要使用训练集进行训练,训练时间复杂度为0,但计算量较大,需要对每一个待分类的样本计算他到所有已知样本的距离才可求得K个最近邻点。聚类分析的基础是应用无监督机器学习技术识别数据集中固有的模式[2],将研究对象分成相对同质的几个类或簇,主要应用于探索性研究。遗传算法通过编码将要求解的问题表示成遗传空间的染色体或个体,对所优化参数进行二进制或多进制编码,随机产生n个初始种群,再由种群择优的目标方向确定种群适应度函数,判断遗传算法的性能[48]。
朱卫华等[49]研究发现三维荧光光谱与白酒年份有很好的相关性,然后用量子遗传算法-小波神经网络构建了白酒年份预测模型,提出光谱建模信息密度的概念。陈斌等[50]将相关系数法与遗传算法结合提高了红外光谱有效信息提取率,提高了啤酒酒精度预测模型精度。变量间复杂的相互关系增加了机器学习的难度,降低了建模效率,只用一种模式识别方法建模的准确性达不到要求,而多种方法组合使用会有更好的效果[51-54],具体结果见表5。
表5 不同模型算法间组合应用对比一览表
3 总结与展望
在利用信息化技术促进产业变革的背景下,酒类酿造过程的信息化及智能化越来越普遍,模式识别方法特有的模糊数据处理能力和事件关联能力能够将酿造工艺参数和酒类品质有效关联,降低人力成本,提高生产效率。目前,大数据与近红外、中红外及现代色谱检测技术结合,利用模式识别方法建立的模型模拟了酒中成分变化与发酵条件的关系,实现了酒醅理化性质和酒中成分的快速检测,判定了白酒质量等级,追溯了酒龄与原产地,实现了摘酒和勾兑过程智能化,提高了检测效率、酒质量等级准确性和基酒使用效率,为酒行业信息化及智能化发展提供了思路。应用模式识别方法建模是酒类智能化生产的内核,如何利用模式识别方法建立符合实际生产应用的模型为酒类智能酿造提供技术支持是未来研究的重要方向。