基于支持向量机的白酒上甑探汽方法研究
2020-03-06田万春张贵宇庹先国吴昊翰
田万春 张贵宇,3 庹先国 吴昊翰
(1. 四川轻化工大学人工智能四川省重点实验室,四川 宜宾 644000;2. 四川轻化工大学自动化与信息工程学院,四川 宜宾 644000;3. 西南科技大学信息工程学院,四川 绵阳 621010)
中国白酒是世界六大蒸馏酒之一,其特有的固态发酵酿造工艺是中国劳动人民的智慧结晶,是依靠经验的传统手工酿造技艺。“生香靠发酵,提香靠蒸馏”是固态法白酒酿造经验之一[1]。“生香靠发酵”是指酒体风味物质通过粮食发酵产生,受微生物种类、数量及当地气候条件等诸多因素影响,发酵工艺造就了酒的香型。“提香靠蒸馏”是指酒体风味物质的提取主要靠蒸馏,蒸馏工艺直接影响白酒的产量与品质。上甑是蒸馏的最重要工艺之一,要求“探汽上甑,薄层加料”[2],即在酒蒸汽前锋即将逸出酒醅表面时才铺撒一层薄薄的冷料,从而创造最佳的溶酯条件[3],最大限度地提取风味物质。传统酿造生产中,“探汽”全凭酿造师经验把控,如果提前铺料会导致酒蒸汽不能顺利上升,造成“压汽”现象,不能有效提取风味物质,从而影响白酒品质;延迟铺料则会导致酒蒸汽逸出,造成“跑汽”现象,降低产量。
近年来,随着白酒企业自动化转型进程的推进,白酒自动化酿造技术取得了长足发展,同时也对“探汽上甑”提出了新的要求,大量的专家学者对“探汽”进行了深入研究。杨一帆等[4]通过图像处理手段分离酒醅图像中的前景和背景,再检测蒸汽溢出区域确定铺料区域,但该方法作用于“跑汽”之后,只能做到见汽铺料,不能做到“探汽上甑”。张家双等[5-6]将酒醅表面的红外图像进行二值化处理,通过阈值分割的方法提取铺料区域。酒醅红外图像描述的是酒醅表面温度分布情况,其灰度值与酒醅表面温度值存在映射关系[7],灰度阈值分割方法本质上是设定温度阈值分割出高温区域。虽然该方法取得了一定成功,但从酒企应用情况来看效果不够理想,容易造成跑汽、压汽,影响出酒质量和产量。
支持向量机(SVM)是Vapnik等[8]提出的一种基于结构风险最小化原则的模式分类方法,在解决非线性、高维度的小样本分类问题上表现出较好性能。其算法原理是在样本空间中寻找一个分隔超平面将样本集分为两类,样本间的间隔最大时为最优超平面。试验拟提出一种基于灰度直方图特征与支持向量机相结合的探汽方法,通过从红外图像灰度直方图提取多个特征,并结合酿造师上甑经验训练SVM模型,获得较高的探汽效率和准确率,为实现自动化探汽上甑技术提供理论依据。
1 材料与方法
1.1 材料与仪器
1.1.1 试验材料
酒醅:宜宾市云天曲酒厂。
1.1.2 仪器与设备
红外热成像仪:FLIR A310型,美国菲力尔公司;
甑桶(见图1):ZCLZJ200型,自主设计。
1. 甑篦 2. 红外热成像仪 3. 温度传感器 4. 内胆 5. 保温材料 6. 外壳 7. 旋转轴 8. 传感器信息处理机构 9. 传感器安装槽图1 甑桶结构图Figure 1 Structure diagram of distilling pot
1.2 方法
1.2.1 图像采集、标记 通过红外热成像仪采集上甑时甑桶内酒醅表面红外图像,对应酿造师的上甑操作将图像标记为3类。
(1) 等待上甑:红外图像表现为无白热区域,图像整体呈灰暗状态,表明酒蒸汽未到达表层酒醅。
(2) 补料操作:红外图像表现为有少量白热区域,表明局部区域酒蒸汽上升较快,通过补料操作避免“跑汽”现象。
(3) 整层铺料操作:红外图像表现为有大部分白热区域,表明酒蒸汽已到达表层酒醅。
1.2.2 图像预处理 采用中值滤波技术抑制噪声。
1.2.3 灰度直方图 将酒醅红外图像转换为灰度直方图,用横坐标表示灰度级,纵坐标表示该灰度级上出现像素点的概率[9]。按式(1)计算概率。
(1)
式中:
i——第i级灰度级;
ni——第i级灰度级的像素数;
N——红外图像的总像素数;
L——红外图像灰度级。
FLIR A310红外热成像仪采集的图像深度为8位,分辨率为640×480,即红外图像总像素为307 200,灰度级为256。
1.2.4 特征提取 为了进一步降低酒醅红外图像的数据维度及拟合度,减少探汽模型训练时间、提高探汽准确度,需进一步对灰度直方图进行特征提取,灰度直方图统计特征如表1所示。
单一特征提取不能有效反映酒醅红外图像本质特征,因此,提取多个特征训练模型提高探汽准确性。
1.2.5 分类器设计 一个超平面只能从样本集中分隔出一类样本,因此使用3个SVM分类器组合成探汽分类器,依次从样本集中分隔出3类红外图像。灰度直方图特征构成的样本集可表示为:
表1 灰度直方图统计特征Table 1 Statistical features of grayscale histogram
D={(x1,y1),(xi,yi),…,(xn,yn)},
(2)
式中:
(xi,yi)——第i个样本点;
xi——第i张红外图像的灰度直方图特征构成的向量,i=1,2,…n;
yi——第i张红外图像的分类标签,yi∈{1,2,3}。当yi=1时,表示图像i为等待上甑类;当yi=2、 3时,分别表示图像i为补料操作类和整层铺料操作类。
在样本空间中,超平面可描述为:
wTxi+b=0,
(3)
式中:
w——超平面法向量,w=(w1,w2,…,wn);
n——xi的维度;
b——位移项。
w决定了超平面的方向;b决定了超平面与原点之间的距离[10]。
对于线性可分的理想情况,假设存在超平面P能够将某一类红外图像从训练样本集中分隔出来。令ti=+1表示该类红外图像,记为正例,ti=-1表示样本集中剩余的两类红外图像,记为负例,平行且通过离超平面最近的样本点的平面P1、P2可定义为:
(4)
距离超平面P最近的训练样本点使得式(4)中等号成立,被称为“支持向量”,平面P1、P2到超平面P的距离之和为:
(5)
γ被称为“间隔”,如图2所示。
图2 支持向量与间隔Figure 2 Support vectors and intervals
图2表示线性可分的理想状态,通过试验发现样本集中少数酒醅红外图像不能被超平面正确分开,于是引入松弛变量ξi≥0,使函数间隔加上松弛变量≥1[11]。则约束条件为:
yi(wTxi+b)≥1-ξi。
(6)
若要使间隔γ取得最大值获得最优超平面,则需使‖w‖-1最大化,等价于求取‖w‖2的最小值。对式(6)的松弛变量ξi增加代价函数[12],则目标函数为:
(7)
式中:
C——惩罚参数,C>0。
惩罚系数C代表对错分样本的惩罚力度,其值越大表示惩罚越重,模型泛化能力越低。联立式(6)、(7)可得一个凸二次规划问题,利用拉格朗日乘数法便可得到其对偶问题[13]:
(8)
式中:
αi——拉格朗日乘子向量,αi=(α1,α2,…,αn)T。
由于酒醅红外图像样本呈非线性分布,因此,采用核函数将样本点映射到一个更高维度的空间中,使其在高维空间中线性可分[14],以提高探汽准确性。支持向量机常用的核函数有[15]:
多项式核函数:
(9)
式中:
α——调节参数;
b——可选常数;
d——最高次项次数。
高斯核函数:
(10)
式中:
σ——带宽,控制径向作用范围;
高斯核函数是特征向量xi,xj欧氏距离的单调函数。
Sigmoid核函数:
(11)
式中:
β——调节参数;
核函数及其参数的选取决定了支持向量机的分类性能,对各个核函数依次使用网格搜索选取合适的参数使其达到最佳探汽效果,如表2所示。
由表2可知,当惩罚参数C=90、σ=0.081时,高斯核函数分类效果最佳,正确率达96%,高于其他核函数分类准确率,耗时略长,但整体效果最好。因此试验选择高斯核函数,优选惩罚参数C=90、σ=0.081。
表2 不同核函数的分类效果Table 2 Classification effect of different kernel functions
2 结果与分析
2.1 红外图像分类
由图3可知,不同的蒸汽上升情况在红外图像上体现出的白热化程度不同,蒸汽离酒醅表面越近白热化程度越高。白热区域面积大小与上甑操作存在对应关系,面积越大,需铺撒酒醅量越多。因此,可根据红外图像的白热程度和白热区域面积大小对红外图像进行分类,实现自动化探汽。
图3 3类红外图像Figure 3 Three types of infrared images
2.2 中值滤波处理
由图4可知,噪声得到了有效抑制,避免了图像特征模糊[16],较好地保留了图像细节和减少了图像边界失真。
2.3 灰度直方图处理
由图5可知,3类红外图像体现出不同的形态特征[17]:灰度值分布范围不同,等待上甑与补料操作的像素灰度值比较集中,整层操作的灰度值则较为分散,离散程度较大;最大概率的灰度值所处灰度级不同,等待上甑的最大概率灰度值所处灰度级最低,整层铺料操作的最大概率灰度值所处灰度级最高;最大概率值不同,等待上甑的最大概率值最高,整层铺料操作的最大概率值最低。
由图5还可知,3类红外图像在形态上具有明显差异,且在一定程度上降低了酒醅红外图像的数据维度,但仍不能有效反映酒醅红外图像的本质特征,直接使用灰度直方图训练探汽模型不能得到理想的探汽效果。
图4 中值滤波效果图Figure 4 Median filtering effect graph
图5 灰度直方图Figure 5 Grayscale level histogram
2.4 灰度直方图特征提取
根据特征公式提取灰度直方图特征,如表3所示。
由表3可知,蒸汽离酒醅表面越近,红外图像白热化程度越高,其图像整体越明亮、明暗更分明、纹理更复杂,平均灰度、标准偏差、信息熵越大;灰度直方图越不对称,偏斜度越大,像素值分布越离散,灰度范围越大;不同类红外图像间的特征值差异较大,具有可区分性;同类红外图像间的特征值差异较小,具有可靠性。综上,灰度直方图特征能够反映蒸汽上升情况,且维度较低,适合作为分类器的训练特征。
3 实验验证
采用上述方法,共采集776张上甑红外图像样本,依据酿造师的经验将图像分为3类:等待上甑图像,共212张;补料操作图像,共278张;整层铺料图像,共286张。将所有图像转换为灰度直方图并提取特征,将67%样本作为训练集,剩余33%作为测试集,测试结果如表4所示。
表3 特征列表(部分)Table 3 Feature list (part)
表4 训练与测试结果Table 4 Training and test results
由表4可知,SVM的平均分类正确率达96%,具有实用价值。其中等待上甑图像与整层铺料操作图像分类准确率高,补料操作分类准确率较低,是由于不同的图像存在有相同或相似的灰度直方图。等待上甑图像无白热区域,无论是图像视觉特征还是灰度直方图统计特征都与其他图像差异较大,因此分类正确率最高;补料操作与整层铺料操作图像都有白热区域,某些图像的白热区域在视觉上表现为面积大小与分布位置不同,视觉效果差异明显。因而酿造师将其判断为不同类别,做出不同的上甑操作,而灰度直方图的差异比较小,导致SVM的分类出现误差。
由表5可知,支持向量机的探汽准确度远高于逻辑回归、线性判别分析等算法[18],因此支持向量机算法更适合白酒探汽工艺,有助于提高探汽准确性。
表5 分类模型对比Table 5 Classification model comparison
4 结论
试验通过采集酒醅表层的红外灰度图像间接获取温度分布信息,将探汽问题抽象为图像分类问题。为了避免前人阈值分割法存在的单一特征分类精度低的缺陷,采用多个特征作为分类依据,同时结合SVM算法引入人工探汽经验,极大地提高了探汽准确性和实用性。使用测试数据对探汽模型进行测试,正确率为96%,达到“探汽上甑”工艺要求,能满足生产需求,对白酒上甑工艺实现自动化具有积极促进作用。试验通过灰度直方图提取特征时,丢失了像素坐标信息,使探汽结果不能直接用于引导上甑机器人完成铺料操作,铺料区域坐标信息的提取将是后续研究的重点。