基于计算机视觉的茶叶品质在线评价系统
2021-07-17金山峰王冬欣黄俊仕熊爱华艾施荣吴京鹏吴瑞梅
金山峰,王冬欣,黄俊仕,熊爱华,艾施荣,刘 鹏,4,吴京鹏,吴瑞梅,*
(1.江西农业大学工学院,江西南昌 330045;2.婺源县鄣公山茶叶实业有限公司,江西上饶 333200;3.江西农业大学软件学院,江西南昌 330045;4.江西机电职业技术学院,江西南昌 330013)
茶叶是中国的主要经济作物,在农业产业结构调整、农民增收等方面起着重要作用。而目前茶叶品质主要由评茶师进行感官审评[1],其受到时间、空间等因素限制,难以全面监控茶叶市场秩序,从而导致茶叶行业存在以次充好、鱼目混珠等混乱现象[2]。因此,提高茶叶品质检测技术水平、强化科学检测手段,是当前亟待解决的关键问题。
目前,国内外采用计算机视觉技术对茶叶品质进行了大量的研究[3−5],Wang 等[6]利用计算机视觉技术建立了茶叶品种支持向量机鉴别模型,识别率达到97.7%。Laddi 等[7]运用计算机视觉技术获取茶叶图像的颜色特征和纹理特征,实现茶叶品质的快速无损评价。这些研究主要针对茶叶品质计算机视觉评价模型进行,对茶叶分级机构的设计研究还有所欠缺,除了利用计算机视觉技术对茶叶品质进行检测外,还有许多研究者利用近红外光谱技术进行茶叶品质检测。董春旺等[8]基于红外光谱技术建立红茶的感官品质评分和理化品质指标的定量分析模型。Ouyang 等[9]采用近红外光谱技术对红茶感官品质的检测,并建立BP 神经网络评价模型。理化检测方法过程复杂、用时长、成本较高,并且红外光谱获得的数据量大,参杂着许多冗余信息,需要对提取到的茶叶特征降维处理。而国内外对于其他农作物品质检测及分级机构的研究是比较成熟[10−12],魏文松等[13]利用计算机视觉对菜叶品质进行在线检测,设计了一套吹气机构,将所分级的菜叶吹到相应等级槽中,其分级效果与人工分级吻合度达到94%。Baneh 等[14]基于计算机视觉技术搭建了滚筒输送带式苹果自动分拣机,提高了苹果分级效率。计算机视觉技术在农产品品质在线评价中广泛运用,如何将计算机视觉技术应用于茶叶品质的实时在线评价,还有待进一步研究。
课题组成员利用计算机视觉技术快速无损评价茶叶品质也进行了大量研究,基于茶叶品质感官审评结果,建立了茶叶品质分级模型[15−16]。基于前期研究基础,本文研发一套基于计算机视觉技术的茶叶品质在线评价系统,实现茶叶品质的自动分级,降低劳动强度,提高工作效率。
1 材料与方法
1.1 材料与仪器
绿茶 婺源仙芝绿茶(400 个不同品种)、苏州洞庭山碧螺春(100 个不同品种),市售。
课题组研发试验装置结构图如图1a 所示,装置实物图如图1b 所示,由自动上料装置、传输带平台以及自动分级与收集装置、CCD 工业相机、拍照暗箱、LED 灯和光电开关等组成。传输带的对称中心画有定位线,定位待检茶叶置于相机中心点位置拍照;自动进料装置置于传送装置前端,将盛有待检茶样容器推出样品箱,输送到传输装置输送带的中心定位线位置;光电开关接受到样品容器进入暗箱信息后,触发相机对样品进行图像采集与数据处理;自动分级与收集模块集成一起,置于传输装置的后端,装置滑台上连有4 个收集箱(Ⅰ、Ⅱ、Ⅲ、Ⅳ),每个收集箱代表一个等级,控制系统根据光学成像系统识别结果,控制横臂滑台左右移动及立柱滑台上下移动,使容器位置对应相应等级收集箱的一个箱位,将容器推进收集箱,达到收集和分级目的。
图1 茶叶品质在线检测分级装置Fig.1 Tea quality online detection and classification device
1.2 系统工作原理
该分级系统采用计算机视觉技术依据不同等级的茶叶特征不同进行分级。首先,在计算机系统中建立茶叶品质专家评价模型,将盛有待检茶叶的样品盘由自动进料装置推到输送带定位中心线,随输送带进入拍照暗箱,光电开关触发CCD 相机,采集待检测茶叶图像。图像处理系统对采集图像进行预处理、感兴趣区域提取及图像特征提取,由事先建立的茶叶品质专家评价模型完成茶叶品质的实时评价,确定待检茶叶等级,将检测结果传送到控制系统。当样品盘继续输送到末端时,控制系统根据识别结果,触发光电开关,控制横臂滑台横向移动与立柱滑台向上移动至相应等级收集箱位置,后连杆推块机构将样品盘推进收集箱,完成分级和收集工作。具体工作过程见图2所示。
图2 茶叶品质自动分级装置工作流程图Fig.2 Working flow chart of tea quality automatic grading device
1.3 样本收集及茶叶品质感官审评
茶叶品质包括茶叶外形、汤色、香气、滋味和叶底5 个评价指标[17],其中茶叶外形包括茶叶形状和色泽,反映了茶叶内部成分品质状况。因此,可利用计算机视觉技术获取茶叶外形图像,提取茶叶图像的纹理特征和颜色特征,建立判别模型,以此判别模型鉴别待检茶样品质。按照茶叶品质感官审评标准(GB/T 23776-2018),采用集体评分和密码审评形式,各评茶师对茶样的外形形状、外形颜色、汤色、香气、滋味和叶底按百分制分别给出评分,取所有评茶师的得分平均值。将感官审评得分位于90~99、80~89、70~79 和60~69 分数段的茶样分别定为一级、二级、三级和四级[18]。
选取400 个不同品质的婺源仙芝绿茶茶样,由评茶师对每种茶进行人工感官审评,分成4 个等级,其中一级99 个,二级101 个、三级100 个、四级100个,建立茶叶品质评价模型。随机选取320 个样本组成校正集,用于模型建立,剩余80 个样本组成预测集,用于预测所建模型精度。
另选取苏州100 个不同品质的洞庭山碧螺春绿茶茶样,由评茶师对每种茶进行人工感官审评,将每种茶叶按照审评标准分成4 个等级,在软件系统中建立碧螺春绿茶评价模型。所有茶样置于5 ℃左右的冰柜中。
1.4 茶叶图像采集及预处理
将每个样本均匀混合后,称取(15±0.5)g 茶叶,均匀平铺于φ60×10 mm 规格的容器中,在系统暗箱中在线采集茶叶样本图像,然后在茶样图像的正中心位置截取400×400 像素感兴趣区域,如图3a,用3×3窗口大小的中值滤波对截取的区域图像进行平滑处理,去除原始图像噪音信息,如图3b。为了让图像更加的清晰,采用拉普拉斯算法将图像进一步锐化,如图3c,预处理图像的颜色和纹理特征被清晰凸显。
图3 图像预处理Fig.3 Image preprocessing
1.5 图像特征提取
颜色特征和纹理特征的差异可用来区分茶叶品质好坏。采用RGB 和HSI 色彩模型提取茶叶图像的颜色特征(共12 个:红体均值、绿体均值、蓝体均值、红体标准差、绿体标准差、蓝体标准差、色调均值、饱和度均值、亮度均值、色调标准差、饱和度标准差、亮度标准差),以表达茶叶色泽特征。采用基于灰度差分统计矩阵和灰度共生矩阵方法提取茶叶样本的纹理特征(共20 个纹理特征:熵、各向异性、灰度均值、灰度标准差、0°能量、0°相关性、0°同质性、0°对比度、45°能量、45°相关性、45°同质性、45°对比度、90°能量、90°相关性、90°同质性、90°对比度、135°能量、135°相关性、135°同质性、135°对比度),以表达茶叶外形的形状特征。
1.6 系统评价模型建立方法
1.6.1 特征变量降维方法 特征变量之间的多重共线性和冗余性会导致模型计算量大,影响模型预测性能,采用特征变量降维方法可消除变量之间的共线性和冗余性。主成分分析(principal component analysis,PCA)[18]是一种线性无监督降维方法,利用正交变换方法,得到彼此互不相关的新变量,尽可能地代表原始变量信息。核主成分分析(Kernel Principal Component Analysis,KPCA)[19]是一种非线性降维方法,可处理线性不可分的数据集,该方法采用一个非线性映射把原始变量映射到一个高维空间,在高维空间进行PCA 降维,但该方法无法保持数据高维空间中的拓扑信息。局部保持投影(locality preserving projections,LPP)[20−21]是一种经典的流形学习降维方法,该方法能保持原始变量在高维空间局部拓扑关系,既能考虑到样本的流形结构,也保持了样本的局部性,但没有考虑原始变量的类别标签信息,另外由LPP 构造的新低维特征是非正交的,会影响多重共线性特征变量的重构。监督正交局部投影(supervised orthogonal locality preserving projections,SOLPP)[22]是在LPP 基础上进行改进的监督流形学习降维方法,该方法在寻找最优邻域结构时,既考虑原始变量类别标记信息,又考虑局部流形结构信息,采用正交变换消除变量之间的统计相关性。
1.6.2 模型建立算法 本文分别采用反向传播神经网络、相关向量机和随机森林建立茶叶品质等级评价模型,并进行模型对比。BP-ANN 模拟生物神经行为,通常由输入层、若干隐含层和输出层的若干节点组成,相邻层的每一对节点之间通过权值和偏差进行连接,通过多层链接将输入特征转投影到潜在变量空间,采用反向传播训练算法对模型进行训练和优化。RVM 是一种典型的基于核的监督学习模型,在期望最大化学习方法和稀疏贝叶斯框架下利用核函数将训练样本原始特征空间映射到高维空间,构建最优超平面实现样本线性可分。
RF 基于并行运算原理,获得较快的学习过程,有利于减少数据噪声的鲁棒性,对多元数据的共线性也不敏感[23]。算法具体操作过程如下:①采用自主抽样方法从所有原始n 个样本中抽取一定数量有差异的m 个样本,组成新的训练集,用于创建单棵分类树,以构建多棵不同的决策树,剩余样本构成袋外(out-of-bag,OOB)样本数据集,用于计算每棵树的无偏误差估计,评价模型性能;②反复训练步骤①,产生Z 个训练集,构建Z 棵分类树,类似一片“森林”,分类树生长过程中,在每个非叶子节点(内部节点)分支前,从全部属性中选择p 个作为当前节点的分裂候选属性,同时采用基尼指数最小的属性进行分支;③在上述反复训练过程中,每棵决策树进行生长,直到叶子节点进行分支;④采用每棵决策树对袋外测试样本进行测试,得到对应的T 个分类结果,由投票表决方法将所有分类结果中最多的类别,作为该测试样本的最终类别归属。
2 结果与分析
2.1 不同降维方法结果分析
本文首先利用婺源仙枝绿茶建立在线评价系统的判别模型。分别采用主成分分析(PCA)、核主成分分析(KPCA)、局部保持投影(LPP)和监督正交局部保持投影(SOLLPP)方法对图像特征变量进行降维处理,得到前三维特征变量可视化图,图4a~图4d分别是PCA、KPC、LPP、SOLLPP 降维结果,其中SOLPP 降维方法将不同等级样本点聚集在一起,且不同等级样本能很好地区分开,而由其他三种降维方法处理的不同等级样本点相互交错在一起,说明监督流行学习降维方法(SOLPP)能很好地区分不同等级样本。这是因为SOLPP 既考虑了样本间局部拓扑结构信息,还保留了样本的先验类别信息,可有效挖掘样本点在高维空间的结构信息,使得高维空间同类别近邻样本点投影到低维空间仍保持近邻[24]。本文采用SOLPP 降维后的低维特征作为判别模型的输入变量。
图4 基于不同降维方法的茶叶等级三维可视化图Fig.4 3-D visualized of test samples based on different reduction methods
2.2 随机森林判别模型建立
研究采用随机森林算法建立茶叶感官品质评价模型,Kappa 系数可用来度量所建模型的稳定性和分类结果的一致性,系数取值范围为0~1,Kappa 值越大,表明结果一致性越好,模型稳定性能越好[25]。模型建立过程中,决策树棵数(ntree)和节点分裂候选属性数(mtry)会直接影响RF 模型的判别精度,本文用网络搜索方法对两参数进行优选,将不同参数条件下的特征维数建立判别模型,由模型对预测集样本的正确识别率得到最优参数,见图5所示。由图5a 可知,采用前4 维特征维数建立的判别模型识别率最高,为93.75%,其最优参数ntree 为100,mtry 为3;由图5b 可知,80 个预测样本中有5 个被误判,其中1 个一级样本被误判为二级;3 个三级样本误判为二级,1 个三级样本误判为四级,模型对预测集样本的Kappa 系数为0.9167,说明所建模型稳定性好。
图5 RF 模型对预测集样本预测结果Fig.5 Results of RF models for prediction sets
2.3 不同模型性能比较
对茶叶品质的4 个等级进行重编码,等级一、二、三、四分别采用(1,0,0,0)、(0,1,0,0),(0,0,1,0)和(0,0,0,1)4 个0-1 模式作为模型输出,BP-ANN 模型选择tansig 函数作为激活函数,学习率设置为0.1,最大训练迭代次数为1000,隐含层神经元节点数M 与输入节点N 的关系为M=2 N+1,选择SOLPP 降维处理后的6 个特征变量进行建模。以高斯函数作为核函数建立茶叶感官品质评价RVM 模型,利用逐步搜索法选择最优的特征维数,并同时采用试错法优选最佳的核参数,以构建最优的RVM 模型。对BPANN、RVM、RF 建立的茶叶图像与感官品质之间的评价算法模型性能进行比较,见表1。由表1可看出,RF 模型的识别率及Kappa 系数均高于BP-ANN、RVM 模型,说明RF 模型预测精度更高、性能更稳定,故本系统最终采用SOLPP 降维方法结合RF 模型算法建立茶叶感官品质快速评价模型。
表1 模型对预测集样本进行预测结果Table 1 Results of the model for prediction set
2.4 试验验证结果
选取市售婺源仙枝绿茶60 个未知茶样,验证样机的可行性。由评茶师进行感官审评,评出茶叶等级,将未知茶样进行在线评价,人工感官审评与在线评价结果见表2,系统对婺源仙枝绿茶一级、二级各误判1 个茶样,三级误判2 个茶样,总体识别率为93.30%。
表2 人工感官审评与在线检测分级结果Table 2 Grading results of artificial sensory evaluation and online check
另选取100 个不同品质市售碧螺春绿茶,由评茶师审评结果,分成4 个等级,在软件系统中建立碧螺春绿茶品质评价模型。同样选取60 个未知品质碧螺春茶样对样机进行验证,其中1 个二级茶样误判为一级,总体识别率为98.30%(见表2)。
从表2可看出,样机对不同品种茶叶的在线评价结果略有不同。这可能是因为不同品种茶叶的形状特征不同,且模型建立是基于人工感官审评结果,会导致所建评价模型精度有差异。后续进一步在特征提取算法上进行研究,以提高所提取特征的信息量,从而提高模型精度。人工感官审评方面,采用不同组别的审评专家对同一种类茶叶进行审评,以提高模型的代表性。后续研究将继续加入其他种类茶叶进行在线检测,针对检测结果分析其他种类茶叶分级结果的差异性,找出差异性原因,对评价系统进一步优化,提高系统的整体鉴别率。
3 结论
为规范茶叶市场秩序,提高茶叶品质检测技术手段,本文设计了茶叶品质在线检测及自动分级和收集装置,采用机器视觉技术结合Open CV、Visual C++软件,开发了茶叶品质在线评价系统。以婺源仙枝绿茶为对象,对比了四种降维方法的降维效果,得到监督正交局部保持投影方法对茶叶图像特征降维效果最好,采用随机森林算法建立茶叶感官品质评价模型,在线评价系统对婺源仙枝绿茶的总体判别率达到93.30%;另选择市售碧螺春绿茶验证在线评价系统性能,总体判别率达到98.30%。该系统利用机器视觉技术将标准茶样以图像形式保存在计算机中,实现茶叶品质特征的量化和标准化,摒除人工感官审评的主观性,为茶叶品质评价作参考。自动分级及收集装置将已检茶样按等级分类,便于茶样复检,减少人力成本。