APP下载

基于混合颜色模型的茶叶多级分类技术

2022-04-07张建伟张光龙

关键词:聚类分级像素

周 敬,张建伟,张光龙,周 强

(成都大学 电子信息与电气工程学院,四川 成都 610106)

0 引 言

传统的茶叶生产过程中,等级划分大都依赖于人工筛选,而茶叶的外观感官是最常用的一种分级检测方法[1-2].科技的发展促使一些新兴的检测方法出现,主要包括电化学分析检测方法及机器视觉分级方法.常见的电化学分析检测方法有2-Norm方法[3]、采用香气的化学物质的敏感性传感器的方法[4]及近红外、傅立叶变换光谱和拉曼光谱法[5]等.但在茶叶分类中,电化学分析检测方法无法对茶叶外观进行区分,而外观特征又是反映茶叶等级最重要的特征,因此机器视觉分级方法逐渐发展起来.在机器视觉分级方法中,颜色特征最为直观且呈现形式比较稳定[6].Bakhshipour等[7]基于图像处理对5种绿茶和5种红茶进行分类,总共从图像中提取83种图像信息,包括18种颜色、13种纹理和52种基于小波的特征,并将其引入决策树分类器以区分不同的茶类别.Laddi等[8]根据茶叶颗粒的质地特征,分析了10种分级茶叶样品,并基于图像处理获得了“熵”“对比度”“均质性”“相关性”和“能量”等5种质地特征,对茶叶成分进行了分析,结果显示分级茶叶样品与质地特征之间的相关性.本研究通过对以上现有检测方法的分析发现,针对多种茶叶的分类检测方法较多,而针对一种茶叶生产中具体质量分级的检测方法很少.

为了进一步提高茶叶生产过程的自动化与智能化,本研究将基于茶叶的混合颜色特征的计算机视觉技术引入茶叶生产分级中,不仅提高生产效率和降低成本,也将极大推动茶叶生产的智能化发展.

1 茶叶图像的采集与预处理

1.1 茶叶图像采集

在茶叶分级的计算机视觉系统设计中,图像的采集是首先且最为重要的一步.茶叶成像效果的优劣直接影响到后面的茶叶特征提取与检测,因此,茶叶图像采集设备的选型需要以所提取的特征为基础,尽可能突出采集图像的颜色特征.为了更好地设计茶叶分级检测平台,首先对视觉系统中的相机、镜头及光源等关键模块进行选型.为了保证茶叶图像的分辨率和各种颜色分量的稳定性,本研究选用以SONY IMX249彩色图像传感器为核心的工业相机.该传感器色彩还原度较好,而且灵敏度高.为更好地配合IMX249传感器,相机光学镜头选用500万分辨率与16 mm焦距的低畸变工业镜头.而光源的选择主要考虑形状和光谱2个参数.对于光源的形状,环形光由于中心对称且打光均匀,成为本研究的首选;对于光谱,考虑到茶叶各个颜色空间的比例,本研究采用均匀白色光源.基于机器视觉的茶叶分级检测系统示意图如图1所示.

图1 基于机器视觉的茶叶分级检测系统示意图

1.2 茶叶图像预处理与定位

由于受到环境、光源及设备等各种外在因素的影响,直接采集的图像会存在噪声及背景等无用信息,不能直接用于特征提取与分类[9],因此,通过图像处理算法对采集的图像进行预处理操作.主要的预处理包括以下步骤:图像平滑与滤波、边缘检测、图像分割及图像定位等.图像预处理过程如图2所示.

图2 图像预处理过程

为了提取到每片茶叶的颜色信息,需要分割出茶叶的位置和区域,则首先采用高斯滤波对茶叶图像进行平滑滤波去噪.选择高斯滤波器的主要原因是,由于成像系统存在随机噪声,而高斯滤波对于随机噪声具有较好的抑制效果.

接着,分别对滤波后的图像进行边缘检测和图像分割.边缘检测是采用canny算子提取样本茶叶的边缘信息.相比其他算子,canny算子的优势是边缘定位更准确且能提取出更细的单像素边缘,有利于链码更精确地记录所有茶叶边界信息.

本研究采用大津法对茶叶图像进行背景分割.由于边缘信息包含的颜色信息较少,将通过阈值分割的区域去除边缘检测所得到的边缘信息,则剩余区域会作为颜色特征提取的主区域,从而实现最终的茶叶图像定位.

2 基于RGB与HSI颜色混合模型的茶叶色泽度判别

人工感官审评分级是传统的分级方法,需要由通过评估资格测试并在标准评估室中评估茶样品的专业人员进行.目前茶叶感官品质评价的主要依据是国家标准GB/T 23776-2018[10].该标准把茶叶的感官评审分成2类因子:外部因子和内部因子.外部因子指茶叶外观方面的评价,内部因子是茶叶成分含量等方面.本研究依据人工感知的视觉特征对茶叶数字化处理并量化分级指标.

茶叶的色泽是茶叶评述中非常重要的因素,与茶汤的颜色、香气和味道等内部因子密切相关,是区分茶品质等级的重要因素之一[11].由于通常使用RGB和HSI色彩空间模型[12]来描述物体的颜色信息,但是对于茶叶而言,单独某种颜色空间不足以用来完成分类检测,因此本研究提出了对于样本混合颜色空间的特征提取.

2.1 基于RGB颜色特征与贝叶斯决策分级

RGB颜色模型主要包含红色、绿色、蓝色3种颜色分量[13],其数学模型如图3所示.

图3 RGB颜色模型

为了更好地将RGB颜色模型与茶叶颜色进行关联,需要了解茶叶基本工艺流程.茶叶基本工艺流程主要有摊放、杀青、揉捻及干燥等4个阶段.优质的绿茶茶叶炒青后呈现翠绿的颜色,劣质的绿茶茶叶炒青后颜色往往偏黑.优劣茶叶样本的颜色区别如图4所示.

图4 茶叶样本颜色区别

对于彩色图像的红色、绿色与蓝色颜色分量中,茶叶绿色分量是判断茶叶优劣的一个关键颜色分量.优质茶叶的绿色分量占比较高,反之,劣质茶叶的绿色分量占比较低.通过对优劣茶叶样本进行鉴别实验,采用茶叶绿色区域像素数量比茶叶像素总量方法,得出茶叶绿色区域像素数量占比,即:

K=n1/n2

(1)

式中,K为茶叶绿色分量像素数量占比;n1为茶叶绿色区域像素数量;n2为茶叶像素总量.

为了确认K值的选择,本研究随机挑选30片包含优劣质量的茶叶进行实验,先提取茶叶样本RGB图像的绿色分量并统计该分量的像素数量,再统计每片茶叶样本图像绿色像素数量占比,最后通过最小错误率的贝叶斯决策分类法将茶叶分为优质茶叶与劣质茶叶2类.贝叶斯决策理论是统计模式识别中的基本方法.贝叶斯决策判别,既考虑到各类参考总体出现的概率大小,又考虑到因误判而造成的损失大小,判断能力强,较适合茶叶颜色的判别分级.

优劣茶叶样本绿色像素数量占比如图5所示.优质茶叶用蓝色曲线表示,劣质茶叶用红色曲线表示.横坐标为样本数据,纵坐标为绿色像素占比K.不难发现:当K>0.338,茶叶样本为优质茶叶;当K<0.338,茶叶样本为劣质茶叶,因此以0.338为阈值,直接将小于该值的茶叶分为第3等级劣质茶叶并先被剔除.

图5 优劣茶叶样本绿色像素数量占比

基于上述30片茶叶样本的分类,本研究用100片某干茶茶叶进行茶叶色泽等级测试验证.首先,根据人工分级对已知优劣的茶叶样本进行编号排序,再基于颜色模型提取每幅茶叶样本图像中绿色像素参数,按照式(1)统计每片茶叶达标的绿色区域像素数量百分比K.100片茶叶样本的K值统计结果如图6所示.

图6 100片茶叶样本K值统计图

本研究用100片茶叶进行茶叶色泽的分级,选取的K阈值为0.338.如表1所示,人工分级判别的劣质茶叶数量为29片,而机器判别的劣质茶叶数量为27片,其主要原因在于:机器判别中极个别样本由于采集光源等问题受影响,未被判别为劣质样本,但整体上此分级结果是准确的.所以,当K的阈值取0.338时,可以将第3等级的劣质茶叶去除,剩余的茶叶将进入下一级检测流程并继续分级为第1等级与第2等级.

表1 验证茶叶样本统计表

2.2 基于HSI颜色特征与K均值聚类分级

在已去除劣质茶叶的情况下,再对优质茶叶进行精分,但仅用绿色分量是不能实现的,因此本研究引入色调、饱和度及强度的HSI颜色空间.HSI颜色模型与RGB颜色模型不同,色度、饱和度、强度分量更贴合人类视觉模型,其数学模型如图7所示.

图7 HSI颜色模型

由于普通采集的图像都是RGB颜色模型,因此先需要转化为HSI颜色模型,然后再进行颜色特征的提取.从 RGB颜色模型到HSI颜色模型的转化式如下:

(2)

(3)

(4)

式中,H是反映色彩本质特性的参数,表示颜色的种类;饱和度S主要决定颜色的深浅程度,若颜色的饱和度越高,则表明该颜色纯度越高;I分量与图像彩色信息无关;R、G、B分别为红色、绿色、蓝色分量.

本研究基于HSI颜色模型分别提取单片茶叶样本的色度和饱和度分量均值作为颜色特征.具体计算式如下:

(5)

(6)

式中,n表示茶叶图像的像素个数;mH、mS分别表示色度、饱和度分量的均值.

单片茶叶在HSI颜色模型中的颜色特征值如表2所示.

表2 单片茶叶在HSI颜色模型的颜色特征

K均值聚类是一种非监督实时聚类算法[14-15],是一种典型的基于距离的聚类算法,使用平方误差的相似性准则和最小化准则将N个对象划分为K个类别,从而使聚类域中的所有数据点均达到聚类.

以一定数量的茶叶为样本数据,利用K均值聚类法完成茶叶色泽聚类.K均值聚类法的具体过程为:构造体现分类特点的关系数据矩阵,再利用该矩阵判断待测样本的类别,并根据待测样本不同的类别归属给出相应的色泽等级[16].从茶叶的不同等级中,选取部分数据样本来构造代表颜色的特征参数,并计算待测样本与各个类别的相似度,以此判别其等级.

本研究根据2.1节鉴别实验所剩下的73片茶叶样本,利用HSI颜色模型提取训练茶叶样本色度和饱和度的均值特征向量,构造体现分类特点的关系数据矩阵,经过聚类分析并分级.

表3为K均值聚类结果分析表,其中,共计73片样本,分3组进行聚类,分级准确率达到93.4%以上,共耗时5.52 s.

表3 K均值聚类结果分析表

3 茶叶分级工作流程及测试结果分析

茶叶分级实验工作流程如下:1)图像采集并预处理;2)基于RGB颜色模型判别茶叶色泽级别:若不符合茶叶本身色泽归为第3等级,则分级结束;符合茶叶本身色泽则进入后续流程;3)基于HSI颜色模型提取单片茶叶色度与饱和度特征参数,求出均值,构建特征向量;4)根据K均值聚类计算待测茶叶色泽特征参数与特征向量近似匹配值,进行分类并分出茶叶等级.茶叶分级工作实验平台如图8所示.

图8 茶叶分级工作实验平台

茶叶预处理、检测和分类过程分别如图9~图10所示.本研究选取了200片茶叶样本图像进行测试,设定茶叶等级分为3类,即第1等级、第2等级、第3等级.首先,利用RGB颜色模型绿色参数对茶叶样本进行判别,得出80片劣质茶叶样本归为第3等级,再利用HSI颜色模型构建色泽特征向量,最后应用K均值聚类算法对剩余120片样本进行聚类精分.分级测试结果如表4所示,与人工分级结果对比,出现23片茶叶与分级结果不一致,主要是由于图像采集光源及人工摆放不同位置导致的颜色差异等原因造成了不一致,其中,9片茶叶样本被认定为第1等级茶叶,8片茶叶样本被认定为第2等级茶叶,6片茶叶样本被认定为第3等级茶叶,K均值聚类的平均正确率为85.8%,贝叶斯决策的正确率为92.5%.

图9 茶叶预处理

图10 茶叶检测和分类

表4 茶叶分级测试结果

4 结 论

采用计算机视觉技术对茶叶品质进行分级,避免了人工分级的主观性,同时也是提升茶叶产业经营的重要要求.本研究利用混合颜色模型空间提取颜色特征,采用贝叶斯决策与K均值聚类的方法,直接从茶叶色泽上判别出茶叶的优劣等级,解决了流水线中参有黑茶及黄叶等劣质茶叶的情形.从鉴别实验结果可知,茶叶在线分级准确率最高达到92.5%,避免了人工选择存在的主观偶然性.本研究提出的分级方法分级速度快,不需要大量样本训练,极大提高了工作效率,满足了茶叶实时分级需求.后期的研究将主要对大量的茶叶样本做实际测试和算法参数优化,以确保整体视觉系统的稳定性和可靠性.

猜你喜欢

聚类分级像素
一种傅里叶域海量数据高速谱聚类方法
像素前线之“幻影”2000
基于数据降维与聚类的车联网数据分析应用
基于模糊聚类和支持向量回归的成绩预测
“像素”仙人掌
2016年年末净值规模低于5000万元的分级基金
高像素不是全部
完形填空分级演练
完形填空分级演练
您的像素,饱和吗?[上]