APP下载

甘肃道地中药黄芪饮片质量等级分类算法研究

2023-09-19张正军郭康惠王保海王海龙

关键词:饮片直方图纹理

张 蕾,张正军,郭康惠,王保海,王海龙

(河西学院 信息技术与传媒学院,甘肃 张掖 734000)

中药的质量优劣是保证中药药效的核心和根本.传统中药的鉴别主要根据形、色、气、味等外观性状,配合专家经验采用人工标注的方法来判断饮片优劣,该方法称为“辨状论质”,由我国著名中药学家谢宗万提出[1].有的根据性状(比如质地、颜色和形态)或个头大小(比如粗细)等外观来划分规格等级,有的根据加工方法或纯度来划分,有的根据产地、野生与栽培区来划分,市场上约90%的药材规格等级划分都可归为这几类[2].“辨状论质”虽然直观、实用,但达不到精确定量.随着计算机视觉技术和图像处理技术的不断发展,中药数字化成为中药质量控制的发展趋势,其中最具挑战性的是最佳特征提取[3].在中药饮片图像识别领域,相关研究主要集中于颜色、纹理、形状等外在性状特征以及水分、灰分、浸出物等内在化学成分特征两个方面,且已取得一定进展[4].陶欧等[5]基于饮片切面图像纹理特征参数的辨识模型判正率可达90%;木拉提·哈米提等[6]基于颜色直方图对新疆维吾尔医药材图像特征进行提取与判别分析,其动物药准确率达到70%,植物药准确率达到90%;吕宇琛等[7]提出的基于HOG-LBP特征融合算法对中药饮片的识别率可达到91.16%.

这些研究主要应用场景是鉴别药材的种类,由于不同种类的药材外观差别较大,因此鉴别药材种类相对比较容易.而实际应用中更多的场景是已知药材的种类,需要鉴别其质量等级.这方面的研究难度较大,相关研究仍处于起步阶段,其原因主要是因为同一种类不同等级的药材外观差别较小,自动识别难度较高.

文中选取甘肃道地中药黄芪不同产区饮片为研究对象,针对中药饮片质量等级鉴定自动化进行了探索.

1 实验材料

实验选取甘肃道地中药黄芪不同产区饮片,将其数字化后进行人工筛选,由此构建质量等级标准数据集GHQ-4.

数据集中,图像选取标准为2020版的《中国药典》,图像数目为3 869幅,采用白色简单背景,图像大小均为980×980像素,JPG格式,颜色表示为RGB.

所有图片由行业专家根据表1质量等级特征描述中的4个等级进行测评标注,同一张图片由5位不同专家进行标注,对标注不一致的图片由专家讨论后给出最终标注.

表1 黄芪饮片质量等级特征描述

实验将数据集分为训练集和测试集,从文中构建的质量等级标准数据集GHQ-4中随机抽取1 500幅图像作为训练集,2 369幅图像作为测试集.

2 实验方法

2.1 图像预处理

图像预处理的目的是对数据进行简化,消除图像中无关信息的干扰,并增强重要、有效特征以加强特征提取与识别的可靠性.

针对4种质量等级的黄芪饮片图像,首先进行图像增强,以强化饮片颜色、纹理、边缘等局部特征的差异,突出重要特征.该过程的副作用是图像部分信息可能会有失真,但可提高图像质量、丰富信息量,加强图像判读和识别效果.其次,对图像尺寸进行归一化处理,使得中药饮片图像的最长边界为280像素点.另外,由于RGB颜色模型采用红、绿、蓝三种基色表示各种颜色,不能很好地与视觉感知颜色空间相结合.因此,还需要对图像进行颜色空间转化,将RGB颜色空间分别转化为灰度空间与HSV颜色空间.预处理结果如图1所示.

图1 黄芪饮片质量等级图像预处理结果

2.2 颜色特征参数的提取

不同的产地、科属、甚至不同的炮制方法都会对中药饮片的颜色产生较大的影响.因此,基于颜色特征可以有效区分不同产地、品质等级分类.

中国药典中对药材颜色的描述具有一定的主观性,文中基于中药数字化的理论与实践对颜色特征参数进行定量的提取.颜色特征是对饮片图像表面颜色性质进行描述的方式,是图像识别中最有价值的底层特征,以不同基色描述可得到RGB模型、HSV模型和LAB模型等不同的色彩空间.常用的颜色特征有颜色直方图、颜色距、颜色集等.

2.2.1 颜色特征 颜色特征针对不同质量等级黄芪饮片使用颜色直方图的方式统计图像中不同颜色出现的概率[8],即

(1)

其中,k为图像特征值;L为特征个数;nk为特征值k的像素总数;N为图像总像素数.

实验采用Opencv对黄芪饮片HSV图像生成颜色直方图,如图2所示.Y轴的3个分量分别代表色彩(Hue)、饱和度S(Saturation)和值V(Value).X轴表示bins即颜色分为多少块,通常bins为256,即横坐标上每个点表示一个颜色值.颜色直方图可有效描述黄芪饮片的全局颜色分布情况,从而提取黄芪饮片的颜色特征.

图2 黄芪饮片质量等级灰度图像直方图

2.2.2 基于灰度直方图的图像特征提取 灰度直方图反映一幅图像中各灰度级像素出现的频率与灰度级的关系,是一个灰度级的离散函数,它统计了每一个强度值所具有的像素个数[9],计算公式为

(2)

其中,ni为图像中具有灰度级i的像素的个数;N为图像总像素数;i为灰度级;L为灰度级种类数.

图像的灰度直方图提供了该图像外观的全局描述,提取的特征具有旋转、比例和位移即RST不变性.其中,灰度级为横坐标,频率为纵坐标.灰度级是图像中不同灰度的最大数量,灰度级越大,图像亮度范围越大.通过Opencv生成黄芪饮片质量等级灰度图像直方图如图3所示.

图3 黄芪饮片质量等级灰度图像直方图

一般不直接用灰度图像的直方图作为特征,而是使用直方图的统计特征.在颜色直方图的基础上,结合灰度直方图及统计量来反映黄芪饮片质量等级图像的特征值.统计量如下[10]:

均值(mean):表示获取黄芪饮片图像灰度的平均值,即

(3)

方差(variance):表示获取黄芪饮片图像灰度在数值上是如何离散分布的,计算公式为

(4)

峰态(kurtosis):表示获取黄芪饮片灰度图像在接近均值时的分布,峰态越大黄芪饮片灰度图像灰度分布越集中于平均值附近,计算公式为

(5)

熵(entropy):反映了黄芪饮片灰度直方图中灰度分布的均匀性,计算公式为

(6)

对标准数据集进行均值、方差、峰态、熵4项颜色特征提取实验,表2为黄芪饮片图像不同质量等级的平均特征值.

表2 黄芪颜色直方图特征

表3 灰度共生矩阵提取的黄芪质量等级特征

2.3 纹理特征参数的提取

纹理是由灰度空间中相隔某距离的两个像素点间的灰度关系形成的,该灰度关系可以从微观上体现图像的综合特征信息,包括灰度的变化幅度、变化方向以及相邻间隔等.纹理特征提取方法最常使用的主要有灰度共生矩阵和局部二值模式两种方法.在中药饮片质量等级鉴定过程中,同种饮片纹理结构具有高度相似性及复杂性,文中选取灰度共生矩阵提取黄芪饮片纹理特征.

2.3.1 灰度共生矩阵 灰度共生矩阵(GLCM,Gray-level co-occurrence matrix)是指通过研究灰度空间的相关特性来描述纹理的基本方法.GLCM可以理解为取图像中的任意一点(x,y),偏离一段距离选取另一点(x+m,y+n),假定其对应的灰度值为(g1,g2).令点(x,y)在整个图面上滑动,则会得到不同的(g1,g2)值,将灰度值的级数记为k,则(g1,g2)的相互组合一共有k的平方种.对于整个图像,统计出每种(g1,g2)的值出现的次数,然后再将其排列成为一个方阵,用(g1,g2)出现的总次数将它们归一化后视为其出现的概率P(g1,g2),这样的方阵称为灰度共生矩阵.GLCM常用的纹理特征[11]主要有:

对比度:表示测量灰度共生矩阵的局部变化,反映某个像素及其邻域像素值的亮度对比情况.灰度共生矩阵中偏离对角线的元素值越大,则对比度越大,可表示为

(7)

相关性:表示测量指定像素对的联合概率,该特征可反映图像纹理的一致性.矩阵元素相差越大,则相关性越小,可表示为

(8)

能量:能量为共生矩阵内各个元素的平方和,它体现的是目标图像纹理的粗细程度如何、灰度分布是否均匀、分布的程度如何等,可表示为

(9)

熵:熵表示目标图像的纹理随机性如何.灰度共生矩阵的所有特征数据如果均取得最大值,说明图像纹理分布是均匀的;反之,如果均取得最小值,则说明图像的纹理分布不均匀,其可表示为

2.3.2 基于灰度共生矩阵的图像特征提取 以上4项纹理特征参数能够有效表征图像纹理的复杂性、方向性、周期性等信息.求出该灰度共生矩阵各个方向的特征值,并对特征值计算均值及方差从而消除方向分量对纹理特征的影响.

从黄芪饮片质量等级标准数据库GHQ-4提取以上4项纹理特征,结果如图4所示.

2.4 基于特征值与遗传算法的黄芪饮片质量等级分类

遗传算法是一种基于生物进化过程的计算模型,它主要模拟遗传学机理和达尔文生物进化论的自然选择机制.将问题的求解过程转换成将染色体基因进行交叉、变异等操作,进而通过适应度函数选取合适的下一代过程.在机器学习、组合优化、自适应控制和信号处理等许多领域中遗传算法都得到了广泛的应用[12].

文中将之前提取的8个颜色及纹理特征作为等级分类的特征向量,采用线性分类器通过特征向量的线性组合来对黄芪饮片的质量等级进行分类,公式如下:

利用遗传算法对线性分类器的8个权重以及4个等级的上界和下界选择进行优化,设计基于特征值与遗传算法的黄芪饮片质量等级分类算法如下:

1)遗传算法的参数初始化

随机生成包含26个个体的初始种群,采用二进制将每个个体编码作为染色体,个体即8个特征参数对应的a,b,c,d,e,f,g,h共8个权重系数,以及代表4个质量等级上界和下界的8个参数,染色体为个体(可能解)的二进制编码表示.对每个个体的16个参数进行初始化.

2)计算每个个体的适应度(个体评价)

将代表各个类别分类准确率之和的目标函数f(x)作为个体的适应度函数,即

其中,Ti为训练样本中第i类别的样本总数,Ci为其中分类正确的样本数.

3)执行遗传操作

将适应度最优值的个体加入到种群中,执行选择、变异、交叉等遗传操作.其中,选择操作根据种群中个体的适应度大小通过双重轮盘赌的方式将适应度高的个体从当前种群中选择出来.变异操作为从种群中随机地选择一个个体,按一定的概率将其染色体中的某一位进行改变.具体包括如下4种变异操作:

① 基因换位:随机选择个体中两个位置,直接交换相应的基因.

② 基因倒序:随机挑选个体中某个基因片段,将其数据颠倒.

③ 基因右移:随机挑选个体中某个基因片段,将其数据循环右移一次.

④ 基因左移:随机挑选个体中某个基因片段,将其数据循环左移一次.

交叉操作随机挑选两个不同的个体,根据一定的概率将其基因的一部分进行随机交换,从而形成两个新的个体.综合运用以上4种变异操作,可以增强种群中个体的基因多样性,获得最佳优化效果.

4)判断终止条件

重复步骤二和三,直到迭代次数达到最大遗传次数或适应度函数符合要求,则输出最优的黄芪饮片质量等级线性分类器的颜色特征与纹理特征数据的最优权重组合,及各质量等级不同上下界限区间.

依据文中提取的颜色特征与纹理特征,采用上述算法对数据集GHQ-4进行分类测试,实验最终得到的最佳权重系数和该权重下4个质量等级的最佳区间划分见表4及表5(等级标签依据饮片大小划分).在此优化结果下,4个质量等级的识别准确率分别为71%,72%,70%和68%.

表5 最佳区间划分

由表4可知,优化后权重系数f的值为0,即纹理特征相关性统计值在黄芪饮片质量等级分类中可忽略其作用.通过实验,最终根据以下公式得到黄芪饮片质量等级:

等级f(V)可表示为

其中,(13)式的V代表各特征参数加权和;σ为颜色均值;σ2为颜色方差;μk为颜色峰态;μi为颜色熵值;C为纹理对比度;ASM为纹理能量值;E为纹理熵值.(14)式为依据V值所在不同区间确定的质量等级,该式可依据实验确定的黄芪饮片质量等级公式计算得到V值,并依据不同质量等级最佳区间划分得到饮片所对应的具体质量等级.

3 结论

由于中药饮片图像识别精度受背景、光源等因素的影响,文中实验选取白色简单背景,对黄芪饮片4个质量等级3 869副图像样本进行分析,后期研究仍需补充伪品样本及复杂背景样本图像.另外,在中药质量等级鉴定过程中,由于各等级图像具有较高的相似性及复杂性,单从底层特征来对图像特征指标进行提取,容易影响图像等级鉴定的泛化效果,并降低了系统的鲁棒性.目前,在中药领域中对中药材质量等级分类的相关研究仍主要集中在传统特征提取方面,相信随着深度学习技术以及人工智能的不断发展,中药材质量等级分类技术与算法会进一步优化,从而得到更高的鉴定效率及准确率.

猜你喜欢

饮片直方图纹理
符合差分隐私的流数据统计直方图发布
基于电子舌的白及及其近似饮片的快速辨识研究
基于BM3D的复杂纹理区域图像去噪
不同等级白芷饮片HPLC指纹图谱
用直方图控制画面影调
使用纹理叠加添加艺术画特效
TEXTURE ON TEXTURE质地上的纹理
基于空间变换和直方图均衡的彩色图像增强方法
消除凹凸纹理有妙招!
基于直方图平移和互补嵌入的可逆水印方案