基于注意力引导深度纹理特征学习的复杂背景藏药材切片图像识别＊

2022-03-28周丽媛赵启军高定国

世界科学技术-中医药现代化 2022年12期

周丽媛，赵启军，2＊＊，高定国

（1.西藏大学信息科学技术学院拉萨 850000；2.四川大学计算机学院成都 610065）

我国作为多个民族组成的国家，民族文化源远流长。藏族文化作为我国民族文化中的一颗瑰宝，其最具特点的藏医药更是人类医药的遗产。藏医药是在广泛吸收、融合了中医药学等理论的基础上，通过长期实践形成的独特医药体系，迄今已有上千年历史，是我国较为完整、较有影响的民族药之一[1]。藏药材切片作为藏医药的关键组成部分，对其进行正确的识别以及应用是发挥藏药材药用价值的重要前提。早期的藏药材切片识别大多依靠人工，专业技术人员通过观察、触摸、品尝、鼻闻等方式对藏药材进行识别与鉴定[2]，人工识别结果的准确性深度依赖于技术人员的累积经验很容易出错。然而，对专业技术人员的培养需要较长的时间，具有丰富的藏药材识别经验的人才缺乏是制约现阶段藏药材发展的重要因素。

随着计算机技术的发展，计算机视觉[3]逐渐成为热点。计算机视觉是利用计算机模拟人类的视觉功能，对给定的图片、视频等进行信息的特征提取并对其进行判断和推理。随着高质量的标注数据集的大量出现，深度学习在计算机视觉中占据日益重要的地位，推动了计算机视觉应用在诸多领域百花齐放。特别地，在药材识别领域，计算机视觉技术使得中药饮片自动识别在过去几年间得到了快速发展。

图1 本文数据集示例图像

表1 本文收集的复杂背景藏药材切片图像数据集信息

伍红年等[4]使用指纹图谱结合机器学习方法进行白三七及近源种药材识别。贾伟等[5]使用Tamura方法描述中药饮片纹理，能够较为精确的表示中药饮片的纹理特征。谢树莹等[6]使用OpenCV、支持向量机（SVM）算法对5种中药饮片进行辨色处理，实验表明在理想环境下可以实现对5种饮片100%的识别正确率。徐飞等[7]使用GoogLeNet卷积神经网络对人参与西洋参饮片图像进行识别，并取得90%的识别准确率。胡继礼等[8]使用Incepltion-V3模型对理想环境下的137种中药饮片进行识别，并取得88.3%的识别准确率。陶欧等[9-12]使用灰度共生矩阵和灰度梯度共生矩阵提取中药饮片纹理的数字特征，使用BP神经网络建立18 种中药辨识模型，并取得90%的辨识正确率。李震[13]结合纹理特征和颜色形状特征对槟榔、苍术、地榆等5种饮片的识别准确率达到98%。孙鑫等[14]使用卷积神经网络对自然场景下的50种中药饮片图像实现70%的平均识别准确率。

尽管这些中药饮片图像识别方法为藏药材图像识别提供了重要参考，但是它们大部分都是针对理想环境下拍摄的单个切片的图像，导致在复杂背景下拍摄的图像上的识别效果会显著下降（识别准确率从90%以上[6-7,12-13]下降到约70%[14]）。本文针对复杂背景下拍摄的藏药切片图像（见图1），提出结合传统纹理特征与深度学习特征的识别模型，并通过引入注意力机制提高模型对复杂背景干扰因素的鲁棒性。本文收集了18种藏药材切片的1620幅图像，实验结果表明本文方法在该数据集上可以达到81%以上的识别准确率。

1 藏药材切片图像数据集

在藏药材切片图像识别领域，目前尚未存在公开的标准数据集，因此难以在相同标准下评估不同方法。之前的研究大多是在理想环境下拍摄的单个药材切片图像数据集上进行的，而实际生活中的药材切片多处于背景复杂或互相堆积严重的环境中，因此它们的研究成果很难应用于自然场景。为进一步拓展藏药材切片图像识别的应用范围，本文收集并建立了一个复杂背景藏药材切片图像数据集。本文提供的数据集来自于西藏自治区自然博物馆和拉萨市特产店拍摄的藏药材切片图像以及使用爬虫[15]通过搜索引擎在互联网上爬取的藏药材切片图像。爬取的图片经人工筛选，去除了模糊不清或者信息有误的图片，再利用图像处理软件将图像大小统一调整为512×512像素。如表1所示，本文收集了18种藏药材切片的图像，共计1620张，每一类藏药材的有效切片图像为70-100张。数据集示例图像如图1所示。本文所提供的数据集图像具有不同药材之间的颜色和形状高度相似、切片形状由于药材采集的时间跨度而不同、部分图像质量较低等特点。

为了验证本文提出的注意力引导的深度纹理特征学习（AGDTFL）模型的识别准确率，本文从1620张复杂背景藏药材切片图像中单独挑选了270张建立了复杂测试集。复杂测试集图像与简单测试集图像相比，具有背景颜色与藏药材切片颜色基本一致、堆叠更加严重等特点。复杂测试集与简单测试集示例图像如图2所示。对于藏药材切片的识别任务，训练集和测试集分离，按照4∶1的比例将剩余1350张图像随机划分为训练集和测试集（简单测试集）。训练集包含18种藏药材切片的1080张图像，测试集（简单测试集）包含18种藏药材切片的270张图像，复杂测试集包含18种藏药材切片的270张图像。

图2 简单测试集与复杂测试集示例图像

图3 AGDTFL模型

2 方法设计

2.1 AGDTFL模型构建

复杂背景下藏药材切片图像往往存在一些器具、人手等无效信息，如何让模型摒弃这些无效信息并关注藏药材切片的纹理信息，是提高模型识别准确率的关键。为此，本文提出首先使用分块局部二值模式（LBP）提取藏药材切片图像纹理特征，然后将其作为深度神经网络的输入，进一步学习深度纹理特征表示。本文采用AlexNet作为骨干网络（Backbone），为了提高AlexNet网络对切片图像的识别准确率，进一步引入注意力机制，形成注意力引导的深度纹理特征学习模型。本文在AlexNet网络的第一层和卷积层的最后一层加入注意力机制，其结构如图3所示。将输入图像通过多个卷积层和池化层，得到大小为C×H×W的特征图。C、H、W分别是特征图的通道数、高度和宽度。为了实现注意力引导，使用1×1×C卷积滤波器对特征图进行卷积得到注意力热力图，再对注意力热力图进行全局最大池化，在注意力热力图上选取最大的响应值，就可以得到具有判别特征的区域。

2.2 LBP算法

LBP（Local binary patterns）纹理分析算子由Ojala等[16]首先提出，该算法在对纹理对象的特征提取过程中应用广泛，其理论及计算相对简单，且对尺度旋转和灰度变化不敏感。在藏药材切片图像受到光照、角度、互相堆叠遮挡的情况下，LBP算法能够比较理想的提取出藏药材切片图像的纹理特征，提高成藏药材切片图像识别的鲁棒性和准确率。本文首先将藏药材切片图像调整为统一大小，然后将图像进行LBP分块提取，有利于充分体现出复杂背景下藏药材切片图像的局部特征。本文应用的LBP定义[16]如下：

其中，gc表示像素c在局部邻域中心点的灰度值gp(p=0,1,…,p-1)表示距中心点距离为R的领域内P个采样像素的灰度值；s(x) 为符号函数；s(gp-gc)为邻域中的每个周围像素分配二项式权重2p，将局部邻域的对比度信息转换为LBP特征值。本文设定P=8、R=1计算像素周围8个邻域的纹理对比度信息，构建一个256维的直方图，然后将每个直方图组合成一个特征向量作为最终的LBP特征。

2.3 注意力机制

注意力机制（Attention mechanism）源于对人类视觉的大脑信号处理机制的研究。人类大脑在接收外界信息时，并不会将收到的所有信息进行处理，而是只关注较为重要的信息，这有利于过滤干扰信息，从而提高信息处理效率[17]。认知科学中，由于信息处理的瓶颈，当人在面对一个大型复杂场景时，人类会选择性地关注所有信息的一部分，如颜色突兀或风格突变的区域，同时忽略其他可见的信息即其它相对平凡的地方。计算机视觉中的注意力机制正是借鉴于此，让网络从众多的信息中聚焦重要信息，忽略不重要信息。其最早应用在自然语言处理上，之后延伸到图像处理领域。由于复杂背景下的藏药材切片图像一般包含许多无关信息，对切片图像进行识别的依据往往来自于仅占图像部分的切片纹理特征。本文将注意力机制引入AlexNet网络中，对复杂背景下的藏药材切片图像在纹理特征的关键区域进行聚焦，最终提取出较为精准的关键纹理特征信息，进而提高复杂背景下藏药材切片图像的识别准确率。本文的注意力机制的单元结构如图4所示。Squeeze操作将C×H×W的输入转变为1×1×C的输出，Excitation操作生成通道权重，最后对特征图进行Scale，获得通道权重调整后的特征图。

注意力机制的核心部分由一组1×1×C的卷积滤波器和一个全局最大池化层组成，卷积特征的每个通道对应一个视觉模式，由于缺乏一致性和鲁棒性，这些特征不能作为注意力映射[17]。本文采用一组1×1×C卷积滤波器，根据特征通道的空间关系将特征图转化为局部注意力图[18]。注意力机制的关键是加权以及求和，注意力机制中不同的权重比例反映了模型关注度不同的图像区域。为了提高计算速度、减少计算参数，采用softmax方法作为输出特征权重值。

2.4 AlexNet

AlexNet在2012年由Hinton和他的学生Alex Krizhevsky提出。AlexNet首次在卷积神经网络（CNN）中成功应用了ReLU、Dropout和LRN等Trick，并使用GPU进行运算加速[19]。AlexNet作为经典的CNN，与ResNet、GoogLeNet等模型相比，其网络结构更简单，网络参数更少[20]。因此，本文用AlexNet网络进行藏药材切片图像的识别。AlexNet网络输入图像的尺寸为（224×224×3），网络结构分为8层，前5层是卷积层，后3层是全连接层。第一、二层都使用了卷积、ReLU、池化、归一化操作。第三层和第四层都使用了卷积和ReLU操作。与三、四层相比，第五层多了池化操作，分别为卷积、ReLU和池化。然后将前五层操作后的结果传递到神经网络中，在最后三层均使用全连接网络结构。AlexNet 的提出对卷积神经网络有着重大意义，具有许多优点[21]。它成功使用ReLU函数代替Sigmoid和tanh函数作为CNN的激活函数并在全连接层中增加Dropout层，训练时使用Dropout随机忽略一部分神经元避免模型过拟合，提高了模型的泛化能力；全部使用最大池化，避免平均池化的模糊化效果；使池化核比步长的尺寸大，让池化层的输出之间有重叠和覆盖，提高了特征的丰富性；使用局部响应归一化层，用竞争机制使神经元中响应较大的值变得更大，并抑制反馈较小的神经元，增强了模型的泛化能力。

图4 注意力机制单元

图5 简单测试集识别准确率

表2 复杂测试集实验结果

3 实验与分析

3.1 实验设置

为验证本文方法的有效性，本文在收集的复杂背景藏药材切片图像数据集上进行实验。首先，将图像大小调整为256×256像素输入AlexNet网络进行训练，卷积神经网络的结果受多个超参数影响[22]，学习率（Learning rate）代表每次收敛的步长，它决定了收敛的快慢；批尺寸（Batch size）代表每次选取的训练样本数量，它决定了收敛的方向。本文实验中参数设定如下：将网络学习率设置为0.001，权重衰减系数λ设置为0.0005，批尺寸设置为10。实验采用随机梯度下降法进行网络训练，设置网络迭代次数（Epoch）为500，损失函数使用CrossEntropyLoss。之后将大小为256×256像素的图像输入融入注意力机制的AlexNet网络，网络中关于注意力机制的权值都由网络通过自身学习确定，并通过反向传播不断调整权值大小，直到学习到合适的权值以使网络达到最优性能并在相同的实验参数下获得识别准确率。然后将图像输入AGDTFL网络，在相同的实验参数下获得识别准确率。最后在复杂测试集上分别用AlexNet网络、融入注意力机制的AlexNet网络、AGDTFL网络进行识别，测试网络识别的准确性。

3.2 消融实验结果与分析

从实验结果图5可以看出，在训练过程中，随着迭代次数的增加，网络模型的识别准确率均逐渐提高并最终趋于稳定。但增加了注意力机制的AlexNet网络模型的识别准确率更高。总体看来，Attention+AlexNet网络性能优于单一的AlexNet网络模型。AlexNet网络模型的识别准确率为73%，而Attention+AlexNet网络的识别准确率为79%，准确率提升较高。对图像抽取LBP特征后使用增加了注意力机制的AlexNet网络模型（AGDTFL，即注意力引导的深度纹理特征学习）的识别准确率为82%，准确率优于使用Attention+AlexNet网络进行识别。在复杂测试集上的实验结果见表2，与在简单测试集上获得的识别准确率相比，AGDTFL网络模型对复杂背景藏药材切片图像的识别更加稳定，准确率仅下降1%，而单一的AlexNet与Attention + AlexNet网络准确率分别下降4%和2%，结果证明LBP算法可以很好的提取复杂背景中藏药材切片的纹理信息。

3.3 特征信息分析

特征信息是模型对不同藏药材切片图像进行分类的依据，对藏药材切片图像中关键纹理特征信息的准确提取有助于提高模型的可解释性。从实验的分类准确率结果来看，本文提出的AGDTFL网络模型由于加入了注意力层对复杂背景下藏药材切片图像进行识别，获得了比只使用AlexNet网络和Attention+AlexNet网络更高的准确率。本文在测试集上选取了3种复杂背景下藏药材切片图像，分别将AlexNet、Attention+AlexNet和AGDTFL网络模型最后一个卷积层提取到的图像特征信息进行可视化操作即绘制特征信息的热力图[23]，结果如图6所示。模型具体是依据图像中的哪些纹理特征信息把复杂背景下藏药材切片图像准确识别为正确的藏药材名称以及模型分类所依据的特征信息是否真正来自于图像中的切片纹理区域，图6给予了明确的表示。为便于对比，对于每个特征信息热力图，均给出了相应的原始藏药材切片图像。其中，热力图颜色从蓝色过渡到红色表示特征信息即判图分类识别依据越来越重要。

图6 藏药材切片图像特征信息热力图

表3 简单测试集对比实验结果

图7 不同模型在复杂测试集上的部分图像识别结果

从热力图中可以明显看到，AlexNet网络、融入注意力机制的AlexNet网络对图像进行分类识别所依据的关键切片纹理特征有很大的差别。只使用AlexNet网络时提取的特征信息在大部分集中在复杂背景上，对关键的切片纹理特征的聚焦度较低，没有给关键切片纹理特征部位赋予很高的权重，这说明AlexNet网络虽然能够对藏药材切片图像进行了正确的分类识别但是却没有对图像上关键的切片纹理部位进行有效的它特征提取导致图像识别准确率较低。与AlexNet网络相比，Attention+AlexNet网络提取的特征信息的分布比较集中，关键的切片纹理特征部位被红色覆盖，这说明注意力机制能够有效地对关键的切片纹理特征部位进行聚焦，从而使得Attention+AlexNet网络对复杂背景下藏药材切片图像的识别比AlexNet网络更加精准。与单纯使用Attention+AlexNet网络相比，AGDTFL网络提取的特征信息的分布更加集中，关键的切片纹理特征部位均被红色覆盖，这说明使用LBP特征抽取后，不同藏药材切片之间的纹理差异更加明显，从而使得Attention+AlexNet网络对复杂背景下藏药材切片图像的分类识别的准确率比直接将图像输入Attention+AlexNet网络进行识别更加精准。

3.4 对比实验结果与分析

本部分实验将所提模型与现有的药材切片识别方法进行对比分析。结果如表3所示，与其他算法相比，本文提出的算法效果更优。RGB+SVM[24]模型在6种对比模型中的准确率最低，由于该模型是对图像的RGB特征进行提取后再分类，但复杂背景图像的RGB特征容易随背景的变化而变化，不能作为可靠的识别特征，因此在复杂背景藏药材切片图像数据集上，RGB+SVM模型表现一般。现有的使用VGG16[14]、Inception-V3[8]、LeNet-5[25]、GoogleNet[26]网络的研究方法在理想环境下对中药切片的识别已取得较高的准确率，但通过实验发现，这些网络对复杂背景下的藏药材切片图像识别准确率均不高。本文所提模型，在对比实验中的准确率最高。图7显示了不同模型在复杂测试集上的识别结果，可以看出AGDTFL网络与其他模型相比，在背景颜色与藏药材切片颜色基本一致、堆叠更加严重等情况下具有更好的识别准确率。实验结果表明，本文提出的结合传统纹理特征（LBP）和深度学习（AlexNet），以及引入注意力机制的方法能有效提升模型在复杂背景藏药材切片图像上的识别准确率。

4 讨论

本文利用18种复杂背景下藏药材切片的1620张图像，建立了包含标注的数据集。本文为了验证网络模型的鲁棒性，在建立数据集时，充分考虑了药材的颜色和形状高度相似，拍摄环境的强光差异，图像质量高与低，不同形状和药材采集的时间跨度等多变化的数据。该数据集有望为复杂背景下藏药材切片识别任务提供数据基础，促进基于深度学习的藏药材识别技术的发展。本文提出AGDTFL网络模型去识别复杂背景下的藏药材切片，在简单测试数据集上的准确率达到82%。这种方法的实验为藏药材切片识别研究提供了良好的基准。但是，本实验的数据集中藏药材图片的数量比起标准公开数据集CIFAR-10来说较少，提出的模型虽在准确率上取得了提升，但与理想情况下的药材切片识别相比仍有较大提升空间。在下一步工作中，将进一步扩充本文构建的成品藏药材数据集，并采用无监督或半监督的方法来解决高成本、大规模藏药材切片数据集的标注问题。