基于深度卷积网络的中药饮片图像识别*
2017-04-10孙鑫钱会南
孙鑫,钱会南
(北京中医药大学中医学院北京100029)
基于深度卷积网络的中药饮片图像识别*
孙鑫,钱会南**
(北京中医药大学中医学院北京100029)
目的:利用计算机深度学习实现对中药饮片二维图像的自动化识别的研究具有重要实用价值,可广泛应用于医疗、生产和教学等领域。既往多采用传统的提取图像中的底层特征的方法来进行识别,然而这种方法不能在复杂背景的图像条件下给出鲁棒的识别结果。因此,中药饮片图像识别需要更高级别的图像表达方法。方法:构建包含50种常见中药饮片图像数据库,共2 554张图像,作为模型的训练与测试对象,并运用Softmax损失训练卷积神经网络。结果:卷积神经网络在所有测试的50种中药饮片图像中可以实现70%的平均识别精度。结论:卷积神经网络在多个饮片相互遮挡并带有复杂背景情况下较为理想,未来具有一定应用前景。
中药饮片图像识别深度学习卷积神经网络
中药饮片是中医临床方剂的基本组成部分,也是中成药的基本原料。中药饮片种类繁多,临床应用和生产过程中,对其逐一快速地识别并进行初步分类的难度和工作量较大。传统的中药饮片在实际应用时,对其快速识别大多依靠具有中药相关知识的专业人员的感官评估和经验判断,该方法效率不高且仍有误判风险。随着人工智能技术的发展,深度学习技术也取得了突飞猛进的进步。由于深度学习具有很强的图像表达能力和很好的泛化性,因此受到国内外学者的广泛关注。目前,关于中药饮片图片识别的研究主要借助的是人工设计的底层图像特征,包括形状、颜色和纹理等[1-4]。但这些研究主要有两个局限性:①他们使用的中药饮片图像均为无背景、单饮片的图像,这种过于理想化的实验情景和样本,与现实场景中大量具有复杂背景、多片饮片、相互遮挡的现实场景图像不符,因此既往研究很难应用于实际应用;②在复杂的现实场景和背景下,底层特征是直接取自图片像素而不具有高层语义的特征信息,因此这些特征很容易随着背景的急剧改变而变化,不能作为可靠的识别特征。
为弥补上述不足,提高中药饮片图片识别和搜索的准确率,本文设计了更加完善的深度学习模型——卷积神经网络(Convolutional Neural Network,CNN)来实现中药饮片图像的识别。同时,建立复杂背景下常见中药饮片图像数据库,为未来研究提供样本数据库。
1 方法原理
在图像识别领域,CNN已经成为一种高精度的识别方法[5,6],极大地推进了计算机视觉领域的图像识别能力。基于神经网络的深层结构,CNN可以提取图像的高层表达,这些表达能够对不同种类的图片进行区分,并减弱背景变化的影响。因此,CNN可完善上述研究中所使用技术的局限性,提高识别率,拓宽实际应用范围。目前尚未见到有关于应用CNN技术对中药饮片图片进行识别的相关研究。
2 材料与方法
2.1 材料
50种常见中药材饮片真实世界复杂背景下原始图像,每种药材饮片图像根据检索及筛去重复图像所得实际情况保留30-90张不等,每张图片所包含饮片数量、背景复杂程度、色彩、分辨率、大小不限。50种常见中药材包括桂枝、生姜、苍耳子、辛夷、黄连、薄荷、牛蒡子、桑叶、菊花、蝉蜕、粉葛根、柴胡、升麻、浮萍、黄柏、知母、芦根、天花粉、栀子、决明子、连翘、板蓝根、金银花、大黄、红藤、生地黄、牡丹皮、橘皮、白薇、川楝子、枳实、木瓜、乌梢蛇、狗脊、厚朴、草果、茯苓、茵陈蒿、附子、肉桂、细辛、石膏、龙胆草、秦皮、贯众、青蒿、芦荟、丁香、佛手、芒硝。
图1 数据库中的部分中药饮片图像
2.2 方法
2.2.1 建立50种常见中药饮片图像数据库
在中医饮片图像识别的研究领域中,目前还尚未见到关的数据库公开,因此很难在同一个标准下评估不同方法。且之前的研究都只考虑了背景干净的单一饮片图像,然而这种实验设置过于理想,因此这些研究难以用于实际中。为了解决以上两个问题,本研究建立了一个公开的中医饮片图像数据库。
本研究选取了50种常见的中药材,利用每种药材的名字作为关键词在百度搜索引擎中进行搜索。对于每一类药材,把检索的前100个返回结果作为候选图像。本研究仔细检查每张图像的有效性并只保留有效的图像,每一类药材的有效图像数量为30-90张,目前得到了50类药材共近2 554张中医饮片图像。与之前研究中的饮片图像不同的是,数据库中的大多数图像都含有多个饮片,并且存在复杂背景和饮片相互遮挡的影响,因此这种图像更适合实际应用。图1为已收集到的部分中药饮片图像的示例。待研究深入开展后计划扩充图像至近万张,完成后将公开该数据库。
数据库中的中药饮片图像是由互联网获取的真实环境中的图像,其中含有多个饮片和复杂背景。在性能评估中,使用所有的类别。对于饮片图像的识别问题,给出每一类的识别精度和所有类别的平均识别精度。该精度是由10次随机训练样本的结果平均所得到的。同时,研究不同训练样本数量对测试样本识别精度的影响,例如在50%至90%的训练样本比例下。
2.2.2 设计训练CNN模型进行中药饮片图像识别
卷积神经网络由不同种类的层所组成,其中有4种层是广泛使用的,分别是卷积层、池化层、全连接层和损失层。它们的结构分别是:①卷积层由滤波器所组成,这些滤波器被应用在整个图像捕捉局部信息;②池化层用于将图像降采样,它通常连接在卷积层的后面;③全连接层用于将卷积层捕捉到的局部信息统一,以得到全局的图像语义信息。它通常连接在卷积层或池化层的后面,同时用于对图像表达降维;④损失层是整个优化模型的目标函数,用于指导卷积神经网络的学习,其中Softmax损失是图像识别网络中最常使用的。
由于卷积神经网络模型中的参数很多,通常训练该模型需要大量的图像数据。然而,数据库中只有数千张标注样本,因此直接用这些样本训练卷积神经网络是行不通的。为了解决这个问题,一个方案就是利用之前已经训练好的卷积神经网络模型作为初始化,同时在该模型的基础上学习一个新的模型。这种方法不需要很多的样本,而且之前训练的模型可以较为容易的适应本研究针对的问题。对于选取已经训练好的卷积神经网络模型,本研究采用的是VGG16的模型,该模型是在ImageNet中训练得到的,其中该数据库中有1 000类物体且超过120万张图像。由于VGG16采用了非常深的网络结构,该模型可以得到非常好的识别结果。在本研究的方法中,将VGG16网络作为初始化网络。VGG16网的结构见表1,其中有6个主要阶段,总共16个权重层(conv+FC)。
表1 VGG16网络结构的16个权重层(conv+FC)
图2 VGG16模型的训练图示
图2 显示了本研究如何训练softmax损失的CNN识别模型。在最后一个完全连接层中,本研究将神经元的数量改为50,这等于该数据库中的药物类别的数量。该数据库包含了可变分辨率图像,但是本研究的网络需要恒定的输入维数。因此,本研究将图像下采样到固定分辨率224*224,这是VGG16网络的输入图像大小。给定一个矩形图像,本研究首先将图像重新缩放为256*256,其中224*224的区域随后被裁剪为输入图像。这样,本研究可以大大增加训练图像的数量,以便更好地训练CNN模型。
由图2可知,最后的FC-4096层是给出固定图像表达的完全连接层。可以理解为:卷积层旨在从局部图像区域到整个图像捕捉图像特征,例如,较低的卷积层仅可提取角和边缘的特征,随着层级的升高,较高层可捕获整个对象的信息。因此,该FC-4096层表示最有区分力的表达,可以去除所有可能的变异因素,例如形状、尺寸。由下文中60%训练样本下饮片图像识别结果可以看出,虽然中药在形状和大小上有很大的不同,本研究仍然可以给出较为理想的分类精度。
3 结果与分析
CNN模型的中药饮片图像识别结果如图3所示。该图显示了测试集中50种药物类别的平均识别精度,训练样本所占百分比从10%递增至90%。可以看出,只有10%的训练图像时,平均精度只有约45.15%,这受到训练样本过少的限制。随着训练样本的百分比增加到50%,本研究的方法可以实现67.49%的平均精度。在训练样本大多数是多饮片相互遮蔽的图像的情况下这是较为理想的结果,表明该方法能够在训练样本量的较少情况下学习多数不同种类中药之间的特征差别。随着训练图像得百分比增多,精度得到较大改善并且趋于稳定。训练图像为60%时,精度约为70.45%,训练图像为90%时,精度约为70.57%。可见在训练样本所占比例到达60%时,其平均识别精度趋于平稳。该结果为今后识别问题研究提供了思路:对所有的训练图像进行标记是不必要的,标记60%的样本已经足够了。这将在中药饮片的图像标记行节省大量人力、物力。
图4给出了正确识别的饮片图像的一些示例,每行表示同一种中药饮片的图像。可以看到,虽然这些图像大多是多饮片图像且背景较复杂,本研究的方法仍可较为准确地进行图像识别,这表明CNN相比既往研究中使用的低层特征识别,能进行更为鲁棒性的图像识别。为了理解每种中药的识别难度,本研究还给出了每种药物在60%的训练样本条件下的识别精度。基于分类准确度,本研究将50个药品分为2部分,分别为准确度50%以上和准确度50%以下的中药(表2)。
图3 50种中药饮片图像不同比例训练样本条件下的平均识别精度(10%—90%)
训练的迭代次数对于识别也很重要。在本研究的实验中,本研究在训练中使用三个学习速率(0.001,0.000 1和0.000 01),其中对每个学习速率使用1 000次迭代,总共有3 000次迭代来训练CNN识别模型。图5显示了对于不同数量的训练样本的不同迭代的平均分类精度。可以清楚地看到,无论训练样本的数量如何变化,学习率的降低将导致识别精度的明显提高。此外,最高精度总是在较低的两个学习速率(0.000 1,0.000 01)下发生,例如,对于30%-70%训练图像,3 000次迭代最佳,而而对于80%-90%训练样本,2 000次迭代较为适当。
图4 在60%训练样本下饮片图像识别结果
表2 在60%训练样本下的每种中药饮片图像的识别精度
图5 不同训练比例和不同迭代数目下的识别精度
4 结论
本文通过深度学习中的卷积神经网络研究真实世界中的中药饮片图像识别。首先,本研究构建了一个公共的中药饮片图像数据库,其中包含多饮片相互遮蔽并带有复杂背景的图像。与以前仅考虑无背景的单片饮片图像的研究相比,本研究的数据库为评价不同方法提供了相同的标准,且库中素材更贴近于真实世界中的中药饮片图像,为技术进一步推广至实际应用奠定了基础。随后,本研究运用softmax损失来优化CNN识别模型,使其可以生成比低层特征更加鲁棒的图像特征表达。实验结果表明,本研究的方法在所有测试的50种中药饮片图像中可以实现70%的平均识别精度,这一结果在图像材料多数为多个饮片相互遮蔽并带有复杂背景情况下较为理想,未来具有一定应用前景。
1杨添钧.基于机器视觉技术的药材及饮片“辨色”研究.成都:成都中医药大学硕士学位论文,2014.
2李震.中药饮片特征提取和识别系统.哈尔滨:哈尔滨工业大学硕士学位论文,2013.
3陶欧,张燕玲,陈茜,等.基于灰度共生矩阵的中药饮片横切面图像纹理特征参数的提取.世界科学技术-中医药现代化,2014,16(12):2531-2537.
4陶欧,林兆洲,张宪宝,等.基于饮片切面图像纹理特征参数的中药辨识模型研究.世界科学技术-中医药现代化,2014, 16(12)12:2558-2562.
5 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutionalneuralnetworks.Mob Inf Syst,2012,25 (2):1097-1105.
6 Karen Simonyan,et al.Very deep convolutional networks for large-scale image recognition.Compt Sci,2015:arXiv:1409. 1556.
Identification of the Imagesof Chinese Herb Slicesw ith Deep ConvolutionalNetwork
Sun Xin,Qian Huinan
(CollegeofTraditionalChineseMedicine,Beijing University ofChineseMedicine,Beijing 100029,China)
It is of great importance that deep learning of computer for the automate identification of the two-dimensional image of Chinese herbal slices is valuable in the application tomedicine,production and education.Traditionalmethods usually extract low-level image features for the identification,but they cannot give robust recognition results under complex backgrounds.Therefore,higher level image representation is necessary in the image identification.A public Chinese herbalmedicine databasewas constructed with 50 common categoriesand 2,554 images in total,for training and evaluating our recognitionmodel.Then,the softmax loss function was adopted to train the convolutional neural network model.As a result,the convolutionalneuralnetwork can achieve the average precision of 70%under all the 50medicine herbal classes.In conclusion,convolutional neural network can obtain good results in image identification with complex backgroundsandmutually occluded herbalslices,which haspromising potential for futureapplications.
Chinese herbalslices,image recognition,deep learning,convolutionalneuralnetwork
10.11842/wst.2017.02.005
R286
A
(责任编辑:马雅静,责任译审:朱黎婷)
2016-12-28
修回日期:2016-12-28
*北京中医药大学研究生自主课题项目(2016-JYB-XS026):基于卷积神经网络的中药饮片图像识别与检索,主持人:孙鑫。
**通讯作者:钱会南,教授,博士研究生导师,主要研究方向:《黄帝内经》藏象理论的文献及实验研究;中医疾病与体质相关理论及临床应用研究。