定制化AI训练平台EasyDL在青葙子及其混伪品图像分类中的应用
2022-05-30谭新宁吴文如梁婉晴陈浩文赵凯莹张睿
谭新宁 吴文如 梁婉晴 陈浩文 赵凯莹 张睿
【摘 要】 目的:利用人工智能和机器视觉技术,建立一种基于深度学习的青葙子及其混伪品图像分类方法。方法:通过定制化AI训练平台EasyDL,以青葙子药材及其混伪品的微性状图片为训练数据,对青葙子及其混伪品图像分类模型进行训练,并将该应用导入微信小程序,以便推广。结果:利用EasyDL构建的深度学习模型,青葙子及其混伪品图像分类准确率可以达到93.7%~94.8%。对于本系统所采集的药材图像,微信小程序识别率达到了80%~100%。在相同的饮片图像采集环境下,该模型能够准确识别出图像中药材的种类,具有比较稳定且比较好的识别效果。结论:利用人工智能和机器视觉技术,建立了基于深度学习的青葙子及其混伪品图像分类方法,拓宽了中药品质评价的研究思路,为人工智能在中药鉴定领域的普及提供了参考。
【关键词】 EasyDL;青葙子;图像识别;人工智能
【中图分类号】R284 【文献标志码】 A【文章编号】1007-8517(2022)15-0040-06
Application of the Customized AI Training Platform EasyDL in the Classification of Semen Celosiae and Its Adulterants
TAN Xinning WU Wenru* LIANG Wanqing CHEN Haowen ZHAO Kaiying ZHANG Rui
School of Pharmaceutical Sciences, Guangzhou University of Chinese Medicine, Guangzhou 510006, China
Abstract:Objective To establish an image classification method of Celosiae semen and its adulterants based on deep learning by using artificial intelligence and machine vision technology. Methods The image classification model of Celosiae semen and its adulterants was built and trained with the micro character images of Celosia argentea and its adulterants as training data on Baidu's EasyDL AI platform. Then the application was imported into WeChat applet for promotion. Results The classification accuracy of the deep learning model constructed by EasyDL can reach 93.7%-94.8%. For the images of medicinal materials collected by this system, the recognition rate of WeChat applet reaches 80%-100%. Under the same image acquisition environment, the model can accurately identify the type of Chinese herbal medicines in the image, which is relatively stable and has good recognition effect. Conclusions Using artificial intelligence and machine vision technology, an image classification method of Celosiae semen and its dulterants based on deep learning was established.It broadens the research ideas of quality evaluation of traditional Chinese medicine, and provides a reference for the popularization of artificial intelligence in the field of identification of traditional Chinese medicine.
Key words:EasyDL; Celosiae Semen; Image Recognition; Artificial Intelligence
青葙子為苋科植物青葙Celosia argenteaL.的干燥成熟种子[1],性微寒,味苦,归肝经,具有清肝泻火、明目退翳之功效,常用于肝热目赤、目生翳膜、视物昏花、肝火眩晕等症,为眼科要药。由于青葙子药材体积小,直径仅为1~1.5 mm,性状鉴定难度较大,容易引起误采、误收、误用;同时受利益的驱使,市场上常见青葙子中掺入混伪品或直接用混伪品进行售卖的现象,给药品种植、临床用药和科研等均带来问题。其常见的混伪品有同科青葙属植物鸡冠花子C.cristataL.、苋菜子Amaranthus tricolorL.、刺苋子A.spnosusL.、反枝苋子A.retroflexusL.等[2]。这些混淆品在性状上与青葙子相似,但功用却大不相同:鸡冠花子有凉血止血、止带、止泻的功效,主要用于治疗诸出血症、带下、泄泻、痢疾;苋菜子有清肝明目、通利二便、利尿止血的功效,主要用于治疗翳障、视物混暗、二便不利、血尿[3]。由于混伪品在功能主治[4]、药理作用[5]、化学成分[6]等方面与青葙子存在显著差别,如果混用,不仅达不到原本的疗效,还会对用药者造成其他不可预测的伤害[7]。同时,种子混淆使用会给中药种植带来巨大的经济损失。因此,开发针对细小果实及种子类中药青葙子的简单、快速、实用的鉴定方法尤为必要,既可以保证临床用药的安全有效,又可以维护中药材生产者的经济利益。
当前用于中药材鉴别的方法主要有传统鉴定方法(如经验鉴别、显微鉴别、理化分析鉴别、光谱成像分析鉴别等)和现代分子生物技术(DNA条形码、特异性PCR、分子标记等),中药传统鉴定方法的应用是建立在个体形态描述和微观观测的水平上,对鉴定人员的从业经验、职业习性有较强的依赖,要求鉴定人员具有相当深的理论基础与丰富的实战经验,需要多年的经验积累,专业壁垒较高且效率较低,多依靠专业人士进行人工鉴别。此外,显微鉴别、理化分析鉴别、光谱成像分析、PCR仪鉴别设备不便携带,导致非专业购药群体在购药时无具可用、无从下手。
随着信息技术的飞速发展和大数据时代的到来,人工智能(artificial intelligence, AI)和机器视觉技术与中药材检测与评价工作开始结合,并已在川贝母、山楂、半夏、西洋参等饮片中得到验证和应用[8-9]。相较于对专业人员要求高且繁琐的传统鉴别方法,人工智能技术具有操作简易、识别效率高的优点。同时,计算机的自动识别能够避免人工识别中夹杂的主观因素,可快速准确地识别大批量的样品,结果准确快速,客观可靠。
深度学习能够从数据中自动学习到有效的特征表示,是人工智能发展的核心技术,得益于大数据,硬件算力和深层神经网络优化算法的突破性发展,深度学习在计算机视觉、语音识别、自然语言处理等研究领域取得了优秀效果。各大AI科技公司先后推出了多个开源深度学习框架和一站式深度学习开发平台。百度飞桨是国内最先开源开放、功能完备的深度学习框架,基于飞桨开源深度学习平台,包含零门槛AI开发平台EasyDL和全功能AI开發平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。由于EasyDL零门槛AI模型训练平台简单易用,且在国内访问稳定[9],研究人员可以轻松完成模型创建、数据上传、培训模型和模型发布的整个过程[10],仅需少量数据就能训练出高精度模型的效果。该平台目前已上线了满足从零AI基础到AI专业开发者的不同层次用户和场景化需要的经典版、专业版以及行业版等[11]。界面友好、操作简单的自动化机器学习平台无疑大大降低了人工智能的使用门槛,有利于促进人工智能在中药鉴定领域的普及。
中药鉴定与计算机图像处理技术的结合将会是中药鉴定发展的新趋势[12]。但针对性状甚至显微鉴定都难以分辨的体积细小的饮片,如青葙子、葶苈子等细小果实种子类中药,目前仍存在尚不明确是否能实现智能鉴别,以及如何取得较好的正确识别率等问题。微性状鉴别法[13]是中药鉴别、检验方法之一,在体积细小的药材品种鉴定上具有优势;由于其简便、快捷、廉价的优点,近年来成为中药材检验研究的热点。
鉴于上述背景,本研究尝试利用微性状鉴定结合AI图像识别技术,选取较难区分的细小种子类中药青葙子及其混伪品展开研究,以便为中药质量检测与评价提供参考,丰富中药品质评价的研究方法与思路。
1 材料
实验材料包括野外采集的原植物和不同地区及市场购买的青葙子药材及其混伪品,实验药材均由广州中医药大学吴文如副教授鉴定,保存于广州中医药大学中药鉴定学实验室的-4℃冰箱,样品详细信息见表1。BX51生物显微镜(日本Olympus公司),配有Photoshop软件的计算机。
2 方法与结果
2.1 微性状图片拍摄 随机取样3次[14],每次取10粒,置于载玻片上进行逐一观察,并于光学显微镜[20(电子目镜)×4(物镜)]下同一视野采用不同焦距拍摄5张图片,使用Photoshop的图片景深叠加功能将5张不同焦距的图片合成为1张立体、高清的图片。10粒样品逐一拍摄结束之后,用透明胶粘取样品,将样品的另一面朝上放置(药材的两面均拍摄),如图1所示。按上述方法进行3D拍摄[15],即一批药材可获得3×10×2=60张微性状图片。
2.2 图像数据预处理 所拍摄的图片均符合要求(长宽像素比控制≤3∶[KG-*3/5]1,最长边像素≤4096,最短边像素≥30,单张图片大小≤4M),无需裁剪。
对图像进行多角度旋转:应用多角度旋转方法来减少微性状图像中不同方位角度对识别的影响[16]。多角度旋转效果如图2所示,单张图像分别旋转90°、180°和270°,共获得60×4=240张图片。为提高工作效率,特开发了一款图像旋转软件,将图片导入该软件即可得到原图、旋转90°、180°和270°的图片。软件名称:Pic-rotate;设计程序:Visual Studio 2019 with C# based on .net framework 4.5;开发思路:计算机数码图片是由多个独立像素块组成的,称为位图。常用的图片格式均由位图编码压缩而成。程序通过遍历运行目录下所有常见的图片文件后缀名,获取需要翻转的图片文件,并辅以适当的解码器,将图片文件解码回位图形式。通过对位图进行逐像素的位置变化,使之完成+90°、+180°和+270°三种变换,并通过编码器重新编码为符合训练平台要求的jpg格式图片文件;具体用途:将单张图片旋转3次获得4张方向不一的图片,用于提高图像识别模型训练的效率。共有5种(青葙子、鸡冠花子、苋菜子、皱果苋子、反枝苋子),即最终获得5×2×240=2400张微性状图片。
2.3 EasyDL平台的使用
2.3.1 创建模型和数据集 进入平台后,首先选用“图像分类”模型,创建模型和数据集,并将所有图像上传(图片格式要求:目前支持图片类型为png、jpg、bmp、jpeg,图片大小限制在4 M以内;图片长宽比在3∶1以内,其中最长边小于4096px,最短边大于30px)。在数据上传前,需要将所有准备好的图片以单个文件夹的形式进行分类(分类上限为1000类,每个分类需要准备20张以上;如果想要较好的效果,建议每个分类准备不少于100张图片;如果不同分类的图片具有相似性,需要增加更多图片;一个模型的图片总量限制10万张),并将相关文件夹压缩为zip格式。分类的命名需要用数字、字母、下划线的格式,同时不能存在空格和中文字符。在数据集管理中对图像进行标注。若是导入未标注/分类的数据,在线进行数据标注:进入「标注数据集」页面进行在线标注,只需在右侧标签栏新建并选定标签即可。在将所有图片标注完成之后,选择“模型中心”下的“训练模型”对模型进行训练,EasyDL平台将70%的数据用于训练,剩余30%的模型用于检验模型效果。约3 h后完成训练。其次,训练模型并根據平均准确率(mean average precision, MAP)、精确率、召回率和准确率检验效果;训练完成后,在【我的模型】列表中查看模型效果,以及详细的模型评估报告。最后,上线模型获取应用程序接口(application program interface,API)或离线软件开发工具包(software development kit,SDK)。
2.3.2 模型测试结果分析 应用类型为云服务时,模型训练结果的MAP、精确率、召回率、准确率见表2。应用类型为离线SDK时,模型训练结果的MAP、精确率、召回率、准确率如表3所示。MAP是衡量模型效果的指标,MAP值越接近于1,模型效果越好。精确率为正确识别的物体数与识别物体总数之比,召回率为正确识别的物体数与真实物体数之比,准确率为正确预测为该类的样本数占预测为该类的总样本数的比率[17]。结果表明,应用类型为云服务或离线SDK时,MAP、精确率、召回率、准确率均大于90%,且云服务略优于离线SDK。为了评估系统的效果,共计算了3次模型训练结果的MAP、精确率、召回率和准确率。结果见表4。
利用云服务模型对青葙子药材微性状图片进行识别的结果如图3所示,模型准确度达95.43%,表明识别结果准确可靠。
2.3.3 微信小程序设置与应用 手机端微信平台现已逐步发展为各行业媒体内容分享发布的主流平台,与原生态APP相比,微信小程序摆脱智能手机内存的限制,无需安装,深受人们青睐。百度平台推出便捷体验离线识别,申请发布模型,即可体验“纯离线服务”,用百度或微信APP扫描平台所提供的二维码,直接扫码即可进入微信小程序界面,便在手机端体验模型效果,导入青葙子药材微性状图片即可进行识别,结果准确可靠。
随机选取5种未被选为模型训练药材样本的10幅图像,共计50副图像作为检验样本,将待测图片导入系统识别。50幅药材图像的测试结果如表5所示。从识别结果可以看出,对于本系统所采集的药材图像,识别率达到了80%~100%;在相同的饮片图像采集环境下,该模型能够准确识别出图像中药材的种类,具有比较稳定且比较好的识别效果。
实验结果表明,系统采用EasyDL平台,可获取系统的API和SDK;通过适当扩充训练图像,可以实现系统的进化,进而提高系统的识别效果,具有较强的可开发性[18]。
3 讨论
3.1 深度学习开发平台的选择 自2017年开始,国内外各大AI科技公司先后推出了一站式深度学习开发平台,如谷歌Cloud AutoML、百度飞桨EasyDL、华为ModelArts、阿里云PAI和AWS SageMaker等。谷歌Cloud AutoML的定位是通过极少的工作量和机器学习专业知识训练出高质量的自定义机器学习模型,发布之初支持定制化图像分类功能,目前,已经支持定制化视觉、自然语言处理和结构化数据三大方向,其中,视觉方向支持云端和设备端的图像分类和物体检测,并支持视频的片段分类;自然语言处理方向支持文本分类、实体识别和情感分析,以及动态检测语言和翻译;结构化数据是对表格数据的定制训练。华为ModelArts目前支持图像分类、物体检测、声音分类、文本分类和预测分析等五大定制方向;阿里云PAI是以传统机器学习算法为主的开发平台,其优势在于与阿里云的存储计算资源紧密结合,具有丰富的传统机器学习工具和算法库,以及包含多个实践打磨的行业解决方案;AWS SageMaker包含数据加工的GroundTruth、自动训练的AutoPilot、交互式开发的Studio、实验调优的Experiments、算法交易的Marketplace,以及端边计算的Neo等十多个子产品。提供了面向各层面用户的一站式服务和完善的产品矩阵,与AWS云存储和计算紧密绑定、自动数据标注、全球范围的一键服务部署,以及最为完善的产品矩阵。百度飞桨的Easy系列是这些主流平台中最早发布和上线可用的一站式深度学习定制开发平台,基于百度飞桨深度学习框架,支持飞桨Master模式的预训练模型,并采用百度AutoDL技术实现了只需少量数据就能训练出高精度模型的效果,已形成了比较完善的产品矩阵,支持图像分类、物体检测、图像分割、声音分类、文本分类和视频分类等六大定制方向。
从功能的完善程度,支持的定制能力数量,以及对生态、场景、端和边缘设备的支持等方面看,百度飞桨EasyDL、华为ModelArts和AWS SageMaker比较完善。特别是EasyDL和ModelArts均提供了第一方的高精度的预训练模型[11]。由于百度飞桨深度学习框架为平台提供了更优秀的预训练模型,EasyDL的定制化图像分类和物体检测模型效果大多领先于ModelArts。
3.2 微性状图像信息的优化 细小果实种子类中药的准确鉴定是中药鉴定重点和难点问题,对操作人员具有较高的专业素质要求。微性状鉴别法借助仪器观察中药材表面(包括断面)肉眼不易察觉的细微性状特征,并采用景深合成技术得出清晰的图像,进而基于这些微观特征对中药材品种与质量情况进行鉴别分析,在细小果实种子类中药的鉴定中往往取得较好结果。
本研究采集了不同产地的青葙子、鸡冠花子、苋菜子、刺苋子和反枝苋子样品各2批,随机取样于显微镜下观察拍照,经旋转共获得2400张微性状图片。使用EasyDL平台的“图像分类”模型,创建模型和数据集,其模型训练结果的MAP、精确率、召回率和准确率良好,识别结果准确可靠。此外,应用平台的“纯离线服务”,通过直接扫码即可进入微信小程序界面,识别率为80%~100%,便于后期的推广应用。将微性状鉴别法与计算机图像智能识别技术相结合,通过深度学习算法实现的中药饮片智能鉴别技术具有简洁、快速、精度高、可批量化检测的优点,为中药品质评价提供了新的研究思路。
3.3 展望 大数据是信息技术产业又一次重要的技术变革,将为人类社会的发展带来不可估量的变化。中药大数据在整合共享、应用服务、挖掘分析、数据开放、产业发展等方面,具有广阔的应用前景。国内的学者对于中药信息化云计算的研究不够深入,还缺乏具体的平台实现及验证。基于中药大数据,人工智能技术在中药鉴定领域的应用包括:①药材及其混伪品的识别及分类;②显微特征的识别及计数,即显微量化研究;③质量评价,如饮片生产线快速自动化质量鉴别和等级划分等。
本实验研究结果展示了利用人工智能和机器视觉技术,基于深度学习对正品及其混伪品图像进行鉴定及分类预测的可能性,后期如果能建设专门的中药AI识别数据库,完善相关平台及终端的开发及应用,即可实现中药饮片的快速识别。本文设计的青葙子及其混伪品图像分类系统,是一种不要求使用者专业技能,真正面向基层的“傻瓜式”自动识别系统,能较好地解决研究人员缺乏相关算法基础的问题,实现中药材的快速、无损鉴别。但在某些方面还有改进之处。例如,目前中药材微性状特征库的种类不够丰富,只能对青葙子及其混伪品进行自动识别;此外识别准确率有待进一步提升等等。后续研究中,一方面需要扩大特征库的数量,涵盖更多种类的中药材,提升识别的准确率;另一方面,在训练样本时要扩充不同姿态、不同背景的图像集参与模型训练。
参考文献
[1]国家药典委员会. 中华人民共和国药典(一部)[M]. 北京: 中国医药科技出版社, 2020: 207.
[2]张红梅. 四川中药材市场常见混伪品与正品的性状鉴别[J]. 亚太传统医药,2015, 11(14): 25-27.
[3]马新国.青葙子与鸡冠花子及苋菜子的比较[J].海峡药学,2012,24(6):27-30.
[4]TOLOUEI S, TIRLONI C, PALOZI R, et al. Celosia argentea L.(Amaranthaceae)a vasodilator species from the Brazilian Cerrado-An ethnopharmacological report[J]. Journal of Ethnopharmacology, 2019(229):115-126.
[5]TANG Y, XIN H L, GUO M L, et al. Review on research of the phytochemistry and pharmacological activities of Celosia argentea[J].Revista Brasileira de Farmacognosia,2016,26(6):787-796.
[6]WU Q B, WANG Y, LIANG L, et al. Novel triterpenoid saponins from the seeds of Celosia argentea L.[J]. Natural Product Research, 2013, 27(15):1353-1360.
[7]郑继明,朱婕妤.青葙子及其混淆品的鉴别[J].中国药业,2011,20(8):68-69.
[8]吴冲,谭超群,黄永亮,等. 基于深度学习算法的川贝母、山楂及半夏饮片的智能鉴别[J].中国实验方剂学杂志,2020,26(21):195-201.
[9]张喜红,王玉香. 基于百度AI中药材品鉴助手系统的设计[J].新余学院学报,2019,24(2):25-28.
[10]DU Y, YANG R, CHEN Z, et al. A deep learning network‐assisted bladder tumour recognition under cystoscopy based on Caffe deep learning framework and EasyDL platform[J]. The International Journal of Medical Robotics and Computer Assisted Surgery,2020,17(1):1-8.
[11]謝永康. 深度学习开发平台与应用[J]. 人工智能,2020(3): 43-53.
[12]王耐. 牛膝、川牛膝、防风各组织、性状的特征提取与模式识别[D]. 广州:广州中医药大学, 2017.
[13]鞠康,胡云飞,王德胜,等. 微性状鉴别法在中药检验中应用研究进展[J].中成药,2019,41(2):411-415.
[14]王凤梅,卢文彪,陈仕妍. 基于灰度匹配模板的中药材显微图像识别[J]. 中国实验方剂学杂志, 2019, 25(11): 167-172.
[15]郭利霄,申亚君,苏畅,等. 基于3D技术的常见中药材鉴别研究[J]. 中国医药导报, 2020, 17(6): 153-156.
[16]王一丁,石铎,李耀利,等. 基于SqueezeNet深度网络的中药材粉末显微特征图像识别研究[J]. 电子显微学报, 2019, 38(2): 130-138.
[17]张连兆,徐惠东,李萍. 定制化训练平台Easy DL在菠萝果实识别中的应用[J]. 无线互联科技, 2019, 16(7): 131-132.
[18]孙睿康. 基于EasyDL的超新星自动搜寻系统设计[J]. 智能计算机与应用, 2019, 9(1):265-266.
(收稿日期:2021-12-02 编辑:陶希睿)