APP下载

基于聚类—反馈机制的植物鲜药图像检索系统设计

2016-08-01赵洁涂泳秋周苏娟曾海鸥

中国中医药信息杂志 2016年8期
关键词:中草药

赵洁 涂泳秋 周苏娟 曾海鸥

摘要:使用计算机辅助进行中草药尤其是植物鲜药的检索和鉴定有着极其重要的现实意义。本文通过研究图像库分类检索和反馈机制,设计出基于聚类-反馈的植物鲜药图像检索系统。系统采用K-means算法,利用小波特征对图像库中的图像进行聚类,并引入人工反馈机制,使聚类更加精确,检索效率和准确率进一步提高。

关键词:中草药;图像检索;小波特征;K-means聚类;人工反馈

DOI:10.3969/j.issn.1005-5304.2016.08.004

中图分类号:R281-05 文献标识码:A 文章编号:1005-5304(2016)08-0010-03

我国有关中草药植物的记载有悠久历史,但在信息时代,仅凭文字和图片的记录已无法满足需要,而相关的技术发展又比较缓慢[1],因此迫切需要使用计算机辅助技术进行中草药的检索和鉴定工作。兹就基于聚类-反馈机制的植物鲜药图像检索系统设计介绍如下。

1 图像检索技术现状

目前对图像的检索方式主要有2种,即基于文本的图像检索和基于内容的图像检索。文本图像检索通过匹配关键字来检索出图像和其他信息。中国科学院植物研究所研制了中国植物数据库,用户通过输入植物名、产地、用途等检索出植物的图像。澳大利亚Queensland大学开发了Lucid系统,通过输入关键字可以检索出结果[2]。但是,图像信息难以用语言进行定量描述,因此,基于文本的图像检索受到制约。

基于内容的图像检索直接对图像进行分析、提取相应的特征,然后根据这些描述图像的特征对图像库中的图像进行检索。当输入一个待检索图像时,系统

会将该图像与图像库中的图像进行相似性匹配,然后根据相似性大小建立相应的索引,系统会相应输出与待检索图像特征相同或相近的图像,供用户查看。有研究基于内容的中草药植物图像检索关键技术,使图像检索速度及准确率有所提高[3]。但目前尚未见通用的植物鲜药检索软件问世,因此,中草药检索依然是一个研究的热点与难点。

2 基于内容的植物鲜药图像检索关键技术

2.1 小波特征

小波变换是一种新的变换分析方法,它继承和发展了傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的窗口,是进行信号时频分析和处理的理想工具。对小波特征提取的算法步骤如下。

步骤1:对R、G、B的3个颜色通道赋予不同权重,对R、G、B分别赋予的权重为0.299、0.587、0.114,这种比例权重比较符合要求;

步骤2:对图像进行伪彩矩阵压缩,目的是减小计算量,使系统运行速度加快;

步骤3:进行二维小波分解;

步骤4:提取小波分解细节系数;

步骤5:提取小波分解概貌系数;

步骤6:求分解后每个图像的均值和方差。

最后构成的小波特征是一个26维特征向量。在本文设计的系统中,利用小波特征对图像库进行聚类,大大缩小了范围,同时为系统进行人工反馈提供了基础。

2.2 K-means聚类

K-means聚类的中心思想是最小化类内距离,将样本数据划分为预定的k类,找到一个划分C={C1,C2,……,Ck},使类内距离如公式⑴所示,达到最小[4]:

系统首先对图片库中所有图片进行K-means聚类,即提取出小波特征,然后对小波特征进行聚类,将图片聚类成N类。检索时只要检索该图像所属类中的图片即可,这样就能大大提高检索效率和准确率[4-5]。

2.3 基于特征的相似度匹配

本文设计的系统通过对图像特征进行相似性匹配来判断2幅图像是否相似。先将提取出的图像特征表示成向量形式,然后通过欧氏距离计算图像特征之间的相似度,如公式⑵所示。其设计的思路是:2个图像特征之间,欧氏距离越小,图像相似度越大。

2.4 反馈

因图像底层特征与高级语义之间存在“鸿沟”问题,我们目前还不能利用已有计算机视觉和人工智能技术获得二者之间满意的映射关系,因此,通过特征提取进行检索在效果上往往不能满足用户需求。为解决该技术问题,本检索系统引入人工反馈技术辅助以获得更好的检索效果。

在第一轮系统根据固定的相似性度量方法按相似度大小输出检索结果,然后用户对检索结果进行评价和标记,指出结果中哪些与查询图像“相似”,哪些“不相似”,然后将用户标记的相关信息反馈给系统,进行学习,以指导下一轮检索,从而使检索结果更加符合用户的需求。

通过上述反馈机制,可以很容易将图像库中的图像进行再“聚类”,这样经过数次检索之后,系统对图像库里的图像聚类将会越来越接近所需要求,形成一个良性循环。

本文设计的系统将图片分成15类,加上“未分类”图像,共16类图像,第1~15类图像分别用1、2、3、4、5、6、7、8、9、10、11、12、13、14、15标记,未分类图像用0标记。

3 系统设计及结果

本系统基于matlab软件开发,采用机器识别和人工反馈相结合的图像检索方法。在检索过程中,首先读入待检索图像,识别该图像在图像库中属于第几类,然后获得检索范围索引,最后根据图像颜色、纹理、形状的综合特征进行相似度匹配,相似度由大到小依次显示在界面中。相似度低于30%的图像将不会显示在界面中[6]。系统流程图见图1。

如未采用聚类-反馈的系统,则输入一张待检索的玫瑰花图片,用颜色特征进行检索,其检索结果见图2。可以看到第4号图片(菊花)与第6号图片(荷花)并不非所需图片,即该2张图片为无效图片。

使用聚类-反馈机制后,检索效果如图3所示,检索的首页并未出现不相关的图像,而且图2检索出12页结果,图3中只有3页检索结果。说明聚类-反馈系统在筛选过程中去除了大量不相关图像,只剩下对用户有用的相关图像,提高了检索效率。

对比使用和未使用聚类-反馈机制的系统检索结果,可以发现未使用聚类-反馈的系统检索准确率约为70%,而使用聚类-反馈的系统,经数轮反馈训练之后,其检索准确率达到90%以上。

4 小结

本研究设计了一个基于聚类-反馈机制的植物鲜药图像检索系统,其优势包括:①考虑到未来实用的大型图像库存在大量图像,为缩小检索范围,系统引入了K-means聚类算法对图像库进行聚类,大大提高了检索效率。②考虑到底层特征与用户高级语义理解之间存在的“鸿沟”,系统采用了人工反馈算法,结合K-means聚类算法,利用用户的反馈信息对图像库进行“再聚类”操作,使检索结果更符合用户需求。

总之,随着数字图像处理技术的发展,越来越多的新技术可以被应用到中医药的信息化中,为中医药事业的发展起到推动作用[7]。

参考文献:

[1] 温先荣.“中医药在线”网站多库检索系统的改造与实现[J].中国中医药信息杂志,2008,15(5):153-154.

[2] 冯伍,张俊兰,白树芳.基于内容的图像检索技术在医学领域中的应用[J].医疗卫生装备,2012,33(11):98-99.

[3] 吴青峰.基于内容的中草药植物图像检索关键技术研究[D].厦门:厦门大学,2007.

[4] ZHAO J, JIANG S Z, YI F L, et al. Segmentation of medical serial images based on k-means and GVF model[J]. The Open Automation & Control Systems Journal,2013,5:181-186.

[5] 黄振侃,王晶,焦亚波,等.中国中草药数据库(名鉴)系统检索信息处理方法的研究——关于中草药常用药的模糊聚类方法试探[J].中国中医药信息杂志,2001,8(11):92-93.

[6] 凌俊斌.基于聚类的相关反馈图像检索研究[D].南京:河海大学, 2006.

[7] 周苏娟,涂泳秋,黄展鹏,等.数字图像处理技术在中医药信息化中应用研究概况[J].中国中医药信息杂志,2012,19(5):103-105.

猜你喜欢

中草药
马副蛔虫的中草药防治试验研究
益林中草药 初现规模化
三味中草药 消炎效果好
中草药在口腔护理中的开发应用
中草药制剂育肥猪
中草药来源的Ⅰ类HDAC抑制剂筛选
脑筋急转弯
中草药在缓解夏季猪热应激中的研究应用
建立中草药处方点评工作的实践
猪常见中毒的中草药解救方法