基于数据挖掘的医学影像检索与分析
2016-02-09蒋友好高彩兰
蒋友好,乔 非,高彩兰
1 同济大学电子与信息工程学院控制科学与工程系,上海市,201804 2 上海市中医药大学附属普陀医院,上海市,200062
基于数据挖掘的医学影像检索与分析
【作者】蒋友好1,2,乔 非1,高彩兰2
1 同济大学电子与信息工程学院控制科学与工程系,上海市,201804 2 上海市中医药大学附属普陀医院,上海市,200062
通过了解数据挖掘的一些基本知识,运用关联规则、粗糙集理论等用于医学影像检索并进行分析。通过这些手段,从庞大的数据仓库中,挖掘更加精确、更为有用的数据并加以分析,为医学影像的诊断提高可信度,以及为医学影像检索提供方便。
关联规则;粗糙集理论;医学影像
0 引言
医学影像是医院进行病例分析的重要依据。通过采集医院信息系统,各类影像数据可实现数字化存储,并可通过服务器访问、调用和处理。医学影像数据的存储量极为庞大,但是其用于病情分析的利用率还偏低。当前对于跨院区、跨部门、跨系统的影像数据分析利用还比较困难,难以支持医疗和管理决策,因此急需对这些数据进行整合并分析。
数据仓库是面向主题的、集成的且随时间不断变化的数据集合。医学影像数据仓库是数据仓库技术面向医学领域数据的具体表现之一。与其他数据仓库相比,医学影像数据仓库的数据来源、数据类型和数据特征都有其不确定性之处。建立医学数据仓库是医学数据分析处理的基础,是医学信息技术发展的必然,对于医学、医疗卫生、生物学和医疗管理等领域的研究与应用都有巨大的推动作用[1]。
数据挖掘(Data Mining,DM)是从大量数据中提取出可信的、新颖的、有效率的并最终能被人理解的信息处理技术。涉及数据库、人工智能、统计学、模式识别、可视化技术、并行计算等众多领域知识。医学影像数据挖掘是一门涉及面广、技术难度大的新兴交叉学科,将数据挖掘技术应用到医学影像信息数据仓库中,可以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断[1]。
本文以普陀区中心医院的医学影像数据为依据,研究基于数据挖掘的医学影像检索与分析方法,并对方法进行验证。
1 医学影像检索关联规则的应用
1.1 关联规则
在医学影像中,通过医院HIS、RIS以及PACS系统数据库检查信息表和项目信息表中,获取患者基本信息、患者病情的报告,以及患者之前的病情数据。通过关联规则的判断,对患者进行初步的评估再进行有目的的检查,从而有效避免了重复检查和不完整检查,可以对患者的检查项目进行统一规范化处理。
关联规则X→Y的信任度是一个条件概率P(Y|X),即,Support(X→Y)=P(XUY),Confdence(X→Y)=P(Y|X)。
1.2 发现频繁项集与生成关联规则
通过发现频繁项,了解患者检查的各个单个项目或检查内容,算出支持度与信任度,可发现患者就诊过程中检测项目的关联度,进一步结合患者疾病类型,为医学影像研究提供依据,提高医院临床管理质量。
1.3 Apriori算法步骤
Apriori算法的中心思想是首先对数据库进行扫描,找出支持度不小于最小支持度的所有项目,即频繁1- 项集;接下来是循环操作,每次循环分3步进行:连接、减枝、对数据库进行扫描并计算候选项的支持度。具体过程如图1所示。
图1 Apriori算法示意图Fig.1 Apriori algorithm schematic
1.4 医学影像检索
采集我院100例肝癌病人的临床资料,通过CT图像的检查,根据关联规则公式,主要对肿瘤生长方式和主瘤旁有小灶两种情况进行关联规则的计算,计算结果如表1所示。
表1 计算结果Tab.1 Calculation results
通过简单的关联规则,算出支持度与信任度,能对病人肝癌复发的概率进行判断,对日后的治疗起到一定的帮助,也对研究者的判断提供一定的数据支持。通过分析这些数据,可判断疾病发病的因素。
2 粗糙集应用于医学影像检索
在医学影像学中,各式各样的数据经常因数量庞大而不够精确。例如每一份CT图像分辨率极高,所包含的信息也极多:如病例数据、CT值、窗宽等。这些数据包罗万象,其模糊性和不确定性让人摸不着头脑。而粗糙集理论的优势在于它不需要关于数据的任何准备或额外的信息,更容易从医学影像数据中进行数据挖掘。
2.1 粗糙集规则提取的一般步骤
粗糙集规则提取的目的一般有两个:一是用于建立分类系统,从数据仓库中导出规则,再用导出的规则去预测或分类新的实例;二是用于实现知识发现的任务,从数据中寻找出潜在的信息模式,更好地了解并认识数据。
一般步骤为:属性约简、消除重复的行、值简约、整理规则[2]。
2.2 粗糙集理论的图像处理
在医学诊断中最有可能的问题便是影像资料清晰度没有达到标准值,使得医生在诊断时产生偏差,容易导致病情延误,严重的可能误诊。因此使用医学图像处理技术,对医学诊断的提高有很大价值,更为以后的研究创造前提条件。
医学影像处理技术主要是突出了医学影像特征(感兴趣)区域的信息,并减弱或除去不必要的信息,从而使得感兴趣区域的分辨率,清晰度得到提高,将信息的传递精确化。图像处理的过程有两步,首先是采用一系列技术改善图像的视觉效果(如色阶,灰度,噪声等),将图像的分辨率和清晰度提高。其次是将图像转化为一种信息或数据,更加容易让人或者计算机进行解释和分析[3]。
结合粗糙集理论,在医学图像处理后,依据各种图像成像后的原理以及相应基本的病例特征分析,提出基于粗糙集理论的医学影像的算法,将医学影像看成是一个知识系统,利用粗糙集理论中的不可辨关系,根据医学影像中的“知识”(人体器官之间的密度差异)来定义等价关系,将医学图像划分为特征(目标)区域、背景区域,分别对各个区域进行相应的图像处理,最后将各个区域处理后的结果进行叠加,得到基于粗糙集的医学影像处理结果。
2.2.1 粗糙集理论不可辨关系
给定一个论域U≠Ф,X是U的一个子集,R是U的等价关系且U/R={X1, X2, …, Xn}满足以下条件:(1)Xi
∪U,Xi≠Ф,对于任何i; (2) Xi∩Xj=Φ,对于任何i和j; (3)Ui=1, 2, …, n, Xi=U。在子集Xi代表了等价类R,x∈U用[x]R表示,不可辨关系IND(R)被定义为:[4]
我们定义子集X关于R的下近似和上近似分别为:
同时将P O S R(X)=R(X)称为X的R正域;NEGR(X)=U-R(X)称为X的R负域;BNR(X)= RX-RX称为X的R边界域。
图2 等价关系R下的分类模式图Fig.2 Classification schematic diagram under the equivalence relation R
2.2.2 粗糙集中不可辨关系的分析及应用
在最简单的情况下,在感兴趣区域中我们只有关于强度的阈值,在这种情况下,强度的阈值是获取给定图像中的体素。我们用ThL和ThH来表示下部阈值和上部阈值,感兴趣区域ROI为上下部阈值中间值。
x(p)表示体素的所在位置为p,I(x(p))表示体素x(p)的强度。为简单起见,将l(x(p))以l(p)表示。
我们用Ci定义强度的分布,d(Ci)为Ci的评价函数,输出d(Ci)=1时,为感兴趣区域。d(Ci)可表示为:
其中Ci为其区域平均强度。我们使用粗糙集,其近似的概念,代表一个不确定的边界区域。在一个体积图像,一个类别X是建立为一组相邻像素点的属性值,例如在同一强度或同一位置。离散化聚类方法和分类器等工具可以用来建立基本类别与正确的粒度级别。
为了确定感兴趣区域的上、下近似强度,定义包含满足阈值条件的体素的感兴趣区域的理想形状。然而,这样的感兴趣区域可能不完全是由图像的基本集表示。换句话说,感兴趣区域的边界并不适合于图像低层特征。为了表示这种不一致,我们把图像分成以下三个区域:
正域:包括在感兴趣区域的体素。
负域:排除在感兴趣区域的体素。
边界区域:可能包括在感兴趣区域的体素。
基本类别表示为U/IND(R)={C1,C2,… ,CN},同时设定XROI'为ROI的一组理想体素。然后,上述三个区域可以表示为:
图像中的感兴趣区域可表示为:
图3表示了通过上述公式对感兴趣区域进行区分。左边的图像为原始图像,感兴趣区域为黑色圆形区域,即ROI1,ROI2,ROI3。设XROI’为理想感兴趣区域。
将图像强度分为几个层次。在这种情况下,我们得到了10个区域C1~C10在图3所显示图像的中心。根据前面的定义,正域、负域以及边界区域可以得到如下公式:
即因此得出结论,对于给定的图像特征,感兴趣区域为C5~C10,以及可能的边界区域为C4。
图3 图像中感兴趣区域强度分布Fig.3 The intensity distribution of the image region of interest
2.3 基于粗糙集理论图像处理后的例子
通过我院GE LightSpeed 64排容积VCT及Xtream FX系统处理。
通过CT所得图像,突出区域如病灶、肿瘤、阴影等部位,进行体素化,再由上述公式ROI=POSR(XROI’)+BNR(XROI’)等区分感兴趣区域,抑制一些无用的图像数据,提高图像利用价值。如图4所示。
图4 感兴趣区域的对比图Fig.4 Contrast figure for ROI
图5为一例多排螺旋CT上腹部位置拍摄下的图像,通过对图像感兴趣区域进行处理后,左右对比能清晰看到特征区域内的亮度与清晰度有了提高,原本黯淡的目标区域变得纹理清晰,器官分泌的液体体积也一目了然,而其余区域(如背景区域等)并没有太大变化。
图5 图像处理前后的图像的对比(上腹部)Fig.5 Contrast (upper abdomen) image before and after image processing
图6为我院另一例多排螺旋CT拍摄肺癌转移至肺门和纵隔淋巴结的病例,经过图像处理后能清晰可见肺部的信息,出现明显的肺癌转移。
图6 处理后的图像(肺癌转移至肺门和纵隔淋巴结)Fig.6 The image after processing (lung cancer metastasis to the hilar and mediastinal lymph nodes)
通过图5、图6可见数字图像处理技术的引入主要是为了改善医学影像质量,而目前对X光图像、CT图像、MRI图像、超声图像、以及内窥镜图像等医学图像的处理,己成为辅助医学诊断的重要手段之一。
经过改善的医学影像,对感兴趣区域的图像积累,便能得到一系列相应病症的图像信息例如纹理、形状等。通过关联规则进行分析及存储,便能进行图像检索。
2.4 粗糙集理论的图像检索应用
医学影像中的图像存储是庞大的,不仅是图像的数量上,在图片的属性上也是如此。在庞大的数据中找到更为精确的数据,对于提高医学图像资料的可靠度必不可少。在上文提到的依靠关联规则进行项目检索的方法,因为医学图像的模糊性不能很好地检索图像,而粗糙集理论,一种研究不精确、不确定性知识的数学工具则更为合适。基于图像检索的基本框架见图7。
图7 基于图像检索的基本框架Fig.7 The basic framework based on image retrieval
通过之前介绍的图像处理技术,使图像质量得到改善,将医学影像拆分为各个区域后处理也使得图像更容易被解释和分析处理,为相应图像检索提供了方便。用于图像检索的主要特征有颜色、纹理、草图、形状等,其中图像中颜色、形状、纹理应用较为广泛。粗糙集理论直接从给定集合的描述出发,通过不可辨关系和不可辨类确定给定问题的近似域,从而找出图像的内在规律。在图像信息不完整、不确定的前提下,仍能进行认识、分析、推理和决策[5]。
3 结论
随着各种先进技术的产生,大量医学影像资料将快速增长,数据挖掘技术将成为辅助医学诊断的主要手段之一,可用于研究人类各种疾病发病机制的主要方法。
总之,数据挖掘的各项技术和方法均显示出其独有的优越性,都在医学数据挖掘中取得了成功的应用,其应用的潜力巨大。在这个大数据时代,数据挖掘技术必将为临床、医学诊断及研究带来极大的方便。
[1] 李雄飞, 杜钦生, 吴昊. 数据仓库与数据挖掘[M]. 北京: 机械工业出版社, 2013.
[2] 张文修, 吴伟志. 粗糙集理论介绍和研究综述[J]. 模糊系统与数学, 2000, 15(4): 1-12.
[3] Mitchell T M. 机器学习[M]. 北京: 机械工业出版社, 2003.
[4] 吴毅民. 基于不可分辨和优势关系的知识约简算法研究及其应用[D]. 福州: 福州大学, 2004.
[5] 强邦红, 刘冬, 朱向明. 数据挖掘技术在医学影像领域中的应用进展[J]. 临床超声医学杂志, 2013, 15(4): 287-288.
Retrieval and Analysis Based on Data Mining in Medical lmaging
【Writers】JIANG Youhao1,2, QIAO Fei1, GAO Cailan2
1 Department of Control Science and Engineering, School of Electronic and Information Engineering, Tongji University, Shanghai, 201804
2 Putuo Hospital Affiliated to Shanghai University of Traditional Chinese Medicine, Shanghai, 200062
By the understanding of some basic knowledge of data mining, we use the association rule and rough set to the medical image retrieval. By these means, from large data warehouse, we dig more accurate, more useful information and analyze data to improve the diagnosis reliability of the medical image and propose the convenience for the medical image retrieval.
association rules, rough set theory, medical imaging
TP311.13
A
10.3969/j.issn.1671-7104.2016.04.018
1671-7104(2016)04-0297-04
2016-03-29
蒋友好,E-mail: jyouh_0416@163.com