粗糙集方法在医学影像诊断分析中的应用

2012-09-11孙兴旺

统计与信息论坛 2012年6期

孙静，孙兴旺

粗糙集方法在医学影像诊断分析中的应用

孙静1，孙兴旺2

（1．西安医学院医学技术系，陕西西安710021；2．西安交通大学医学院附属第一医院，陕西西安710061）

医学诊断常面对越来越多的医学影像数据信息，比较不同分析方法对于疾病诊断十分必要。对183例脑胶质瘤的MR资料分别使用粗糙集理论和logistic回归分析方法导出影像诊断规则。与病理结果对比后发现，使用粗糙集理论的诊断规则准确性高于其他统计方法。粗糙集理论对提高医学影像学诊断水平有更好的临床应用价值。

粗糙集；医学影像；诊断规则

随着医学科技的发展，医院信息管理系统中的信息飞速增加，数据库逐年增长，信息包括电子病历、数字化医学影像图像、实验室检验结果、病理参数等等。医学诊断是基于信息的推理过程，对有效信息的获取最为关键，医师通过获取的信息形成推理网络，才可能做出正确诊断。现代医学影像学已步入数字化的时代，积累的影像学数据信息越来越多。在激增的数据背后隐藏着许多重要的信息，单凭医师主观判断已不适合高维和海量的数据信息分析，在实践中利用粗糙集理论等工具进行分析和统计，可以帮助医师得出确定的诊断规则［1－2］。

一、医学影像诊断中常用的统计分析方法

随着影像仪器设备的发展，医学影像诊断学中能够采集到的数据资料越来越多，针对各类医学数据采用的统计学分析方法也有很多。

1．多元线性回归分析

在医学影像诊断学中，诊断结论与多个影像的征象相联系，使用多元线性回归中多个自变量的最优组合共同来预测或估计因变量，更符合实际。由于影像征象的分类特征不一致，例如强化扫描，就存在无强化、轻度强化、明显强化等不同水平，而病变形态也分为圆形、类圆形、不规则形等不同分类，自变量的级别单位明显不同，无法使用系数大小来说明该因素的重要程度，必须先将所有变量先转化为标准分，再进行线性回归，得到的回归系数才有意义。由于临床影像学研究中数据资料的同质性不高，这种分析效果不尽理想。

2．logistic回归分析

logistic回归常用于根据危险因素预测某疾病发生的概率，其与多元线性回归有很多相似之处，但应变量不同。logistic回归应变量多为两分类变量，即“是”或“否”，自变量可以包括很多。在医学影像诊断学中，对于图像的判断结果多为“存在某种疾病”和“无异常表现”这样的两分类变量，而影响诊断结果的因素是多种多样的，因此，使用logistic回归分析方法处理医学影像诊断学中的数据化图像资料比较适合。本文中影像资料数据就采用了logistic回归分析。

3．分类与回归树分析

分类与回归树的分析方法由分类树和回归树两部分构成，分类树用于结果变量是分类变量的数据，回归树则用于结果变量是连续变量的数据分析。在疾病的诊断中，依据临床表现和影像特征进行分类的患者，其内部的同质性有待明确，分类与回归树可将病例分配到树的局部进行处理，改善数据的内部同质性；另一方面，分类与回归树使用替代变量来解决临床实践研究中出现的数据缺失，分析模型不要求预报变量和结果变量必须具有某种分布，能充分利用医疗实践中的各类数据。在应用中分类和回归树的数据统计计算量非常大，稳定性也较差，尤其在样本量较小时，模型并不稳定。

4．数据挖掘技术

20世纪80年代初，计算机辅助诊断系统开始在中国医学诊断领域应用，其中核心的技术就是建立正确的数学模型。当时，较为流行的数学模型有Bayes模型［3］、最大似然法模型和序贯模型［4］。这些模型多使用专家诊断疾病时的逻辑思维和辨证方法，建立起“专家系统”，期望使用该系统的其他人能够达到专家的诊断水平，但是在临床的医疗实践过程中，病人接受“专家系统”的诊断存在明显的干扰心理因素，加之影像资料、病情发展的复杂性，造成模型系统对于疾病判断往往出现偏差。

同时期，国外有学者提出了粗糙集理论方法进行数据分析，该理论当时仅在部分领域应用。随着粗糙集理论相关专著、论文在国际专题研讨会上的推广，粗糙集作为智能计算的科学研究，无论是在理论方面还是在应用方面都取得了很大的进展，已成为国内外人工智能领域中一个较新的学术热点，引起了越来越多科研人员的关注。

二、粗糙集理论简介

1982年，波兰学者Z．Pawlak提出粗糙集理论。它是一种刻画不完整性和不确定性的数学工具，能有效分析不精确、不一致、不完整的各种不完备信息，发现隐含、潜在的规律，其基本思想是在保持分类能力不变的前提下，通过知识约简导出概念的分类规则。

粗糙集理论将对象进行论域划分，然后确定划分后的各部分对某一概念的支持程度，对象的知识是通过指定基本特征（属性）和它们的特征值（属性值）来描述的。给定一个有限的非空集合U称为论域，R为U上的一族等效关系，R将U划分为互不相交的基本等效类，K＝（U，R）构成一个近似空间，设X为U的一个子集，a为U中的一个对象，［a］R表示所有与a不可分辨的对象组成的集合，即由a决定的等效类。当集合X能表示成基本等效类组成的并集时，称集合X是可以精确定义的；否则集合X只能通过逼近的方式来刻画。集合X关于R的下逼近定义为：R．（X）＝｛a∈U：［a］RX｝，R．（X）实际上是由那些根据已有知识判断肯定属于X的对象所组成的最大的集合，也称为X的正区。根据已有知识判断，肯定不属于X的对象组成的集合称为X的负区。集合X关于R的上逼近定义为：R′（X）＝｛a∈U：［a］R∩X≠Φ｝。R′（X）是所有与X相交非空的等效类［a］R的并集，是那些可能属于X的对象组成的最小集合。

用粗糙集应用决策表来描述论域中的对象，二维表格中每一行描述一个对象，每一列描述对象的一种属性。属性分为条件属性和决策属性。根据条件属性的不同，论域中的对象被划分到具有不同决策属性的决策类。并非所有的条件属性都是必要的，去除多余的条件属性并不会影响分类效果，可以约简。在决策表中，各个条件属性之间往往存在某种程度的依赖和关联，约简定义为不含多余属性并保证分类正确的最小条件属性集。决策表中可以同时存在几个约简，所有约简的交集即为核，核中的属性是影响分类的重要属性，少了它们，分类的质量就会明显下降［5］241－250。

属性约简是根据属性的重要程度进行约简，其重要性的度量可以采用不同方法，现将常用的基于信息量的属性约简算法描述如下：

输入决策表S＝＜U，R，V，F＞，R＝C∪D，C为条件属性集，D为决策属性集。

输出该决策表的一个相对约简B。

（1）条件属性C应用粗糙集离散化

（2）计算I（D｜C）

（3）令Core（C，D）＝Φ

｛for（every a∈C）计算Sig（a，C，D）；

if（Sig（a，C，D）＞0）Core（C，D）：＝Core（C，D）∪｛a｝）

（4）if（I（D│Core（C，D））＝I（D│C）），则输出（Core（C，D）为C的最小约简，终止；否则将非核条件属性记入集合Att中，即Att＝C｜Core（C，D），令B＝Core（C，D）

While（I（D│B）！＝I（D│C））do

｛for（every ai∈Att）计算I（D│B∪｛ai｝）

aj＝min｛aj│I（D│B∪｛ai｝）｝

如果有几个属性ai∈Att具有相同的最小信息量，则选择属性重要性最大的属性。

Att＝Att｜｛aj｝；B＝B∪｛aj｝；计算新的I（D│B）。

信息量概念在信息系统的定义为：

其中｜X｜表示集合X的基数，｜Xi｜／｜U｜表示等价类Xi在U中的概率。

其中U／IND（P）是根据属性P划分的等价类集合。

定义2 设S＝＜U，R，V，F＞是一个决策表，R＝C∪D，PR，知识Q（U｜IND（Q）＝｛Y1，Y2，Y3，…，Ym｝）（属性集合）相对于知识P（U｜IND（P）＝｛X1，X2，X3，…，Xn｝）（属性集合）的条件信息量I（Q│P）定义为：

定义3 设S＝＜Un｝vf＞是一个决策表，R＝C∪D，C为条件属性，D＝｛d｝为决策属性集，AC，a∈A在A中的重要性Sig（a，A，D）定义为Sig（a，A，D）＝I（D｜A｜｛a｝）－I（D＼A）；当A＝｛a｝时，Sig（a，A，D）＝I（D）－I（D｜｛a｝）。其中U│IND（Φ）＝｛U｝，I（D｜Φ）＝I（D）。

三、粗糙集方法及二元logistic回归分析在医学影像诊断中的应用

1．数据样本特征

选择西安交通大学医学院第一附属医院2004—2009年经病理证实的脑胶质瘤病例共183例，患者中性别比例为男／女＝106／77，年龄从4岁～85岁，平均年龄为42．2±13．45岁。根据WHO分级的数据统计见表1；根据病理类型的数据统计见表2；根据病灶位置的数据统计见表3。

表1 病例WHO分级统计表

183例脑胶质瘤均在荷兰飞利浦公司1．5T超导型MR扫描系统完成普通MRI平扫和增强扫描，由二位工作经验5年以上的医学影像专业医师，采用盲法对脑胶质瘤的MRI影像征象进行提取，如遇分歧讨论确定。MRI征象属性见表4。

表2 病例病理类型统计表

表3 病灶位置统计表

表4 脑胶质瘤MRI征象属性表

2．利用粗糙集理论的分析结果

脑胶质瘤决策表导入粗糙集工具软件Rosetta软件，其中WHO级别分类为决策属性，MRI征象为条件属性，对病例进行属性约简和规则约简，属性约简使用遗传算法得到条件属性核。通过条件属性核产生决策规则库，规则约简时以不减低规则覆盖率、精确度为原则，并采取交叉验证方式对决策表数据进行测试，了解规则诊断的灵敏度、特异度、阳性预测值和阴性预测值，以评价规则的诊断性能。

脑胶质瘤数据经过属性约简后，产生的典型诊断规则有9条，包括MRI征象中坏死、水肿、占位效应、强化特征和信号均匀性等为分级诊断重要征象，经过属性约简及规则约简的典型诊断规则，预测脑胶质瘤的准确性为84．4%（详见表5）。

表5 典型脑胶质瘤诊断规则表

3．利用二元logistic回归的分析结果

脑胶质瘤诊断属于离散选择，回归分析也是临床常用的统计学分析方法［6］。使用二元logistic回归法建立脑胶质瘤的诊断模型，MR的征象作为因变量，其中多等级的因变量如形态、占位、水肿等，以最低等级为基线，其他等级与之相比进行哑变量设置。模型中因变量的进入标准为P＜0．05，剔除标准为P＞0．1，二元logistic回归的最大迭代次数为20次。模型预测脑胶质瘤的概率分界点为0．5，即当预测概率＞0．5时为高级别胶质瘤，预测概率＜0．5时为低级别胶质瘤。

二元logistic回归分析产生的MR诊断脑胶质瘤模型公式包括占位、出血、水肿、强化四个征象，预测模型的回归方程为：

依据此模型脑胶质瘤分级诊断的准确性为83．6%。其中占位、水肿、强化为多等级因变量，B值详见表6。

表6 二元logistic回归方程B值表

4．粗糙集理论与二元logistic回归分析比较

针对脑胶质瘤样本数据，分别采用粗糙集理论和二元logistic回归分析相比，两种分析方法的诊断性能相比较见表7，粗糙集理论的准确性较高。

表7 粗糙集理论和二元logistic回归统计方法诊断性能比较表

四、结论

脑胶质瘤作为颅内最常见的肿瘤，其预后与分级密切相关，低级别脑胶质瘤生存期为5～10年，而高级别脑胶质瘤的生存时间约为1年［7］。正确诊断脑胶质瘤和评判级别对治疗方案的选择和预后的评价具有重要意义。

应用粗糙集理论和二元logistic回归分析方法分级诊断脑胶质瘤准确性分别达到84．4%和81．6%，与临床医师诊断准确性较为接近，也与Ye等人的研究结果相符［8－9］。两种方法提取的诊断规则均符合临床现有知识，相比而言，粗糙集理论的准确性更高。通过对脑胶质瘤诊断实例应用分析可以发现，粗糙集理论提取的规则库包括的MR征象最多，二元logistic回归模型仅包括水肿、占位等四个MR征象；粗糙集理论的诊断规则确定性高，二元logistic回归分析无法提取确定的诊断规则。因此，尽管两种方法均具有良好的诊断性能，但粗糙集理论提取的诊断规则更加容易理解，也便于临床应用，其包括较多的MR征象，准确性也更好。

医学影像诊断属于分类及决策问题，经常会遇见由不精确或不一致的数据导致的不确定问题，使得分类或识别目标变得困难。粗糙集理论正是强调在不确定的数据中寻找信息，计算时应用粗糙集理论和基于统计的算法来进行分类决策，既发挥了粗糙集理论处理不确定数据关系的长处，又能够凸现统计算法应用简单且决策高效的优点。

粗糙集理论适用于处理离散化数据，与其他应用于医学影像诊断的统计分析方法比较，具有以下优点：一是不需要建立因变量函数或预先设置概率，主要通过直接对集合中的对象进行运算得到不可分辨矩阵从而产生规则；二是粗糙集理论是基于集合的数据挖掘方法，因此有利于发现隐藏知识，其属性约简和规则提取过程基本不受人为因素影响，产生的诊断规则明确、清晰、易于理解，在医学影像的实例应用就可以充分体现这些优点［10－11］。

使用粗糙集理论的方法对庞杂的影像数据信息进行分析，得出确切的诊断规则，不仅有利于影像专业医生减少主观判断的偏差和遗漏，又便于临床医生理解，而且在临床实践中具有很好的操作性。随着基于粗糙集理论的软件系统的不断开发，粗糙集理论有了越来越广泛的发展空间，发挥这些优点，进而可以推广到其他医学领域应用中，对于现代医学有着重要的意义。

［1］ Katapka H，Sugiura T．The Ideal form of Laboratory Information Management［J］．Rinsho Byori，2005，53（1）．

［2］ Lamma E，Mello P，Nanetti A，et al．Artificial Intelligence Techniques for Monitoring Dangerous Infections［J］．IEEE Trans Inf Technol Bramed，2006，10（1）．

［3］罗来鹏．完备决策表中的Bayes公式［J］．统计与信息论坛，2005，20（5）．

［4］林燕，高培毅，孙楠．鞍内和鞍上肿瘤计算机辅助MR影像诊断［J］．中华放射学杂志，1999，33（12）．

［5］ Paulak Z．Rough Sets，Theoretical Aspects of Reasoning about Data［M］．Boston：Dordrecht Kluwer Acadecmic Publishers，1991．

［6］ Mihara F，Numaguchi Y，Rothman M，et al．MR Imaging of Adult Supratentorial Astrocytomas an Attempt of Semiautomatic Grading［J］．Radiat Med，1995，13（1）．

［7］杨劲松，陆雪官．高分级脑胶质瘤综合治疗的循证医学研究进展［J］．中华肿瘤防治杂志，2007，14（13）．

［8］ Ye C Z，Yang J，Geng D Y，et al．Fuzzy Rules to Predict Degree of Malignancy in Brain Glioma［J］．Med Biol Eng Comput，2002，40（2）．

［9］ Wang X，Yang J，Jenson R，et al．Rough Set Feature Selection and Rule Induction for Prediction of Malignancy Degree in Brain Glioma［J］．Comput Methods Programs Biomed，2006，83（2）．

［10］范德成，王韶华，张伟．基于粗糙集理论的能源结构合理度分析［J］．统计与信息论坛，2012，27（2）．

［11］Filipovych R，Resnick S M，Davatzikos C．Semi－supervised Cluster Analysis of Imaging Data［J］．Neuroimage，2011（3）．

The Application of Rough Set Method in Medical Imaging Diagnostic Analysis

SUN Jing1，SUN Xing－wang2
（1．Medical Technology Department，Xi＇an Medical University，Xi＇an 710021，China；2．First Hospital，Xi＇an Jiaotong University，Xi＇an 710061，China）

Facing more and more medical image data information，it is necessary to compare different analysis method for disease diagnosis．This article analysis 183cases of glioma MR details using rough sets theory and logistic regression analysis separately and work out the diagnosis rules．Comparing with pathological results，it can be found that rough set theory has higher diagnosis accuracy than the other statistical method．The rough set theory has better clinical application value to improve medical imaging diagnostic level．

rough set；medical imaging；diagnosis

book=83,ebook=71

O213

1007－3116（2012）06－0083－05

（责任编辑：李勤）

2012－03－16

孙静，女，陕西西安人，讲师，硕士，研究方向：医学影像诊断学。