一种基于粗糙集和模糊推理的生活方式病检查模型*
2016-10-19李铁鑫
于 霞, 李铁鑫, 于 伟, 于 巧, 苏 良, 段 勇
(沈阳工业大学 信息科学与工程学院, 沈阳 110870)
一种基于粗糙集和模糊推理的生活方式病检查模型*
于霞, 李铁鑫, 于伟, 于巧, 苏良, 段勇
(沈阳工业大学 信息科学与工程学院, 沈阳 110870)
为了实现从大量的医学数据中获取有效的知识并形成规则和做出正确的推理,提出了一种基于粗糙集和距离型模糊推理进行生活方式病检查的模型.采用改进的依赖度属性约简算法研究属性约简,去掉不必要属性,减小规则库规模,提高粗糙集知识发现方法在医疗健康数据上的分类效率和准确性.采用距离型模糊推理方法匹配知识库中已有规则,计算规则和给定事实的距离进行推理检查,构建距离型模糊推理的检查系统.通过实验数据描述了知识库的构建过程,并验证了模型的有效性.
粗糙集; 属性约简; 距离型模糊推理; 分离原则; 生活方式病; 疾病检查; 规则提取; 规则库
随着生活环境的改善与生活习惯的改变,癌症、心脏疾病、糖尿病和高血压等疾病逐渐成为威胁人类生命的主要杀手,而这类疾病的形成并非一朝一夕,与日常生活习惯紧密相关,产生疾病的主要原因是长期不良的生活习惯累积造成病变,因而被称为生活方式病.随着生活方式的急剧改变,不健康的生活习惯所带来的健康问题日益严重,不良的固定模式的生活习惯会导致生活方式病.因此,对生活方式病的早期检查、早期改善显得尤为重要.
目前的医疗领域中存在着大量的电子病例,如果通过分析这些数据找出各种疾病的致病因素,帮助人们认识相关生活方式病并及时纠正不良的生活方式,无疑对于疾病的诊治和预防具有重大的意义.虽然基于人工智能的医疗诊断专家系统已经在实践中得到了一些应用,但是专家系统存在的问题使该技术的应用受到了阻碍.本文在分析粗糙集知识约简理论[1-3]和模糊推理系统[4-6]的基础上,给出了一种基于粗糙集理论和模糊推理的检查生活方式病的新方法,将粗糙集理论和模糊推理方法相结合并应用到生活方式病的检查中.
常规的模糊推理系统大多由专家经验建立模糊规则,专家经验带有一定的主观性,而且得到的信息往往不完备、不精确,症状也具有复杂性,粗糙集理论能有效地分析和处理这些不精确、不完备的数据,并有可能直接提取出隐含的知识,同时它仅利用数据本身所提供的信息,不需要任何附加信息或先验知识,因此,将粗糙集理论应用到生活方式病的知识获取中,构建检查有关生活方式病的规则库.在粗糙集构造的规则库基础上,依据模糊规则,选择距离型模糊推理方法对生活方式病进行检查分析,建立基于粗糙集理论和距离型模糊推理的检查疾病的新方法.
1 粗糙集和模糊推理理论
1.1粗糙集理论
粗糙集理论是由波兰数学家Z.Pawlak于1982年提出的对于不确定知识表示的理论.粗糙集理论是处理模糊和不确定知识的一种数学工具,粗糙集基于不可分辨关系的划分将知识细化,提出了一种数据约简理论,根据知识表达系统的条件属性和决策属性,求出所有符合该知识的最小条件属性集,得到最简分类规则.
定义1(约简与核)设P、Q为属性集,Q中的每个属性都不可省略.如果Q⊆P且Ind(Q)=Ind(P),称Q是P的一个约简,记为Red(P).P中所有不可省略的属性集合称为P的核,记为Core(P),其表达式为
Core(P)=∩Red(P)
(1)
定义2(上下近似区间)[2-3]对于任意X⊂U,X关于现有知识R的下、上近似可分别定义为
R-(X)={x∈U,[x]R⊆X}
(2)
R-(X)={x∈U,[x]R∩X≠∅}
(3)
定义3(知识依赖)对于一个决策信息系统S=(U,A,V,f),A包括条件属性C和决策属性D,条件属性集B⊆C,相对于决策属性D的知识依赖可表示为
(4)
式中:PosB(D)代表D的B正域;card表示集合的基数.
1.2模糊推理系统
模糊推理系统[4-5]又称为模糊系统,是以模糊集合理论和模糊推理方法等为基础,具有处理模糊信息能力的系统.模糊推理主要用来解决带有模糊现象的复杂推理问题.模糊推理系统主要由模糊化、模糊规则库、模糊推理方法及去模糊化几部分组成,模糊推理系统的处理过程如图1所示.
图1 模糊推理模型Fig.1 Model for fuzzy reasoning
1.2.1模糊化
模糊化的实质是将给定输入转换成模糊集合的过程.本文运用了常见且易于实现的模糊单值化方法.模糊单值化是将精确值转化为模糊单值,这种模糊化方法只是形式上将精确值转化成模糊量,实质上仍然是精确量.设x*为实测的精确数值,E为模糊集合,μE(x)代表隶属度,则有
(5)
1.2.2模糊规则
模糊规则库是由模糊推理系统中的全部模糊规则组成,是模糊推理系统的核心部分.一维模糊规则可表示为
ifxisA,thenyisB
其中,A和B分别为论域X和Y上的模糊集合.
在多维模糊规则中,n维模糊规则可表示为
ifx1isA1andx2isA2and … andxnisAn,thenyisB1
ifx1isA1orx2isA2or … orxnisAn,thenyisB2
其中:A1,A2,…,An为论域X上的模糊集合;B1,B2,…,Bn为论域Y上的模糊集合.
1.2.3模糊推理方法
本文提出将距离型模糊推理方法[7-8]应用到生活方式病的检查中.距离型模糊推理采用模糊集合理论中的距离概念来匹配规则间的相似程度并进行推理运算.距离型模糊推理满足分离原则,适合规则比较多的前件,同时也满足在原有的规则库中删减或增加规则.距离型模糊推理有3个基本特点:
1) 如果输入的事实是模糊凸集,那么推理结果也是模糊凸集;
2) 严格满足分离原则;
3) 对于规则只有一个前件也同样适用.
2 检查模型
2.1生活方式病检查模型
本文研究充分考虑各种症状的轻重程度,采用模糊集合描述具有模糊特性的医学知识,通过粗糙集理论分析各种影响因素与疾病的相关性及对其影响的重要程度,消除冗余的属性.建立通俗易懂的医学知识库,提出以约简后的症状属性为前件,通过满足分离原则的距离型模糊推理方法建立生活方式病检查模型,由此判断用户身体状况并给出相应建议,从而有效地达到检查疾病、增进健康的目的.整个生活方式病的检查系统设计如图2所示.
图2 生活方式病检查系统模型Fig.2 Model for life style disease examination system
2.1.1粗糙集构建知识库
生活方式病知识库的构建重要的是从不确定性、不完整的各种医学数值中提取出潜在的有用的规则,因此,应充分考虑各种症状的轻重程度,分析各种影响因素与疾病的相关性及重要程度.本文模块以粗糙集理论为支撑理论,首先实现属性约简,形成分辨矩阵,提取出知识发现模型,以便于发现若干有用的诊断知识和规则,建立面向大众的通俗易懂的医学知识库.基于粗糙集理论的知识库的构建过程如下:
1) 数据预处理.先对采集到的原始数据进行量化处理,利用数据离散化准则对数据进行处理,确定条件属性和决策属性.
2) 属性约简.在保持属性分类能力不变的前提下,删除其中不相关或不重要的属性,完成属性约简.
3) 属性值约简.去除每条规则中冗余的属性值.
4) 提取规则.根据约简结果形成规则,合并相同或相关的规则,提取支持度或可信度高的规则.
5) 知识库的构建.完善提取的规则,确保规则的准确性,将规则转化为要构建的知识库.
2.1.2模糊推理检查生活方式病
由于距离型模糊推论法满足分离原则,与以Mamdani推论法为代表的考虑适合度的模糊推论法相比,更适合前件数量多的规则,而且距离型模糊推理更加适合在原有的知识库中增加规则或减少规则作推理检查.本文将距离型模糊推理方法运用到生活方式病的检查中,根据粗糙集理论构建知识库,运用距离型模糊推理方法进行推理检查,步骤如下:
1) 模糊化.模糊推理适合处理模糊的概念,根据隶属度函数将输入的真实数据模糊处理.
2) 计算距离.依据模糊集合中距离的概念,计算规则库中的规则和给定事实的距离,来判断给定事实匹配规则的程度,距离越小,说明事实匹配知识库中已有规则的程度越高.
3) 推理运算.由事实与知识库中规则的距离,根据距离型模糊推理方法分别计算规则前件和后件的相关程度来推理结果.
2.2属性依赖度约简算法
本文依据粗糙集理论中知识依赖的概念,确定条件属性集C中每个属性对决策属性D的依赖度,根据属性依赖度来判断条件属性的重要程度,以此来达到属性约简的目的.根据定义2可计算条件属性集C关于决策属性D的依赖度大小.然而,多个条件属性针对决策属性的依赖度会相同,根据此定义无法区分相同依赖度属性的重要性.判断一个条件属性的依赖度大小,还要计算条件属性集的依赖度程度.因此,本文重新定义了属性依赖度,相关算法如算法1所示.在算法1中,本文用单个属性与核属性构成的核属性集来判断依赖度大小.在基于分辨矩阵求核属性之后,给出一种基于核属性计算属性依赖度的算法[9-10].
算法1:
n//表示除去核属性之外的条件属性
Core//核属性
D//决策表
Reduction=Core//约简集
do
{
Max[i]
fori=1 ton
{
Dcount=0
F=Reduction ∪Ci
forj=1 ton
{
ifF∈D//F中的属性被D中的属性包涵
Dcount++
}
Max[i]=Dcount/n
}
Descend(Max);//降序排列
Reduction=Reduction ∪CMax[0]
Reduce(Max[0])//删除加入的属性
n--
ifReduction是一个约简
Return Reduction
} while(n>0)
2.3距离型模糊推理
其中:i=1,2,…,n;j=1,2,…,m.
距离型模糊推理包括以下3步:
1) 计算已知规则和给定事实的距离,根据已知事实匹配规则库中的规则,计算事实和规则库中已有规则的前件距离,其表达式为
(6)
2) 计算每个推理结果的上下界限,根据计算的前件与给定事实的距离进行推理结果的运算,即
Bα=[inf(Bα),sup(Bα)]
(7)
(8)
(9)
3) 根据式(8)、(9)合并式(7)中所有推理值,得到所需的推理结果,即
(10)
式中,α为任意给定的数值.
3 实验分析结果
生活方式病主要是由不良生活方式引起的疾病,涉及到大量常见的生活疾病,本文以最常见、较典型的心脑血管疾病为例,选取了心脏病这一常见病例,描述检查诊断心脏病的过程.实验利用UCI机器学习数据库中的Cleveland心脏病数据库进行测试.Cleveland数据库中的数据来自美国克利夫兰临床基金会,由Robert Detrano提供.该数据库共采集到303个样本,其中没有属性缺失的样本有297个.在实际诊断中利用其中的13项检查指标,因此,每个数据样本包括13个属性.表1列举了13个属性及其离散取值.
表1 属性
本文整个实验过程包括以下4个部分:
1) 利用UCI心脏病数据库,描述粗糙集理论建立知识库的过程,构建知识库.
2) 验证距离型模糊推理的有效性.根据建立的知识库中的规则,验证当输入的事实是已有的规则时,距离型模糊推理的推理结果;将知识库中的规则约30%作测试,70%作规则,验证当输入的事实是规则库中没有的规则时,距离型模糊推理的输出结果准确率.
3) 将属性约简后建立的知识库与原始数据作知识库对比实验,查看属性约简后知识库的准确性.
4) 将本文基于粗糙集和距离型模糊推理模型的准确率与其他推理模型诊断UCI心脏病的准确率作对比分析实验,分析本文推理模型的准确性与可行性.
3.1构建知识库
利用粗糙集理论构建知识库最重要的工作是实现属性约简.利用2.2节中论述的属性依赖度约简算法来处理所得到的离散化决策表,得到的属性约简结果是13个属性约简到8个,约简结果如表2所示.
表2 属性约简结果
在完成属性约简后,需要将约简决策表转化为规则,决策表中每一行代表一条规则,在合并相同的规则之后共得到184条初始规则,构建的初始规则库如表3所示.从表3中可以看出,规则2是一条不相容的规则,准确性较低,同时可以看出规则1、3相对于其他规则而言具有更高的支持度,表明训练数据中满足此规则的样本比较多.因此,去除所有不相容的规则,在提取支持度和准确度高的规则后,最后共获得166条规则来构成最终的知识库,如表4所示.表4中,规则1,如果x1年轻,x2轻痛,x3正常,x4正常,x5正常,x6不是心绞痛,x7上斜型,x8正常,那么y(0),即不得病.支持度为数据中满足此条规则的数目.
表3 初始规则库
表4 最终规则库
3.2距离型模糊推理实验分析
为了验证距离型模糊推理结果的准确性,本文将得到的166条规则分别进行了两组对比实验.第一个实验是将获得的166条规则作为规则库,并将这166条规则的前件作为给定的事实,利用距离型模糊推理进行推理运算.利用每个给定事实来匹配知识库中已有的规则,查看输入与知识库中规则相同的事实后所得到的推理结果,将真实值与推理值进行比较.为了显示结果的清晰性,分别随机在166个推理结果中选取了两组数据用平行折线图表示出来,每组数据包含40对数值,把真实值扩大一倍,实验结果如图3、4所示.
图3 随机第一组预测值与真实值Fig.3 Predicted and real values for first random set
图4 随机第二组预测与真实值Fig.4 Predicted and real values for second random set
从图3、4中可以发现,两组数据完全平行,如果还原真实值的话,两条曲线会完全重叠,当输入的事实是规则库中存在的规则时,推理出的结果与真实值是一样的,说明用距离型模糊推理来推理知识库中已有规则时,准确率能达到100%.这也是距离型模糊推理与其他推理方法的不同之处,当事实是知识库中已有的规则时,输出的结果必然是完全匹配已知规则的结果.
第二个实验是将166条规则分为两组,约30%规则用作测试,约70%规则作为规则库,来验证推理规则库中所没有的规则时距离型模糊推理的有效性和准确性.随机挑选了53条规则作测试,输入53个规则的前件作为事实,经过距离型模糊推理的运算,并将推理结果做了归一化处理,将得到的53个推理结果与已有的真实值用Matlab7.0绘制了一个散点对比图,如图5所示.
可以看到大部分推理结果与真实值比较接近,但也存在部分异常点.准确率是应用最广的衡量模型有效性的方法,本文方法还引入了灵敏度和特异度两个衡量指标.灵敏度用来衡量得病的样本中推理出患病的比例;特异度表示所有健康的样本中实际推理出健康样本数的比例.为了研究距离型模糊推理模型的推理性能,本文以准确度、特异度和灵敏度为主要性能指标来分析实验结果,各指标的表达式为
图5 真实值与推理值散点对比Fig.5 Comparison in scatter points between real and predicted values
灵敏度=TP/(TP+FP)
(11)
特异度=TN/(TN+FN)
(12)
准确度=(TP+TN)/(TP+FP+TN+FN)
(13)
式中:FP表示实际患心脏病而被预测为未患心脏病的样本数;TP表示实际患心脏病并被预测为患心脏病的样本数;TN表示实际未患心脏病并被预测为未患心脏病的样本数;FN表示实际未患心脏病而被预测为患心脏病的样本数.根据图5中的真实值与推理值绘制了距离型模糊推理的残差分析图,如图6所示.
图6 真实值与推理值残差分析Fig.6 Residual error analysis for real and predicted values
从图6可以看出,推理结果存在7个异常点(残差绝对值大于0.5的点,离零点较远),其余46个残差位于(-0.5,0.5)之间,离零点较近,能较好地符合原始数据.从图6中还可以得到FP、TP、TN、FN 4个参数的取值(图6中4个区域点的个数),并计算了模型的灵敏度、特异度和准确度,结果如表5所示.通过对实验进行分析可知,采用距离型模糊推理方法对疾病进行推理检查时,准确率可达到86%以上,可以保证具有较高的医疗决策准确性.
表5 推理值相关参数(1)
3.3约简后与未约简的知识库的比较
为了验证约简之后的知识库的有效性,将未约简的原始数据作为知识库,原始数据包括297条有效数据,将离散化后数据剔除重复值,共得到277条数据.将277条数据作为规则,约30%规则用作测试,随机挑选了84条规则作为事实,利用距离型模糊推理对输入的84项事实进行推理检查.同样将所得到的84个推理结果与真实值用Matlab7.0绘制了一个散点对比图(见图7),并进行了残差分析(见图8).而残差模拟中出现了14个异常点,其余残差位于(-0.5,0.5)之间.通过图8可以计算出将未约简的规则库进行模糊推理的灵敏度、特异度和准确度,如表6所示.可以发现约简后的知识库中虽然只包含原有13个属性中的8个,属性维数降低了,但并没有降低约简后知识库的准确性,相反准确率还有所提高.
图7 未约简真实值与推理值散点对比Fig.7 Comparison in scatter points between real value with no reduction and predicted value
图8 未约简真实值与推理值残差分析Fig.8 Residual error analysis for real value without reduction and predicted value表6 推理值相关参数(2)Tab.6 Related parameters for reasoning value(2)
FPTPTNFN灵敏度%特异度%准确度%63436885.0081.8283.33
3.4模型分析
近年来,国际上有许多研究人员构建了各类智能诊断推理模型,并使用美国UCI机器学习数据库Cleveland心脏病数据库对模型进行测试,将这些模型的测试结果与本文所建立的模型进行了对比,结果如表7所示,其中,测试指标包括灵敏度、特异度和准确度3个方面.为了更直观地对比,将以上数据通过柱形图表示出来,结果如图9所示.
表7 各模型测试指标
图9 各模型测试数据对比Fig.9 Comparison in test data for various models
由图9中对比可见,本文研究所提出的模型与其他模型相比,在总体上处于非常靠前的水平.与准确率高的模型相比,准确性相差不大.多数模型侧重于提高准确度、灵敏度和特异度3个指标中的某一项,往往是在某一项指标上取得了较好的性能.而本文模型的一大优点是在保证准确度较高的情况下,使灵敏度和特异度也保持了很好的性能,是性能较为均衡的模型.因此,通过对比分析说明了本文模型在各种推理性能指标方面均处于较高水平,对心脏病诊断具有较好的推理性能和泛化能力.同样,其他的生活方式病也是含有多个检查指标,因此,此模型还可以应用在其他生活方式病的检查上.
4 结 论
本文提出了一种基于粗糙集和距离型模糊推理检查生活方式病的模型.该模型首先利用粗糙集描述构建医学知识库的过程,约简原有数据的冗余属性,并提取有效规则构建知识库;再利用模糊集合中距离的概念,匹配知识库中已有的规则,对生活方式病进行模糊推理,解决疾病检查中的模糊性问题,检查疾病发生的可能性;最后通过实验来验证粗糙集构建知识库的有效性和距离型模糊推理检查疾病的准确性,实验结果证明该模型是有效且可行的.
[1]Pawlak Z.Rough sets [J].International Journal of Information and Computer Science,1982,11(5):341-356.
[2]何亚群,胡寿松.粗糙决策理论与应用 [M].北京:北京航空航天大学出版社,2006.
(HE Ya-qun,HU Shou-song.Rough decision theory and application [M].Beijing:Beihang University Press,2006.)
[3]张明.粗糙集理论中的知识获取与约简方法的研究 [D].南京:南京理工大学,2012.
(ZHANG Ming.Research on knowledge acquisition and reduction in rough set theory [D].Nanjing:Nanjing University of Science and Technology,2012.)
[4]丁丹萍,李涛,王维青.基于模糊系统建模的可辨识性研究 [J].模糊系统与数学,2015,29(3):34-42.
(DING Dan-ping,LI Tao,WANG Wei-qing.The researching for the identifiability of modeling methods on fuzzy system [J].Fuzzy System and Mathematics,2015,29(3):34-42.)
[5]赵利.基于模糊模型的专家系统推理方法 [D].杭州:浙江大学,2013.
(ZHAO Li.Reasoning methods of expert system based on fuzzy mode [D].Hangzhou:Zhejiang University,2013.)
[6]周鹏飞,王开放,方金灿.基于模糊理论和D-S推理的开箱报警模型与算法 [J].沈阳工业大学学报,2014,36(2):210-217.
(ZHOU Peng-fei,WANG Kai-fang,FANG Jin-can.Alarm model and algorithm for container-opening based on fuzzy theory and D-S reasoning [J].Journal of Shenyang University of Technology,2014,36(2):210-217.)
[7]Wang S Y,Tsuchiya T,Mizumoto M.Distance-type fuzzy reasoning method [J].Journal of Biomedical Fuzzy Systems Association,1999,1(1):61-78.
[8]Wang S Y,Tsuchiya T,Mizumoto M.A learning algorithm for distance-type fuzzy reasoning method [J].Biomedical Fuzzy and Human Sciences,2000,6(1):61-68.
[9]孟庆全,梅灿华.一种新的属性集依赖度 [J].计算机应用,2007,27(7):1748-1750.
(MENG Qing-quan,MEI Can-hua.New dependability of attribute sets [J].Computer Applications,2007,27(7):1748-1750.)
[10]翟俊海,万丽艳,王熙照.最小相关性最大依赖度属性约简 [J].计算机科学,2014,41(12):148-150.
(ZHAI Jun-hai,WAN Li-yan,WANG Xi-zhao.Attribute reduction with principle of minimum correlation and maximum dependency [J].Computer Science,2014,41(12):148-150.)
(责任编辑:钟媛英文审校:尹淑英)
A life style disease examination model based on rough set and fuzzy reasoning
YU Xia, LI Tie-xin, YU Wei, YU Qiao, SU Liang, DUAN Yong
(School of Information Science and Engineering, Shenyang University of Technology, Shenyang 110870, China)
In order to obtain useful knowledge from a large amount of medical data, form the rules and make the correct reasoning, a model based on rough set and distance-type fuzzy reasoning was proposed to examine the life style disease. The improved dependency attribute reduction algorithm was used to perform the attribute reduction, remove unnecessary attributes, reduce the rule base size and improve the classification efficiency and accuracy of rough set knowledge discovery method in the medical and health data. The distance-type fuzzy reasoning method was used to match the existing rules in the knowledge base, calculate the distance between the rules and given fact for reasoning detection, and establish the detection system of distance-type fuzzy reasoning. The construction process of knowledge base was described with the experimental data, and the validity of the model was verified.
rough set; attribute reduction; distance-type fuzzy reasoning; separation principle; lifestyle disease; disease examination; rule extraction; rule base
2015-10-09.
辽宁省自然科学基金资助项目(2015020010); 辽宁省高等学校优秀科技人才支持计划项目(LR2015045); 辽宁省教育厅科学研究一般项目(L2012041).
于霞(1977-),女,辽宁沈阳人,讲师,博士,主要从事智能信息处理等方面的研究.
10.7688/j.issn.1000-1646.2016.05.11
TP 391
A
1000-1646(2016)05-0537-08
*本文已于2016-03-02 16∶45在中国知网优先数字出版. 网络出版地址:http:∥www.cnki.net/kcms/detail/21.1189.T.20160302.1645.024.html