双论域粗糙集在心脏病诊断中的应用∗
2017-09-12钟春梅肖劲森
钟春梅肖劲森
双论域粗糙集在心脏病诊断中的应用∗
钟春梅肖劲森
(广东石油化工学院茂名525000)
论文主要研究双论域粗糙集在心脏病诊断中的应用。首先,对心脏病患者的问卷调查数据进行相关性分析,得到心脏病类型与病症症状的二元关系。其次,利用双论域粗糙集的规则提取算法,分别获得由心脏病类型导出病症症状,以及由病症症状确定心脏病类型的规则。
心脏病诊断;决策规则;双论域粗糙集
Class NumberO159,R311
1引言
粗糙集理论是波兰学者Pawlak在1982年提出的一种处理不完整、不精确知识表达、学习和归纳的方法,是一种刻划不完整性和不确定性的数学工具。其基本思想是在保持分类能力不变的前提下,应用知识重要性的度量来分析数据中不同因素的重要程度,应用知识约简的方法可以剔除数据中冗余成分,保存关键信息,从而进行科学的管理和决策[1~3]。根据心脏病患者所表现出病症症状的不确定性这一特点,本文将利用粗糙集理论在信息处理方面的优势,通过论域拓展,提出了基于双论域粗糙集理论的心脏病诊断的分析方法。
随着信息科学的发展,越来越多学者开始结合数学和计算机的方法[9~10]来对心脏病病症进行研究,不断地提高诊断的精度和速度。程颖和崔运涛[4]通过将主成分析和决策树C4.5算法相结合,得到心脏病诊断的预测模型。代文彬等[5]采用基因表达式编程算法来处理有关心脏病诊断的数据,给出了心脏病的预测模型。徐东等[6]利用粗糙集理论和神经网络相结合的方法,得到心脏病诊断模型。邵峰峰[7]运用最大相关最小冗余特征选择算法选出与心脏病诊断相关的重要特征,并使用支持向量机得到心脏病的诊断模型。
基于一般关系的两个论域上的粗糙集称为双论域粗糙集[8]。与经典粗糙集相比,双论域粗糙集更突出的优点在于规则的提取方面,它不仅可以从条件属性来确定决策规则,还可以通过决策属性来寻找可能的条件。本文通过对某心脏病交流群的心脏病患者进行问卷调查得到98位心脏病患者的数据,随机选取28名患者的数据,结合其心脏病类型通过离散化处理后逐一进行相关性分析,得到双论域下决策属性和条件属性之间的关系矩阵。最后,通过双论域粗糙集规则提取算法,分别获得由心脏病类型导出相应的症状,以及由患者出现的部分症状来确定心脏病类型的规则。
2双论域粗糙集
本节主要简述双论域粗糙集的基本概念、定理以及规则的提取算法,详细见文献[8]。经典粗糙集关系系统为(U,R),其中U为论域,R为U上的等价关系。而双论域粗糙集的信息系统则是包含了两个论域及其关系,具体如下。
定义1:设U和V为两个非空有限论域,R⊆U×V为U到V的二元关系,R′⊆V×U为R的逆关系。∀x∈U,∀y∈V,R和R′的特征函数定义为
设论域U中有m个元素,论域V中有n个元素,利用特征函数定义R的关系矩阵记为
显然R′的关系矩阵为矩阵A的转置A′。如果关系矩阵A中不存在一行或一列元素全为零,则称关系矩阵A为信息矩阵。
为了简单描述,将论域U、V和关系R,R′构成的系统记为信息系统(U,V,R),其中U和V为两个非空的有限论域,R⊆U×V和R′⊆V×U互为逆关系。
定义2:在信息系统(U,V,R)中,∀Y⊆V,论域V到论域U的粗糙集下、上近似为:
若-R′Y≠-R′Y时,则称Y是信息系统(U,V,R)中的论域扩展粗糙集;若-R′Y=-R′Y,则称Y是信息系统(U,V,R)中的论域扩展精确集。
定理1:在信息系统(U,V,R)中,∀Y⊆V,有:
1)Y的双论域正域:P O S(Y)=-R′Y;
2)Y的双论域可能域:PB S(Y)=-R′Y;
3)Y的双论域负域:NE G(Y)=U--R′Y;
4)Y的双论域边界域:BN(Y)=-R′Y--R′Y。
定义3:在信息系统(U,V,R)中,∀X⊆U,论域U到论域V的粗糙集下、上近似为
类似地,也可以得到X的双论域正域、可能域、负域和边界域。
3基于双论域粗糙集的心脏病诊断的实例分析
本节将利用双论域粗糙集理论对随机选取的28名心脏病患者身体出现的11个不同症状的数据进行规则提取,具体流程如图1所示。
图1 基于双论域粗糙集的心脏病诊断分析流程
3.1心脏病类型与病症症状系统的构建
下面将以患者表现出的焦虑、胸部不适、咳嗽、眩晕、疲劳、恶心或食欲不振、身体其他部位疼痛、脉搏快速或者不规则跳动、出汗、身体肿胀、身体虚弱共11个症状作为条件属性(U),心脏病类型作为决策属性(V)来建立如表1所示的心脏病类型与病症症状的系统。
根据调查问卷结果,将患者病症症状按表1中1、2、3所对应的行的规则进行离散化处理,获得如表2离散化的心脏病类型与病症症状系统。
3.2对心脏病类型与各个症状逐一进行相关性分析
利用SPSS软件对心脏病类型(yj,j=1,2,3,4)与各个不同症状(bi,i=1,2,3,…,33)逐一进行相关性分析,记bi与yj的相关系数为CORij,并利用EXCEL中的if函数和abs函数对其数据进行简化:若CORij绝对值大于等于0.5,则认为心脏病类型对条件属性的选取有关系,否则认为没有关系。由定义1知,有关系时用1表示,反之用0表示。故心脏病类型与条件属性之间的信息矩阵A的转置为
表1 心脏病类型与病症症状系统
表2 离散化的心脏病类型与病症症状系统
3.3双论域粗糙集的规则提取
下面通过利用定理1的规则提取方法,对由心脏病类型导出病症症状的规则以及反过来由病症症状确定心脏病类型的规则进行提取。
3.3.1由心脏病类型导出病症症状的规则
若取决策属性集合为Y={y4},由定义2得下近似-R′Y={b18},′Y={b1,b2,b4,b5,b6,b8,b9,b10,b11,b13,b14,b15,b17,b18,b19,b20,b21,b22,b23,b24,b26,b29,b30,b32},由定理1得:PO S(Y)=-R′Y={b18},N EG(Y)=U-′Y={b3,b7,b12,b16,b25,b27,b28,b31,b33},即心脏病类型为肺源性心脏病时,由双论域粗糙集的正域、负域分别提取出如下的两条确定性规则:
由正域提取的确定性规则1:若心脏病类型为肺源性心脏病时,则心脏病患者一定会经常感到恶心或者食欲不振。
由负域提取的确定性规则2:若心脏病类型为肺源性心脏病时,则患者一定不会出现以下症状:经常感到焦虑、基本不咳嗽、经常眩晕、基本不感到恶心或者食欲不振、不出汗、经常出汗、身体基本不肿胀、身体基本不虚弱或者经常虚弱。
3.3.2由病症症状确定心脏病类型的规则
若选取条件属性集合为X={b5,b8,b9,b11,b18,b30},由定义3得下近似X={y4},RˉX={y1,y2,y3,y4},由定理1得:P O S(X)=X={y4},N EG(X)=U-RˉX=∅,即若心脏病患者偶尔感到胸部不适、偶尔或经常咳嗽、偶尔眩晕、经常感到恶心或食欲不振以及经常感到身体肿胀时,由双论域粗糙集的正域、负域分别提取出如下的两条确定性规则:
由正域提取的确定性规则1:若心脏病患者偶尔感到胸部不适、偶尔或经常咳嗽、偶尔眩晕、经常感到恶心或者食欲不振、经常感到身体肿胀时,则一定可推出患者的心脏病类型肺源性心脏病。
由负域提取的确定性规则2:若心脏病患者偶尔感到胸部不适、偶尔或经常咳嗽、偶尔眩晕、经常感到恶心或者食欲不振、经常感到身体肿胀时,则一定可推出患者不可能不患有心脏病。
4结语
粗糙集理论对于处理复杂系统较为有效,它无需提供问题所需处理的数据集合之外的任何先验信息,充分体现了数据的客观性。基于双论域粗糙集的推理无需显示的领域知识模型,避免了知识获取瓶颈,而且系统开放,易于维护、推理速度快。通过构建心脏病类型与相关病状的指标体系,对双论域粗糙集的上、下近似集进行计算,既可以根据心脏病的类型来寻找一些病症的症状,又可以根据心脏病患者出现的病症症状来确定患者患有的心脏病类型。医生根据这些规则,不但可以降低对心脏病的误诊和漏诊,而且能够提升诊断的速度和精度。此外,本文的研究方法对其他疾病的诊断研究也具有一定的参考价值。
[1]Pawlak Z.Rough sets[J].International journal of parallel programming,1982,11(5):341-356.
[2]张文修,吴伟志,梁吉业,等.粗糙集理论与方法[M].北京:科学出版社,2001:19-23.
ZHANG Wenxiu,WU Weizhi,LIANG Jiye,et al.Rough Set Theory and Method[M].Beijing:Science Press,2001:19-23.
[3]胡清华,于达仁.应用粗糙计算[M].北京:科学出版社,2012:56-60.
HU Qinghua,YU Daren.Application of Rough Set[M]. Beijing:Science Press,2012:56-60.
[4]程颖,崔运涛.基于PCA的决策树算法在心脏病诊断中的应用[J].计算机与数字工程,2009,37(10):171-174.
CHENG Ying,CUI Yuntao.Application of Decision Tree Algorithm Based on PCA in the Application of Heart Dis⁃ease Diagnosis[J].Computer&Digital Engineering,2009,37(10):171-174.
[5]代文彬,张运陶,高兴玉.基因表达式编程在心脏病诊断中的应用[J].生物医学工程学杂志,2009,26(1):39-41.
DAIWenbin,ZHANG Yuntao,GAO Xingyu.The Applica⁃tion of Gene Expression Programming in the Diagnosis of Heart Disease[J].Journal of Biomedical Engineering,[J].电子测试,2008(2):18-22.
ZHU Yanqin,YANG Xianlin.Several improved methods based on waveletthreshold denoising[J].Electronic Test⁃ing,2008(2):18-22.
[11]陶红艳,秦华峰,余成波.基于改进阈值函数的小波域去噪算法的研究[J].压电与声光,2008,30(1):93-95.
TAO Hongyan,QIN Huafeng,YU Chengbo.De-noising Algorithm Based on Improved Threshold Function in Wavelet Domain[J].Piezoelectric and Acousto-optic,2008,30(1):93-95.
[12]赵瑞珍,宋国乡,王红.小波系数阈值估计的改进模型[J].西北工业大学学报:自然科学版,2001,19(4):625-628.
ZHAO Ruizhen,SONG Guoxiang,WANG Hong.An Im⁃proved Modelof Threshold Estimation for Wavelet Coeffi⁃cients[J].Journalof Northwestern Polytechnical Univer⁃sity:Natural Science,2001,19(4):625-628. 2009,26(1):39-41.
[6]徐东,陈彩霞,王翰虎.RS-LMBP神经网络在心脏病诊断中的应用研究[J].计算机仿真,2011,28(2):236-239.
XU Dong,CHEN Caixia,WANG Hanhu.Research on Heart Disease Diagnosis Basd on RS-LMBP Neural Net⁃work[J].Computer Simulation,2011,28(2):236-239.
[7]邵峰峰.数据挖掘技术在心脏病诊断建模中的应用研究[J].福建电脑,2015,(2):63-74.
SHAO Fengfeng.Application of Data Mining Technology in the Diagnosis of Heart Disease[J].Fujian Computer,2015,(2):63-74.
[8]阎瑞霞,吴忠,郑建国.粗糙集的论域扩展理论及在专家系统中的应用[M].北京:清华大学出版社,2013:95-107.
YAN Ruixia,WU Zhong,ZHENG Jianguo.Universe Ex⁃tension of Rough Setand Its Applications in Expert System[M].Beijing:Science Press,2013:95-107.
[9]丁保淼,张运陶,高兴玉.基于c-均值聚类的粗糙集神经网络在心脏病诊断中的应用[J].生物数学学报,2007,22(2):353-359.
DING Baomiao,ZHANG Yuntao,GAO Xingyu.The Appli⁃cation of Rough Set-Neural Network Based on c-Means Clustering in Heart Disease Diagnosation[J].Journal of Biomathematics,2007,22(2):353-359.
[10]史爱松,张秉森.基于粗糙集和BP神经网络的心脏病病症诊断方法[J].青岛大学学报(自然科学版),2005,18(3):60-62.
SHIAisong,ZHANG Bingsen.Method of Cardiopathy Di⁃agnosis Based on Rough Sets Theory and Neural Network[J].Journal of Qingdao University(Natural Science),2005,18(3):60-62.
Application of Rough Setover Dual-Universes in the Diagnosis of Heart Disease
ZHONG Chunmei XIAO Jinsen
(Guangdong University ofPetrochemical Technology,Maoming 525000)
This paper mainly studies the application ofrough set over dual-universes in the diagnosis of heartdisease.First⁃ly,after analyzing the date got from questionnaire,the binary relations between the different types of heart disease and symptoms are established.In addition,two types of rules are obtained by using the extraction algorithm of the rough set over dual-universes:one is to use the differenttypes ofheartdisease to deduce the corresponding symptoms,the other is converse.
diagnosis ofheartdisease,decision rules,rough setoverdual-universes
O159,R311
10.3969/j.issn.1672-9722.2017.08.007
2017年3月5日,
2017年4月17日
广东省高等学校优秀青年教师培养计划项目(编号:YQ2015117);广东省青年创新人才项目(编号:2014KQNCX202);广东省大学生创新创业训练计划项目(编号:201511656007)资助。
钟春梅,女,研究方向:粗糙集。肖劲森,男,博士,副教授,研究方向:粗糙集。