粗糙集和遗传算法在心脑血管慢性病中的应用研究
2017-04-05黄宪芳
【摘要】 目的:通过现有数据分析心脑血管慢性病的主要影响因素。方法:选取2015年出院诊断中包含E78(高脂血症)、I10-I15(高血压)和E10-E14(糖尿病)的831条出院患者信息。从基本情况、生活状况、生活习惯三方面分析影响心脑血管慢性病的危险因素,建立影响因素与身体健康指数之间的关系决策表,结合粗糙集和遗传算法,去除决策表中的冗余。结果:找到影响心脑血管慢性病的主要影响因素有年龄、学历、饮酒及肥胖。结论:患有高血脂症、高血压和糖尿病的患者无论病情如何,其生活习惯、肥胖均影响心脑血管慢性病的发生,通过数据验证表明算法对分析慢性病的影响因素研究可行,可以为加强慢性病的防治工作提供有利的决策依据。
【关键词】 心脑血管慢性病; 粗糙集; 遗传算法; ICD-10
Study on the Application of Rough Set and Genetic Algorithm in Cardiovascular and Cerebrovascular Diseases/HUANG Xian-fang.//Medical Innovation of China,2017,14(06):135-138
【Abstract】 Objective:Through the existing data to analyze the main influencing factors of cardiovascular and cerebrovascular diseases.Method:831 patients discharged from hospital in 2015 were selected,including E78 (hyperlipidemia),I10-I15 (high blood pressure) and E10-E14 (diabetes).From the basic situation,living conditions,living habits influence analysis of cardiovascular risk factors for chronic diseases,the relationship between the establishment of decision table of influence factors and health index,combining genetic algorithm and rough set,remove redundant decision table.Result:The main influencing factors of cardiovascular and cerebrovascular diseases were age,education,drinking and obesity.Conclusion:Patients with hyperlipidemia,hypertension and diabetes,regardless of their condition,their habits,obesity,cardiovascular and cerebrovascular diseases are affected by the occurrence of chronic,the results show that the algorithm is feasible for analyzing the influencing factors of chronic diseases,and can provide a favorable basis for the prevention and treatment of chronic diseases.
【Key words】 Cardiovascular and cerebrovascular diseases; Rough set; Genetic Algorithm; ICD-10
First-authors address:The Peoples Hospital of Zhengzhou,Zhengzhou 450000,China
doi:10.3969/j.issn.1674-4985.2017.06.038
慢性病是指慢性非传染性疾病,具有起病隱匿、病程长、病情迁延不愈等特点,一旦防治不及时,将会造成经济、生命等方面的巨大危害。慢性病主要指的是心脑血管疾病、糖尿病、恶性肿瘤、慢性阻塞性肺部疾病、精神异常和精神病等为代表的疾病。2015年4月10日国家卫计委发布的《中国疾病预防控制工作进展(2015)报告》中,用大量翔实的数据介绍我国疾病预防控制工作现状,报告中指出脑血管病、恶性肿瘤等慢性疾病已成为主要死因,慢性病导致的死亡人数已占到全国总死亡人数的86.6%,而导致的疾病负担占总疾病负担的近70%[1]。本文主要研究的是心脑血管疾病,包括冠心病、脑卒中等。此类慢性疾病的影响因素多种多样,如何从医院的海量数据中挖掘出有利于分析心脑血管疾病引起的信息是本次实验的关键问题。
粗糙集算法是一种刻画不完整性和不确定性的数学工具,能有效分析不精确、不一致、不完整等各种不完备的信息,还可除去信息数据中的冗余信息而保持原有的分类能力不变。遗传算法是一种通过模拟自然进化过程搜索最优解的方法,具有局部随机搜索能力,又可维持群体的多样性。本文首先对造成心脑血管慢性病的原因和因素进行分析,建立反映影响因素和身体健康状况之间的关系决策表,提出利用决策粗糙集和遗传算法相结合的属性约简方法,去除决策表中冗余规则,为防治心脑血管慢性病提供科学的决策依据。
1 心脑血管慢性病的影响因素分析
心脑血管慢性病是威胁人类的一种常见病,具有发病率高、死亡率高、致残率高、并发症多的特点[2]。目前,我国心脑血管慢性病患者已超过2.7亿人。慢性疾病的发病率升高、发病人群低龄化是多种因素共同作用的结果。一方面,慢性疾病会受到先天遗传因素的影响,另一方面,人们的饮食习惯、生活习惯等后天因素也会引起慢性疾病的发生。通过调查分析,影响心脑血管慢性病的主要因素:基本情况(性别、年龄、体重、家族病史等都影响慢性疾病的患病情况);生活状况(收入来源是否稳定,生活满意度影响慢性疾病);生活习惯(吸烟、喝酒对慢性疾病的影响不可忽视)等。
2 粗糙集算法和遗传算法的理论介绍
2.1 粗糙集 (1)定义1:四元组S=(U,R,V,f)是一个决策表系统,其中,U是论域,是对象的有限集合;R=C∪D,C∩D=φ,其中,R是属性集合,C是条件属性集合,D是决策属性集合;表示属性值域集合,是属性b的值域;f表示信息函数,即f:U×R→V,指定U中每一个对象b的属性值[3]。(2)定义2:IND(A)表示A的一族等价关系,其中,a∈A,若IND(A)=IND(A-{a})则称a为A中不必要的;否则称a为A中必要的。如果每一个a∈A都为A中必要的,则称A为独立的;反之A为依赖的。设Q∈P,若Q是独立的,且IND(Q)=IND(P),则称Q为P的一个约简。(3)定义3:决策属性对条件属性的依赖程度:,其中,d是决策属性,c是条件属性,表示U的基数,是d关于c的正域。
2.2 遗传算法 (1)染色体编码。采用长度为l(l表示条件属性的个数)的二进制字符串来表示个体编码,每一位对应一个条件属性。例如:(c1,c2,…,cl),若个体中包含第i(i=1,2,…,l)个属性,则ci=1;否则ci=0。(2)适应度函数。,其中,l表示染色体r的长度,lr表示染色体r中基因为1的个数,γC(d)表示决策属性d对条件属性c的依赖程度。(3)遗传算子。①选择。通过轮盘赌方法来实现,先计算每个染色体r的适合度值F(ri),得到群体的适合度之和,之后计算每个染色体的选择概率,即,得出每个被包括的染色体ri的累积概率qi,且qi=。如果r 3 基于粗糙集算法和遗传算法的心脑血管慢性病影响因素分析 3.1 心脑血管慢性病影响因素信息表的确定 3.1.1 疾病数据来源 数据取自本院2015年出院患者信息,由于心脑血管疾病是心脏血管和脑血管疾病的统称,泛指由高脂血症、高血压、糖尿病等所导致的心脏、大脑及全身组织发生的缺血性或出血性疾病,所以提取数据的原则是根据国际疾病分类编码ICD-10导出出院诊断中包含E78(高脂血症)、I10-I15(高血压)和E10-E14(糖尿病)的831条出院患者信息[5]。判断患者是否是心脑血管慢性病的依据原则是其出院诊断的主要诊断是否在心脑血管疾病ICD-10的编码范围内,其中心脑血管疾病ICD-10编码包括:I21(急性心肌梗死)、I22(随后性心肌梗死)、I46(心脏性猝死)、I60(蛛网膜下腔出血)、I61(脑出血)、I63(脑梗死)、I64(未分类脑卒中)[6]。 3.1.2 疾病影响因素信息表 将831组患者出院数据作为论域,将心脑血管慢性病的影响因素作为条件属性集,将是否患有心脑血管慢性病作为决策属性集。确定患者性别、年龄、职业、学历、吸烟情况、饮酒情况、肥胖、家族史等8个因素为条件属性[7],其中肥胖是由身高和体重数据得出的,衡量标准是采用临床用体重指数(BMI)[8-9]:<18.5 kg/m2为体重过低,18.5~23.9 kg/m2为正常范围,≥24 kg/m2为超重,≥28 kg/m2为肥胖,本文中规定正常范围属于达标,体重过低、超重、肥胖均为超标。8个影响因素分别用c1,c2,…,c8表示。心脑血管慢性病患病情况D为决策属性。通过对原始数据的预处理,包括数据的除燥、离散化、归一化,建立心脑血管慢性病影响因素决策表,见表1。此处考虑的8个因素是影响心脑血管慢性病的主要因素,而其他的一些次要因素被忽略。 注:c1,0表示女性,1表示男性;c2,0表示年龄0~45岁,1表示45~70岁,2表示70岁以上;c3,0表示管理人员,1表示一般职员,2表示其他;c4,0表示大专及以上,1表示初高中,2表示小学及以下;c5,0表示不吸烟,1表示吸烟;c6,0表示不饮酒,1表示饮酒;c7,0表示体重达标,1表示体重超标;c8,0表示无家族史,1表示有家族史;D,0表示未有慢性病,1表示患有慢性病 3.2 属性约简算法 属性的约简问题属于数据NP完全问题,基于遗传算法约简删除冗余条件属性得到简化决策表的具体算法步骤如下:输入:S=(U,A,V,f)为一个决策信息表,A=C∪D,C是条件属性,D是决策属性。输出:S的所有约简。Step 1,算出决策属性D关于条件属性C的支持度γC(D)。Step 2,令reduct(C)=φ,逐一去掉个属性ci∈C,若γC-{ci}(D)≠γC(D),则reduct(C)=reduct(C)∪{ci};若γreduct(C)(D)= γC(D),则终止计算,其中,reduct(C)表示属性C的约简;否则进行Step 3。Step 3,随机产生p个长度为l(条件属性的个数)的二进制串组成个体初始种群:对应位置选取0或1,并计算出初始群体中每个个体的适应度。Step 4,根据轮盘赌的方法选择个体,通过交叉概率pc和变异概率pl产生新的群体,并且在变异时保持该属性对应的基因位不发生变异。Step 5,计算新的群体中每个个体的适应度。Step 6,根据最优保存策略将最优个体保留至新的群体中并根据策略保存。Step 7,判断连续t代的最优个体的适应值是否不再提高,如果是,终止计算并输出最优个体,否则,转至Step 4[10]。
3.3 心脑血管慢性病影响因素决策规则生成 心脑血管慢性病的影响因素规则是由属性约简去除冗余条件属性及重复信息得到简化信息表而得到。
4 结果
选取pc=0.7,pl=0.01,t=100,得到的最优解为0101011,即c2、c4、c6、c7四个属性被保留,从而得到约简后的决策规则,除患者患有高脂血症、高血压和糖尿病疾病外,患者年龄在0~45岁,学历在大专及以上,体重达标的饮酒者未患有心脑血管慢性病;患者年龄在0~45岁,学历在小学及以下,体重达标的不饮酒者未患有心脑血管慢性病;患者年龄在45~70岁,学历在大专及以上,体重超标的不饮酒者患有心脑血管慢性病;患者年龄在70岁以上,学历在初高中,体重超标的不饮酒者患有心脑血管慢性病;患者年龄在45~70岁,学历在初高中,体重超标的饮酒者患有心脑血管慢性病,从而得出影响心脑血管慢性病的主要因素是年龄、学历、饮酒以及肥胖。并得出两个强规则,年龄在45岁以下,学历在小学及以下,体重在正常范围内的饮酒者没有心脑血管慢性病;年龄在45岁以上,学历在中学及以上的体重超标者有心脑血管慢性病。
5 讨论
为验证结果的准确性,对2016年上半年出院诊断中包含E78(高脂血症)、I10-I15(高血压)和E10-E14(糖尿病)的387条出院患者信息进行验证,其中心脑血管慢性病患者83例,未患心脑血管病的患者有304例。验证结果是条件满足年龄在45岁以下,学历在小学及以下,体重在正常范围内的饮酒者共有52例,其中43例患者是心脑血管慢性病患者;条件满足年龄在45岁以上,学历在中学及以上的体重超标患者共有175例,其中130例未患心脑血管慢性病。
根据出院数据提取出的有效规則,得出患有高血脂症、高血压和糖尿病的患者无论病情如何,其生活习惯和肥胖都影响心脑血管慢性病的发生,这为防治心脑血管慢性病提供决策依据,可根据不同情况采取不同的应对措施,真正做到心脑血管慢性病的防治。对于生活习惯方面,要鼓励人们多参加一些适宜的社会活动,既保持身心健康,也可以调节不良情绪。对于体重控制方面,可以咨询营养师改善饮食结构,通过合理饮食来控制热量的摄入,尤其是脂肪等的摄入,从而降低心脑血管慢性病的发生率。
参考文献
[1]中华人民共和国国家卫生和计划生育委员会.中国疾病预防控制工作进展(2015年)[EB/OL].http://www.nhfpc.gov.cn/jkj/s7915v/201504/d5f3f871e02e4d6e912def7ced719353.shtml
[2]王丽晔,吴寿岭,杨晓利,等.糖尿病人群中高敏C 反应蛋白与新发心脑血管事件关系的前瞻性研究[J].中华心血管病杂志,2011,39(8):749-754.
[3]叶明全,胡学刚,胡东辉,等.基于属性值分类的多层次粗糙集模型[J].模式识别与人工智能,2013,26(5):481-490.
[4]范明.孟晓峰,译.数据挖掘概念与技术[M].北京:机械工业出版社,2003:185-222.
[5]北京协和医院世界卫生组织国际分类家族合作中心编译.疾病和有关健康问题的国际统计分类,第十次修订本,第一卷,类目表[M].2版.北京:人民卫生出版社,2008.
[6]刘英,罗兴林,陈睦虎,等.高血压急症心脑血管事件相关因素分析[J].中国医药导报,2015,12(11):73-74.
[7]白彝华,潘毅,蒋红樱,等.云南地区腹膜透析患者发生心脑血管事件的危险因素分析[J].昆明医科大学学报,2016,37(4):96.
[8]郭跃伟,郭丽君,顾颜胜,等.农村正常高值血压及高血压居民的心脑血管危险因素分布特征[J].重庆医学,2014,43(23):3012.
[9]赵琳,李志剑.颈动脉粥样硬化与心脑血管危险因素的相关性分析[J].中西医结合心脑血管病杂志,2015,13(9):1114-1115.
[10] 马吉明,黄宪芳,蒋亚平,等.粗糙集理论和遗传算法在预防城市道路交通拥堵中的应用[J].郑州轻工业学院学报:自然科学版,2012,27(1):62-64.
(收稿日期:2016-12-29) (本文编辑:张爽)