关联规则技术在冠心病电子病历中的应用
2015-03-13冯思佳杨美洁赵文龙
李 准 冯思佳 杨美洁 赵文龙
(四川省内江市市中区人民医院信息科 内江641000) (重庆医科大学附属大学城医院 重庆401331) (重庆医科大学信息管理系/图书馆 重庆400016)
关联规则技术在冠心病电子病历中的应用
李 准 冯思佳 杨美洁 赵文龙
(四川省内江市市中区人民医院信息科 内江641000) (重庆医科大学附属大学城医院 重庆401331) (重庆医科大学信息管理系/图书馆 重庆400016)
通过电子病历探讨冠心病检查检验结果与用药之间的关联性,运用SQL数据库技术对数据进行预处理,使用关联规则技术挖掘检查检验结果与用药之间的关联规则,为针对性地制定冠心病临床诊疗方案提供参考。
关联规则;冠心病;电子病历;数据挖掘
1 引言
近年来,随着大型医院信息管理系统的发展,电子病历数据日益增多,因此探索科学实用的数据挖掘技术,在海量电子病历数据中发现有价值的规则,为临床专家疾病诊治和科研提供科学依据,提升诊治水平,具有重大意义和广阔前景。关联规则是关联分析的关键技术之一,关联规则的置信度和支持度是判断规则有效性和实用性的常用指标。此外, Apriori算法是数据挖掘关联规则技术的核心算法,一般分为两个阶段,即寻找频繁项集和依据频繁项集产生关联规则[1-7]。本文在聚类分析结果的基础上,以冠心病病人的电子化检查检验和药品医嘱为研究对象,采用关联分析中的关联规则技术对冠心病病人检查检验结果与用药情况进行研究。
2 资料与方法
2.1 资料来源
收集重庆某综合医院近年主诊断为“冠状动脉粥样硬化性心脏病”的电子病历741份。经过数据预处理后实际用于分析的有效电子病历为678份。
2.2 研究方法
2.2.1 数据收集 从医院信息系统(HIS)中将主诊断为“冠状动脉粥样硬化性心脏病”的电子病历备份到检查检验、药品医嘱等数据表中。
2.2.2 数据属性选择 通过查阅《临床检验项目分类与代码》、《中华人民共和国药典》及相关文献,咨询心血管疾病专家,选取冠心病常见的50个检查检验项目和51种药品。
2.2.3 数据预处理 利用SQL Server 2008对原始数据进行预处理,包括数据清理、集成、规约和转换。数据转换的目的是为关联规则分析提供适合的数据模型,包括检查检验项目结果数据和使用药品的转换:(1)用4位数对检查检验结果进行编码,第1个数字取值为4,代表检查检验项目,主要是为了与药品项目进行区分;中间两个数字代表检查检验项目变量名称,取值为01-50;第4个数字代表检查检验项目结果水平,取值0、1、2、3,0代表未做该项目,1代表低于正常值范围,2代表在正常值范围内,3代表高于正常值范围。(2)用4位数对使用药品进行编码,第一个数取值为5,代表药品,中间两个数代表药品变量名,为01-51,第4个数取值0、1,0代表未用该药品,1代表使用该药品。
2.3 关联规则分析
结合本研究,规则置信度(Confidence,C)是指出现检查检验结果A的患者中同时服用药品B的概率。置信度高说明检查检验结果A出现则药品B的可能性高,可信度好;反之则可能性低,可信度差。规则支持度(Support,S)是指检查检验结果A和药品B同时出现的概率。支持度高则说明规则普遍性较高,反之则较低。因此,有效和实用的关联规则应具有较高的置信度和较高的支持度。通过马克威分析系统,采用关联分析中关联规则技术的Apriori算法对预处理后的数据进行分析,挖掘冠心病病人检查检验结果与用药之间的关联性。将最小置信度均设为80%,最小支持度从50%逐渐下调,每次间隔10%,但不低于10%,直到出现有效规则
(检查检验结果与用药之间的规则)为止。为了方便描述,将下文中的“高于正常值范围”、“低于正常值范围”分别简化为“高”和“低”,仅截取能反映检查检验结果与用药关系的记录。
3 结果与分析
3.1 稳定性心绞痛病人检查检验结果与用药的关联性
将稳定性心绞痛病人数据导入系统,多次测试发现将最小支持度设为10%时效果最佳。超敏肌钙蛋白T高(4103)、淋巴细胞百分比低(4181)、平均血红蛋白浓度低(4211)、中性粒细胞百分比高(4273)与使用的阿司匹林肠溶(5011)、单硝酸异山梨酯(5021)、硝酸异山梨酯(5111)、阿托伐他汀钙(5221)、丹参酮(5321)关联性较强,共3条强规则,规则支持度相对都较低,说明规则普遍性相对较低。强规则表明,同时出现超敏肌钙蛋白T高(4103)和淋巴细胞百分比低(4181)的病人中有84.62%使用了阿司匹林肠溶(5011);同时出现超敏肌钙蛋白T高(4103)和中性粒细胞百分比高(4273)的病人中有80.43%使用了阿司匹林肠溶(5011);同时出现超敏肌钙蛋白T高(4103)和葡萄糖高(4373)的病人中有86.05%使用了阿司匹林肠溶(5011),见表1。
3.2 急性心肌梗死(无充血型) 病人检查检验结果与用药的关联性
将急性心肌梗死(无充血型)病人数据导入系统,多次测试发现将最小支持度设为10%时效果最佳。共9条强规则,规则支持度相对都较低,说明规则普遍性相对较低,见表2。
表2 急性心肌梗死(无充血型)强规则
3.3 急性心肌梗死(晕厥型) 病人检查检验结果与用药的关联性
将急性心肌梗死(晕厥型)病人数据导入系统,多次测试发现将最小支持度设为30%时效果最佳。共3条强规则,规则支持度相对较高,均为30.77%,说明规则普遍性相对较高,见表3。
表3 急性心肌梗死(晕厥型)强规则
3.4 急性心肌梗死(发热型) 病人检查检验结果与用药的关联性
将急性心肌梗死(发热型)病人数据导入系统,多次测试发现将最小支持度设为30%时效果最佳。共14条强规则,规则支持度相对较高,说明规则普遍性相对较高,见表4。
表4 急性心肌梗死(发热型)强规则
续表4
3.5 不稳定性心绞痛病人检查检验结果与用药的关联性
将不稳定性心绞痛病人数据导入系统,多次测试发现将最小支持度设为20%时效果最佳。共6条强规则,规则支持度相对较高,说明规则普遍性相对较高,见表5。
表5 不稳定性心绞痛强规则
3.6 急性心肌梗死(充血性心力衰竭型) 病人检查检验结果与用药的关联性
将急性心肌梗死(充血性心力衰竭型)病人数据导入系统,多次测试发现将最小支持度设为20%时效果最佳。共13条强规则,规则支持相对较高,均大于20%,说明普遍性相对较高,见表6。
表6 急性心肌梗死(充血性心力衰竭型)强规则
3.7 急性心肌梗死(不明显充血性心力衰竭型) 病人检查检验结果与用药的关联性
将急性心肌梗死(不明显充血性心力衰竭)病人数据导入系统,多次测试发现将最小支持度设为20%时效果最佳。共7条强规则,规则支持度相对较高,说明规则普遍性相对较高,见表7。
表7 急性心肌梗死(不明显充血性心力衰竭型)强规则
3.8 急性心肌梗死(营养不良型) 病人检查检验结果与用药的关联性
将急性心肌梗死(营养不良型)病人数据导入系统,多次测试发现将最小支持度设为30%时效果最佳。共4条强规则,规则支持度相对较高,均为30.23%,说明普遍性相对较高,见表8。
表8 急性心肌梗死(营养不良型)强规则
4 讨论
4.1 药品的机制和作用
对强关联规则中涉及的药品机制和作用进行分析,以便对规则的价值做出正确的判断。阿司匹林是解热镇痛抗炎药物,属于非选择性环氧酶(COX)抑制药,临床上主要用于解热镇痛及抗风湿和抑制血小板的形成[8]。本研究中将阿司匹林肠溶液用于防止血栓形成,以治疗冠心病。丹参酮是抗心绞痛药物,因其含丹参,所以具有良好的抗心肌缺血的作用,临床上主要应用其来改善缺血、缓解胸闷及心绞痛等症状[8]。环磷腺苷是抗心绞痛药物,临床上主要用于治疗心绞痛、心肌梗死、心肌炎及心源性休克,改善心悸、气急、胸闷等症状[9-10]。硝酸甘油是硝酸酯类药物,具有扩张体循环血管及冠状血管的作用,是临床上防止心绞痛最常用的药物。硝酸异山梨酯(消心痛)作用与硝酸甘油相似,但作用弱且慢,单硝酸异山梨酯在临床上的应用与硝酸异山梨酯相似[8]。
4.2 关联规则可用性
(1)冠心病患者白细胞、中性粒细胞比例及中性粒细胞与淋巴细胞比值(N/L)均高于正常人对应值[11],中性粒细胞百分比高或淋巴细胞百分比低都可以导致N/L值高。因此,稳定性心绞痛强关联规则中的第1、2条归为已被证实的关联规则,第3条归为潜在价值的关联规则。(2)红细胞分布宽度(RDW)是预测冠心病危险的标志物[12-13]。文献报道使用奥美拉唑后血清肌酐将升高[14]。同时也有研究表明白蛋白、肌酐、尿酸是冠心病不容忽视的又一危险因素[15]。乳酸脱氢酶(LDH)也是急性心肌梗死(AMI)的特异性指标。因此将急性心肌梗死(无充血型)强关联规则中的第2条归为已被证实的关联规则,第3、4、6、7、8、9条归为潜在价值的关联规则,第1、5条规则归为无用的关联规则。(3)血红蛋白升高可能是冠心病的危险因子之一[16],而本研究中出现平均血红蛋白浓度低。因此将急性心肌梗死(晕厥型)的3条强规则全部归为潜在价值的关联规则。 (4)通过咨询心血管疾病专家及查阅文献,白细胞高时使用左氧氟沙星的原因是其他系统发生感染。因此将急性心肌梗死(发热型)强规则中的第1、2、3、4、5、6、7、9、10、11、12、13条归为已被证实的关联规则,第8、14条归为潜在价值的关联规则。(5)结合前面的分析过程及相关论著,将不稳定性心绞痛强规则中的第2条归为已被证实的关联规则,第1、3、4、5、6条归为潜在价值的关联规则;将急性心肌梗死(充血性心力衰竭型)强规则中的第1、2、4、5、12、13条归为已被证实的关联规则,第3、6、7、8、9、10、11条归为潜在价值的关联规则;将急性心肌梗死(不明显充血性心力衰竭型)强规则中的第3、6条归为已被证实的关联规则,第1、2、4、5、7条归为潜在价值的关联规则;将急性心肌梗死(营养不良型)的4条强规则全部归为已被证实的关联规则。
5 结语
通过关联规则分析发现,在59条强规则中,28条为已被证实的关联规则,29条为潜在价值的关联规则,2条为无用的关联规则。因此57条强规则将对针对性地制定冠心病诊疗方案起指导意义。
1 薛薇.Clementine数据挖掘方法及应用[D].北京:电子工业出版社, 2010.
2 张晗,任志国,张健,等.基于主题词关联规则的医学文本数据库数据挖掘的尝试[J].医学信息学杂志,2008,29(1):32-35.
3 郑银丽,相秉仁,赵国明,等.关联规则技术在医药零售业药品营销组合中的应用[J].医学信息学杂志,2011,32(4):55-58.
4 吴炜,杨梅瑰,唐飞岳,等.基于数据挖掘技术的辅助医疗诊断研究[J].医学信息学杂志,2010,31(12):22-26.
5 魏鲁霞.数据挖掘技术在药品疗效上的应用[J].医学信息学杂志,2010,31(4):40-43.
6 王春雨,王立准,魏瑜帅,等.数据挖掘在结构化电子病历中的应用[J].医学信息学杂志,2014,35(3):31-33.
7 石晓敬.数据挖掘及其在医学信息中的应用[J].医学信息学杂志,2013,34(5):2-6.
8 杨宝峰.药理学[M].北京:人民卫生出版社,2005.
9 国家药典委员会.《中华人民共和国药典》2010年版[EB/OL].[2014-08-01].http://www.chp.org.cn/cms/about/.
10 夏小莉.注射用环磷腺苷致变态反应3例[J].医药导报, 2012,31(12):1661.
11 张淑琴,王艳,阚耀东.白细胞分类及中性粒细胞与淋巴细胞比值的变化与冠心病病变程度的关系[J].陕西医学杂志,2011,40(12):1669-1671.
12 郑刚.红细胞分布宽度是预测冠状动脉粥样硬化性心脏病危险的标志物[J].中国心血管杂志, 2012,17(3):237-239.
13 杨斌武,张钲,王龙,等.红细胞分布宽度与冠心病患者冠脉病变的关系[J].中国老年学杂志,2011,31(4):568-569.
14 肖科武,刘超群,王国华.奥美拉唑的不良反应[J].新消化病学杂志,1995,3(4):229.
15 金春梅,金基永.血清白蛋白尿素氮肌酐水平与冠心病的相关性初探[J].现代医药卫生, 2010, (19):2912-2914.
16 魏玲,杨丽霞,王先梅,等.冠心病患者外周血红蛋白含量变化的临床意义[J].中国微循环, 2004,8(1):30-32
Application of Association Rules Technology in Electronic Medical Records for Coronary Heart Disease
LIZhun,CentralPeople′sHospitalofNeijiangCityinSichuanProvince,Neijiang641000,China;FENGSi-jia,University-townHospitalofChongqingMedialUniversity,Chongqing401331,China;YANGMei-jie,ZHAOWen-long,InformationManagementDepartment/LibraryofChongqingMedicalUniversity,Chongqing400016,China
The paper discusses the association between coronary heart disease examination results and medication status through electronic medical records, carries out pretreatment for the data through SQL database technology, mines the association rules between examination results and medication status, providing references for formulating coronary heart disease clinical diagnosis and treatment plan.
Association rules; Coronary heart disease; Electronic Medical Records(EMR); Data mining
2014-09-26
李准,硕士,初级职称,发表论文2篇;通讯作者:赵文龙,教授。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.01.013