基于关联规则的偏瘫相关因素研究
2018-01-07刘春玲
前沿:
近二十余年来,随着我国卫计委对医疗信息化水平的要求越来越高,国内很多医院建立了自己的信息系统[1]。医院决策层每天面对这些海量的医疗数据,如何能够将隐藏在后面的有效信息挖掘、展现出来以辅助管理决策,早已成为了一个急需解决的问题。为了将信息系统中的有价值信息运用到实际运用中来,数据挖掘(Data Mining)技术应运而生[2]。
随我国国民生活水平的提高,国民饮食结构的不合理性、工作压力大、生活节奏快,导致脑卒中的病人越来越多,甚至逐渐表现出年轻化趋势。影响偏瘫疾病预后的因素多种多样,通过数据挖掘技术发现影响偏瘫疾病的结构化数据的主要指标以及各指标间的关联关系对诊治偏瘫疾病具有重要的意义。
1 数据来源
本文通过一家康复医院中时间跨度为 2017年1月—2017年12月的诊断为脑卒中的出院病人的信息系统中的结构化病例数据,通过删除了不含有偏瘫相关诊断、康复治疗非为0的记录,共得到2020条记录。
2 数据预处理
通过删除缺失数据(删除关键变量如诊断、转归、康复治疗费用为空的记录)、 噪声处理(一些重复性数据,以及治疗后退费、入院后当天又退院等情况的数据,予以忽略不计)、缺省值的处理(非关键变量的值缺省,予以忽略不计)、逻辑错误数据的处理(包含出院年龄小于入院年龄、出院日期小于入院日期等逻辑错误的记录,予以清除不计)、数据变换即数据归一化措施,得到了样本数据。
样本数据中含有以下30余个指标,分别为性别、年龄、婚姻状态、入院护理级别、入院病情级别、入院白细胞、入院血沉、入院乳糜微粒、入院极低密度脂蛋白、低密度脂蛋白、入院高密度脂蛋白、入院血小板计数、入院凝血酶原、入院活化部分凝血活酶时间、入院纤维蛋白原、入院凝血酶原激活时间、入院ADL评分得分、输液药品(非溶质)、口服药品、入院头颅CT值、入院头颅核磁值、出院白细胞值、出院血生化、出院入院血小板计数、出院凝血酶原、出院活化部分凝血活酶时间、出院纤维蛋白原、出院凝血酶原激活时间、出院乳糜微粒、出院极低密度脂蛋白、出院低密度脂蛋白、出院高密度脂蛋白、出院头颅CT值、出院头颅核磁值、出院护理级别、出院病情、住院时间长度、出院ADL评分得分等。
3 实验研究
3.1 PCA降维研究
对上述经归一和分组后的数据进行特征提取,以Anaconda为实验平台,以Python3.7、Microsoft Office 2010为工具进行了研究。
通过PCA数据降维,从具有27个特征的本数据中提取到了4个主要指标,实现了11:1。关键指标特征及贡献率:
3.2 基于Apriori算法研究
上述4個指标(入院CT、入院APTT、入院ADL、入院LDL)数据经离散化处理后,进行基于Apriori算法的关联规则研究,实验得到10条关联规则。经医疗人员无意义实际应用意义的关联规则后,得到了2个主要关联规则:A关联规则(入院CT-入院APTT-入院ADL)、B关联规则(入院CT-入院LDL-入院ADL)。该2条关联规则的意义是当入院CT和入院APTT的值、入院CT和入院LDL的值分别在一定范围内(本文不再说明具体研究数据)时,将会导致入院ADL某值的发生。
3.3 研究意义
入院脑CT是诊断偏瘫和推测偏瘫病情的主要检查技术;入院ADL值是判定衡量入院时生活自理能力和反映患者综合性病情的主要指标;部分活化凝血活酶时间(APTT)是用于监控脑卒中病人的出血和凝血情况;低密度脂蛋白(LDL)是导致相关心脑血管硬化、出血、闭塞等疾病的高危因素。
本研究表明,脑CT和部分活化凝血活酶时间(或低密度脂蛋白)是影响病人预后、反映病人脑血管病情的主要指标。
3 总结
因信息系统中的诸多信息数据是非结构化的,如吸烟史、便秘史、既往脑血管病史、自立情况、康复治疗配合情况等仍是非结构化的,本人无法直接获取相关数据,从而导致本研究纳入的影响因子指标体系仍不够全面。本人希望在今后的研究中能够有结构化更全面的数据。
参考文献
[1]张承江.医学数据仓库与数据挖掘.中国中医药出版社,2008.
[2]苗苗苗. 数据挖掘中海量数据处理算法的研究与实现 [D]. 西安: 西安建筑科技大学, 2012.
作者简介:刘春玲,女,汉族,1984年2月出生,作者单位北方工业大学;研究方向数据挖掘。