基于Apriori算法的糖尿病患者用药规律关联规则挖掘分析*
2023-11-30于晓涵
张 庆 李 梦 于晓涵
济宁医学院医学信息工程学院(276826)
数据挖掘(data mining)是应用一系列技术从大型数据库和数据仓库中提取人们事先未知而潜在有用的隐含的信息和知识的过程[1]。常用的数据挖掘方法主要包括决策树、聚类分析、关联规则与关联分析。关联规则挖掘技术是最流行和有效的无监督数据挖掘方法之一,用于从数据库大量存储的数据中提取有用信息,发现数据中项目之间的关系。
在生物医学领域,关联规则分析常用于中药制剂处方用药规律分析[2-4]、穴位配伍规律分析[5]、经典名方用药规律分析[6]、基于电子病历的患者用药规律分析[7]、慢性病共病分析[8]、新型冠状病毒(COVID-19)基因组序列分析[9]、患者高额住院费用分析[10]等。近年来,为全面实施健康中国战略,建立健全电子病历信息化建设工作机制,电子病历中蕴涵的各种临床信息(包括人口统计学、诊断史、药物、实验室检测结果等)越来越丰富,电子病历已成为大规模健康数据分析的重要来源。对电子病历的挖掘分析有助于医学专业人员了解疾病的诊疗过程,确定治疗的有效性。
本文拟通过对糖尿病住院患者电子病历的用药信息进行关联规则分析,探寻其用药规律,挖掘诊疗过程中的核心药物组合及其联合用药信息,以期为临床决策提供参考。
数据来源与研究方法
1.数据来源
本研究选取2020年8月-2021年1月烟台市蓬莱区某三甲医院46090条糖尿病住院患者的用药记录为数据源,合并删减不同时间用药记录的重复冗余信息,整理出501位主要诊断为糖尿病的患者。95.41%的患者不同程度地伴有糖尿病视网膜病变、糖尿病周围神经病变、糖尿病肾病、糖尿病伴多个并发症、冠状动脉粥样硬化性心脏病等合并症。
本文主要对糖尿病住院患者的用药数据进行预处理,去除氯化钠注射液、葡萄糖氯化钠注射液、灭菌注射用水等没有实质意义的用药信息,删除频次、用法、药品规格、用药剂量等字段信息,保留原始病历信息数据中与数据挖掘相关的有效字段,即患者的住院号、用药名称。参照《中国药典》(2015年版)对药物名称进行统一规范处理,如将“盐酸二甲双胍片” “盐酸二甲双胍片(格华止)”统一记作“二甲双胍”, 最终获取诊断记录501条。
2.研究方法
(1)关联规则与关联分析
关联分析是用于发现隐藏在大型数据集中有意义的联系的一种数据挖掘方法[11]。最初用于市场购物篮分析,可用于探查消费者的购买行为记录,以便进行更好的商业决策。大型数据集中所发现的联系常用频繁项集(frequent itemset)或者关联规则(association rule)来表示。
关联规则表示两个项集之间的关系,是形如“X→Y”的蕴含表达式。关联规则常用支持度、置信度与提升度这三个度量指标来衡量。支持度指关联规则在总体中发生的频率,反映规则出现的频繁程度;置信度表示构成关联规则的前项集X发生时,后项集Y的发生概率,即X、Y共同发生的记录数除以X发生的记录总数;提升度表示规则的准确度,是置信度与后项集Y的比值,一般而言,只有当比值大于1时,所产生的规则才有意义[12]。
(2)Apriori算法
Apriori算法是由Agrawal等人提出的[13],采用逐层搜索的迭代方法来完成频繁项集的挖掘工作。k项集用于探索k+1项集。在本研究中将上述通过数据预处理得到的糖尿病用药记录数据构建数据库,扫描数据库,累积每个项的计数,挖掘满足最小支持度的项,找出频繁1项集的集合L1,即治疗糖尿病的高频药物;L1用于找频繁2项集的集合L2,即两种药物的关联规则,L2用于找L3,即三种药物的关联规则,直到不能再找到频繁k项集为止。
结果与分析
将糖尿病的治疗信息进行数据规范后导入书目共现分析系统[14](bibliographic items co-occurrence matrix builder,BICOMB),对药用频次进行统计,生成患者-药物矩阵,导出至excel表格,对数据进行转置,设置真值为T,反之为F,组成药物事实表。将该表导入到SPSS Clementine 12.0源中的“Excel”节点,选取字段选项中的“类型”节点连接到数据源,然后将该节点连接到所构建模型中的“Apriori”节点以及图形中的“网络”节点等,形成数据流;按顺序执行数据流,得到关联规则结果。
1.药物频次统计结果及分析
糖尿病临床用药共涉及263种药物。用药频次较高的药物有门冬胰岛素、硫辛酸、依帕司他、二甲双胍等。其中使用频次大于39的药物有20种,具体结果如表1所示。
表1 糖尿病高频药物频次统计
其中,门冬胰岛素、德谷胰岛素、德谷门冬双胰岛素、地特胰岛素为基础胰岛素类似物,用于治疗糖尿病。二甲双胍、阿卡波糖、达格列净、利拉鲁肽、瑞格列奈分别通过不同的机制达到降低血糖的目的。硫辛酸、依帕司他用于预防、改善和治疗糖尿病并发的神经病变;缬沙坦、缬沙坦氢氯噻嗪、厄贝沙坦氢氯噻嗪用于治疗高血压。由此可见,在糖尿病患者的治疗中,用药以降低血糖并预防治疗其并发症为主。
2.联合用药关联规则
将支持度≥30%的项集视为频繁项集,置信度≥80%的项集视为强规则,分别得到两种药物、三种药物、四种药物及五种药物的关联规则,共计62条。所有规则提升度均大于1,说明所有规则都有意义。其中关联规则的含义表示当“前项”出现时,“后项”可能会出现的药物;“置信度”表示“前项”出现时,“后项”药物出现的概率,表示药物之间比较强的关联关系。
(1)两种药物关联规则与关联分析
通过对糖尿病患者电子病历的用药信息进行关联规则挖掘分析,得到两种药物的关联规则,如表2所示。由表2可知,规则{硫辛酸→门冬胰岛素}在用药记录中出现的频率较高,即支持度高达75.75%,说明治疗糖尿病时,硫辛酸与门冬胰岛素常常联合使用。硫辛酸用于糖尿病周围神经病变引起的感觉异常,门冬胰岛素为速效胰岛素类似物,具有降血糖的作用,两者联合使用,达到治疗糖尿病及其并发症的目的。
表2 两种药物关联规则
规则{甲钴胺→依帕司他}的置信度为96.82%,表示两者之间存在较强的关联关系,从不同的作用机制来延缓糖尿病神经病变的进展和恶化。两种药物从不同的靶点发挥神经保护作用,甲钴胺更倾向于神经细胞的修复和营养,依帕司他则通过抑制高血糖状态下,葡萄糖代谢过程中的有害衍生物对神经细胞的破坏来发挥神经保护作用。
(2)三种药物关联规则与关联分析
通过对糖尿病患者电子病历的用药信息进行关联规则挖掘分析,得到三种药物的关联规则,如表3所示。由表3可知,规则{硫辛酸+门冬胰岛素→依帕司他}的支持度最高,达到64.44%,意味着三者频繁出现在糖尿病患者的治疗过程中,三者联合用于降低血糖并防治糖尿病引发的神经病变。
硫辛酸[15]是一种强有力的抗氧化因子,能够通过抑制脂质过氧化,增加神经营养血管的血流量,提高神经Na+-K+-ATP酶活性,直接清除活性氧簇和自由基,保护血管内皮功能。
依帕司他[16]是一种醛糖还原酶抑制剂,能抑制多元醇通路异常、改善代谢紊乱,有效改善糖尿病神经病变的主观症状和神经传导速度。依帕司他联合甲钴胺、硫辛酸治疗糖尿病神经病变,优于单药治疗。
规则{阿卡波糖+甲钴胺→依帕司他}的置信度最高,达到98.08%,表明三者之间存在很强的关联关系,阿卡波糖为常用的α-糖苷酶抑制剂,主要减小由食物在肠道转化成的葡萄糖被吸收入血液中的速度,从而减少餐后血糖的浓度。
甲钴胺[17]作为活性维生素B12制剂,可以促进神经元内核酸和蛋白质的合成,对髓鞘形成和轴突再生具有显著的促进作用,能够修复损伤的神经细胞,改善神经传导速度。甲钴胺可明显改善糖尿病神经病变患者的临床症状、体征以及神经传导速度,与依帕司他联用可达到较好的治疗效果。
(3)四种药物关联规则与关联分析
通过对糖尿病患者电子病历的用药信息进行关联规则挖掘分析,得到四种药物的关联规则,如表4所示。由表4可知,阿卡波糖、甲钴胺 、硫辛酸、依帕司他、门冬胰岛素、二甲双胍是关联规则中出现的六种药物,也是糖尿病治疗过程中最常出现的药物(表1)。联合用药均是以上几种药物从不同机制降低血糖(阿卡波糖、门冬胰岛素、二甲双胍)与营养神经(硫辛酸、甲钴胺、依帕司他)改善神经病变的药物的组合。
表4 四种药物关联规则
(4)五种药物关联规则与关联分析
通过对糖尿病患者电子病历的用药信息进行关联规则挖掘分析,得到五种药物的关联规则,如表5所示。降糖药物的种类很多,目前认为,可以根据不同种类药物的作用机制和特点,采取联合用药的方式,以达到降糖作用相加、副作用相抵消的效果。许多国家和国际组织制定的糖尿病诊治指南中均推荐二甲双胍作为糖尿病患者控制高血糖的一线用药和药物联合中的基本用药。口服降糖药(阿卡波糖、二甲双胍)联合胰岛素治疗(门冬胰岛素)联合营养神经(甲钴胺、依帕司他、硫辛酸)来达到治疗糖尿病及其并发症的目的。
表5 五种药物关联规则
讨 论
本文通过挖掘分析糖尿病患者的电子病历信息,在501条诊疗用药信息中获得使用频次超过39次的药物20种,联合用药关联规则62则。对药物的关联规律的挖掘多达五种,即5-项集的挖掘分析。在五种药物关联规则中,共涉及二甲双胍、依帕司他、硫辛酸、门冬胰岛素、甲钴胺、阿卡波糖六种药物,说明这些药物属于治疗糖尿病较为固定的联合用药组合。每项组合均含有甲钴胺、依帕司他、硫辛酸、门冬胰岛素,说明糖尿病以降糖治疗、防治糖尿病神经病变为主。
中国2型糖尿病防治指南(2020年版)[18]与糖尿病神经病变诊治专家共识(2021年版)[19]等临床指南强调了联合治疗的重要性以及个体化血糖控制的临床工作原则。指南建议:应用一种降糖药物血糖没有达标时,应该加用第二种和第三种降糖作用机制不同的药物联合应用协助降糖达标。也可以加用胰岛素,常以基础胰岛素起始。对于患者体重指数高、腹型肥胖明显,有心血管并发症的老年人可根据患者指定个体化的血糖控制策略。糖尿病神经病变是糖尿病最常见的慢性并发症。这与对电子病历进行挖掘后得出的结论一致,在得出的关联规则中,主要是降糖联合营养神经的药物组合,在治疗过程中,对于糖尿病的治疗以联合用药控制血糖与防治神经病变相一致。
目前针对糖尿病神经病变的病因和发病机制治疗包括控制血糖、营养神经药物(甲钴胺)、抗氧化应激药物(硫辛酸)、抑制醛糖还原酶活性药物(依帕司他)、改善微循环等。经核验糖尿病诊疗规范等临床指南,文中对电子病历进行关联挖掘分析后得出的结论与临床指南中关于该病的诊疗规范相符合,由此可管窥糖尿病诊疗过程中的联合用药信息,为医学专业人员了解疾病的诊疗过程及用药规律提供了不同视角与可行性路径。
本文通过数据挖掘技术中的关联规则方法从大量电子病历数据中对糖尿病住院患者的用药信息进行挖掘分析,获得其诊疗过程中的高频药物以及使用较为固定的联合药物组合。因数据量不支持,本文并未根据患者合并症的不同进行分层用药规律的分析,存在一定局限。在后续研究中将结合主要合并症对其电子病历进行挖掘分析,获得更有针对性的研究结果,了解疾病的诊疗过程,为探寻其用药规律提供参考。