基于HIS数据的住院人群癫痫发作自动监测模块的建立与优化
2022-09-20卢京川郭代红郭海丽王天琳石廷永解放军总医院医疗保障中心药剂科北京0085重庆医科大学药学院重庆40006北京康联达软件有限公司北京00028
卢京川,郭代红,高 奥,伏 安,李 超,郭海丽,王天琳,石廷永(.解放军总医院医疗保障中心药剂科,北京 0085;2.重庆医科大学药学院,重庆 40006;.北京康联达软件有限公司,北京 00028)
癫痫发作是脑部异常的神经元过度化或同步化活动引起的发作性事件。全球超过5000万人受癫痫困扰,癫痫发作给患者造成巨大的生理及心理伤害,严重影响患者及其家庭的生活质量[1]。随着现代计算技术的发展,大数据技术已广泛应用于癫痫发作的诊断、预测及遗传学等临床研究[2]。医院信息系统(hospital information system,HIS)中包含大量与癫痫发作相关的数据,包括症状描述、脑电图检查、神经影像检查、抗癫痫药物用药记录等可供研究的临床信息。但由于数据类型多样,提取难度大,国内鲜有对癫痫发作的大样本真实世界研究[3]。本研究基于团队自主研发的“临床ADE主动监测与智能评估警示系统-Ⅱ[4](adverse drug events active surveillance and assessment system-Ⅱ,ADE-ASAS-Ⅱ)”构建住院患者癫痫发作自动监测模块,旨为住院人群癫痫发作的大样本真实世界研究提供高效、全面、可靠的研究工具。
1 资料与方法
1.1 数据资料
数据来源于某三甲医院HIS数据库,监测对象为有医嘱记录的住院患者。收集信息包括患者人口学资料、诊断记录、病程记录、医嘱信息等。
1.2 阳性病例判断标准及模块评价指标
参照中国抗癫痫协会编著的《临床诊疗指南癫痫病分册》(2015修订版)[5]中各类癫痫发作的典型临床表现及发作特点,评估住院患者的发作表现及症状持续时间是否符合癫痫发作短暂性、刻板性、重复性的特点。符合癫痫发作特点的患者若满足以下任意一条纳入标准,则判定为阳性病例。纳入标准:①经医生诊断为“癫痫发作”或“癫痫持续状态”;②使用抗癫痫药物;③脑电图检查显示有癫痫样放电。排除标准:电子病历信息不全的患者。
自动监测模块评价指标:阳性预测值(positive predictive value,PPV):报警病例中的真阳性病例数占报警病例总数的比值;召回率(recall rate,R):报警病例中的真阳性病例数占阳性病例总数的百分比。
1.3 癫痫发作自动监测规则建立与验证
首先建立癫痫发作相关的初始关键词集,依托ADE-ASAS-Ⅱ的文本分类技术高效识别HIS电子病历中的上述词集[6],开展预实验。将初始关键词集筛分为不同属性的关键词集,作为决策树各分支的分类标准。通过ADE-ASAS-Ⅱ中的文本分类技术和决策树的分类功能将癫痫发作病例与其他病例进行拆分,从而得到目标病例。利用ADE-ASAS-Ⅱ自定义功能和标题屏蔽功能对模块的报警规则进行优化,确定能够获得相对理想PPV和R的模块最佳设置;再扩大监测样本量,验证模块的稳定性,具体流程见图1。
图1 癫痫发作模块建立流程图A – 初始关键词集,B – 决策树报警关键词设置示意图Fig 1 Flowchart of the seizure module establishmentA – initial keywords, B – diagram of decision tree with arm keyword setting
1.4 数据处理
采用SPSS 22.0软件对癫痫发作人口学特征、发作类型及发作原因进行统计描述,使用单向K-S检验确定连续变量的分布模式,符合正态分布的连续变量采用均值±标准差描述,非正态分布数据采用中位数和四分位数描述,计数资料采用频数及百分比描述;癫痫发作病因采用MedDRA 24.0首选术语(preferred term,PT)进行整理,癫痫发作类型按照2017国际抗癫痫联盟提出的方法进行分类[7]。当同一患者多次入院时,分别计算例次;入院后多次发作,以首次发作为准。
2 模块报警规则的建立与优化
2.1 预实验
参考国内外指南共识、自发报告数据库、期刊文献等,收集到90个初始关键词(图1),利用ADEASAS-Ⅱ的文本分类功能提取2021年11月2日3357例住院患者病历中包含上述关键词的电子病历,得到报警病例1428例,经人工逐例评估,得到癫痫发作阳性病例38例。
根据38例阳性病例电子病历中与癫痫发作相关的诊断记录、症状描述、脑电图检查报告及抗癫痫药物使用记录,对初始关键词进行初筛,删除出现频率低、纳入出现频率高的词语。将初筛后的关键词分类归纳为4个不同属性的子词集:①药物关键词集;②诊断关键词集;③症状关键词集;④脑电图关键词集。详见表1。
表1 决策树各分支报警关键词初始设置Tab 1 Initial setting of alarm keywords in each branch of decision tree
模块报警规则主要基于文本分类技术与决策树模型,将不同词集作为各分支监测单元的报警关键词,分支1设置药物关键词集;分支2设置诊断关键词集;分支3与分支4分别设置症状关键词集和脑电图关键词集,决策树结构见图1。自动扫描各分支监测单元,若出现报警关键词,即报警。决策树各分支关键词初始设置及监测单元可见表1。
2.2 模块报警规则的初始设置与优化
为更有效地检验关键词集的敏感性,研究选择不同时段的住院人群进行模块建立、优化和验证实验。对2021年8月1日 – 7日期间的5557例住院患者病历逐一进行人工审阅,最终得到阳性病例51例。以此作为模块报警规则优化的测试数据,计算PPV和R评估模块报警规则的准确性[8]。
2.2.1 药物关键词集优化方案参考癫痫诊疗相关指南[5],结合医院实际用药情况,将左乙拉西坦等10种抗癫痫药物作为药物关键词设置的初始方案。将是否纳入咪达唑仑注射液、卡马西平、苯妥英钠作为三种优化方案,详见表2。结果显示,在删除上述三种药物后,阳性病例未丢失,报警人数减少59例,阳性预测值从6.39%提升至6.90%,详见表3。
表2 药物关键词集设置方案Tab 2 Drug keywords setting scheme
表3 药物关键词集优化测试结果Tab 3 Optimization test results of drug keywords setting
2.2.2 诊断关键词集优化方案由于癫痫发作类型多样,故将不同的诊断关键词集作为优化测试方案。由于决策树结构特点,被药物关键词识别的阳性病例,不会进入分支2的诊断关键词识别,故需统计各方案中仅由诊断关键词可识别的阳性病例数,以此评估诊断关键词集的适用性,各方案设置详见表4。结果显示,方案D报警人数为739例,可识别45例阳性病例;与方案D相比,方案E报警人数636例,但仅可识别27例阳性病例;方案F报警人数698例,可识别34例阳性患者,详见表5。
表4 诊断关键词集设置方案Tab 4 Diagnosis keywords setting scheme
表5 诊断关键词集优化方案测试结果Tab 5 Optimization test results of diagnostic keywords setting
2.2.3 电子病历标题屏蔽设置电子病历包含部分结构化文本,如知情同意书等,存在大量假阳性报警信息。借助ADE-ASAS-Ⅱ的标题屏蔽功能,屏蔽以下文件中包含的关键词报警,各方案设置可见表6,屏蔽后测试结果见表7。
表6 标题屏蔽设置方案Tab 6 Title shielding setting scheme
表7 标题屏蔽关键词设置测试结果Tab 7 Test results of title shielding keywords setting
2.3 癫痫发作自动监测模块的最佳设置
经过预实验和各关键词集的优化以及标题屏蔽设置,模块PPV从2.66%提升至13.86%,R均为100.00%。最终确定7个药物关键词、13个癫痫关键词、9个症状关键词、8个脑电图关键词以及屏蔽12个标题关键词为模块最佳设置,详见表8。
表8 模块最佳设置条件Tab 8 Module optimal setting conditions
3 癫痫发作自动监测模块的验证
利用优化后的模块,监测某院2021年5月共14 549例住院患者,共报警617人,经人工甄别得到癫痫发作患者90例,其中急性症状性癫痫发作53例,其人口学特点及发作类型分布见表9。发作病因包括神经系统肿瘤手术、卒中后癫痫发作、自身免疫性脑炎及药品不良反应等,详见表10。
表9 癫痫发作病例的人口学特点及发作类型分布. n = 90Tab 9 Demographic characteristics and distribution of seizure types. n = 90
表10 急性症状性癫痫发作病因分布. n = 53Tab 10 Causes distribution of acute symptomatic seizures. n = 53
4 讨论
4.1 文本挖掘联合决策树分类可实现住院患者癫痫发作自动监测
模块的报警规则是利用文本分类技术结合决策树实现的,可同时监测医嘱信息、电子病程、检查记录,通过决策树迭代划分,逐层挖掘目标病例[9]。首先将住院人群中出现癫痫发作的人群按照是否使用抗癫痫药物分类,使用抗癫痫药物的人群可通过决策树分支1设置的药物关键词识别;对于未使用抗癫痫药物的癫痫发作人群,如代谢紊乱或药物导致的癫痫发作,临床可能通过纠正电解质紊乱或停用可疑药物处理,此类人群可通过分支2设置的诊断关键词集识别;若患者仅出现疑似癫痫发作的症状,则需结合脑电图检查做出判断[10],故分支3与分支4的关键词设置可同时检测其症状表现与脑电图信号,从而实现此类人群的监测。使用决策树设置报警关键词可从癫痫发作的解救药物、诊断评估、临床症状以及脑电图表现等多角度全方位监测疑似癫痫发作的人群,经过多层筛选分类,最大程度避免了阳性病例的丢失。
4.2 关键词集优化与电子病历标题屏蔽显著提升监测效率
模块的优化思路是在尽量保证其敏感性的前提下,降低假阳性报警例数。由于苯妥英钠目前临床使用率普遍较低;卡马西平有多种临床适应证;咪达唑仑注射液是癫痫持续状态的一线解救药物[11],但在临床更多用于手术前用药[12],故将这三种药物删除。诊断关键词测试实验中,需考虑癫痫发作类型与病历书写习惯的多样性,故增加“突发癫痫”等病历中常见的癫痫发作同义词作为最终设置。模块通过药物关键词与诊断关键词可挖掘98%以上的阳性病例,症状关键词与脑电图关键词设置可根据实际情况灵活增减,旨在查漏补缺,保证模块敏感性。此外,通过ADE-ASAS-Ⅱ的标题屏蔽功能,实现对部分结构化文件的屏蔽,降低假阳性报警例数。最终,模块的PPV从预实验的2.66%上升至优化后的13.86%,显著降低了工作量,提升了监测效率。
4.3 基于非结构化数据智能监测获得精准大样本癫痫发作真实世界证据
目前,国内外学者对癫痫相关的大数据研究多利用脑电图或神经影像相关数据[13],此类数据结构化程度较高,获取相对容易。本研究利用文本分类技术开展对住院人群癫痫发作的主动监测,其优势在于,可以全面、灵活的挖掘癫痫发作病例信息,更贴合临床实际。因在临床实践中,并非所有癫痫发作的患者都会被诊断为癫痫症[14],尤其对于急性症状性癫痫发作的患者,在纠正继发性病因或应用抗癫痫药物后好转。研究[15]显示,仅45%的继发性癫痫发作患者在首次脑电图检查中检测出癫痫样放电,故此类人群的电子病历中的文本信息对癫痫发作的评估尤为重要。但其劣势在于电子病历中的自由文本属于非结构化数据,采集利用耗时耗力[16]。为克服这一缺陷,本研究首次采用决策树将报警关键词分类预设,对目标人群分层预警,高效全面挖掘目标人群。癫痫发作自动监测模块目前作为单中心的研究成果,有待在不同医疗机构验证,而ADE-ASA-Ⅱ自定义功能与灵活的决策树设置可为癫痫发作多中心真实世界研究提供有利条件[17]。
4.4 住院患者癫痫发作病例的特点分析
在90例癫痫发作病例中,患者年龄分布呈两极化,多见于男性,这与Hauser等[18]的研究类似。随着脑电图及神经影像技术的发展,部分癫痫发作的病因得以明确[19]。急性症状性癫痫发作是指在全身性损害时发生的或明确与脑损伤有密切时间关联的癫痫发作[20],本研究53例急性症状性癫痫发作病例中,神经系统肿瘤术后、卒中后癫痫及自身免疫性脑炎是最常见的致病因素,与国内相关研究基本一致[21]。随着人口老龄化,老年人共患疾病增多,药物联用频率增加,药物所致癫痫发作日益增加,应引起重视[22]。研究表明,急性症状性癫痫发作发生率为0.03% ~0.04%[18],明显低于本研究中的0.36%,可能是本研究的研究对象为住院患者,多合并基础疾病,癫痫发作的风险因素更多。鉴于本研究监测样本量较小,住院人群癫痫发作的发生率及风险因素仍需进一步的大样本真实世界研究验证。
本研究借助ADE-ASAS-Ⅱ建立的癫痫发作自动监测模块,能够高效、全面、快捷的挖掘住院人群中的癫痫发作病例,模块的PPV在13.86% ~ 14.59%,R可达到100.00%,虽仍需人工甄别报警病例中的癫痫发作患者,但应用此模块可剔除95%以上的无关病例,极大程度上提高了工作效率,可为癫痫发作的大样本真实世界研究提供有力的技术支撑。