APP下载

基于医疗数据挖掘的患者住院天数预测研究

2020-04-27庞震PANGZhen孙静SUNJing李佩佳LIPeijia张欣阳ZHANGXinyang石勇SHIYong杨宇飞YANGYufei

医院管理论坛 2020年10期
关键词:病案天数入院

□ 庞震 PANG Zhen 孙静 SUN Jing 李佩佳 LI Pei-jia 张欣阳 ZHANG Xin-yang 石勇 SHI Yong 杨宇飞 YANG Yu-fei

医疗服务质量和医疗资源使用效率是医院管理的重点,住院周期与医院医疗资源分配,如医护人力资源、床位资源、医用器械材料等消耗密切相关。在优质医疗资源相对稀缺背景下,医院在保证医疗质量的前提下缩短患者住院天数,加快病床周转,有助于提升医院整体运营能力,减轻患者就医负担,扩大医疗资源覆盖人群。本研究采集病案首页数据,利用数据挖掘技术预测患者住院天数,通过数字化管理监督医疗服务过程,为主动干预式管理提供辅助决策支持。

资料与方法

1.资料来源与数据预处理。数据来源于某三级综合医院电子病历系统,选取2015年1月至2016年12月病案首页数据,共计36754例。根据病案首页各属性特征,剔除涉及隐私、不符合逻辑关系、空值率过高等数据项,最终共纳入18个有效属性特征,主要包括:(1)一般人口学特征:性别、年龄、居住地、婚姻状况、职业、医疗付费方式、药物过敏、血型,Rh;(2)就医相关特征:入院途径、入院病情、是否有手术及操作、入院月份、入院科别、日常生活能力量表评分、住院天数;(3)疾病诊断特征:门诊诊断、住院主要诊断。

数据预处理主要遵循以下规则:(1)建立变量赋值表,对变量赋值;(2)异常数据清洗:清除超出赋值范围的病例,如“诊断名称”填写超出ICD标准字典。清除明显填报错误数据,如“日常生活能力评定量得分(入院)”为0分。清除明显极端值的数据,如年龄>120岁。

2.研究方法

2.1 预测患者住院天数的特征选择。通过描述性分析了解住院患者基本情况和住院周期分类特征。主要包括数据的频数、集中趋势、离散程度分析、数据的分布以及基本统计图形。通过单因素分析筛选对住院天数有影响的属性特征,结合病案专家、医院管理专家、数理统计专家的综合建议选定预测实验的特征数据。数据分析过程在软件SPSS18.0中实现。

2.2 数据挖掘方法。本研究使用支持向量机方法建立预测住院天数模型,对住院天数进行极短期、短中期、中长期和长期分类预测实验,对各组实验预测精度进行对比分析。

支持向量机是Vapni等根据统计学习理论提出的数据挖掘方法,其建立在统计学习理论的结构风险最小化原则之上,将样本空间映射到一个高维空间,使在原线性不可分问题在高维空间中得到解决[1-2]。由于能够处理分类问题、聚类问题、回归问题、时间序列等诸多问题,支持向量机已经成为对数据分类最有效的工具之一[3-4],其通过核函数映射来处理复杂多维非线性数据,所得的决策通过一定的向量表示,处理过程避免出现“维数灾难”相关的问题[5]。常用的核函数如:线性内积核、多项式内积核、径向基核(RBF)、sigmoid核等。其中,径向基核函数(RBF)无论是小样本还是大样本,高维还是低维等情况,RBF核函数均适用。在本研究中使用径向基核函数(RBF)进行研究,采用准确率(Accuracy)、精确率(precision)和召回率(Recall)作为分析实验预测效果的两个参数。预测实验过程在Python中实现。预测实验步骤为:(1)对可用于实验的病案首页数据进行生成数据标签及归一化;(2)通过以专家管理经验结合数据分布特点的角度定义住院天数分类标签;(3)将实验数据的80%作为训练集,20%作为测试集,进行模型训练;(4)将训练好的模型对训练集与测试集数据进行分类预测实验,得出预测正确率;(5)通过精度计算,得出各组实验的分类精度结果;(6)对不同分类进行精度分析结果,并对比预测效果。

结果

1.住院患者基本情况。年龄方面,最小1岁,最大100岁,平均年龄(中位数) 64岁。北京本地患者29021人(79.0%),外埠患者7733人(21.0%)。已婚患者34492人(93.8%)。有药物过敏的患者6477例(17.6%),无药物过敏患者30277例(82.4%)。除其他不明确职业人群外(26702人,72.7%),住院患者离退休人员最多(9104人,24.8%)。

入院途径上,经门诊收入院的患者最多(22081人,60.1%),经急诊入院患者14542人(39.6%)。入院时患者有明确病情的共有35458人(96.5%);住院期间未进行手术及操作的患者共有30802人(83.8%);入院科别与诊断方面,心血管内科与呼吸内科患者较多,分别占全院患者的比例为8.3%和8.2%。

住院主要诊断上,发生频次第一的是细菌性肺炎(5.17%),其次是不稳定性心绞痛(4.08%),排名第三的是恶性肿瘤维持性化学治疗(3.11%)。平均日常生活能力得分为82分。

住院天数方面,最短住院1天,最长住院124天,平均住院天数为12天。具体分布情况见图1。

图1 实际住院天数分布情况

基于医院管理和数据分布情况及专家管理经验,将住院天数分为4种情况,即极短期(1天),短中期(2~14天),中长期(15~28天),长期(28天以上)

2.预测住院天数特征选择。将18个特征属性(除门诊诊断、住院主要诊断)与住院天数进行单因素分析,结合病案专家、医院管理专家的经验选定10个预测住院天数实验的特征属性,包括:入院病情、手术及操作、入院月份、入院科别、有无药物过敏、血型、Rh代码、日常生活能力量表、门诊诊断、住院主要诊断。见表1。

3.支持向量机分类预测结果

3.1 实验一:四分类住院天数预测。按照住院天数分类进行预测,准确率为64.84%;第二类召回率最高,4组精确率分别为65.00%、67.61%、45.68%、60.00%。第一、二类和第四类预测效果较好。见表2。

3.2 实验二:二分类住院天数预测。为获得更好的预测效果,我们继续进行了4组二分类研究,分别对应如下:①极短期住院分类:1天、1天以上;②短中期住院分类:2~14天、1天和14天以上;③中长期住院分类:15~28天、1~14天和28天以上;④长期住院分类:1~28天、28天以上。

极短期住院分类预测研究中,准确率为97.25%;第二类召回率最高,精确率第一类为42.86%,第二类为97.30%。结果显示患者住院1天以上的分类预测结果要优于住院1天的情况。

短中期住院分类预测研究中,准确率为65.6%;第一类召回率最高,精确率第一类为68.49%、第二类为53.64%,结果显示住院2~14天的短中期分类预测结果较好,并优于预测非短中期住院的患者情况。

中长期住院分类预测研究中,准确率为70.07%;召回率最高的是第二类,精确率第一类为49.07%、第二类为72.29%,结果显示患者住院15~28天与1~14天和28天以上中,非中长期分类预测结果较好,并优于中长期住院15~28天情况。

表1 预测住院天数特征筛选结果汇总

表2 四分类住院天数预测结果

长期住院分类预测研究中,准确率为96.19%;召回率最高的是第一类,精确率第一类为96.19%、第二类为100%,结果显示本模型在长期住院患者与非长期住院患者分类预测结果均较好(表3)。

讨论

以考量现有业务流程和改进管理为出发点,数据挖掘技术在医疗行业已有不少应用研究[6-8]。本研究采集某医院病案首页数据,通过单因素分析结合病案专家和医院管理专家意见,选定预测住院天数的属性特征。利用支持向量机建立住院天数预测模型,得出各组实验预测正确率,对比各组分类的精度。本研究进行住院天数的预测,可以理解为是一个分类问题。住院天数呈明显的偏态分布,且各变量间存在非线性。支持向量机方法是一种具有最小分类错误率和最大泛化能力的分类工具,其属于有监督学习模型,在处理小样本、非线性及高维模式识别中表现出优势,可以避免“维数灾难”和“过学习”等问题[9]。

表3 二分类住院天数预测结果

在筛选模型特征属性上,入院病情、手术及操作、入院月份、入院科别、有无药物过敏、日常生活能力量表与住院天数有影响,血型、Rh代码虽然没有得到病案及医院管理专家的直接解释,但输血作为在医疗中的重要环节,建议其信息保留。同时本研究加入了门诊诊断和住院主要诊断作为患者病种信息,门诊诊断多为入院之前门诊医生开具的病情诊断,而住院主要诊断是本次住院的主要治疗内容,因此两者结合用来预测住院天数更具有意义。

在四分类预测效果中,极短期,短中期及长期住院患者预测效果较好。在二分类预测各期段实验效果中,短中期与长期住院患者预测效果较好。预测住院天数信息对比患者实际住院天数,形成参考库,为前置医院管理提供决策支持,如病区医疗资源分配、床位周转、日间病房、长期住院人群干预管理、院内感染风险预警等。超长住院天数人群属于住院患者中的特殊人群,是医院管理的重点关注人群。通过辨别此类患者,可以提前介入查找原因,辅助医院干预性管理更为智能化与精细化。

本研究只使用支持向量机一种算法,提取了某家医院病案首页数据,未纳入相关费用信息,对超长住院天数患者特征缺乏深入分析,研究有一定局限性。研究可扩大数据层面,提取更多维度的特征,细化不同病种的住院患者、不同科室住院患者病床使用特征数据分析,同时综合对比不同算法对预测住院天数的差异。结合医院管理者经验,找寻管理中的隐性知识挖掘方法,让经验和数据转化为可传播的管理知识,实现知识共享。

猜你喜欢

病案天数入院
利用信息技术再造急诊入院管理流程*
基于二维码的病案示踪系统开发与应用
质量管理工具在减少CT停机天数中的应用
试析病案管理中预防病案错位发生的方法
抑郁筛查小测试
最多几天?最少几天?
生日谜题
试论病案管理在防范医疗纠纷中的作用
PDCA循环改进对病案首页中主要诊断正确选择的影响分析
入院计划概念框架系统分析