基于随机森林的医联体双向转诊智能决策研究与应用
2020-01-05周颖胡外光陈敏莲胡珊珊
周颖 胡外光 陈敏莲 胡珊珊
摘 要:针对医联体平台中实际双向转诊过程存在转诊安排不及时,患者不满意等问题,设计了一种基于随机森林的双向转诊智能决策方法。该方法选取影响转诊的5个主要因素,建立了包括床位数、床位使用率、疾病治愈率、治疗费用、相距距离五大指标的智能转诊评分模型;然后利用大数据和随机森林的方法对主要因素进行分析,以分数的形式来衡量待转诊医院适合度。实践效果表明,基于这5个主要因素的预测可以罗列出多种转诊方案,为转诊安排精准化决策提供一种依据,从而提高转诊效率。
关键词:双向转诊;智能决策;医联体;随机森林
中图分类号:TP399 文献识别码:A
Intelligent Decision-making for Two-way Referral of Medical
Alliance Based on Random Forest and its Application
ZHOU Ying ,HU Wai-guang,CHEN Min-lian,HU Shan-shan
(Data Information Management Center of Hunan Children's Hospital,Changsha,Hunan 410083,China)
Abstract:Aiming at the problems in the actual two-way referral process of medical alliance platform,such as untimely referral arrangement and unsatisfactory patients,a two-way referral intelligent decision method based on random forest was designed. In this method,five main factors affecting referral were selected and an intelligent referral scoring model was established,including the number of beds,bed utilization rate,disease cure rate,treatment cost and distance. Then,big data and random forest methods are used to analyze the main factors and measure the suitability of the hospital to be referred to in the form of scores. The practical results show that predictions based on these five main factors can list a variety of referral plans,provide a basis for accurate decision-making on referral arrangements,and improve the efficiency of referrals.
Key words:two-way referral;intelligent decision;medical alliance;random forest
在我國医疗体制改革进程中,双向转诊是在社区首诊基础上建立的扶持社区医疗卫生,解决“看病难、看病贵”的一项重要举措[1],它可以有效地引导病人合理分流,促进卫生资源合理利用[2]。双向转诊是根据病情需要而进行的上下级医院间、专科医院间或综合医院与专科医院间的转院诊治的过程[3]。它有纵向转诊、横向转诊两种形式。纵向转诊即是上下级医院之间的转诊。横向转诊就是同级别综合医院之间,综合医院与专科医院之间的转诊[4]。主要讨论纵向转诊,即上下级医院间双向转诊。而在实际转诊过程中存在转诊安排不及时等问题,导致患者不满意。
某省儿童医院牵头成立儿科医联体,经过多年持续投入,目前该医联体辐射区域5省21市州,成员单位156家。已建立的这个比较完备的儿科医联体平台,实现了对转诊病人诊疗全过程的信息化管理,逐步积累了以患者为核心的海量临床诊疗数据。基于该儿科医联体平台海量数据,提取出5个转诊指标,利用大数据和随机森林的方法对主要因素进行分析,当患者转诊时,为其提供若干个医院进行转诊选择,在充分尊重患者选择权的前提下,引导和规范病人的就诊。
1 智能决策模型
提出的双向转诊智能决策模型是一种以分数的形式来衡量待转诊医院适合度的技术手段。智能评分模块算出所有待转诊医院的综合评分后,供医生和病友双向参考,真正做到最智能、最恰当的转诊,优化医疗资源配置,让病友更加智能地享受医疗服务[5]。整个评分体系从病房床位数、床位使用率、疾病治愈率、治疗费用、相距距离等5个维度按不同权重进行打分,具体如图1所示。具体特征描述如下:
(1)床位数。按照2018年国家卫健委发文的综合医院建设标准,医院病床数量分为6级,即200张床以下、200~399床、400~599床、600~899床、900~1199床、1200~1500床及以上6个级别。单个科室床位数参照按照上述医院总床位数按50分、60分、70分、80分、90分、100分6个档次进行打分,床位数评分占整个评分体系的10%。
(2)床位使用率。病床使用率是反映每天使用床位与实有床位的比率,即实际占用的总床日数与实际开放的总床日数之比,它能反映医院病床的工作负荷情况。下节介绍通过随机森林算法对待转诊医院的床位使用率进行预测,床位使用率作为待转诊医院未来时间点接待能力的重要体现,占整个评分体系的35%。
(3)疾病治愈率。按照治愈率=治愈出院人数/收容总数×100这个公式,通过加工医院HIS系统现有数据获得,治愈率75%以下得80分,治愈率75%-85%得90分,治愈率85%以上得100分,疾病治愈率占整个评分体系的30%。
(4)治疗费用。治疗费用是指待转诊患者转到目标医院后治愈疾病需要花费的费用。不同的疾病一般会有不同的费用区别,系统会按照疾病类别对治疗成本进行打分。考虑到治病第一的原则,本系统治疗费用评分只占整个评分体系的10%。
(5)相距距离。相距距离是指待转诊医院和目前就诊医院间点到点的距离,通过两者的经纬度数据计算而得,单位为公里。系统按照计算结果将相距距离分为远、中、近三个档次,距离评分占整个评分体系的15%。
2 模型设计与实现
2.1 体系结构
设计的医联体双向转诊智能决策系统具体如图2所示,按功能可以分为以下几个模块:
(1)标准体系模块:医联体信息平台的首要任务是建立标准体系,统一访问接口、交换接口、指标口径等,从而打破各医院的信息孤岛,才能充分信息共享。
(2)医联体医疗数据资源库模块:标准体系建立后,需要建立医联体集中的医疗数据资源库,用集中模式建立相關资源库。建立大集中的数据中心,是实现智能决策的数据基础。在具体和各医院系统的对接过程中,可能需要对各医疗机构医院信息系统进行改造,以适应医联体信息化的要求。
(3)智能决策引擎模块:基于医联体医疗数据资源库存储的各医院数据,按照智能决策模型中的床位数、床位使用率、疾病治愈率、治疗费用、相距距离等5个指标进行数据加工得分,并按相关权重算出综合得分。
(4)搜索展示界面模块:作为该系统与使用人员交互的唯一渠道,向医护人员和患者提供按病种、距离等因素,罗列所有待转诊医院的得分情况。
2.2 基于随机森林的床位使用率预测
作为一种新兴高度灵活的机器学习算法[5],随机森林通过集成学习的思想将多棵决策树进行集成,根据每颗cart树是分类树还是回归树,随机森林可以分别应用在分类和回归问题上,对输入变量进行离散型和连续型的输出预测[6]。随机森林作为一种集成学习方法,通过产生多个分类树来生成结果,即在特征的选取和数据的选取上进行随机化,生成许多分类树,再汇总分类树的结果。随机森林在复杂度没有显著提高的情况下,提高了预测精度,且对多元线性不敏感,因此对缺失数据和非平衡数据比较稳健[7]。
住院部病床使用率作为判定科室忙闲程度的重要指标,也是决定是否转诊的重要因素之一。通过对某省儿童医院2013-2019年医疗统计指标进行分析,我们发现医院住院部的单日床位使用率跟就诊日期、科室类别、是否重点科室等因素相关。因此,我们利用随机森林算法,对某省儿童医院待转诊科室在将来某天的床位使用率进行预测,并将其作为转诊智能决策模型得分的重要组成部分。
整个预测过程大致包括数据收集预处理、特征提取、建模、预测等步骤。经过数据收集预处理,加工得到某省儿童医院30个科室7年(2013-2019年)共76650条数据作为样本集,并以每个样本中的就诊日期、科室类别、是否重点科室、开放床位数、每日门急诊数等5列作为特征来搭建模型。在具体实现中,有放回地从训样本集中随机抽取80%的样本数据作为训练集,并且随机选择部分特征,来训练决策树。按照上述步骤,当训练出多棵决策树后,便构成了整个随机森林模型。同时,从样本集中随机抽取20%的样本数据作为测试集,来对训练模型进行测试,评价模型效果。对于最终的预测结果,随机森林是非常民主的算法,它会对各个树预测得到的床位使用率相加求得一个平均值为最终回归结果。具体流程如图3所示。
方法的关键步骤是通过python里的sklearn库来实现随机森林的建立和预测。主要的实现步骤包括读取样本集、确认预测特征变量和选择要训练的特征、创建模型和训练、用测试集预测床位使用率和使用(RMSE)均方对数误差做评价指标等五个步骤。床位使用率预测输出如图4所示。
3 系统应用效果
基于所提出的决策方法,开发了医联体双向转诊智能决策系统。在儿科医联体平台中填写转诊单时,提供转入医院查询的功能,根据转出医院、转入科室、转入时间、诊断字段进行搜索,搜索后的结果也一并显示出来,页面上展示了5家评分较高的、满足条件的待转诊医院,并按综合评分高低进行排序,医生和病友原则上应选择评分较高医院进行转诊。具体应用效果如图5所示。
用户点击选中医院的详情链接,可以看到该医院在病房床位数、床位使用率、疾病治愈率、治疗费用、相距距离等5个指标的具体得分,对其中某项指标特别在意者,可按其进行抉择,这样极大地方便患者进行转诊选择。
4 结 论
基于某儿童医联体医疗数据资源库数据,通过随机森林算法对医院将来时间点的床位使用率进行预测,提出并建立包括床位数、床位使用率、疾病治愈率、治疗费用、相距距离五大指标的智能转诊评分模型,为医护人员和病患朋友选择转诊医院提供数据支撑,取得了良好效果。为了达到最佳效果,从选择子数据集个数和最大特征个数等方面对随机森林模型进行持续优化将作为后续的工作重点和研究方向。
参考文献
[1] 梁宗强,赵延红,黄若文,等.基于慢病管理和双向转诊的区域分级诊疗信息化建设实践与探讨[J]. 中国数字医学,2017,12(6):15-17.
[2] 梁勇,张柠.国外医疗服务体系对完善我国分机诊疗体系的启示与借鉴[J]. 中国医院,2015,18(8):50-52.
[3] 高阔,甘筱青.我国患者双向转诊行为决策及影响因素研究[J]. 中国全科医学,2015,28(003):3393-3395.
[4] 吴涵梅,李跃平.双向转诊制度现状及经验概述[J]. 中国卫生事业管理,2010,27(7):441-442.
[5] 王瑾.面向医联体的医疗资源优化配置与双向转诊研究[D]. 合肥:合肥工业大学,2018.
[6] 沈晶磊,虞慧群,范贵生等.基于随机森林算法的推荐系统的设计与实现[J]. 计算机科学,2017,44(11):165-167.
[7] 吴帅,赵方.基于随机森林的老年人居住偏好预测研究[J]. 计算机工程与科学,2018,40(5):924-930.