上海市单中心儿科门诊特征和医疗服务2009至2018年趋势分析
2019-08-23张晓波葛小玲叶成杰陆国平沈国妹吴小沪玫徐
张晓波 施 鹏 郑 珊 葛小玲 叶成杰 陆国平 沈国妹 吴小沪 曾 玫徐 虹
推动健康医疗大数据应用是实施国家大数据战略、健康中国战略和数字中国战略的重要举措[1]。目前,基于医院的医疗大数据研究主要来源于医院常规产生的医疗服务数据,如医院运行数据、住院病案首页、电子病历等[2, 3]。其中,门诊数据由于数据体量大、数据标准不统一、信息系统的不断升级,一直是医院医疗服务分析的难点,更缺少针对门诊患者就诊特征和卫生服务多维度的数据挖掘[4, 5]。本文基于复旦大学附属儿科医院(我院)2009至2018年医院信息系统门诊患儿就诊数据,规范数据采集和预处理流程,分析门诊患儿就诊特征和医疗机构服务趋势,探索医院医疗服务数据治理方案,为医院提高医疗服务能力、实施精细化管理提供数据支持。
1 方法
1.1 研究设计 以我院医院信息系统(HIS)门诊患儿就诊挂号登记表的10年全样本数据为基础,系统地进行数据清洗(诊断、地址、重复、离群、缺失)、数据集成(数据库链接和匹配)、数据规约、数据脱敏和数据核查,行门诊患儿就诊特征及医疗服务趋势的分析。
1.2 伦理 通过我院伦理委员会审批[复儿伦审(2019) 188号]。
1.3 纳入标准 2009年1月1日至2018年12月31日我院门诊就诊,并在HIS挂号登记表中有记录的儿童。
需要说明的是:①我院2008年搬迁至新院区,开始建立新的HIS系统门急诊医生工作站,故本文以2009年为统计起始年;②2009至2012年数据来源于HIS门急诊医生工作站中的HIS备份数据;③2013年初更换了门急诊医生工作站厂商,~2017年数据来源于HIS新的门急诊医生工作站中的挂号数据库;④2017年HIS门急诊医生工作站电子病历进行了升级改造,~2018年数据来源于HIS门诊挂号数据库和门诊电子病历数据库。
1.4 剔除标准 ①急诊挂号数据;②年龄>18岁的患儿;③门诊名称为“普通门诊”,需要说明的是“普通门诊”仅为2013年前HIS门诊医生工作站的门诊名称,由于系统代码问题,少部分无法还原为内科、外科或感染传染科。
1.5 HIS信息采集及其定义 本文以HIS门诊挂号数据库采集的信息作为母数据。在母数据中有两个重要标识号,门诊编号:患儿身份的唯一识别号;挂号编号:每个患儿每次挂号的唯一识别号。
1.5.1 人口学信息 性别,出生年月日,年龄(就诊年月-出生年月,年差值为整数岁,余月/12为小数岁)。联系地址:门诊挂号登记的患儿当前居住地址。
1.5.2 就诊初始信息 ①挂号日期截取至年月,用于描述年度和月度趋势;②挂号时间截取至时,用于判断医生接诊时间;③付费方式分为医保和自费;④就诊门诊名称。
1.5.3 门诊诊断编码 采用国际疾病分类第10次修订版(ICD-10)为依据(6位)。
1.6 数据预处理
1.6.1 数据清洗 基于自然语义处理技术。开发ICD-10疾病代码融合及治理功能模块,提取首个诊断作为门诊诊断,截取ICD-10类目(3位)、亚目编码(4位);开发地址数据标准化融合及治理功能模块,将挂号地址信息分解为固定顺序的7个字段,依次为:省份、城市、区/县、路/街(含号)、小区名、楼栋名、室号,本文仅提取省份(包括直辖市和自治区)信息。
1.6.2 数据评估 ①重复数据:门诊编号可能存在同一患儿有多个门诊编号,本文未做判断和处理,用于性别和年龄的人数统计;挂号编号表示多次就诊挂号,用于人次统计,故不存在重复数据。②离群数据:医生日均接诊量低于四分位间距1.5倍的下限视为离群数据,不纳入分析。③缺失数据:人口学信息、就诊初始信息、门诊诊断编码有缺失值,行缺失人群特征比较。
1.6.3 数据集成 ①鉴于不同年度医生职称是动态变化的,从我院人力资源管理数据库导出医生当年职称,与母数据匹配。②2009至2012年HIS门急诊医生工作站备份数据中的诊断信息与母数据匹配。
1.6.4 数据规约 ①将年龄分为婴儿(<1岁),幼儿(~3岁),学龄前儿童(~6岁),小学儿童(~11岁),初高中儿童(~18岁);②将门诊分为4类:内科门诊、外科门诊、感染传染科门诊和其他科门诊。内科门诊包括:普通内科,呼吸、心血管、消化、肾脏、风湿、免疫、内分泌、神经、血液和新生儿专业。外科门诊包括:普外科、骨科、泌尿外科、肝胆外科、神经外科、肿瘤外科和心外科;感染传染科门诊包括:传染病、肠道、肝病和感染。其他科门诊包括:儿保、康复、口腔、皮肤、五官、心理、中医、眼科、临床营养和放射科;③基于ICD-10的类目分类产生内科、外科、感染传染科和其他疾病前20位病种的排序并结合临床专家对疾病分类的意见,形成最终病种排序;④医生职称分类:副高级及以上职称,中级职称,初级职称;⑤专科门诊:普通内科和普通外科门诊以外的门诊;⑥专病门诊:专科门诊中以系统疾病命名的门诊。
1.7 数据脱敏与数据库安全 本文基于HIS采集的信息中涉及患儿姓名、身份证号、家长姓名、家长联系电话等个人敏感信息,均以删除方式进行脱敏。本文主数据在我院内网环境下运行,独立于医院HIS业务运行系统,数据分析通过我院堡垒机访问,设置权限和密码以保证HIS数据库安全。
1.8 偏倚及其分析 门诊编号虽为患儿身份的唯一识别号,但同一患儿可能持有多张自费门诊卡(门诊编号),可能会夸大就诊人数,也会影响到性别、年龄和医保构成的偏差。由于HIS中门急诊挂号是一个逐步完善的过程,人口学信息、就诊初始信息和门诊诊断缺失不可避免,可能影响门诊患儿就诊特征与医疗服务趋势的描述。鉴于此,本文行偏倚风险评估。一是调取2009~2013年HIS门诊医生工作站中“普通门诊”数据计算与全样本数据构成比。二是从我院HIS抽取2013至2018年每年5月第3个星期四日门诊就诊数据与10年平均医生日均接诊量进行验证。取6年中的5月第3个星期四,一是5月非全年就诊高峰和低谷月,二是星期四非法定节日,三是星期四不是周末休息日。
1.9 统计学分析 基于SQL Server 2010平台进行数据管理和统计描述,基于Python平台进行病种数据统计分析。本文年样本量达到百万级别,故均不行统计推断。文中涉及到的构成比等定义或计算公式如下:①就诊患儿性别、年龄、是否医保等人口学特征基于就诊患儿人数统计(门诊编号),其他指标基于门诊就诊人次统计(挂号编号);②采用“三同”法统计病种门诊人次数,同一天、同一患儿、同一医生发生的门诊诊疗作为1个门诊人次[6];③年平均增长速度=(年平均发展速度-1)×100%,年平均发展速度采用几何平均数法计算。年增长速度=(发展速度-1)×100%,本文发展速度为环比发展速度,环比发展速度=报告年指标/前一年指标;④门诊就诊患儿地址分布图基于每年34个省(直辖市,包括港、澳、台)来我院就诊患儿的门诊量数据,统计10年34个省市门诊量数据的四分位数(P75、P50、P25),不同年份各省市门诊量>P75、~P50、~P25和 2.1 一般情况 2009至2018年我院门诊挂号20 775 899人次,依据纳入和剔除标准18 242 822 人次进入本文分析(图1)。就诊患儿8 109 681人;男4 656 843人(57.42%),男女比为1.35∶1;婴儿7 762 318人(9.57%),幼儿3 320 014人(40.94%);学龄前儿童2 012 793人(24.82%),小学儿童1 627 094 人(20.06%),初高中儿童373 549人(4.61%);医保就诊3 014 513人(37.17%),自费就诊5095 168人(62.83%);平均每人就诊2.25人次(18 242 822/8 109 681),医保就诊为2.67人次,自费就诊2.00人次。 图1 研究对象选取与数据连接过程流程图 2.2 缺失值和分析 表1显示,诊断缺失率为5.92(1.59~26.92)%; 地址缺失率为45.32(37.06~50.13)%。接诊医生姓名缺失率为26.81(1.43~73.61)%。缺失数据人群各年份性别和年龄构成比总体差别不大,缺失值未做补充。剔除2009~2013年“普通门诊”数据为113 418人次,占全样人群的0.54%,占2009~2013年样本人群的1.59%。 2.2.1 年门诊量趋势 图2A显示,门诊量呈逐年持续增长,年平均增长速度为5.22%。2012较2011年增长11.22%,2014较2013年增长10.93%,2015年后环比增长均<2.90%。图2B~D为内科、外科和感染传染科门诊年增长率,0线为不同年份环比增长率为0;图2B显示,内科总体环比呈下降态势,2014年较2013年门诊量年增速显著(24.69%),2015年以后呈负增长。图2C显示,外科总体环比呈下降态势,2018年接近0增长(0.98%)。图2D显示,感染传染科总体环比波动大,特别是2011、2013、2014和2017年份。 表1 缺失值人群性别和年龄构成比(%) 图2 2009至2018年门诊量趋势和主要学科年环比增长率 2.2.2 门诊量季节趋势 图3显示,儿科门诊量呈现明显的季节性趋势,门诊高峰在夏季(7~8月)和冬季(12月至次年1月)。 2.3 门诊患儿来源分布 图4显示,基于中国34个省(市,包括港、澳、台),10年间>P75从5个扩大至10个,~P50从7个扩大至11个,~P25从10个减少至6个, 图3 2009至2018年门诊量季节趋势 2.4 门诊患儿性别和年龄构成 图5A显示,10年门诊就诊男性患儿占57.42(56.94~57.83)%,内科、外科、感染传染科和其他科门诊男性患儿分别占56.12(55.09~57.04)%、66.05(65.03~66.69)%、58.29(56.58~60.11)%和55.82(54.60~56.28)%。图5B显示10年门诊患儿年龄构成结果显示,婴幼儿构成比下降,其中婴儿从11.79%下降至7.09%,幼儿从44.44%下降至35.48%;小学和初高中儿童构成比在增长,学龄前儿童从20.70%增长至27.92%,小学和初高中儿童人群(7~18岁)从22.07%增长至29.51%。 图4 2009至2018年门诊患儿来源(省、直辖市和自治区)分布 图5 2009至2018年门诊患儿性别和年龄构成 表2 2009至2018年内科门诊疾病顺位 注 1)包括:J40(支气管炎)、J98(其他呼吸性疾患)、J04(急性喉炎和气管炎)、J20(急性支气管炎); 2)包括:J06(多发性和未特指部位的急性上呼吸道感染)、B99.x01(感染性发热)、J02(急性咽炎)、R05(咳嗽);3)包括:K52(非感染性胃肠炎和结肠炎)、R10(腹部和盆腔痛)、R11(恶心和呕吐)、K29(胃炎和十二指肠炎)、K30(消化不良);4)包括:J18(肺炎);5)包括:J03(急性扁桃体炎);6)包括:G40(癫);7)包括:J45(哮喘);8)包括:N39.0(泌尿道感染);9)包括:D69(紫癜和其他出血性情况);10)包括:F95(抽动障碍);11)包括:E30 (青春期疾患),E30.0(性早熟);12)包括:E34(内分泌疾患),E34.3(身材矮小症);13)包括:B08.5(疱疹性咽峡炎) 2.6 医疗服务 2.6.1 门诊医生工作负荷 图6显示,2013年后门诊医生平均日接诊量呈现稳态趋势;门诊医生平均日接诊51(49~55)人次,初、中和高级职称医生门诊日均接诊分别63(59~74)、54(52~58)和45(39~56)人次;内科门诊医生平均日接诊54(52~57)人次,初、中和高级职称医生门诊日均接诊分别69(64~84)、53(48~57)和47(41~57)人次;外科门诊医生平均日接诊41(30~44)人次,初、中和高级职称医生门诊日均接诊分别60(35~64)、49(46~84)和32(30~36)人次。 图6 2009至2018年门诊医生日均接诊工作量 表3 2009至2018年外科门诊疾病顺位 注 1)包括:S00~S99,T01~T98,不含骨折、中毒、烧伤、异物诊断;2)包括:S52(前臂骨折)、S42(肩和上臂骨折)、S69(腕和手其他和未特指损伤)、S82(小腿骨折,包括踝)、S72(股骨骨折)等;3)包括:N47(包皮过长、包茎和包茎嵌顿)、N48(阴茎的其他疾患),N48.1(龟头包皮炎);4)包括:Q69(多指[趾]);5)包括:C00~C97,D00~D48;6)包括:K40~K46,排在前三位:K40 (腹股沟疝),K42(脐疝)、K43(腹疝);7)包括:Q20~Q28;8)包括:K60(肛门及直肠区的裂和瘘)、K61(肛门及直肠区脓肿)、K62(肛门及直肠区的其他疾病);9)包括:Q65(髋先天性变形);10)包括:I88 (非特异性淋巴结炎);11)包括:L00~L08;12)包括:N43(鞘膜积液和精子囊肿);13)包括:Q44 (胆囊、胆管和肝先天性畸形);14)包括:Q55.6(阴茎的其他先天性畸形) 表4 2009至2018年感染传染科门诊疾病顺位 注 1)包括:B08.401(手足口病)、B00.202(疱疹病毒性咽扁桃体炎); 2)包括:K52(非感染性胃肠炎和结肠炎) ; 3)包括:B01.900(水痘); 4)包括:J06(多发性和未特指部位的急性上呼吸道感染)、J02(急性咽炎)、R05(咳嗽); 5)包括:R21(皮疹和其他非特异性皮肤疹); 6)包括:K11(涎腺疾病) ; 7)包括:B26(流行性腮腺炎); 8)包括:A38(猩红热); 9)包括:K75(其他炎性肝脏疾病); 10)包括:J40(支气管炎)、J98(其他呼吸性疾患)、J04(急性喉炎和气管炎)、J20(急性支气管炎); 11)包括:B99.×01(感染性发热)、R50(其他和原因不明的发热); 12)包括:J03(急性扁桃体炎); 13)包括:J18(肺炎); 14)包括:A49(未特指部位的细菌性感染); 15)包括:J11(流行性感冒,病毒未标明) 2.6.2 门诊医生工作负荷验证 从HIS业务系统统一调取2013至2018年5月第3个星期四日门诊医生日接诊数据行验证,结果显示,6年医生平均接诊48人次,2013-5-16、2014-5-15、2015-5-14、2016-5-19、2017-5-18、2018-5-17医生平均接诊分别为50、52、49、47、47和43人次。 2.6.3 医院专科和专病门诊趋势 除了普通内科和普通外科以外的门诊,均计为专科,需要说明的是,专科门诊个数包括了以疾病名称命名的专病门诊个数。图7A显示,专科门诊从2009年的46个发展为2018年的180个,2014年后专科门诊数量增长明显;图7B显示,专科门诊就诊比例呈逐年上涨趋势,由2009年46.85%(61.90/132.13万人次)上升至2018年的68.11%(142.22/208.79万人次)。图7C显示,专病门诊从2009年的16个发展为2018年的142个,2016年后专病门诊数量增长明显;图7D显示,专病门诊就诊比例呈逐年快速上涨趋势,由2009年0.51 %(0.68/132.13万人次)上升至2018年的5.66%(11.83/208.79万人次)。 图7 专科门诊和专病门诊发展趋势 我国儿科资源配置与服务供给一直是国家卫生政策关注的领域[7],也得到了国家和各地方政府部门的重视。最新一次全国儿科资源现状调查报告指出,我国儿科医生人才供给和儿童医疗服务之间普遍存在不平衡现象[8]。儿科医生短缺、工作负荷重、流失率高与日益增长的儿童卫生服务需求矛盾突出。为了更精准地制定儿科医疗政策、合理优化配置儿科医疗资源,本文利用医院HIS中的大数据资源着重分析了我院近10年1 800余万人次的门诊患儿就诊特征、医生工作负荷和医院专科、专病化发展趋势。 门诊数据是医疗数据中的重要部分之一,门诊数据与住院数据比较,信息单一,但能更有代表性的体现患者就诊的特征和服务趋势,深入地挖掘门诊数据一直受到重视。本研究按照大数据处理流程,对HIS数据的获取、预处理、存储和分析进行了探索。在数据预处理上,基于本文数据特点,较好地建立了数据清洗、评估、集成和规约的流程和方法,特别是在数据的评估和处理上进行了有益的尝试。①根据门诊数据同质性最困难的2个项目,开发ICD-10疾病代码融合及治理功能模块,开发地址数据标准化融合及治理功能模块进行数据清洗。②定义了门诊编号和挂号编号,分别用于人数统计和人次统计,清楚说明了重复数据可能来源。③对门诊日医生接诊人数极少的离群数据,以四分位间距1.5倍作为下限。④缺失数据一直困扰门诊数据的统计和处理,本文采用缺失人群特征比较的方法,考察缺失人群的人口学特征是否均衡,从而判断缺失人群数据是否可能影响整体人群数据。10年间地址缺失率一直在45 %左右,但地址缺失人群的人口学特征变化不明显;10年间诊断信息缺失率和接诊医生姓名缺失率分别为5.9%和26.8%,缺失数据主要发生在2013年更换了门急诊工作站厂商,导致2013年前处于缺失率较高位,之后处于缺失率较低位,但低位与高位时段人口学特征变化不明显。 我院10年间门诊量变化呈现先上升(2009~2013)后稳定(~2018)的趋势。上升的可能因素:①近30年来我院的学科逐步完善、形成了较为明显的医疗、学术的影响力,开始辐射到更广泛的地区;②2008年我院搬迁到近邻虹桥交通枢纽的新医院,除了保持吸引市区患儿就诊的优势外,更吸引了上海周边城区和大量的外省市患儿就诊;③2009至2014年综合性医院和社区卫生院儿科萎缩,相对多的患儿集中到儿童专科医院就诊[7]。之后稳定的可能原因:①国家对儿科看病难进一步重视,在政府的推动下各地和各医院积极探索分级诊疗;②上海市对儿科资源调整布局,2016年1月“构建儿科医联体、推进区域协同发展”工作在全市展开,上海构建了五大区域联合体,实现全市儿童“就近就医、有序转诊”;③2014年4月我院在全国率先提出构建“复旦大学儿科医联体”,探索儿科分级诊疗模式,补长儿科资源紧缺短板,将优质儿科资源辐射并下沉到基层医疗机构[9];④2012到2013年我院提出并大力推进专科化,2017年进一步推动专病化,主动引导普通内科和外科的门诊患儿分流专科和专病门诊。 随着我院学科影响力逐年增加,儿科服务全国的半径逐年扩大,图2中10个年份红色和橙色逐年扩大,深蓝色和浅蓝色逐年减少,但影响范围在延伸,红色和橙色为不同年份各省市门诊量>P75和~P50的省市标记,从华东向西南(四川、云南)、西北(陕西、甘肃)、华南(广东)、中部(河南、湖北、湖南)、东北(辽宁、吉林、黑龙江)扩大。进一步说明我院的学科逐步完善、形成了较为明显的医疗、学术的影响力,较为快速地辐射到更广泛的地区。同时也可能与以下因素有关:①长三角地区和国家快速交通发展,使得患儿转诊就医更为便利;②国家扶贫帮困、支援西部地区力度加大,逐年派出援藏、援疆、援滇等医护人员的数量增多,并在当地医院形成了较好的扶持效果和知名度。 患儿就诊病种呈现常见病为主和专科疾病上升的趋势。内科疾病中呼吸系统、消化系统、神经系统疾病仍是门诊就诊的主要常见病。性早熟青春期疾病、身材矮小症等内分泌疾患呈现上升趋势,这些疾病的患儿就诊年龄多在学龄前或青少年时期,并且多次就诊,同时由于科普工作的加强,家长对性早熟和身材矮小症的重视,就诊人次数明显上升。外科疾病中小儿外伤和骨折仍是居于首位的病种,其次,小儿肿瘤、腹股沟疝、先天性心脏病、肛门和直肠疾患是外科常见疾病。病种的变化体现了医院就诊人群的变化,需要医院聚焦专科专病的发展,兼顾慢性病的诊治,采用多学科联合的诊疗方式为患儿提供更好的服务。 我院儿科医生工作负荷近年来(2013年以后)呈现稳定的趋势。根据《中国儿科资源现状白皮书》调查结果,2014年三级儿童专科医院医生平均每日接诊80~100人次,每周工作超过50 h。2010至2015年我国儿科医生资源配置状况动态分析也显示我国儿科医师的诊疗负担明显高于其他医师,面临负担过重问题[10]。我院10年间门诊医生平均日接诊51(49~55)人次,初、中、高级职称医生门诊日均接诊分别63(59~74)、54(52~58)、45(39~56)人次,反映了我院由于推行专科化和专病化,专科化程度越来越高,由2009年46.8%升至2018年的68.1%,专病门诊是专科化的重要体现,从2009年的16个专病门诊发展为2018年的142个专病门诊,虽然门诊数量相对减少,但患儿病情复杂、患者就诊当日回访报告检查结果多,门诊医生工作还是满负荷运作。需要说明的是,我院10年门诊医生平均日接诊51人次,明显低于《中国儿科资源现状白皮书》调查结果(80~100人次),与我院和基于全国平均水平医院在临床和科研能力的基线差别有关。 本文在国内儿科领域首次对医院门诊医疗及运行大数据进行整理和分析,探索了医院大数据处理规范流程,为医院进一步提高数据质量、集成医疗数据和深度挖掘数据打下基础,同时也为多机构医疗数据互通提供了借鉴。基于国家儿童医学中心之一的我院的门诊数据表明,10年间门诊量逐年稳步增长,患儿来源地区从上海向全国辐射,门诊医生平均日接诊数量低于全国平均水平,专科门诊和专病门诊成为重要的发展趋势。 致谢:万达信息股份有限公司李静、施宇、郑文婕和陶杰等工程师在大数据治理、自然语义处理和功能模块开发等方面给予的帮助。2 结果
3 讨论