基于急诊大数据的住院医师规范化培训课程纲要拟定探索
2019-01-17郭峰,王煜
郭 峰,王 煜
中国医科大学附属盛京医院急诊科, 沈阳 110004
进入21世纪,“信息化”在我们的生产生活中扮演了重要的角色。而当代信息的具体体现形式就是大量的数据,具有代表性的是2008年由提维克托·迈尔·舍恩伯格提出的“大数据”概念[1]。关于大数据的应用,在很多行业都已经广泛开展,如互联网IT行业、产品销售行业等[2]。但是,在临床医学及医学教育行业,大数据应用还有待挖掘。中国医科大学附属盛京医院急诊科为临床医疗一线科室、国家级住院医师规范化培训(以下简称“规培”)基地。笔者将急诊医疗大数据与住院医师规培课程建设结合,做一些相关探索性研究。
1 急诊规培住院医师课程现状
“规培”是目前西方国家主要实施的医师培养方式,在欧美国家已应用多年。我国自2015年规培工作在各大医院严格执行。在盛京医院急诊科规培基地,规培工作现已成为继临床医疗、医学科研、本科生教学后的第四大工作内容[3]。规培涉及入科教育、过程培养、出科考试等环节。关于过程培养的具体形式,国家卫计委都有明确规定[4],具体为:除日常临床学习过程外,每月规范教学查房4次,每月规培小讲课4次。在其他专业规培活动中,培训效果显著[5]。急诊专业因其自身特点,教学内容组织不能与其他专业相同。首先,急诊患者就诊都是以症状为主诉,无事先分诊、无诊断倾向性、无重危状态评估。这就决定了急诊规培教育要以具体疾病症状为基础;其次,急诊科患者疾病不按器官、系统分类,疾病谱广,涉及内、外、妇、儿下属各三级学科。这种特点决定了急诊规培教育不能以某一单一系统为具体范围,需要涉及多学科;再之,急诊科疾病还具有急、难、险、重的特点。这些特点是其他学科所不具备的,这对急诊规培教学又提出了新的要求[6]。综上所述,在有限的规培时间、有限的教学活动前提下,怎样制定教学规划及重点,既照顾全局内容,又能让重点内容突出,是个现实问题。该研究根据医院急诊基地医学大数据,即急诊科的真实情况,探索了规培课程的规划和重点课程建设方案。
2 方法
2.1 设计思想
盛京医院于2016年被评为双HIMMS7级医院,信息化程度极高,已经实现了无纸化办公。在日常的诊疗过程中,积累了大量的医疗数据,包括文字、影像、数字、视频等。该研究利用急诊病历文字数据,研究急诊患者中多发疾病、常见症状、急危重症等的发病情况及构成比。根据真实世界的病例构成,制定和规划规培课程重点教学内容。
2.2 方法
从东软公司HIS系统中提取中国医科大学附属盛京医院急诊科2012年1月1日至2017年12月31日共6年急诊病历的首次病程记录,采用Windows 10操作系统,Anaconda 3集成编程环境,Python 3.6计算机语言及Pandas、Matplotlib等第三方库进行数据分析[7],具体方法如下:
2.2.1数据导出及整合从东软公司HIS系统导出的数据形式为Excel文件,鉴于每个Excel文件只能存储病历65 535条(2003版),大约是急诊科4个月左右产生的病历数。因此,为了能够对6年数据进行分析,需要对多个Excel文件进行整合。先按4个月为周期,分批导出急诊病历,然后通过Python语言编写数据连接函数,按列索引纵向连接各个数据表格,得到含有6年病历数据的一个.csv文件,即待分析数据库。待分析数据库包含1 022 110条病历数据,包括科室、患者姓名、门诊病历号、主诉、现病史、既往史、个人史、查体、嘱托医嘱、就诊日期及时间、诊断、接诊医师姓名共12个列索引,整体为二维矩阵结构。
2.2.2数据清洗病历数据库内容根据平时医师接诊患者时书写的病历自动生成,虽然医院有病历书写相关规范,但由于急诊工作繁忙,病历质量仍有缺陷(如缺项、漏写等)。这些空白项均可能对数据整体分析造成影响,也影响程序正常运行,故需先进行数据清洗。该研究是以诊断名称序列为基础,对诊断缺项的数据采取舍弃的方案。除空白项外,数据导出时因网络错误等原因未能导出诊断名称的病历,系统会自动在诊断栏加入“诊断名称”四个字,此类病历同样予以舍弃。
2.2.3数据重塑从待分析数据库中提取诊断名称列,作为分析对象。由于急诊科诊断名称库并非标准诊断名称库,而且有自定义功能,在平时工作中有医师自行根据具体情况写入诊断,故须对清洗后数据进行重塑。具体方法按照以症状和病种为基础的教学要求,参照医师日常工作中对常见症状的诊断名称进行总结,对单独疾病或单类疾病诊断名称进行规范,即将某一类症状或者疾病写成正则表达式,表达式内逻辑关系为“或”,根据此正则表达式将同类症状或疾病赋予指定标准诊断名称,并生成新的诊断统计序列,供计算、分析用。具体规范方案如表1所示。
2.2.4数据计算、可视化及分析规范后的诊断名称按疾病特点及危重程度分为两类:①症状描述诊断,如发热待查、腹痛、抽搐等;②急危重症,如休克、心肌梗死、呼吸衰竭等。编写函数对具体诊断进行计数,并反复用函数对每个诊断名称进行自动化计数,然后通过Matplotlib库对计数结论进行可视化,生成统计图和统计表,观察各个病种的数量分布和构成比,并根据图表规划教学内容和重点。
表1 诊断库诊断名称规范方法
3 结果
以症状诊断为计数基础的诊断分布如图1所示,排在前三位的分别为“发热”“急性腹痛”和“创伤”,分别为191 780人次、159 798人次、108 820人次,构成比为293.61‰、244.64‰、166.60‰。
图1 以症状诊断为计数基础的诊断分布图
以急危重症诊断为诊断基础的诊断分布如图2所示,排在前三位的分别为“阑尾炎”“酸碱平衡紊乱”“脑梗死”,分别为6 285人次、6 087人次、5 432人次,构成比分别为:105.95‰、102.61‰、91.57‰。
图2 以急危重症诊断为计数基础的诊断分布图
根据上述结果综合分析,拟定的急诊规培课程纲要如表2所示。
表2 根据大数据拟定的急诊规培课程纲要
4 讨论
4.1 规培临床教学的重点内容选择
急诊医学知识体系复杂,要求知识储备多、涉及范围广。但住院医师精力以及规培带教时间均有限,不能把所有需要的知识都一一讲授。所以,在庞大的急诊医学知识体系中,找出规培教学重点,是规培教学的一项新的挑战。传统医学教科书对教学重点有规定,但由于规培作为毕业后教育,加上医院所处地域、气候、文化、人口构成等原因,传统教科书并不能适合所有情况[8]。虽然国家卫计委制定了急诊医学专业的规培专用教材[9],包含7篇,140章,涉及疾病种类120多种,但也不可能在教学中完全同等对待。参加规培的住院医师都已经完成了医学本科课程,具备基础的医学知识,但还未经过实践检验。医学本科课程的基本思想是“大而全”,但临床工作的基本特点是“细而精”,具体情况还要看具体的医院、科室而定。所以,根据现实情况选择重点教学是个很好的想法。但是,人的认知是有限的,规培教师的工作时间、工作经验也不尽相同。故每个规培教师感觉的教学重点与真正的现实情况也不一定相同。在医院目前的信息条件下,可以通过急诊大数据获得真实的信息,以指导规培教学工作。在该次课程建设方法的研究中,最大的优点就是真实,各个疾病的构成比完全根据真实数据记载而来,急诊科接诊患者的诊断类别得到真实表达[10]。可以粗略认为,急诊工作中,患者患某种疾病的概率是多少,在实际临床工作中有十分重大的意义。除此之外,能让住院医师在临床经验有限的情况下,提前了解现实工作的一些情况,对于教学也有重大意义。该研究将教学课程根据症状诊断和病种诊断分为两个序列,根据构成比决定教学内容的掌握程度。常见病、多发病需掌握诊断、治疗等全过程,而少见、罕见病只需掌握基本诊断方法即可。这样可以使住院医师有限的精力得到合理分配,避免浪费。但教学重点并非完全根据数量和构成比决定,在以构成比为基础的同时,也参照了疾病的危重程度,避免了教条、死板的使用“大数据”[11]。
“大数据”虽能反映真实情况,但具体问题的决策,还是要作为教师的“人”来作出,这是我们在利用“大数据”时需要注意的问题。如该研究中,因疾病危急程度不同,并未把“阑尾炎”作为掌握内容。医学科学具有很强的不确定性特点,急诊科作为医院的前沿阵地,通常治疗的都是诊断不明确的患者。所以,急诊科的病历诊断有症状描述诊断,也有具体疾病诊断,但二者无法保证完全正确对应。如胸痛症状,可能对应心绞痛,也可能对应气胸。故在制定规范诊断列表时,不能二者兼顾。根据症状的临床思维教学和根据具体疾病的诊治方法教学本身的侧重点也不一样,以上缺陷可能造成数据分析的不准确,但不会影响临床教学。
4.2 医疗大数据分析
众所周知,虽然对于“大数据”本身,目前并没有明确的定义,但医疗大数据具备的特点却十分明显[12]:①数量大。一般都在百万条以上,占据TB级的硬盘空间。②数据种类多。数据多来自多个数据源(如化验室、门诊工作站、影像科等),同时包括结构化数据和非结构化数据。③数据处理速度快。虽然数据量庞大,但借助计算机工具,能够做到数据的即时处理,即时得到结果。④数据真实可靠。医疗数据除病历外,多为仪器、设备等自动检测生成,自动化程度高,无篡改可能,病历虽为人工书写,但医疗病志为法律文书,医院有严格规章制度对病历书写进行规范,且病历书写为临床医疗服务,故可信性极高。⑤数据维度高。除上述特点外,医疗大数据还具有高维度的特点。医疗大数据基本以患者为基础,而患者数据除基本信息外,每个化验结果、CT影像序列、复查结果都会产生新的数据维度,使其数据结构更加复杂,分析难度加大。
基于上述特点,传统分析工具是无法对大数据进行操作的。Python语言是目前世界上最流行的计算机语言,长于数据分析、数据挖掘、机器学习等领域,并且带有丰富的功能库,是大数据分析的有力武器。就该研究来看,面对结构复杂的医疗数据,聚合、清洗、重塑及计算过程均由Python及Pandas库完成,操作便利、结果准确。同时,计算机强大的自动化功能在该研究也得以体现[13]。要想实现通过计算机语言进行数据分析,需要一定的编程能力。这对临床医师来说,是一项不小的挑战。除此之外,想要获得数据,需要医院的信息化高度发达,各种临床信息均在医院数据库有所记录。
4.3 工具学科与具体业务的结合
计算机、互联网等现代工具参与具体工作,在当今时代环境下已经成为常态。但当代社会分工极细,如语言、计算机、教育科学等均自成专业。医科大学附属教学医院的医师,本身就具有多重身份。随着规培工作的正规化,除了临床医师、医学科研工作者、医科大学教师外,规培教师的身份,也逐渐被重视。在这样的多重身份条件下,利用现代信息工具为专业工作服务,将大大提高工作效率[14]。对于现代信息工具的使用,非计算机专业人员也许有一定难度,但面对现实情况,把自己培养成“一专多能”的人才,是大势所趋。在精进自己专业的情况下,保持学习能力,不放弃对高级工具的学习,使自己适应时代、适应专业的要求,是当代高校教师应该具备的基本素质[15]。
在信息时代,数据更能客观地体现真实情况,在有能力获得数据并进行分析的情况下,以大数据为基础,分析真实世界的情况,并以真实情况进行医学教学工作指导的工作思想,值得在医学教学工作中广泛推广。