电子病历数据质量研究的国内外差异*
2023-05-08任牡丹杨柳殷杰吴义熔
任牡丹,杨柳,殷杰,吴义熔
(1.北京师范大学政府管理学院,北京 100875;2.北京师范大学心理学部;3.南京医科大学第四附属医院(浦口医院);4.北京师范大学人文和社会科学高等研究院)
随着我国信息化建设的不断完善和发展,医疗卫生条件得到显著提高,医疗数据也开始进入智能化应用阶段。电子病历数据作为医疗信息的重要来源和载体,包含了患者从住院、诊疗、康复再到复诊全部流程和过程的相关信息,是临床医学和科研机构学习和管理的第一手资料来源,而良好的数据质量则是保证医疗健康数据发挥作用的重要基石。从2013年开始,一些西方发达国家给予大量财政支持用于开展医疗大数据应用层面的研究[1]。随后,我国也先后颁布了多项政策文件,对电子病历数据质量的研究给予高度重视。2016年,国务院办公厅颁发了《关于促进和规范健康医疗大数据应用发展的指导意见》,明确指出健康医疗大数据是国家重要的基础性战略资源,要通过其应用激发深化医药卫生体制改革的动力和活力,提升健康医疗服务效率和质量。2021年,国家卫健委颁布《病案管理质量控制指标(2021版)》,要求我国必须不断提升病案管理的科学化、精细化水平,严格开展质量管理[2]。
国家层面的关注引发了学术界的多方思考,探索电子病历数据质量成为研究的热点主题。目前,国内外针对电子病历数据质量研究成果较多,但缺乏对该领域在研究主题及研究内容的凝练和总结。综合当前相关文献,国内外电子病历数据质量研究在研究主题及研究内容方面存在哪些异同,对今后国内研究的启示有哪些,这些问题值得我们深思。鉴于此,本文采用内容分析法和文献计量法,拟对电子病历数据质量研究领域进行深入探索,总结当前国内外研究差异,为今后国内电子病历数据质量的理论研究及现实意义提供参考与借鉴。
1 数据来源与研究方法
1.1 数据来源
本研究的数据主要包括中英文两部分。其中,中文期刊来源于中国知网CNKI。在国内现有文献中,电子病历的表达方式有多种,电子健康记录、电子病历记录都是较为常用的表达方式。故中文检索方式为:主题=“电子病历”OR“电子健康记录”OR“电子病历记录”AND“数据质量”,期刊来源不限。英文期刊来源于Pubmed ,在国外研究文献中,“Electronic medical record”“EMR”“Electronic Health record”和“EHR”均是表达“电子病历”的词汇。故英文检索方式为:选择高级检索,主题=(((Electronic medical record "data quality") OR (EMR "data quality")) OR (Electronic Health Record "data quality")) OR (EHR "data quality") ,文献类型为期刊。通过对现有文献进行筛选和排查,重点核查文献摘要及内容,确保文献中明确出现有关电子病历数据质量研究方面的表述,剔除新闻报道、会议论文及书评等非研究类论文后,且检索时间截止2022年6月12日,最终符合结果的中文文献共计97篇,英文文献共计1016篇。
1.2 研究方法
本文研究方法主要以内容分析法为主,文献计量法为辅。通过对高频关键词、高被引文献分析聚焦研究主题,具体从电子病历数据质量存在问题和电子病历数据质量提升的方法两个维度出发,以分析和提炼总结国内外电子病历数据质量研究内容上的异同,最终得出研究启示。本文的具体研究框架及采用的方法和工具等如图1所示。
图1 本文的研究框架
2 电子病历数据质量研究主题分析
2.1 电子病历数据质量高频关键词分析
高频关键词是对文章主题的高度概括和集中描述。一般而言,在关键词图谱中,圆圈越大,关键词越大,说明在文献研究中出现的频次越高,出现频次较高的关键词则可以用来确定电子病历数据质量研究的热点领域和重要主题。
(1) 将检索到的97篇国内期刊文献导入CiteSpaceⅢ中,将Node Type设为Keywords,进而绘制电子病历数据质量研究的国内高频关键词知识图谱,以寻找当前的研究热点主题,具体如图2所示。国内电子病历数据质量研究的关键词知识图谱包含关键词节点数为173,连线为366,网络密度为0.0246。分析结果表明,近十几年来,我国电子病历数据质量研究的热点关键词包括:电子病历(33次、2011年);数据质量(19次、2012年);病案首页(12次、2016年);数据(5次、2014年);医院(4次、2017年);分级评价(4次、2019年);大数据(3次、2017年);应用水平(3次、2019年);绩效考核(3次、2017年);质量控制(3次、2017年);数据治理(3、2020年)等等,反映了我国对电子病历数据质量尤其是病案首页数据质量的关注焦点,多集中于电子病历系统应用水平、数据质量对医院绩效考核和等级评价的影响,以及数据质量的监控、问题和治理成效等方面。目前已取得了一定成效,学者们对此研究的成果也逐渐增加,但学界对这一研究领域仍处于不断探索和持续推进阶段,还有较大的发展和改进空间。
图2 国内文献中电子病历数据质量的关键词图谱
(2)同理,将检索到的1016篇国外期刊文献导入CiteSpaceⅢ中,将 Node Type 设为 Keywords,进而绘制出电子病历数据质量研究的国外高频关键词知识图谱,以探索当前学术界的关注热点,具体如图3所示。国外电子病历数据质量研究的关键词知识图谱包含关键词节点数为741,连线为1475,网络密度为0.0054。国外电子病历数据质量研究的热点关键词主要包括:electronic health record(110次、2010年);data quality(106次、2012年);*electronic health record(73次、2015年);*data quality(70次、1996年);electronic medical record(26次、2013年);*electronic medical record(16次、2015年);quality improvement(13次、2014年);clinical research(10次、2013年);*clinical trial(10次、2016年);health information system(10次、2015年);*primary care(9次、2016年);Data collection(8次、2014年);data accuracy(8次、2016年)等等,可以发现,相较于国内,国外文献较早的开启了对电子病历数据质量的研究探索,关注方向也更加趋于多元化,从临床研究、临床试验、数据质量提升,到建设健康信息系统、基层医疗诊断存在的数据质量问题、数据采集流程、数据精确性评估方法等,反映了国外对电子病历数据质量的研究已经达到了成熟阶段,为我国未来发展方向提供了指导经验和帮助。
图3 国外文献中电子病历数据质量的关键词图谱
2.2 电子病历数据质量高被引文献分析
高被引文献能够在一定程度上反映出该研究在其领域内的研究热点方向。根据高被引文献的降序排列,进一步分别筛选和整理出排名前十的文献信息(表1),具体包括文献篇名、作者、被引频次及发表时间等信息,以探索电子病历数据质量研究的热点和学术关注。
表1 国内电子病历数据质量研究的高被引文献
根据表1的内容[3-11]可以看出,国内电子病历数据质量的发展脉络主要体现在两方面:一是在大数据时代背景下,浅析我国电子病历数据质量的发展现状,利用多种评估方式或评价流程找出数据质量存在的问题及原因,针对性的制定改进措施并分析实施效果,进而提升数据质量;二是针对病案首页数据质量进行专门分析,病案首页数据是医疗数据的重要组成部分,也是评价医疗机构等级效果的重要依据。通过监控住院病案首页数据信息填写情况,发现问题所在,同时明确信息化建设对数据质量带来的影响。综上可以发现,国内电子病历数据质量研究热点主要围绕如何提升数据质量这一方向,为下文研究内容奠定坚实的基础。
表2显示了国外电子病历数据质量研究领域被引频次最多的前十篇文献,可以发现这些文献集中于2010年~2016年之间,集中探讨了电子病历数据质量存在的问题、表现形式、解决这些问题的策略,以及可评估、可测量数据质量的维度和方法等。从高被引文献发表的时间顺序来看,学者们对电子病历数据质量最先关注的方向在于如何评估、如何测量。Thiru K和 Hassey A[12](2003)等认为研究应该提出具有明确的分子、分母和置信区间的数据质量测量方法,如果缺乏评估电子病历数据质量的标准化方法,会造成研究结果的不确定性。经过近十年发展,学者们将关注点聚焦于电子病历数据质量面临的难题和挑战中,Botsis T[13](2010)等提出了数据质量问题的具体表现形式,并讨论如何利用新兴信息学技术来解决这些问题的策略。2012年以后,学术界再次将研究热点转向如何评估数据质量,体现了评估数据质量这一研究方向的重要所在。解决临床和公共卫生研究问题越来越需要从多个站点汇总数据,电子健康记录和其他临床来源的数据对此类研究有用,但需要严格的质量评估。Weiskopf NG[14](2013)等回顾讨论有关电子病历数据质量评估方法的临床研究文献,确定了数据质量的5个维度和7类评估方法,结果发现目前用于评估EHR数据质量的方法几乎没有一致性或潜在的推广性。如果要将EHR数据用于临床研究,研究人员应该采用经过验证的、系统的EHR数据质量评估方法。总之,上述高被引文献多集中于电子病历数据质量引发的诸多问题、干预措施、提升方法、评估方法等。可以发现,相较于国内,国外的关注热点包括了提升数据质量和评估数据质量两大方向,为当前和未来学者深入探索电子病历数据质量的进一步研究奠定了重要的基础,也为学者们的研究议题指明了方向。
表2 国外电子病历数据质量研究的高被引文献
3 电子病历数据质量研究的主要内容
目前,电子病历数据在数量上已有显著提高,但从整体上而言,其质量还不尽理想。通过上文对国内外研究主题的具体分析,本文将对电子病历的研究工作着重围绕如何提高数据质量展开,主要聚焦在电子病历数据质量存在问题分析、电子病历数据质量提升的方法两个方面(如图4所示)。
图4 电子病历数据质量研究的内容框架
3.1 电子病历数据质量存在问题分析
表3展示了电子病历数据质量研究存在的问题分析详情概览。通过对比分析发现,电子病历数据信息的不完整、不准确是数据质量普遍存在的问题。有所不同的是,国内学者更多的是从不同类别的人员角度出发,例如医院、医护人员、临床医师、患者等,找出造成数据质量低下的问题及原因,而国外学者更倾向于从数据采集平台、系统软件寻找问题、发现问题。
表3 电子病历数据质量存在问题分析统计表
大数据时代的到来,使数据逐渐演变为一种隐形“资产”,医疗领域更是如此。各级医疗机构在长期运营中积累了大量的数据资产,可以帮助医护人员更为精准的治疗疾病,也能够帮助医院更好的运营发展,但是医疗数据的低质量大大制约了这一优势。由于行业数据标准不统一或医护人员不按照标准行事导致数据完整性、准确性较差,不同系统之间的数据相互独立,无法实时关联,造成信息孤岛[15]。为了进一步加强电子病历系统等级评价,国家卫健委发布了多项卫生行业信息标准,为建设和实施规范医疗数据标准奠定基础。但医院在应用过程中仍存在一些影响数据质量的问题,如数据标准规范不统一或存在交叉或差异,缺乏统一管理维护,不同数据间融合困难等[16]。在电子病历记录中,病案首页是整份病案的核心所在,也是电子病历数据的重要来源,目前也面临着缺乏数据完整性、规范性、逻辑性以及仍需人工审核等一系列挑战[17]。我国学者从多个角度剖析了病案首页存在的主要问题。例如:从医院及医护人员的角度出发,病历书写不够重视、医师对医疗规范不太熟悉、医院的培训考核不够到位、电子病历信息系统不够完善等问题导致数据质量低下[18];从临床医师的角度出发,医师不能按时填写首页信息以及每天超负荷的工作量,导致无法有效监管多个病人信息[19];从患者的角度考量,表单格式设计不合理、信息系统缺陷、医务人员操作不规范、临床医师对首页内涵指标含义理解不准确等造成病案首页数据缺陷[3]。
国外学者认为,数据质量是使用电子病历数据构建学习型医疗保健系统的新一代研究平台的关键方面。电子健康记录可以用于研究,但也带来了数据质量的问题,如由数据发起者自身导致的错误、ETL问题或EHR数据输入工具的限制引起的多方位障碍等[20]。全科医生在办公室定期会诊期间评估电子病历中记录的信息质量时,发现在咨询过程中的对话与EHR报告的内容之间存在信息丢失的问题,这将造成数据不够准确[21]。目前,在临床研究中重复使用数据是一个非常普遍的现象,区域医疗平台会收集特定区域医院的临床数据,用于医疗管理。然而,电子健康记录术语不一致、区域健康平台数据质量和数据格式的复杂性等问题是医疗机构面临的一大挑战[22]。随着电子健康记录的大规模部署,各种医疗服务或临床研究对电子健康记录数据的二次使用需求将越来越大。不完整是其主要的数据质量问题,其中,患者身份识别匹配问题是电子医疗记录中数据完整性问题的主要原因[23]。许多研究变量在不同程度上存在缺失值,不准确和不一致是接下来将要产生的常见问题[24]。这些问题阻碍了通过卫生信息交流和护理协调来提高卫生保健质量,并导致医疗事故造成的死亡。诊断数据的使用对于电子健康记录数据的二次使用至关重要,但可访问的结构化诊断数据往往缺乏准确性。虽然电子健康记录已被用作一种有价值的表型数据来源,但Fort,D[25]等表示这种方法存在数据丢失等固有的数据质量问题。
3.2 电子病历数据质量提升的方法
表4展示了电子病历数据质量提升的方法详情概览。经过梳理后可以看出,国内外学者提升数据质量的方法大体相似,多依赖技术手段,或开发新程序、新系统从数据生成的过程和结果中改造,从而提高数据质量。例如:构建医疗数据质量管理模型、建立整套管控流程、对不同的数据来源,提升质量采用不同的方法等。
表4 电子病历数据质量提升的方法统计表
随着医院信息化建设进程的不断加快,医疗数据规模也在不断扩大,面对愈加庞大复杂的数据文本,如何提高数据质量成为了困扰病案管理工作亟须解决的重要难题。近年来,大数据能够准确、快速处理庞大复杂的数据体量,协助研究人员获取更多有用信息,这一优势逐渐被应用于医疗管理过程中。通过大数据分析创建医疗数据质量管理模型,从数据填报、病案管理、质量控制、数据分析和疫情上报等五个流程管理病案,不仅可以提升病案价值,也能够提高数据质量[2]。电子病历的数据来源多种多样,包括临床护士记录的详细护理流程。使用全结构化电子护理记录单,相较传统自由文本输入方法,能够有效减少护理书写错误,提高数据质量[26]。病案首页信息也是电子病历数据的重要组成部分,通过构建一套完整的首页质控体系,从医生端开始,到病案室管理端结束,流程覆盖数据从产生、管理、审核以及控制的全过程[17]。该质控体系对提高数据质量具有一定的积极作用,能够帮助解决病案首页存在的问题与缺陷[27]。由于国内对电子病历数据质量的定量研究较为薄弱,我国学者基于人工智能技术和统计学方法,采用多种方式(如多维度数据质量评估、规范化模型等)清洗数据,有效提高数据质量[28]。当前医疗数据给我们带来巨大便利的同时,也带来了前所未有的挑战。我国虽掌握大量的数据资料,但缺乏数据加工的能力,使其发挥自身价值。INFA技术能够采集、清洗、集成数据,改进医疗数据质量,帮助医院内部系统之间的数据相互交换,提高工作效率[29]。
电子病历作为一种非结构化的文本文件,通过识别、治疗和治愈疾病来维护病人健康情况。国外学者认为,电子病历记录中收集了大量与患者病情相关的信息,通过机器学习和自然语言处理技术能够去除提取临床文本数据的技术复杂性,帮助减少数据误差,为医疗机构提供更好的数据质量[30]。同时,自然语言处理方法能够处理电子健康记录中的临床免费文本,减少了昂贵的手工图表审查的需求,并且提高了数据质量。Sagheb,E等[31]开发了NLP算法,自动从膝关节置换术手术笔记中提取手术特定数据元素,为医院提高数据采集的广泛实施和研究临床目的效率提供了可能。人工智能隶属数据科学,是一种能够通过数据和人类实现互通的高级算法机器。电子医疗记录和个人医疗记录的使用越来越多,突显了人工智能在提高数据质量及建立解释数据先进算法方面的相关性[32]。有人认为,电子健康记录中的数据质量取决于临床医生对诊断记录原则的坚持。为了提高EHR数据质量,需要医生、护士、管理人员和EHR开发人员之间的合作,采用概念图方法是实现这一目标可接受的方法[33]。此外,也有学者表示电子病历记录在质量、可访问性和内容等方面仍然存在不足,结构化注释模板可以提供一种改进这些缺陷的方法,特别是在研究数据可用性和质量改进方面[34]。提升数据质量的方法多种多样,临床试验数据监测则是一种可以降低随机错误和系统错误风险的工具。传统的“良好临床实践数据监测”加上现场监测不仅增加了试验成本,而且非常耗时。Olsen,M.H[35]等提出了一种中央数据监测的方法,可以提升并发数据的完整性,及时发现由于误解或伪造数据造成的数据偏差,以优化质量控制和质量发展。
4 研究发现与启示
4.1 主要研究发现
本文通过对国内和国外电子病历数据质量研究文献进行系统梳理和内容分析,识别和比较了国内外电子病历数据质量研究的热点主题及主要内容。概括而言,本文得出的主要研究结论包括:(1)从被检索文献来源时可以看出,与国内相比,国外对电子病历数据质量的研究探索较早,持续时间较长,如今已经步入持续发展阶段,而国内还处于不断探索和持续推进阶段,未来还有较大的发展和改进空间。(2)从研究主题来看,我国对电子病历数据质量尤其是病案首页数据质量的关注焦点,多集中于对数据质量的监控、存在问题、治理成效及提升方法等方面,即如何提升数据质量;而国外探索方向更加广泛,研究领域也更加深层次一些,不仅关注数据质量引发的诸多困境、干预措施、数据提升,还包括对评估测量方法的探索等,即如何提升数据质量和如何评估数据质量。(3)从研究内容来看,如何提升数据质量是国内外学者关注的共同话题。在存在的问题分析中,国内学者更善于从主观思维出发,通过从不同的人员角度寻找不同的原因,而国外学者更倾向于从数据采集平台、系统软件寻找问题、发现问题。在提升方法分析中,二者采用方法大体相似,多依赖技术手段,或开发新程序、新系统从数据生成的过程和结果中改造,从而提高数据质量。
4.2 针对国内研究的启示
我国电子病历数据质量研究起步较晚,通过对当前国内外研究文献进行深入探索分析后,可以为国内电子病历数据质量未来发展提供以下启示:第一,加快构建电子病历数据质量研究的理论体系框架,加强研究深度和高度。近几年来,我国政府先后出台了多项有关电子病历数据的政策文件,反映我国一直以来对电子病历数据的重要性给予的热切关注和重视。在这样的背景下,国内学者展开了积极研究,从公共卫生与预防医学、计算机、基础医学、护理、临床医学、控制工程等多个学科,从电子病历、数据质量、病案首页、分级评价、医疗数据等多个主题,进行多层次、多角度研究,然而围绕电子病历数据质量的研究成果仍然较少,且研究内容缺乏系统性。因此,想要长久有效的推动我国电子病历数据质量方面的研究进展,就要加快形成电子病历数据质量研究的理论体系框架,根据政策指引找出发展路径,剖析现存问题,加强干预,用科学方法推动现实落地。第二,强化电子病历数据应用与计算机、控制工程等学科领域的高度融合。电子病历数据质量对临床医学、药学、甚至科研工作、医院管理等方面都具有极大的积极作用,但是如何有效评估数据质量以及面对数据质量存在的问题如何干预和提升是学术界、医疗机构面临的重大难题。很显然,学术界将关注视角重点放在与医药学相关的学科上,却忽视了利用智能化、大数据等形式解决这一问题。因此,为了探寻更多可评估、可提升数据质量的应用系统和方法,应当强化电子病历数据应用与计算机、控制工程等学科领域的高度融合,发挥学科优势。第三,实现电子病历数据质量研究与国家治理的有效嵌合。近年来,随着数据的兴起与发展,医疗数据已经成为了我国数据产业重要战略目标。新冠肺炎疫情的发生,使得电子病历数据质量与政府治理、产业发展之间的关系密不可分。同国外相比,当前电子病历数据质量研究在国家治理方面的应用还处于不断探索阶段,尚有很多领域没有开展实施,实现二者之间的有效嵌合可以充分发挥电子病历数据质量在国家治理上的作用,推动我国未来长久发展。