基于知识图谱的国内外电子病历研究热点与前沿分析
2023-03-21吴义熔
雷 挺,耿 骞,吴义熔
1北京师范大学政府管理学院,北京,100875;2北京师范大学人文和社会科学高等研究院,广东珠海,519087
随着大数据、云计算等现代信息技术与医疗服务不断融合,电子病历成为信息化医疗服务体系的重要组成部分。2016年10月25日,中共中央、国务院印发了《“健康中国2030”规划纲要》,该纲要指出要完善医疗信息化服务体系,依托电子病历构建高效流通运转的人口健康信息平台,推进“互联网+健康医疗”的进一步发展。中国社科院等智库机构2020年6月发布《中国数字健康发展报告(2020)》,该报告评估了我国医疗健康行业迈向数字化新阶段的现状,并指出普及电子病历应用成为发展和完善医疗信息化服务体系的重要路径[1]。美国卫生与公共服务部将电子病历定义为“数字化的个人在医院诊断治疗全过程记录,它包含病程记录、医嘱、手术记录、护理记录、用药记录等数据”[2]。电子病历不仅可以依靠数字化方式帮助临床医生和工作人员高效存储和处理各种类型个人诊疗记录,还可以帮助公共卫生组织对公共健康进行实时监测,是当前医院获得DRG支付的重要凭证,在医疗信息化服务体系中占据了重要地位。
电子病历在国内外越来越得到广泛使用,学界以电子病历为主题的研究也已初具规模。首先,国内外学者从社会视角对各国电子病历系统进行了评估研究,Casey等学者评估了加拿大开发的全国范围内交互操作电子病历系统、澳大利亚开发的围绕患者需求精准化设计电子病历系统和中国开发的以电子病历为核心的信息化医疗系统,针对其存在的优势劣势提出了完善建议[3-4]。其次,国内外学者从技术视角对电子病历用途进行了探究,Najjar等学者实证检验了电子病历在嵌套病例对照研究中对提升诊疗精度的影响以及电子病历在COVID-19疫情中为保护公共健康安全做出的贡献[5-6]。诚然,当前电子病历研究成果颇丰,但相关研究呈现多学科交融的复杂趋势,缺乏对电子病历研究文献的系统梳理,本研究利用CiteSpace 5.8.R1绘制国内外电子病历研究知识图谱,系统分析国内外电子病历研究热点与前沿趋势,为完善中国医疗信息化服务体系提供参考。
1 资料来源与方法
1.1 资料来源
在国外电子病历研究文献数据选取上,考虑研究文献的权威性和质量水平,本研究主要以Web of Science核心合集数据库为主要数据来源。电子病历研究主题存在多个同义词和近义词,为了能够最大程度的穷尽电子病历研究主题相关文献,本研究检索设置式为=(主题:“Electronic medical record”)OR(主题:“Electronic health record”),具体检索日期为2021年11月14日,文献类型选取为Articles,时间跨度为1960-2021年,语言选择为English,排除部分缺失文献,一共获得了有效文献17131篇。
在国内电子病历研究文献数据选取上,为了确保研究文献的高质量,本研究在CNKI进行期刊文献检索时将文献来源确定为北大核心和CSSCI。电子病历在中文中的涵义较为广泛,为了保证检索文献的完整性,将检索式设置为=(主题:“电子病历”)OR(主题:“电子健康记录”)OR(主题:“电子病历记录”),具体检索日期为2021年11月14日,排除会议综述、编年纪要、专栏题词等,一共得到有效文献716篇。
1.2 研究方法
选取CiteSpace 5.8.R1绘制了国内外电子病历研究知识图谱进行文献计量分析,具体分析有如下几个方面。①关键词共现分析。关键词能够呈现文献的主要研究焦点,按照关键词出现频率绘制关键词共线知识图谱能够形象直观地展现某一研究领域的研究热点。②关键词聚类分析。按照一定算法对某一领域的研究关键词进行聚类,能够帮助研究者梳理研究热点之间的关联关系。③突现词分析。对突现词进行分析能够研究者把握某一研究关键词在某一研究领域在某一时限内的特殊研究趋势[7]。
2 结果
2.1 电子病历研究发文趋势
发文量趋势分析能够有效展现一个研究主题在时间纵深上的发展脉络,有利于进一步把握该研究主题的背景变化。如图1所示,1995-2021年国内电子病历研究文献发文量呈现明显的波动上升趋势,这与我国现在大规范推动电子病历应用的政策导向也相吻合。如图2所示,自1960年起国外电子病历研究文献发文趋势呈现非常显著的上升趋势,在2020-2021年更是突破年发文量2000篇,与COVID-19疫情中学界关注利用电子病历监测公共健康研究密切相关。
图1 电子病历研究国内发文趋势
图2 电子病历研究国外发文趋势
2.2 电子病历研究关键词共现分析
对研究文献进行关键词共现分析,能够清晰把握该研究领域的研究重点分布。将选取文献进行清洗筛选,切片选取均为1年,国内研究文献的时间范围选为取1990-2021年,国外研究文献的时间范围选取为1960-2021年,时间分区阈值选取Top10%,利用CiteSpace 5.8.R1绘制关键词聚类知识图谱。
如图3、表1所示,国内电子病历研究关键词聚合网络呈现出紧密特征,围绕498个节点共有849条连线,各类关键词紧紧聚合在“电子病历(360次)”这个核心关键词四周。如图4、表2所示,国外电子病历研究关键词呈现非常密集的多中心聚合状态,围绕1088个节点共有13438条连线,最为核心的关键词是 “Electronic Health Record(1877次)”。进一步分析高频关键词发现,国内电子病历的相关研究依托国内大数据发展热潮,强调从技术层面对电子病历蕴含的信息进行深层挖掘和利用;国外电子病历相关研究强调电子病历实践运用与学术研究的结合,注重电子病历的临床决策支持研究和电子病历质量评价研究。
图3 国内电子病历研究文献关键词
图4 国外电子病历研究文献关键词
表1 国内电子病历研究文献高频关键词(前10)
表2 国外电子病历研究文献高频关键词(前10)
2.3 电子病历研究关键词聚类分析
利用CiteSpace 5.8.R1对电子病历国内外研究文献进行聚类分析,聚类方法选取计算相似度最为简单有效的LLR法[7],绘制了国内外电子病历研究文献聚类知识图谱。如图5所示,电子病历国内外研究文献关键词聚类知识图谱聚类模块值(Q值)为0.6945,聚类平均轮廓值(S 值)为0.9595。如图6所示,电子病历研究的国外研究文献关键词聚类知识图谱聚类模块值(Q值)为0.3073,聚类平均轮廓值(S值)为0.67。学界一般认为聚类模块值(Q值)大于0.3表明该聚类效果显著、聚类平均轮廓值(S 值)大于0.7表明该聚类信度较高[7]。因而,电子病历国内外文献关键词聚类分析结果是显著的且可信度较高。
如图5所示,电子病历国内研究文献关键词围绕电子病历构建和电子病历使用两大内容一共形成16个聚类,国内正处于电子病历发展的初始阶段,学界研究关注如何构建规范的电子病历系统以及如何利用电子病历实现数字医疗服务。如图6所示,电子病历国外研究文献关键词围绕电子病历的功能和电子病历数据的识别两大内容形成10个聚类,国外电子病历建设已发展到一定阶段,学界研究更为关注如何使用电子病历提升医疗服务质量与医疗服务效率以及电子病历在预防医学领域的贡献。
图5 国内电子病历研究文献关键词
图6 国外电子病历研究文献关键词
2.4 电子病历研究突现词分析
突变关键词探测功能能够探测某一时间跨度内关注度陡然增强的关键词,并能够展示在这一时间跨度内的突变强度。通过对突变关键词的分析能够更加准确的该研究领域的发展脉络。国内电子病历研究突变强度排名前25的关键词时间跨度为1990-2021年。国内电子研究呈现非常显著的3个阶段:①电子病历规范化使用研究阶段(2007年之前)。“辅助诊断”“访问控制”等突变关键词都在本阶段得到验证。从20世纪90年代开始,我国部分医疗机构开始进行电子病历建设探索,学界也开始针对电子病历的内涵、适用范围、架构和规范化标准等内容进行探讨。②电子病历系统化使用研究阶段(2008-2013年)。这一研究阶段,“电子病历系统”“数据挖掘”等突变关键词得到展现。学界主要探讨如何实现电子病历的系统化建设,如何最大程度地综合利用电子病历多项功能,以及如何通过电子病历集成化系统实现医患、医医和医政互联,推进“互联网+医疗服务”建设,从而解决医疗资源分布不均衡问题。③电子病历智慧化使用研究阶段(2014-2021年)。这一时期内的突变关键词包括有“人工智能”“实体识别”“条件随机场”“自然语言处理”和“深度学习”。随着大数据、云计算和区块链等现代信息技术的发展,未来学界将持续逐步聚焦电子病历的智慧化使用[8]。 见图7。
图7 国内电子病历研究突变关键词
电子病历国外研究突变关键词关注的内容较为广泛。如图8所示,通过分析这些突变关键词,可以发现国外电子病历研究大致可以分为两个阶段:①电子病历数字化研究阶段(2009年以前)。这一时期的突变关键词包含有 “system”“computer”等。在本阶段学界主要围绕电子病历的数字化使用展开讨论。自1992年图表等数据被广泛吸纳进电子病历后,电子病历逐步实现了对纸质病历的数字化取代, 结构化和非结构化的个人诊疗数据能够通过互联网进行收集、处理、存储和共享,有效提高医疗服务效率、减少医疗机构管理支出[9]。②电子病历智慧化研究阶段(2009-2021年)。这一阶段的主要突变关键词包含有“Information ”“Technology”等。在本阶段学界注重探讨大数据、云计算等新兴信息技术如何推动电子病历系统全面智慧化。全面智慧化的电子病历系统是患者数据集成视图、临床决策支持、临床医生/提供者订单输入、知识资源访问、集成通信支持和聚合数据分析的功能集合,能够提供精准的临床决策支持和实时动态监测公共健康,有效弥补区域医疗水平差异和降低医疗服务供给成本[10]。
图8 国外电子病历研究突变关键词
3 讨论
3.1 国内外电子病历研究关注度不断加强
纳入本研究的国内外电子病历研究文献样本时间覆盖范围分别为1995-2021年、1960-2021年,如图1、图2所示,国内外电子病历研究文献发文量呈现显著上升趋势,在2021年分别为初始年发文量的66倍和2379倍。电子病历研究关注度不断加强与医疗信息化时代背景紧密相关,自20世纪60年代美国麻省总医院尝试使用计算机记录病人诊疗信息以替代传统的纸质病历起,作为医疗信息化建设的重要组成部分,电子病历研究得到学界广泛关注和各国政府的支持,美国政府从1996年陆续出台了《健康保险可携性及责任性法案》《经济和临床卫生信息技术法案》和《平价医疗法案》,英国政府自2010年陆续出台了《护理记录法案》《舒缓和临终治疗远大目标:全国地方行动框架》,中国政府自2009年起陆续出台了《电子病历基本架构与数据标准(试行)》《电子病历系统功能规范》和《基于电子病历的医院信息平台建设技术解决方案(1.0版)》。在各国政府支持下的全国性电子病历系统建设,将实现全国范围内的跨区域、跨机构、跨部门的医疗信息互联互通,最大程度上的打破时间与空间限制,多维度维护公众健康,推动公共医疗服务均衡化[11]。
3.2 国内外电子病历研究热点主题具有相似性
分析国内外电子病历研究关键词共现知识图谱、关键词聚类知识图谱发现,与临床决策支持相关的“临床路径”等高频关键词频次较高和“临床用血管理”“Human-subject”等高信度聚类显著,与电子病历数据挖掘相关的“数据共享”“System”等关键词频次较高以及“数据挖掘”“自然语言处理”“Symbolic Method”等高信度聚类显著,与公共健康监测相关的“Risk”等关键词频次较高和“真实世界研究” “Incorporating health literacy”等高信度聚类显著,国内外电子病历研究热点主题呈现一定程度的相似性。
现有国内外电子病历研究聚焦于在“电子病历+临床决策支持”“电子病历+数据挖掘”以及“电子病历+公共健康监测”等研究主题,主要原因如下。①电子病历重要功能之一就是临床决策支持,电子病历中蕴含丰富的医学信息可以利用计算机平台进行处理以辅助临床医疗诊断,国内外政府也尤为重视电子病历与临床决策的结合,中美分别出台的《电子病历系统功能规范》《经济和临床卫生信息技术法案》均对利用电子病历辅助临床决策进行了规范说明[11]。②电子病历记载了患者诊疗过程中的诊断、用药和病变等详实的医疗数据,电子病历数据挖掘具有极大的社会价值和学术价值[12]。为规范电子病历数据挖掘,美国《健康保险可携性及责任性法案》、中国《电子病历基本架构与数据标准(试行)》和英国《护理记录法案》均对电子病历数据挖掘的主体、对象和使用边界进行了确定。③电子病历能有效提升公共健康监测的完整性和及时性。对威胁公共健康的传染性疾病、慢性疾病进行监测并采取行动进行预防和控制是公共卫生部门的核心职能,传统的患者-医疗人员-公共卫生部门的信息监测通道并不足应对日趋变化的公共健康突发事件,在中、美、英、韩等国对非典、禽流感与COVID-19防治中,电子病历对公共健康监测的效力得到了实证检验[13]。
3.3 国外电子病历研究内容更具深度
结合国内外电子病历研究发文量和关键词共现知识图谱、关键词聚类知识图谱和突变关键词知识图谱分析发现,在样本文献中国外电子病历研究发文量约为国内电子病历研究的24倍,高频关键词和高信度聚类涉及研究内容也更为深入。首先,国外关于电子病历与临床决策支持的相关研究相对比较完善和丰富,自20世纪70年代起国外学者通过整合现有知识库、文献挖掘、临床电子病历数据挖掘、在线相似病例检索以及机器学习方法,开发适合的临床决策支持系统,有效提升了临床决策的准确性[14]。目前国内关于基于电子病历的临床决策支持相关研究还处于快速发展阶段,国内学者聚焦于对电子病历支持临床决策的方案设计研究、电子病历支持临床决策的实证研究,提出利用以电子病历为核心的临床决策支持系统对疾病传染通道和患者病请进行预测,帮助公共卫生部门对流行疾病现状的研判、为医生判断患者病情发展与优化治疗方案提供了重要参考[15-16]。其次,国外学者对电子病历的数据挖掘研究也较为深入。20世纪90年代美国便开始电子病历文本命名实体识别研究和电子病历文本关系抽取研究,早期主要是基于规则的电子病历文本命名实体识别和关系抽取研究,这些方法需要领域内专家制定有效的规则模板[17],随着人工智能算法的逐步发展,常规的机器学习方法开始用于电子病历文本命名实体识别和关系抽取研究,但是这类方法的主观性和人工成本较大。随后有学者发展基于深度神经网络技术的命名实体识别方法,以 BiLSTM-CRF 模型为核心加入 注意力机制来提高数据识别效果[18]。随着国内信息技术的发展,自2010年后国内学者对中文电子病历的数据挖掘尤为关注,因为中文电子病历记录语言的特殊性,国内学者基于多种算法对中文电子病历命名实体识别的研究较为重视,涌现出基于知网语词库语义特征利用条件随机场模型,结合外部词典的BiLSTM-CRF命名模型的命名实体识别方案[19],推动了中文电子病历命名实体识别研究;在中文电子病历文本的关系抽取研究方面,涌现出将词注意力权重与语料训练的词向量结合构建位置向量降噪、语义丰化的优化模型,有效提升关系抽取准确性[20]。最后,国外关于利用电子病历监测公共健康的研究更为充盈。在理论方面,国外学者明确了“公共健康监测”的内涵和外延,并指出传统公共健康监测存在完整性、及时性、准确性匮乏等问题,以及电子病历在解决这些问题上的优势;在实践方面,哈佛大学公共卫生信息学卓越中心和马萨诸塞州公共卫生部共同开发了公共卫生电子病历支持监控平台,该平台能够实时汇聚将每个病人的结构化病历数据,并利用算法筛选威胁公众安全的慢性病和流行疾病现状汇总报告给州卫生部门,以便其做出相关预警[21]。国内学者关于基于电子病历的公共健康监测研究受非典、COVID-19等突发性公共卫生事件影响逐步受到重视,在理论方面有国内学者提出利用大数据、云计算等新型信息技术构建国家卫生系统的韧性模型,通过挖掘电子病历信息,将有效提升中国政府应对突发公共卫生事件的应急能力[12]。在实践方面,国内学者基于流感患者电子病历数据,研究发现基于大数据技术的流感监测具有良好的灵敏度和特异度,为公共健康监测提供新的选择[22]。