APP下载

基于自然语言处理的病历智能质控系统的研究与应用

2021-09-16尹思艺庞晓燕蔡秀军王可心

中国医药科学 2021年16期
关键词:病案病历术语

尹思艺 庞晓燕 蔡秀军 林 辉 乔 凯 王可心 徐 哲

1.国家卫生健康委医管中心数据运行处,北京 100044;2.浙江大学医学院附属邵逸夫医院互联网办公室,浙江杭州 310016;3.北京刘家窑中医院中西医科,北京 100075;4.杭州朗通信息技术有限公司技术部,浙江杭州 310053

目前,部分医院虽然引进了电子病历质控系统,但其质控范围仅限于病案缺项、时限等形式质控,不能解决病历逻辑的准确性、术语的规范性和诊疗处置的合理性等内涵问题[1-2]。该项研究通过构建医学自然语言处理[3-5]平台、术语映射平台、医学知识图谱、质控规则引擎和深度学习[6]模型,来清洗医疗数据,统一医学术语,实现对医学文本自然语言语义的理解,对运行病历文书和出院病案资料从完整性、时限性、逻辑性、合规性等多维度进行深度内涵质控应用,对电子病历质量进行事中、事后的全流程监控,提升智能电子病历质控[7]的准确性。

1 质控系统设计

1.1 利用深度学习和自然语言处理技术,实现病历文本分词和结构化处理

要实现对病历内容的审核,首先要解决的是对病历文本准确识别和理解[8]。由于医学术语表述多样、复杂、不标准,因此第一步需要对复杂临床数据进行数据清洗、分词和结构化处理以及语义标注,从而增强数据识别的准确性[9]。因此利用深度学习[10]和自然语言处理技术[11],搭建医学文本主动学习标注平台,对大量病历文本进行实体、属性、关系、事件等标注任务,获取海量的医学语料,然后基于医学语料进行语言模型训练,从而实现病历文本的结构化处理,在此过程中,辅以人工校验,不断提升病历文本分词的准确性。

例如图1所示的病例文本自然语言处理(NLP)标准任务:“患者10年前无明显诱因下出现恶心、呕吐、伴腹泻,呕吐物和腹泻物为暗红色液体,至医院就诊诊断为胃出血”经自然语言处理平台处理后会自动抽取“无明显诱因”“恶心”“呕吐”“腹泻”“呕吐物和腹泻物为暗红色液体”“胃出血”等实体,同时抽取出不同实体之间的关系。见表1。

图1 病历文本NLP标准任务

表1 病历文书NLP结构化处理

1.2 构建医学术语映射平台,实现术语的规范和统一

由于电子病历中的症状、疾病名称等临床医学术语并不是规范统一的,譬如针对症状“腹痛”,不同的病历文书中可能被表述为“肚子痛”“肚子疼”,为解决临床医学术语表达同义不同词、内涵不清、语义表达和理解不一致等问题。需要将这些词进行聚类融合,基于 SNOMED-CT、Loinc、RxNorm[12]、医保版ICD-10、ICD-9-CM-3等编码标准规则,构建中文临床医学术语库及标准术语映射系统,实现病历文本中涉及的疾病、症状、体征、检查、药品、手术和操作术语的映射。见图2。

图2 标准术语映射演示

1.3 利用深度学习技术,搭建判断医学内涵的临床诊疗推理引擎

前两步解决了病历文本的识别和理解问题,而要实现对病历内涵质量的审核,还需要具有临床诊疗推理引擎。临床诊疗推理引擎的构建以指南文献、医学教材、临床病例数据等医学文本为数据源,通过深度学习构建专业医学知识图谱、诊断模型、治疗模型,构架医学知识图谱。基于多层次医学知识图谱推理技术,形成综合推理引擎。针对患者病情对医生临床路径的合理性及充分性进行精准分析,进而对临床内涵病历质量进行判断,解决病历质控人员无法对各科室专业内容进行分析与评判的难题。

1.4 构建质控规则引擎

质控规则是实现系统对病历文书执行量化评分的依据,因此质控规则引擎的构建也需要公正、标准、规范、可执行。因此可以参照《病历书写基本规范》[13]、国家质控标准等相关规范[14],深入解析18项医疗安全核心制度,对质控要点逐条细化和拆分,将文本描述语言转换成计算机可执行的规则,构造质控规则引擎。根据质控规则引擎,实现病历文本的自动审核,并对不符合规则的条目进行提醒和扣分。

2 质控系统研发过程

2.1 数据多元采集,基于神经网络模型的医学语料,实现数据的脱敏处理

通过两种方式获取医疗数据:一是对医院数据脱敏,脱敏后进行清洗、整理,并导入大数据平台,按照患者ID号将脱敏病历的内容按照主诉、现病史、化验、诊断等模块分别存储到数据库。二是采集诊疗指南、期刊文献、临床路径、医学教材等不同权威的中文医学语料,将两种来源的数据汇总成训练神经网络模型的医学语料,为自然语言处理平台的构建奠定数据基础。

2.2 规范统一术语,基于预训练语言模型,研发标准术语映射系统

目前,医院里电子病历的症状、疾病名称不是规范统一的。我们利用预训练语言模型,结合Transformer和卷积网络两种不同的相似度计算方法,构造Siamese Network框架,搭建语义相似度模型,研发术语映射系统。借鉴和利用Snomed-CT、Loinc、国家医保版ICD-10和ICD-9-CM3等术语体系,构建标准医学术语库,研发标准术语映射系统,实现疾病、症状、药品、手术和操作的映射。

2.3 主动学习标注,对接医学自然语言处理平台,完成医学文本语义的理解

研发基于海量医学文本的预训练语言模型,实现医学实体提取、关系提取、属性提取、医学事件提取。预训练医学语言模型,采用Google提出的Transformer[15]模型,搭建预训练语言模型;模型的构建参考2020年ICLR论文[16]中提出的模型。

利用深度学习技术,借鉴预训练医学语言模型,研发医学信息提取模型,参考bert-bilstm-crf进行升级改进;基于关系抽取模型、属性提取模型,研究联合抽取模型,即关系和实体使用同一个模型,并且一次性完成实体和关系的抽取。将信息抽取模型、术语映射模型集成到医学自然语言处理平台,对接主动学习的标注平台,实现医学文本后结构化处理及语义理解。

2.4 完善知识图谱,依托图嵌入技术,实现医学知识图谱库的自动补全更新

基于自然语言处理平台,从海量医学文本中抽取医学三元组;利用术语映射系统将非标准的医学实体三元组进行标准化;借鉴和利用ICD-10,Snomed-CT,Loinc,ICD-9-CM3等术语体系,参考RxNorm和UMLS等大型医学领域知识图谱,完善自动化、可视化的临床医学知识图谱;利用图嵌入技术,实现医学知识图谱的自动补全更新。

2.5 构造规则引擎,实现病历缺陷可视化追溯分析,提供决策支持

质控规则引擎是系统实现病历文书审核评分的核心,本项目依据国家质控标准和相关规范,解析18项医疗安全核心制度,细化拆分质控要点,将文本描述语言转换成计算机可执行的规则,实现病历文本的自动审核,并对不符合规则的条目进行提醒和扣分。通过可视化自定义维护,展示各病历文书的内涵缺陷类别和详情,实现病历缺陷可视化追溯和分析。从评分规则、过程质控、终末病案质控评分、终末病案质控统计管理等多模块进行对比分析,为医疗行为评价、病历质量改进以及政策制订等提供决策支持。

3 质控系统的应用

3.1 智能质控系统可提升甲级病案率

智能终末质控上线后,医院病案等级结构见图3,医院甲级病案率逐步提升,统计数据显示5月份甲级病案占比81.44%,6月份甲级病案占比86.59%,7月份甲级病案占比89.88%。通过质控系统的多维度、全范围的审核,大大提升了临床医师准确书写病历的意识,促进了医院整体甲级病案率的提升。7月份甲级病案率相较5月份甲级病案率提升8.44%。

图3 医院病案等级结构

3.2 智能质控系统可提升病案首页完整率和合格率

应用智能病案质控系统后,病案首页质量情况如图4所示,5月份病案首页合格率为82.02%,6月份病案首页合格率为78.59%,7月份病案首页合格率为92.56%,连续3个月的数据表明病案首页合格率整体呈上升趋势,7月份较5月份病案首页合格率提升10.54%。

图4 病案首页质量情况

3.3 智能病案质控系统可降低病历缺陷

依据图5数据,对比5、6、7三个月的缺陷条目占比情况发现,使用智能质控系统后,多数病案缺陷占比整体呈下降趋势,特别是病案首页手术名称与手术记录不一致缺陷从5月份的15.49%降至7月份的0.1%,系统的跨病历文书质量审核功能,保证了病案首页内容与病历文书的一致性,为DRGs准确分组提供了良好的数据基础。

图5 主要条目缺陷占比趋势

4 结论

医学自然语言处理、术语映射和深度学习等技术,能实现对多元异构医疗数据的清洗归类和建模,提高对病历文本的语义识别理解能力,规范病历书写流程,解决病历书写格式混乱、病历内容缺陷、内涵质量低下等问题,提高病案质量和利用价值。同时,依托专业医学知识图谱评估病历反映的临床路径,贯穿于病历的过程监控和结果审核,查找缺陷内容,标识原因,从而实现对病历内涵缺陷的可视化追溯和分析。

猜你喜欢

病案病历术语
基于二维码的病案示踪系统开发与应用
强迫症病历簿
试析病案管理中预防病案错位发生的方法
“大数的认识”的诊断病历
“病例”和“病历”
病案信息化在病案服务利用中的应用效率分析
临床表现为心悸的预激综合征B型心电图1例
医院病案管理与改进策略初探
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势