基于自然语言处理的病历智能质控系统的研究与应用

2021-09-16尹思艺庞晓燕蔡秀军王可心

中国医药科学 2021年16期

尹思艺庞晓燕蔡秀军林辉乔凯王可心徐哲

1.国家卫生健康委医管中心数据运行处，北京 100044；2.浙江大学医学院附属邵逸夫医院互联网办公室，浙江杭州 310016；3.北京刘家窑中医院中西医科，北京 100075；4.杭州朗通信息技术有限公司技术部，浙江杭州 310053

目前，部分医院虽然引进了电子病历质控系统，但其质控范围仅限于病案缺项、时限等形式质控，不能解决病历逻辑的准确性、术语的规范性和诊疗处置的合理性等内涵问题[1-2]。该项研究通过构建医学自然语言处理[3-5]平台、术语映射平台、医学知识图谱、质控规则引擎和深度学习[6]模型，来清洗医疗数据，统一医学术语，实现对医学文本自然语言语义的理解，对运行病历文书和出院病案资料从完整性、时限性、逻辑性、合规性等多维度进行深度内涵质控应用，对电子病历质量进行事中、事后的全流程监控，提升智能电子病历质控[7]的准确性。

1 质控系统设计

1.1 利用深度学习和自然语言处理技术，实现病历文本分词和结构化处理

要实现对病历内容的审核，首先要解决的是对病历文本准确识别和理解[8]。由于医学术语表述多样、复杂、不标准，因此第一步需要对复杂临床数据进行数据清洗、分词和结构化处理以及语义标注，从而增强数据识别的准确性[9]。因此利用深度学习[10]和自然语言处理技术[11]，搭建医学文本主动学习标注平台，对大量病历文本进行实体、属性、关系、事件等标注任务，获取海量的医学语料，然后基于医学语料进行语言模型训练，从而实现病历文本的结构化处理，在此过程中，辅以人工校验，不断提升病历文本分词的准确性。

例如图1所示的病例文本自然语言处理（NLP）标准任务：“患者10年前无明显诱因下出现恶心、呕吐、伴腹泻，呕吐物和腹泻物为暗红色液体，至医院就诊诊断为胃出血”经自然语言处理平台处理后会自动抽取“无明显诱因”“恶心”“呕吐”“腹泻”“呕吐物和腹泻物为暗红色液体”“胃出血”等实体，同时抽取出不同实体之间的关系。见表1。

图1 病历文本NLP标准任务

表1 病历文书NLP结构化处理

1.2 构建医学术语映射平台，实现术语的规范和统一

由于电子病历中的症状、疾病名称等临床医学术语并不是规范统一的，譬如针对症状“腹痛”，不同的病历文书中可能被表述为“肚子痛”“肚子疼”，为解决临床医学术语表达同义不同词、内涵不清、语义表达和理解不一致等问题。需要将这些词进行聚类融合，基于 SNOMED-CT、Loinc、RxNorm[12]、医保版ICD-10、ICD-9-CM-3等编码标准规则，构建中文临床医学术语库及标准术语映射系统，实现病历文本中涉及的疾病、症状、体征、检查、药品、手术和操作术语的映射。见图2。

图2 标准术语映射演示

1.3 利用深度学习技术，搭建判断医学内涵的临床诊疗推理引擎

前两步解决了病历文本的识别和理解问题，而要实现对病历内涵质量的审核，还需要具有临床诊疗推理引擎。临床诊疗推理引擎的构建以指南文献、医学教材、临床病例数据等医学文本为数据源，通过深度学习构建专业医学知识图谱、诊断模型、治疗模型，构架医学知识图谱。基于多层次医学知识图谱推理技术，形成综合推理引擎。针对患者病情对医生临床路径的合理性及充分性进行精准分析，进而对临床内涵病历质量进行判断，解决病历质控人员无法对各科室专业内容进行分析与评判的难题。

1.4 构建质控规则引擎

质控规则是实现系统对病历文书执行量化评分的依据，因此质控规则引擎的构建也需要公正、标准、规范、可执行。因此可以参照《病历书写基本规范》[13]、国家质控标准等相关规范[14]，深入解析18项医疗安全核心制度，对质控要点逐条细化和拆分，将文本描述语言转换成计算机可执行的规则，构造质控规则引擎。根据质控规则引擎，实现病历文本的自动审核，并对不符合规则的条目进行提醒和扣分。

2 质控系统研发过程

2.1 数据多元采集，基于神经网络模型的医学语料，实现数据的脱敏处理

通过两种方式获取医疗数据：一是对医院数据脱敏，脱敏后进行清洗、整理，并导入大数据平台，按照患者ID号将脱敏病历的内容按照主诉、现病史、化验、诊断等模块分别存储到数据库。二是采集诊疗指南、期刊文献、临床路径、医学教材等不同权威的中文医学语料，将两种来源的数据汇总成训练神经网络模型的医学语料，为自然语言处理平台的构建奠定数据基础。

2.2 规范统一术语，基于预训练语言模型，研发标准术语映射系统

目前，医院里电子病历的症状、疾病名称不是规范统一的。我们利用预训练语言模型，结合Transformer和卷积网络两种不同的相似度计算方法，构造Siamese Network框架，搭建语义相似度模型，研发术语映射系统。借鉴和利用Snomed-CT、Loinc、国家医保版ICD-10和ICD-9-CM3等术语体系，构建标准医学术语库，研发标准术语映射系统，实现疾病、症状、药品、手术和操作的映射。

2.3 主动学习标注，对接医学自然语言处理平台，完成医学文本语义的理解

研发基于海量医学文本的预训练语言模型，实现医学实体提取、关系提取、属性提取、医学事件提取。预训练医学语言模型，采用Google提出的Transformer[15]模型，搭建预训练语言模型；模型的构建参考2020年ICLR论文[16]中提出的模型。

利用深度学习技术，借鉴预训练医学语言模型，研发医学信息提取模型，参考bert-bilstm-crf进行升级改进；基于关系抽取模型、属性提取模型，研究联合抽取模型，即关系和实体使用同一个模型，并且一次性完成实体和关系的抽取。将信息抽取模型、术语映射模型集成到医学自然语言处理平台，对接主动学习的标注平台，实现医学文本后结构化处理及语义理解。

2.4 完善知识图谱，依托图嵌入技术，实现医学知识图谱库的自动补全更新

基于自然语言处理平台，从海量医学文本中抽取医学三元组；利用术语映射系统将非标准的医学实体三元组进行标准化；借鉴和利用ICD-10，Snomed-CT，Loinc，ICD-9-CM3等术语体系，参考RxNorm和UMLS等大型医学领域知识图谱，完善自动化、可视化的临床医学知识图谱；利用图嵌入技术，实现医学知识图谱的自动补全更新。

2.5 构造规则引擎，实现病历缺陷可视化追溯分析，提供决策支持

质控规则引擎是系统实现病历文书审核评分的核心，本项目依据国家质控标准和相关规范，解析18项医疗安全核心制度，细化拆分质控要点，将文本描述语言转换成计算机可执行的规则，实现病历文本的自动审核，并对不符合规则的条目进行提醒和扣分。通过可视化自定义维护，展示各病历文书的内涵缺陷类别和详情，实现病历缺陷可视化追溯和分析。从评分规则、过程质控、终末病案质控评分、终末病案质控统计管理等多模块进行对比分析，为医疗行为评价、病历质量改进以及政策制订等提供决策支持。

3 质控系统的应用

3.1 智能质控系统可提升甲级病案率

智能终末质控上线后，医院病案等级结构见图3，医院甲级病案率逐步提升，统计数据显示5月份甲级病案占比81.44%，6月份甲级病案占比86.59%，7月份甲级病案占比89.88%。通过质控系统的多维度、全范围的审核，大大提升了临床医师准确书写病历的意识，促进了医院整体甲级病案率的提升。7月份甲级病案率相较5月份甲级病案率提升8.44%。

图3 医院病案等级结构

3.2 智能质控系统可提升病案首页完整率和合格率

应用智能病案质控系统后，病案首页质量情况如图4所示，5月份病案首页合格率为82.02%，6月份病案首页合格率为78.59%，7月份病案首页合格率为92.56%，连续3个月的数据表明病案首页合格率整体呈上升趋势，7月份较5月份病案首页合格率提升10.54%。

图4 病案首页质量情况

3.3 智能病案质控系统可降低病历缺陷

依据图5数据，对比5、6、7三个月的缺陷条目占比情况发现，使用智能质控系统后，多数病案缺陷占比整体呈下降趋势，特别是病案首页手术名称与手术记录不一致缺陷从5月份的15.49%降至7月份的0.1%，系统的跨病历文书质量审核功能，保证了病案首页内容与病历文书的一致性，为DRGs准确分组提供了良好的数据基础。

图5 主要条目缺陷占比趋势

4 结论

医学自然语言处理、术语映射和深度学习等技术，能实现对多元异构医疗数据的清洗归类和建模，提高对病历文本的语义识别理解能力，规范病历书写流程，解决病历书写格式混乱、病历内容缺陷、内涵质量低下等问题，提高病案质量和利用价值。同时，依托专业医学知识图谱评估病历反映的临床路径，贯穿于病历的过程监控和结果审核，查找缺陷内容，标识原因，从而实现对病历内涵缺陷的可视化追溯和分析。