APP下载

运用人工智能技术进行肺功能数据库构建并辅助诊断实践

2022-08-30傅唯佳汤梁峰叶成杰黄健隽袁媛刘丽娟黄剑峰李小玲王立波张晓波国家儿童医学中心复旦大学附属儿科医院上海201102

中国医疗器械信息 2022年14期
关键词:结构化准确性解析

傅唯佳 汤梁峰 叶成杰 黄健隽 袁媛 刘丽娟 黄剑峰 李小玲 王立波 张晓波 国家儿童医学中心 复旦大学附属儿科医院 ( 上海 201102)

内容提要: 目的:针对以图片形式存储的历史肺功能报告,运用人工智能技术提取其中的数据并进行结构化处理,并运用数据尝试进行辅助诊断,实现高质量的数据储存和运用。方法:运用目标光学字符识别(OCR)结合自然语言处理(NLP)技术,对图片形式的历史肺功能报告文件进行解析,提取其中的数据并完成结构化转换,构建肺功能报告数据库。同时依据儿童肺功能诊断原理,构建肺功能辅助诊断系统。运用抽样比对的方法,对所构建的数据库进行数据提取准确性、辅助诊断准确性分别进行评价。结果:构建了历史肺功能报告的数据转换模型,并建立了结构化数据库。对数据提取质量进行了评价,通过模型的改进,数据提取准确性提升到100%。运用提取的数据,在诊断原则下,开发肺功能辅助诊断系统,该系统的准确性达到91.5%。结论:基于人工智能技术能完成对肺功能历史报告的处理,构建了高质量的数据库和运用。这一方法有助于对大量历史文件进行结构化处理以便充分发挥数据的作用,并后续开发临床决策支持等应用。

肺功能检查是运用仪器通过检测受检者呼吸过程中的气流参数进行呼吸功能的评价[1],是描述呼吸功能的一种重要方法,牵涉呼吸力学、流体力学和热力学等,检查过程中产生大量的客观定量数据,经过一定的测试和计算后,判断患者的呼吸系统临床问题[2]。肺功能测定中产生的大量数据具有显著的临床和科研价值。在医疗信息化发展的早期,为了快速实现无纸化,以及大部分型号肺功能仪联机功能的限制,肺功能报告的无纸化多数以翻拍仪器输出的报告图片的形式进行。这种存储方式支持了无纸化调阅,但计算机无法直接识别其中的数据,极大地限制了对其中所包含的临床数据的高效再运用。正如本院大量以图片形式存储了肺功能历史报告,其中有意义的参数无法实现计算机识别和运用。

人工智能技术(Artificial Intelligence,AI)作为运用计算机技术模拟和延伸人类智能的一门新兴学科[3],开始广泛应用于医疗卫生中的数据治理和辅助诊断领域。针对本院肺功能报告历史数据的特点,我们尝试运用AI技术,对图片形式存储的肺功能报告进行解析,实现报告数据结构化,并用高度结构化的数据开发辅助诊断功能。本文介绍这一数据转换的实现过程、效果,以及在研发肺功能辅助诊断工具中的运用。

1.资料与方法

以复旦大学附属儿科医院的历史肺功能报告的存储文件为资料来源,通过目标光学字符识别(Optical Character Recognition,OCR)结合自然语言处理(Natural Language Processing,NLP)技术,对图片格式的报告中的文字内容进行分析,提取其中的数据并完成结构化转换,构建高质量数据库;同时,验证数据提取的准确性并进行针对性优化和提升;尝试依据儿童肺功能诊断原理,将提取的数据用于肺功能辅助诊断。

1.1 主要技术

1.1.1 光学字符识别(OCR)技术。通过OCR技术可以从视频、图像中提取出其中的文字信息,目前该技术已经广泛地应用在了图像检索、视频摘要等各个方面[4]该技术够批量处理大量报告,根据图片内容识别数据并进行判断。OCR技术的工作流程包含了图片输入预处理、版面分析、字符切割、特征提取、字符识别、矫正后处理、结果输出(图1)。

图1.OCR结合NLP技术处理图片内文字并结构化存储的技术过程

1.1.2 自然语言处理(NLP)技术。自然语言处理(NLP)则能利用计算机技术把日常书写或交流的语言或文字信息进行定量化、结构化,目的是转化构建人与计算机之间能够共同使用的结构化语言[5]。自然语言处理技术在OCR识别后的工作流程包括了对OCR提取的结果进行进一步识别和校验,根据自然语言特性,对数据进行修正,提升数据的准确性。

1.1.3 OCR技术结合NLP技术的应用。程序完成了OCR技术和NLP技术的结合,运用采用平均阈值法对肺功能报告图片预处理,借助于开源引擎Tesseract进行页面版式分析、直线和单词检测、单词识别、字符分类,最终通过字符类型修正及建立医学词典保证解析结果准确性,使肺功能报告内容识别率得到保证,报告数据存储到PostgreSQL数据库中。根据此逻辑开发的本院肺功能报告数据采集系统使用OCR技术识别及NLP技术转换,以历史图片格式的报告为原始资料,对报告中的数据进行了识别提取、结构化处理并展现(图2)。

图2.OCR结合NLP技术实现肺功能报告数据结构化示意图

1.2 运用数据建立肺功能辅助报告程序

基于人工智能的数据提取构建高质量的结构化数据库,在临床进行了数据运用的实践。依据儿童肺功能诊断原理,在专科医师的协助下,构建肺功能辅助诊断功能。以规定的参数判断逻辑和原则,由程序根据数据进行运算,得出相应肺功能的报告结论,该结论可以供肺功能诊断医师参考。

1.3 数据采集和辅助决策的准确性评价

以原始报告所载明的数据为金标准,采用横断面调查,抽样一个月的全量肺功能报告,对程序基于OCR联合NLP技术获取的数据进行比对,评价数据提取的准确性。每份肺功能报告采集的变量数在17~47个之间,即每个检测项目不同的Act、Best、Pre、Best/Pre等指标,准确率定义为:原始报告比对解析无误的变量数量/总变量数。由此计算全体变量的解析准确率。通过准确性评价,针对性分析数据采集不准确的原因,通过改善OCR和NLP的模型布置,并增加校验机制逐步提升准确性,并通过重复评价进行验证。同样的,以原始肺功能报告结论为参考标准,全量选取一个月的肺功能报告分析所获数据,根据程序规则运算所得辅助结论,由小儿呼吸科专科医师进行人工比对,评价程序进行肺功能辅助报告支持的结论的准确性。

2.结果

2.1 建立了高度结构化的历史肺功能检查数据库

通过OCR联合NLP的数据治理模型,将历史肺功能报告的图片形式转换成为了结构式报告(图3)。对本院2015年12月~2021年7月,共计41534份历史肺功能报告数据完成了转换和数据提取,其中常规通气22259份、气道阻力17413份、潮气肺功能1862份。建成了高度结构化的历史肺功能检查报告数据库。

图3.历史肺功能报告的图片形式转换成为了结构式报告

3.2 数据提取准确性的提升和验证

首次常规布置完成程序,随机抽取不同时期报告共29份,进行数据解析结果的准确性验证,解析准确率为70%。为了改善低下的准确率,对解析错误的原因进行了分析发现,由于肺功能报告的复杂性,常常会有多语言的混合,主要包括中文、英文字符和数字,在识别的过程中常常会出现错误。比如英文字母“0”常被识别成数字“0”;数字“l”很容易被误认为英文字母“l”;单个中文汉字会被识别成多个字符。这种情况对识别的准确性造成了负面影响。

为了提升准确性,对程序进行了多方面改进。首先根据肺功能报告的特点规定了不同变量的取值类型和值域,显著提升了纠错能力,比如数值结果中近似英文字母“l”识别为数字“l”;负数数值结果中首位数值识别为为符号“-”。同时,增加校验逻辑,如肺功能报告中Best为Act1-Act5中的最大值;对程序转换的best/pre和分别转换的best和pre值进行比对校验,并根据取值区间进行比对,此类内部校验显著增加了数据提取的准确性。

经过多种方法改进的数据模型,再次验证准确性,抽取了2021年7月的全部肺功能报告47份,共计1461个变量,再次比对,解析准确率已经达到100%。

3.3 构建了有效的肺功能辅助报告工具

运用小儿呼吸专科医师根据文献和指南给出的肺功能结论规则(图四),程序以嵌入规则的形式构建了对上述解析数据的运用案例。抽取2021年7月所有肺功能报告47份,通过专科医师比对,程序的肺功能报告辅助决策支持准确率达91.5%。

图4.肺功能报告辅助决策支持规则示意图

4.讨论

肺功能测定对于判断呼吸系统疾病尤其是在喘息性疾病的诊断、鉴别诊断、治疗及预后评估方面均有重要意义[6]。复旦大学附属儿科医院在国内较早开展小儿肺功能诊断,在哮喘防治、长期随访中发挥了巨大作用。然而,由于早期设备和条件限制,大量的肺功能报告仅以图片的形式存储在服务器,大量历史数据的回顾性分析需要耗费大量的人力物力。为了充分运用历史数据,发挥临床数据的价值,本院率先针对此类图片形式存储的数据,运用人工智能技术进行了大规模处理和利用的研究。

医疗文书的储存形式分为结构化储存和非结构化储存。非结构化数据往往为整段自由文本甚至图片等不可编辑格式,运用的常规方式需要人工逐份查阅报告,并进行转抄处理,极不适用于大规模的数据研究。而结构化储存的报告具有明确的逻辑,使用标准语汇、具有标准组织结构,其内容也有清晰的规定。结构化数据以规定形式变量储存在数据表中,信息完整、准确,更易于解读和回顾对比[7-8],属于高可用数据,能高效地为计算机语言识别,直接运用。

我们的实践表明,OCR配合NLP的模式能有效应用于此类非结构化图片文件的数据提取和处理,但也需要进行针对性的准确性评价和纠正,深入地分析程序解析中存在的问题,个性化地根据图片文件的特点、报告中的变量类型和值域等进行校正规则的布置和优化,能达到比较满意的效果,实现数据的高度结构化和高可用。

研究表明[9],临床工作中执行的很多诊断标准如TNM分期、实体肿瘤的疗效评价标准(response evaluation criteria in solid tumors,RECIST)等,其内在学术逻辑可以设定在结构式报告的软件逻辑中,可自动提取数据并做出判断。基于此,本院肺功能报告决策支持目前以常规通气报告为例,提取儿童肺功能系列指南[2]规则,实现结论的生成,有望在未来为肺功能报告医师的工作提供辅助。

在医疗数据治理的过程中,本方法为历史数据的新运用提供了一种数据治理的思路。当然,具体图片文件的分析受到像素、对比度、图片畸变、字体等多因素的影响,而且不同的报告类型也有非常个性化的特点,需要医院数据管理部门根据临床医师的需求出发,深化和临床的合作,让历史数据重新焕发活力。本文对此数据在临床决策支持的运用也仅做了粗浅的尝试,提示通过数据治理,一定还能深入挖掘临床历史数据的价值,为临床研究提供更大支撑。

5.结论

基于人工智能的数据治理方法,通过对图片储存的历史肺功能报告进行数据的解析运用,构建了高度结构化的数据库,能有效支持回顾性数据的临床研究,并进一步运用在辅助诊断等决策支持场景,以便充分发挥历史数据的价值。

猜你喜欢

结构化准确性解析
CT诊断中心型肺癌的准确性及MRI补充诊断的意义
三角函数解析式中ω的几种求法
浅谈如何提高建筑安装工程预算的准确性
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
理解语境与名句的关系,提高默写的准确性
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
睡梦解析仪
电竞初解析