APP下载

人工智能心电数据库的研究与应用

2020-10-30王辉刘靖雅李哲王大鹏马斐潘成军崔晶蕾刘景鑫

中国医疗设备 2020年10期
关键词:数据格式心电心电图

王辉,刘靖雅,李哲,王大鹏,马斐,潘成军,崔晶蕾,刘景鑫

1. 吉林大学中日联谊医院 a. 电诊科;b. 放射科,吉林 长春 130033;2. 上海询康数字科技有限公司,上海 200000;3. 吉林省医学影像工程技术研究中心,吉林 长春 130033

引言

本文对比国内外心电图数据库市场发现,目前国际上通用的数据库存在数据格式复杂不统一、数据库规模较小等问题。当前国内虽然有多种心电图数据库建设方案与理论基础,但并无真正落地、满足市场需求的标准心电数据库。

随着国内科研水平的提升,临床工作人员、科研工作者及相关研发人员对高质量心电图数据的要求越来越高,这与国内暂无在运营的心电数据库存在矛盾。综合当前问题,并参考心电图信息化管理的建设需求[1-2],我们提出并搭建国内首个心电数据库。

心电数据库的搭建依托于国家重点研发计划——数字诊疗装备研发专项,项目名称为“基于人工智能分析技术和多场景服务模式的远程心电检测诊断管理服务解决方案”。项目旨在解决心电领域现有难题,真正实现先进医疗技术下沉,落实三级诊疗政策,切实为临床、科研等工作服务。课题任务是针对心电数据库进行临床应用性评估和科学性评估,开发出心电数据库,并通过心电应用示范区所积累的心电数据填充、完善心电数据库。

图1为国家项目各课题任务关系示意图,清晰显示心电数据库中数据来源及用途。项目内远程心电检测诊断管理服务平台,结合心电智能分析算法在上海、吉林、海南三个应用示范区内应用,平台收集到的心电数据可录入到心电数据库中,作为课题四的数据来源;同时心电数据库在产学研基础的进一步加深应用,也可为后来的研究者提供研究支撑。

图1 课题任务关系图

此心电图数据库属于国内首个心电类型的数据库,填补我国心电数据库的空白。数据库将汇集正常心电图数据、各类常见疾病病例数据、各类疑难杂症性数据,为人工智能在心电领域的研发及应用建立强大的数据基础。未来数据库在优化心电智能分析算法、数据库的智能化建设、心电设备智能诊断功能的评价、数据质量对比及算法测试、心电诊断系统的研发及改进,以及临床科学研究等层面产生极大的推进作用。

1 心电图数据库国内外现状

心电图诊断在国际上通用的规范做法是:采用经专家逐拍标注的心电数据库进行。临床实践表明:心电设备的分析参数与年龄、性别和种族有关[3-7]。国际电工委员会(International Electrotechnical Commission,IEC)提出验证心电图形态和节律自动判断算法的心电图数据,应采集自预期使用的特定人群,欧美早已建立符合IEC标准的、逐拍标注的心电数据库。

目前国际上最主要的心电数据库有四个:美国麻省理工学院与Beth Israel医院联合建立的MIT-BIH心电数据库、美国心脏学会的AHA心律失常心电数据库、欧盟的CSE心电数据库和欧盟ST-T心电数据库。

在心电图数据库建设方面,目前中国心电图设备市场上由于生产厂家众多,不同厂家对数据的储存格式标准各不相同。若数据库内心电图格式达不到统一,可能导致不同用户使用数据库时,在数据的统一存储、信息互换与数据统计整理方面存在困难[8];同时各类心电设备在进行临床应用时,通常对数据进行加密,在心电图检查的信息化管理上造成不便,客观上也导致许多医院临床信息系统缺少心电图数据[9];再加上医院及相关单位的管理限制因素,致使我国的心电图数据库长期以来一直处于空白状态,虽然有一些较为成熟的理论研究和应用解决方案,但并无实际落地的、满足各类用户需求的心电数据库[10]。

国内心电企业心电图数据格式不公开,并需要单独进行临床验证,不仅监管缺乏验证依据,还给国内心电类设备生产企业在设计研发,上市前性能测试及临床评价工作带来困难。

对比研究国内外现状发现,当前国际上通用的四个数据库虽是最主要、最具权威性的,但在心电图的应用上也存在一些局限性:① 数据库中数据格式不同且复杂,不同子数据库下数据格式标准不统一,读取过程较为麻烦。② 数据库中所含数据数量较少,有的仅有几十例数据,并对外收费,给科研工作造成较大的阻力。

2 面向人工智能应用心电数据库设计的相关问题

2.1 统一数据格式

早在1989年,欧洲标准化委员会即制定了心电图数据格式输出标准格式,以利于心电图数据资料在不同厂商的心电设备间实现数据交换[11],然而由于标准制作不够严谨,各大厂商开发出各自专属的格式和版本,并不兼容,因此并未过多改善心电图数据在信息交换上的问题[12-13]。我们的数据库因数据来源广泛,将对原始的格式复杂的心电数据进行统一化处理,以解决数据读取困难的问题,方便后续对数据的使用,达到医疗数据的无障碍共享。

目前市场上基本存在两种形式的心电数据:① 各大知名厂商自行设置的加密式非明文数据。针对该类型心电数据,我们通过与设备商合作协议,获得该非明文数据的转换程序,将其解码成为非加密的明文数据,统一处理后录入心电图数据库;② 非加密式数据,在合作的基础上对数据进行统一处理,直接录入数据库中。

对于收录在数据库中的明文式数据,我们采用统一的格式及规范要求。

(1)数据的格式要求。数据在录入数据库前需按要求处理成明文格式(未经加密算法的原消息),可以是TXT、CSV、XML等格式。

(2)数据的规范要求。注明数据的采集时间、采样频率、采集时长、采样点数、导联数等基本条件;若有心电参数值等数据也要注明,例如心率、QRS时限、QT/QTC间期、电轴等心电参数;每个导联的数据为导联名称和一组心电电压值,电压值使用mV单位。

数据经统一处理后,可直接用于算法测试、绘制心电图、临床试验验证及人工智能领域的研发等。

2.2 增加数据库中数据来源及获取途径

我们不仅从国家项目中的应用示范区获取数据,还能从合作医院及科研单位、硬件制造厂商、自由运转心电平台的服务机构中获取心电数据。数据库中数据量的储存按计划可分为3个阶段:第一阶段,每种疾病异常数目达到千级;第二阶段,每种疾病异常数目达到万级;随着项目的推进和各类合作的加强,第三阶段每类疾病异常数目将达到十万级。疾病种类预计从初级阶段的三大类,后续将实现十一大类疾病全覆,包含100+类细分心电图病状,满足各类用户需求。

2.3 将心电数据库建设理论转化为实际的应用落地

数据库在数据格式上的统一、数据量的扩充以及准确性的提升上,都是具有创造性的一步。这不仅能为临床科学研究和数据测试、验证工作服务,还能对人工智能领域产生正面推动作用:将数据库与人工智能算法深度融合,辅助厂家改进其设备的自动诊断功能[14];加速人工智能心电算法模型的建立与优化,提高算法准确性,促进人工智能在心电领域的产业落地。

3 心电数据库的构建

心电数据库是首个符合中国人群的数据库,包含11大类心电图异常,100+类细分心电图病状,数据类型包括常规心电图、单导、三五导联、十二导联心电图。在数据的展现形式上,每条心电数据包含数据来源、记录时间、长度、心电图绘图、各类指标分析及专家标注等,同时每条心电图数据记录病人年龄、性别、疾病信息等。数据库在心电图异常类型上覆盖更广、数据类型更丰富,可以为相关机构提供共享服务和技术支持,大幅度降低研发成本。

3.1 心电数据库构建思路

不同的研究方向对心电图数据库有着多元的需求。

(1)大规模的心血管病流行病学调查研究和临床试验。心电图数据库常是心血管病医学库的一个组成部分,首先应建立入选样本的基础心电图,并按预定计划定期随访采集系列心电图进入数据库,以便进行不同时期心电图的比较(如比较QRS电轴、QRS电压、Q波、ST-T变化以及节律、传导变化等)及调查心电图变化与临床资料的关系。

(2)不同种族正常人群心电图范围的调查研究。数据库应包含足够大的样本量,并且要考虑到不同性别和年龄组的样本分布数,以符合正常值研究的统计学要求。

(3)临床科学研究。如建立某些疾病(如心室肥大、心肌梗死、预激综合征等)的心电图诊断标准或探讨和评价心电图某些参数指标的临床价值,心电图数据库除包括明确的临床诊断证据外,应有一定的样本量,最好还能收集到合并不同疾病或病理状态的心电图(如下壁心肌梗死合并前壁心肌梗死、左室肥大合并心肌梗死、左束支阻滞合并心肌梗死等)。这类数据库可以客观而科学地描述某种疾病或不同疾病状态下的心电图特征和表现,使研究人员能真实地了解心电图检测技术对某种疾病的诊断所能提供的信息。

(4)临床研究外的其他方向。心电图数据库还可用于检测和客观评价市场上各种心电图自动分析仪的性能(例如著名的美国MIT及欧洲CSE数据库),还应满足有关机构制定的标准,包括心电图数据采集、储存、传送格式等标准。

3.2 心电数据库技术架构

心电数据库的总体技术架构为MVC的3层架构[15]:控制层、业务逻辑层和持久层,见图2。

(1)控制层(Web层),负责接收客户端请求,向客户端响应结果。通常客户端使用http协议请求Web层,Web需要接收http请求,完成http响应。表现层包括展示层和控制层:控制层负责接收请求,展示层负责结果的展示。表现层依赖业务层,接收到客户端请求一般会调用业务层进行业务处理,并将处理结果响应给客户端。

图2 数据库技术架构图

(2)业务逻辑层(Service 层),负责业务逻辑处理,与所开发项目的需求息息相关。Web层依赖业务逻辑层,但是业务逻辑层不依赖Web层。业务逻辑层在业务处理时可能会依赖持久层,如果要对数据持久化需要保证事务一致性。

(3)持久层(Dao 层),负责数据持久化,包括数据层(即数据库和数据访问层)。数据库是对数据进行持久化的载体,数据访问层是业务层和持久层交互的接口,业务层需要通过数据访问层将数据持久化到数据库中。实际上,持久层就是和数据库交互,对数据库表进行增删改查。

3.3 心电数据库的主要功能

(1)心电图查阅功能。不同用户通过疾病类型、异常结果、检验时长等可查看不同类型的心电库,并根据自己的关注和兴趣进行在线预览,可支持数据集的介绍等。

(2)数据处理中心功能。① 数据检验:所有需要入库的数据都要进行数据检验,对数据的来源进行检查,来确保数据的安全性以及数据的脱敏性;② 数据分类:对于检验合格的数据进行统一的分类,按照不同的疾病类型、异常结果、标注类型、检验时长进行分类,方便用户可以按照不同分类查看;③ 数据格式化:分好类的数据进行格式化后存入数据库。因数据来源广泛,数据格式不统一,故需将数据按照制定的格式标准化,以统一的明文数据存入库中。

(3)上传数据功能。数据上传有标准的数据处理流程:来源于合作单位或其他硬件厂商的第三方数据,需要该单位先行提出上传数据申请,经过数据库内部审核后对数据进行整理、筛查,符合法律法规后检验数据质量,统一数据格式,再上传至数据库。

(4)下载数据功能。由于数据库的半公开性,对于下载数据用户分为两种,一种是有合作关系的单位或医院无偿类型,一种是通过购买进行下载数据的有偿类型,见图3。

图3 数据下载系统流程图

(5)后台管理功能。数据库有专门的后台管理平台,可对数据进行上传,修改,删除等功能,还能对提出上传数据申请的公司或机构进行审核上的确认,以及权限管理或日志查看等功能。

4 数据库标准化及管理方式

4.1 数据来源

为满足数据库中数据数量与质量的要求,数据来源有三个方面,见图4。

图4 业务流程图

(1)国家项目中成立的心电应用示范区内所获得的心电数据。项目依托于国家重点研发计划,在上海、吉林、海南三地建立远程心电检测诊断管理服务平台应用示范区,并结合项目下数据采集任务,在上海、吉林两个基层(社区)机构采集大量心电图数据,经诊断后录入心电数据库中。

(2)合作医院及科研单位在业务范围内所获得的心电数据。

(3)硬件制造厂商、自由运转心电平台的服务机构所产生的心电数据。

4.2 数据采集及质量控制

数据采集使用的设备均为医用级别设备;邀请三甲级医院专家进行专业诊断;邀请质量控制专家对数据采集的流程和数据质量进行把控;数据经脱敏处理后,保留数据性别及年龄信息,录入数据库。

4.3 心电数据标准化

对格式复杂的原始心电数据统一格式,最终将数据处理成明文式,再根据疾病类型、异常结果、标注时间、检验时长来进行归档分类,最终上传至心电图数据库,统一存储和管理,后期可以根据业务需求把数据库做成半公开,实现数据在不同医疗单位、合作单位及设备厂商之间的无障碍交流互通。

4.4 心电数据库管理方式

公开的数据库就是任何人都可以通过注册登录到数据库中,登录成功以后可以获得在线阅览功能。若使用者可提供自己拥有的心电图资料并上传到数据库中,即可获得下载少量心电图数据的权限。

半公开的数据库就是当用户需要使用大量数据时,需要提出申请,数据库后台管理平台进行审核,其中包括填写数据适用范围、功能及数据保密协议。审核通过后提供下载链接,供使用者进行下载。

我们的心电数据库后续符合相关程序及规范要求后,将根据需求半公开使用。数据使用者提交明确需求,并填写数据适用范围、功能及数据保密协议后,经由后台管理平台审核,通过审核通知用户提供下载链接,随后用户可对数据进行查阅乃至下载处理。

5 心电数据库的人工智能应用场景

(1)人工智能心电算法的研究研发。心电图数据库可为人工智能心电算法提供大量的数据支持,数据可用于算法模型建立、算法模型优化,验证并提高算法准确率,推进人工智能心电算法的研发、优化与应用。

(2)数据库的智能化建设。心电智能分析算法的应用能在数据库建设上产生推进作用,心电图智能分析利用计算机分析心电图,测量必要的参数,再根据临床标准做出正确的诊断或评价,提高临床指标分析的精度,保证数据库数据的准确性,提升数据库的数量与质量[16]。

(3)心电设备智能诊断功能的评价及改进。数据库可以为各大心电设备厂商提供多样化的历史疾病数据,包含各类疑难杂症性心电图数据,用于评价心电设备的智能诊断功能,以辅助厂家在心电设备、软件及其算法层面的改进,加速产业的落地。

(4)数据质量对比及算法测试。大量的心电数据,可用于心电设备信号数据的质量对比及算法的测试工作,进一步提高心电设备的准确性和效率性。

(5)心电诊断系统的研发及改进。心电图数据库不仅收录了大量常见异常心电疾病数据,还在各类疑难杂症上汇集病例,补充常见数据库的心电疾病类别,促进人工智能在不同疾病类别尤其在疑难杂症类病例上的建模与应用,在很大程度上完善了心电诊断系统,加速人工智能在心电疾病领域的全覆盖。

(6)临床科学研究。研究人员可以利用正常心电图数据库资源开发某些参数值(例如建立QT离散度正常值),进行其他临床心电图研究。

6 讨论

对比目前国际上四个标准数据库发现以下几点:① 美国MIT-BIH心电数据库具有数据准确性和开放性的特点,但每个子数据库中数据量有限,且库内数据无法运用通用方式读取,需搭配网站提供的工具软件及库函数以读取数据[17-18];② 美国AHA心律失常心电数据库包含两个系列的共155个心电数据,每个数据持续时间为3 h[19],且需使用者购买后才能下载数据库中的数据;③ 欧盟的CSE心电数据库包含1000例短时间的心电记录,需要购买才能使用;④ 欧盟ST-T心电数据库记录数据的长度、时间频率、注解、信号以及该病人年龄、性别、疾病信息等,支持对心电图的在线标注、查看等功能[20]。比较发现数据库普遍存在数据容量有限、数据格式不统一、使用者需购买使用等问题。我们的数据库尽可能规避这类问题,扩增数据含量以满足科学研究需求,统一数据格式以方便用户使用,并且半公开开放,满足各类用户的多元需求。

质量控制是确保心电图数据库具有良好性能,获取最佳心电数据的技术手段[21-23]。心电数据格式的标准化存储对于临床验证工作、科学研究及人工智能的发展具有重大意义,本数据库对不同的心电数据进行标准化格式统一,以利于数据库后续的广泛使用,达到数据资源共享化的目的。未来在心电数据格式标准化的流程质量控制层面,影响数据格式标准化主要因素的研究、心电图数据格式标准化质量控制的优秀理论基础[24-25]的对比,以及国内外在CT、影像领域检测标准规范的先进经验[26-27]的总结,将被展开进一步研究和探讨,以此完善心电图数据标准化流程质量控制,提升准确性。

本项目搭建的心电数据库依托于国家重点研发计划数字诊疗装备研发专项,数据库的搭建需符合国家项目的要求及考核标准。数据库建设完成后,需遵循国家相关管理规定,符合法定程序及规范要求,考虑根据需求半公开使用。后续在数据库的使用范围、使用规则、使用权限等方面,需要管理者根据用户需求及实际情况做出具体的评定。

心电数据库当前为常规性数据库,数据类型包括常规心电图、单导、三五导联、十二导联心电图。待后期数据库管理逐渐规范、运行更加成熟后,将展开库内数据多元化建设,如添加动态心电图数据、心电图长期监测数据等多种类心电图数据,并对动态心电图的规范化管理进行探索[28],完善心电图数据库的多元化、全覆盖建设。

7 结论

心电图数据库将国内心电图数据标准化、共享化,通过多种方式实现数据积累,为临床科学研究和数据测试、验证工作等服务,为心电智能分析算法在人工智能领域的发展提供数据基础。数据库的建立可以为心电图检测设备的研发生产、质量对比检测和临床效用评价提供依据;为各大企业提供共享化、标准化的数据及技术支持,大幅降低研发成本;提供符合国际惯例、规范的评价手段。同时,心电图数据记录经专家逐拍确认的指标信息,也可为心电图临床诊断提供辨识参照。

心电图数据库大大推进了国内在心脏疾病及心血管健康方面的研究,降低心血管的发病率,提高其预防的可能,切实提高民众的健康水平,具有很高的科技、经济、社会效益。

未来数据库建设完善后,将极大地为心电等医学领域赋能。数据库不仅在科学研究、数据质量对比及算法测试层面提供数据支撑,还能为人工智能应用领域服务,支持人工智能心电算法的研究、研发与优化;评估及改进心电设备智能诊断功能,优化心电智能诊断系统等。

猜你喜欢

数据格式心电心电图
动态心电图与常规心电图诊断冠心病的应用
心电向量图诊断高血压病左心室异常的临床应用
心电图机检定方法分析及简化
《思考心电图之176》
《思考心电图之174》
心电医联体建设需求分析及意义
基于非接触式电极的心电监测系统
卡片式智能心电采集仪
MIT—BIH心率失常数据库的识读
基于RFID的户外广告监管系统的设计与实现