APP下载

分析人工智能医疗器械环境特殊要求

2021-10-13曾雪王浩李佳戈

中国医疗设备 2021年9期
关键词:心电医疗器械准确率

曾雪,王浩,李佳戈

中国食品药品检定研究院 医疗器械检定所,北京 102629

引言

近年来,人工智能医疗器械发展较快,成为有源医疗器械领域新的分支。这一类医疗器械使用人工智能技术实现预期用途,形态包括医疗器械软件、软件组件、智能硬件或系统等,应用场景不断扩展,包括方舱医院[1-3]等特殊场所。例如新冠疫情期间,搭建方舱医院使用的医疗影像设备、病人数据管理系统,需要适应运输和非常规温湿度条件。用于野外应急救灾的武警省级移动部署医院,一般包含8~10辆专业医疗车和3~4个应急医疗帐篷[4],配备大量的专业医疗设备和手术设备[5-8],人工智能医疗器械可能需要考虑极端温湿度、振动、碰撞等环境条件的影响[9-10]。

目前,人工智能医疗器械领域尚未建立环境试验专用要求,需要研究环境条件对算法性能的影响。从产品实际运行的情况看,运行人工智能算法的计算平台需要纳入评价范围,例如计算机组件、服务器等。在现行有效的医疗器械行业标准中,针对对环境有特殊要求的相关硬件设备,例如医用X射线设备、医用超声设备等,一般在医用电器环境标准(GB/T 14710)[11]基础上针对相关设备的特殊需求,分析制定专用环境试验要求。例如《YY/T 0291-2016 医用X射线设备环境要求及试验方法》[12]、《YY T 1420-2016 医用超声设备环境要求及试验 方法》[13],但都不涉及计算平台。在工业领域,GB/T 9813系列标准[14]规定了计算机的环境试验条件,但与医疗器械存在差异。

为研究环境条件对AI算法的影响,本文用心电AI算法模拟实际的AI产品,在不同的环境试验条件和模式下连续运行,观测执行效率和准确性的变化情况[15-19],为下一步明确人工智能医疗器械的环境试验要求提供参考。

1 材料与方法

运行AI算法的计算平台为联想品牌的台式计算机,内存4 G,CPU型号参数:英特尔第三代酷睿i5-3470@3.20 GHz四核,安装MATLAB程序,用于运行心电AI算法。

1.1 AI算法选择

本文选择公开的AI心电算法[20]作为本次性能测试的对象。该算法将心电信号分为4类,分别是正常(Normal,N)、左束支阻滞(Left Bundle Branch Block,LBBB,L)、右束支阻滞(Right Bundle Branch Block,RBBB)及室性早搏(Ventricular Premature Beats,PVC)。算法采用MIT数据库中的数据来进行训练和测试,共计20000个心拍, 4类心拍各有5000个心拍。

AI心电算法模型训练完成后,使用测试集进行测试,并计算4种心拍分类的准确率,准确率的表述为一个测试集中被正确分类的样本数与总样本数之比。

以判断正常心拍(N)的二分类问题为例,如果MIT数据库中的分类结果为N,则作为阳性心拍,否则作为阴性心拍;如果AI算法判定为N,则表示AI算法的结果为阳性,如果判定为其余3种心拍,则表示AI算法的结果为阴性。分类准确率具体计算方法,见表1。

表1 AI测试结果的混淆矩阵

准确率计算公式如式(1)所示。

式中,N1,1为真阳性的数量,即被AI算法正确地预测为阳性的阳性心拍数量;N1,2为假阳性的数量,即被AI算法错误地预测为阳性的阴性心拍数量;N2,1为假阴性的数量,即被AI算法错误地预测为阴性的阳性心拍数量;N2,2为真阴性,即被AI算法正确地预测为阴性的阴性心拍数量。

1.2 环境试验设计

1.2.1 随机训练模式

首先,为了观测环境条件对算法训练的影响,从MIT数据集中随机抽取10000个心拍用于训练心电AI算法模型,剩下的用于测试。算法运行的每个循环包括30次训练迭代和1次测试,训练的平均迭代时间被记录下来,作为效率的表征。

根据极端使用情况考虑,按照GB/T 14710规定的气候环境III组和机械环境III组的要求,设计环境试验方案,具体包括:

(1)额定工作湿热试验条件。温度:50℃,相对湿度:93%±3%,持续4 h。试验过程中,运行MATLAB程序,记录AI算法训练迭代时间和准确率。

(2)湿热贮存试验条件。温度:60℃,相对湿度:93%±3%,持续48 h,恢复24 h。恢复后,运行MATLAB程序,记录AI算法训练迭代时间和准确率。

1.2.2 固定参数模式

其次,作为对比,从MIT数据集中抽取固定的10000个心拍用于训练心电AI算法模型,其他心拍作为测试集。该模型的参数进行锁定后,算法循环运行的每个循环仅包括1次测试,每次的测试时间被记录下来,作为效率的表征。同样按照GB/T 14710的气候环境Ⅲ组和机械环境Ⅲ组的要求,进行额定工作湿热试验。

2 实验结果

2.1 随机训练模式

环境试验各阶段的AI算法准确率和迭代时间结果,见表2。

表2 环境试验前后的AI算法准确率和迭代时间

2.1.1 AI算法迭代时间

环境试验前,单次迭代时间的平均值为3.7521 s,标准差为0.0446,见图1。

图1 环境前初始结果:AI算法单次迭代时间

额定工作湿热试验中,全程单次迭代时间的平均值为3.7722 s,标准差为0.0915,见图2。将额定工作试验进程分为湿热工作期和湿热恢复期两个阶段进行分析。根据试验条件,截取第40~200个循环作为湿热工作期,这部分的单次迭代时间平均值为3.8381 s,标准差为0.0791。使用Student’st-test,可以得到湿热工作期的单次迭代平均时间与其余阶段的单次迭代平均时间有显著差异,P<0.001。湿热工作期单次迭代平均时间明显增大,迭代效率降低。

图2 额定工作湿热试验:AI算法单次迭代时间

湿热贮存试验恢复后,运行MATLAB程序,单次迭代时间的平均值为3.6602 s,标准差为0.0261,见图3。

图3 湿热贮存试验后结果:AI算法单次迭代时间

2.1.2 AI算法准确率

图4为正常心拍N、LBBB、RBBB、PVC四类心拍在各个阶段的盒状图,其中红线位置显示了准确率的中位数,盒子的上下限分别对应其分布的25%/75%,“+”显示了离群值的分布情况。

图4 环境试验AI算法四种心拍准确率盒状图

2.2 固定参数模式

环境试验各阶段的AI算法准确率和迭代时间结果,见表3。

表3 环境试验前后的AI算法准确率和迭代时间

环境试验前,单次测试时间的平均值为0.2752 s,标准差为0.0015,见图5。

图5 环境前初始结果,AI算法单次迭代时间

额定工作湿热试验中,全程单次测试时间的平均值为0.2761 s,标准差为0.0019,见图6。

图6 额定工作湿热试验,AI算法单次迭代时间

使用Student’st-test,未发现湿热工作期的单次测试平均时间与环境前的单次测试平均时间存在显著差异。

3 讨论

本次研究选取了AI心电算法作为测试对象,在额定工作湿热试验和湿热贮存试验中运行算法,在随机训练和固定参数两种模式下连续运行并对AI算法准确率和迭代时间进行记录。根据试验结果,在随机训练模式下,额定湿热工作期间的训练迭代效率有显著下降;试验中,AI算法的准确率有轻微变化,未发现与环境条件直接相关。作为对照,在固定参数模式下,AI算法的准确率和运行效率保持稳定。

从理论来看,本次实验所设置的环境条件会影响运行心电AI算法的计算机。温度与电路元器件的稳定息息相关。温度过高则会加速元器件的老化,也会导致设备高温报警停止工作,甚至烧坏电路板。温度过低则会出现水汽凝聚和结霜,也会导致金属元器件的钝化。湿度太高会影响设备散热,或易使电路板出现短路事故,对计算机的运行速度和效率造成影响。湿度过低则易产生静电,从而导致放电现象,造成电子电路的击穿损坏,同时可能存在火灾隐患。此外,低湿度产生的静电还容易吸附灰尘。从广义环境试验的角度看,电源质量、包装运输、振动碰撞等因素也会影响计算机的性能,将来需纳入考虑。

一般来说,普通计算机满足GB/T 9813《计算机通用规范》系列标准[14],其中包含了环境试验的相关要求。本次试验主要执行医疗器械环境试验标准GB/T 14710[11],试验条件的设置更加苛刻(表4),结果发现算法效率降低。这意味着当计算机作为医疗器械组件或医学AI计算平台时,医疗器械生产厂家有必要以更严格的标准对整个系统进行测试,避免在特殊或极端环境下出现质量问题。

表4 标准对比表

另外,对比固定参数的试验结果,当仅针对固定模型进行循环测试时,环境试验前和湿热工作期的运算效率没有明显变化,这暗示了AI算法单次任务的运算量越小,算法受环境影响的可能性也越小。

在随机训练模式下,四种心拍的准确率在环境试验中有一定的差异,但未见明显趋势。产生这些差异的主要原因是训练集、测试集在每次循环时随机确定。这意味着在数据总量不变的情况下,训练集和测试集的选取对于模型的性能是有影响的。对于不同类型的心拍,数据集变化导致的波动程度也不一样。例如,正常心拍的变化范围为0.9955~1;室性早搏的变化范围为0.95~0.999,离群值甚至接近0.9。这说明,用于多分类的AI算法在进行研发时,需要综合考虑各个分类的准确率,数据的使用过程需要优化。

4 结论

随着人工智能医疗器械产业的发展,人工智能医疗器械预期使用的环境可能扩展到方舱医院、野战医院等更严苛的场所,需要考量环境对产品质量的影响。本次试验初步揭示了温湿度条件对算法运行效率的影响,为后续制订人工智能医疗器械环境试验规范积累了数据。

本研究的局限性在于,使用的心电数据属于一维数据,而实际应用中可能出现更复杂的情况,在之后的研究中,将尝试用更复杂的二维三维影像数据继续进行分析和验证。另外,在每一个循环中,采用训练+测试的方式,没有考虑数据本身的变化,数据池是固定的,没有引入新的数据,与真实应用中持续学习的场景有一定差距。

在人工智能医疗器械的实际使用中,有必要提前对可能面临的恶劣环境进行评估,从电源、温湿度、振动等方面做好相应防护措施;并考虑到此条件下的算法迭代效率和准确性可能会受到影响,应采用其他手段进行额外评估,以保证较好的使用效果。

猜你喜欢

心电医疗器械准确率
心电向量图诊断高血压病左心室异常的临床应用
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
北京市医疗器械检验所
基于非接触式电极的心电监测系统
北京市医疗器械检验所
穿戴式心电:发展历程、核心技术与未来挑战
更正启事
北京市医疗器械检验所简介