影像类人工智能医疗器械评价方法研究
2019-01-17孟祥峰王浩王权张超任海萍
孟祥峰,王浩,王权,张超,任海萍
中国食品药品检定研究院 光机电室,北京 100050
引言
医学影像数据是诊疗数据的重要组成部分,包括眼底拍照[1-6]、内窥镜成像[7]、核磁[8]、X射线[9]等。医学影像价值的开发需要投入大量人力进行定量分析、比较。目前,随着深度学习技术的发展,人工智能(Artificial Intelligence,AI)算法在包括学影像的逐多领域实现了突破。人工智能在医学影像的应用预期实现对疾病的检出、分类、筛查、病灶分割及测量等工作。影像类人工智能医疗器械大量涌现,例如用于糖尿病视网膜病变识别/筛查/分期的产品、肺结节的检出/筛查的产品等。这类产品是医疗器械监管领域新的方向,国内外尚未建立成熟标准和评价方法,有必要进行研究。
根据报道,国内外不同机构使用各种数据集举办过一些AI算法竞赛,如LUNA[10-11]、Kaggle、天池大赛等。这些竞赛对于比对算法性能提供了有益的借鉴,但角度不同于针对完整产品开展的有效性与安全性评价,不能完全满足医疗器械监管层面的需求。目前尚未建立人工智能医疗器械的评价标准与方法规范。本文对影像类人工智能医疗器产品性能评价方法进行了研究,提出了通用的整体方案,讨论了不同情形的特殊处理,有助于推进影像类人工智能医疗器械性能评价工作,为后续制订标准规范提供依据。
1 检测流程的设计
影像类人工智能医疗器械可包含多种预期用途,如检出、分类、边界分割、尺寸测量等,由不同算法模块实现。产品的评价建议按照从上到下、从整体到局部的原则建立流水线,在每个环节对各个模块进行单独考量。从临床意义和工作时序出发,检测流程按照检出、分类、边界分割、尺寸测量等步骤依次进行(图1)所示。测试流程的每一步只允许把当前AI判断正确的结果提交下一步的分析,以保证各步骤的独立性,避免后续的误判,例如在肺结节的检出环节,仅把AI检出结果中的真阳结果用于分类环节准确率的分析。
2 评价方法
依托于测试集的性能评价主要是比较AI结果与测试集的参考标准,用不同指标建立定量描述的过程。所谓参考标准是指目标疾病状态的真实信息[12-13],本文所提到的参考标准是指标注医生通过图像信息,对肺部疾病状态进行判断,给出病灶位置的准确边界。以下对各环节具体展开介绍。
图1 检测流程图
2.1 病灶检出的评价方法
影像类人工智能医疗器械多采用提示框显示AI检出的病灶,提示框可能为方框、圆框、分割边界等;提示框边界与病灶距离可能为紧包裹或大于病灶一定尺寸。由于提示框形状和尺寸形式各异,除非以边界直接作为提示框,提示框的面积不能完全代表结节区域,因此用提示框与参考标准的重叠面积或交并比作为检出的依据,对不同产品的评价尺度难于统一。为避免提示框形状和尺寸对检出问题带来的影响,本文建议使用参考标准的中心点到提示框中心点的距离,作为AI提示框与参考标准结节位置接近程度的考量,描述检出。
以中心点作为检出的判断,需明确中心点的定义。对于二维影像而言,可采用紧包裹病灶的方框的中心点作为病灶的中心点,如有可能也可以寻找病灶的几何中心作为中心点(这和参考标准的标注形式有关);对于整体重建得到的三维影像,可以以紧密包裹整个立体区域的长方体中心作为中心点;对于断层扫描得到的三维影像,也可以参照二维平面进行逐层计算,而对于整个立体区域可以取平均直径最大的层面的中心作为立体中心点。
对于用于处理二维影像的AI产品,如参考标准用紧密包裹的方框标注,当参考标准中心点与AI预测病灶中心点的距离小于参考标准标注框半径,可视为检出;如参考标准进行了病灶边缘分割,那么病灶就有了准确的边界,能给出病灶的长径和短径。这时如果以参考标准中心点与AI预测病灶中心点距离小于参考标准长径的一半作为检出的定义,则AI预测病灶中心点可能落在结节之外,如图2所示,此时预测病灶将判为真阳。
如果以距离小于参考标准短径的一半作为检出的定义,AI预测病灶中心点可能虽然落在结节之内如图3所示,此时预测结节将判为假阳。
以上判断情形与实际重叠情况存在分歧,因此建议当参考标准有准确的边界时,要求AI预测病灶的中心点至少要落在病灶上,也就是落在边界以内或边界上,作为对中心点距离的替代判断方式;当AI中心点落在边界以外,视为检出失败。如图4所示,病灶1判为检出,病灶2判为未检出。该方法需要测试集本身具备结节边界的参考标准。
图2 以长径的一半区域作为检出的定义
图3 以短径的一半区域作为检出的定义
图4 以参考标准分割区域作为检出的定义
对于处理三维断层影像的AI产品,每一层包含了一个中心点,只要任意一层检出了病灶,在临床使用上,这个病灶都会被医生注意到,因此只要AI预测病灶某一层的中心点落在参考标准三维立体空间内即视为检出,如图5所示;否则为未检出,如图6所示。
图5 三维断层影像的AI产品的检出判断举例
图6 三维断层影像的AI产品的的未检出判断举例
参考标准中未被配对的结节,判为漏诊;AI预测结果中未被配对的结节,判为假阳。检出即AI检出的真肺结节,总数记为TP;假阳即AI检出的“假”肺结节,总数记为FP;漏诊即AI漏诊的真肺结节,总数记为FN。
召回率的计算公式见式(1):
精确度的计算公式见式(2):
F分数的计算公式见式(3):
2.2 分类的评价方法
分类问题是医学影像AI的常见应用,例如眼底病变分类、肺结节类型分类[14-17]。对于二分类的产品,可以根据检测结果构建混淆矩阵,进行灵敏度、特异性、ROC曲线等参数的计算。
对于大于二分类的产品,同样可以根据检测结果构建混淆矩阵,如表1所示,计算整体的准确度和Kappa系数,作为评价指标。在实际临床应用中,医生可能会关心某一类的分类表现情况,那么对于这种情况我们可以把多种分类分成需要评价的类和其他类(把除需要评价的类以外的类别合并),组成2×2的混淆矩阵,如表2所示,以类别i作为需要评价的类。这样就把多分类问题转换成了二分类情况考量,这样就可以评价每一类的灵敏度、特异性等参数。
表1 已检出病灶的分类混淆矩阵(以6分类的举例)
表2 已检出结节的分类混淆矩阵
2.3 尺寸分割的评价方法
对于二维影像,尺寸分割可以得到面积,以及病灶的长短径等参数,对于面积可进行准确性和交并比的考量,其中交并比可用dice系数表示,如图7所示,用参考标准分割面积与AI分割面积的交集除以二者面积之和即为dice系数。实际计算中可将AI预测的结节边界和参考标准结节边界考虑为两个封闭的曲线,按照定义计算两个封闭曲线面积的交并比;也可考虑为两个像素集合,计算AI预测的像素和参考标准像素集合的交并比。对于三维影像尺寸分割可以得到体积,以及病灶面积最大层面的长短径等参数,三维情况的交并比,即可转换为立体范围内AI预测的体素和参考标准体素的集合之间的交并比。长短径可进行标量的误差计算,计算AI预测值与参考标准测标准值的相对偏差。
图7 交并比测试示意图
3 特殊情况讨论
实际检测工作中发现,对于检出还存在多对1匹配的情况,即一个AI预测结节与多个参考标准结节满足检出要求,或多个AI预测结节与一个参考标准结节满足检出要求,如图8所示。
图8 多对1匹配情况的举例
因为参考标准结界本身之间是不联通的两个个体,所以一个AI预测结节与多个参考标准结节满足检出要求的情况,只有出现在一个AI预测结节匹配了长径≥4 mm参考标准结节与长径<4 mm参考标准结节;或匹配了长径<4 mm参考标准结节与长径<4 mm参考标准结节。对于第一种情况,因为AI预测结节肯定落在了长径≥4 mm参考标准结界范围内,所以优先选择长径≥4 mm参考标准结节进行配对。图8中优先选择AI1和AI2和GT1配对;而第二种情况由于无准确边界,无法确定是否落在了真正的区域范围内,所以优先取AI预测结节中心点与参考标准结节中心点距离最近的结节作为检出,图8中选取AI3和GT2进行配对,作为检出。未被检出的GT3还可与其他AI结节进行匹配验证,如果仍未被检出,考虑参考标准结节个数是一定的,为了召回率评价的一致,这种情况应作为漏诊处理。
对于图8中GT1,同时有AI1和AI2配对,属于多个AI预测结节与一个参考标准结节满足检出要求的情况,这种情况的选取可以有三种考量:① 选择分类正确的;② 选择预测概率高的;③ 选择AI预测结节中心点与参考标准结节中心点距离最近的。如果选取分类正确或者预测概率最高的,很有可能影响未被配对结节的匹配关系,如图9所示。如果测试工具先判断GT1的匹配关系,那么按照分类或者预测概率选择的话,就会选中AI2与GT1配对,那这样GT2就变成了漏诊,实际上对于临床这样的标注应该认为两个结节同时被检出。所以出于考虑肺结节AI软件检出是最重要的环节,本文优先取AI预测结节中心点与参考标准结节中心点最近的结节作为检出,图8中选取GT1和AI1进行配对,作为检出;图9中选取GT1和AI1进行配对,作为检出。未被检出选取的AI预测结节还可其他参考标准结节进行匹配验证,如果仍未被检出,考虑参考标准并无真阴性的个数要求,且该情况多出现在一个大结节被AI分成了多个小结节,对于临床检出来说无风险,因此不作为假阳处理。
图9 多对1匹配情况的举例
按以上原则统计TP、FP、FN数量可计算召回率、精确度、F分数等参数。
4 讨论
因为数据集的测试数量很大,产品的检出形式对评价方式也有一定的影响,如果对于一个病灶产品只给出了一个中心点,那么根据检出的评价方法,要判断这一个点是否落在金标准结节范围内;如果对一个病灶产品给出了逐层的中心点,那么根据检出的评价方法,可判断任意一层中心是否落在金标准结节范围内。本文模拟两种场应用场景,对AI输出结果逐层中心点检出匹配以及只对最大层面(平均直径最大的层面)中心点进行检出匹配,分别进行检出指标的计算。
如果以AI预测结节最大层面中心落在金标准结节范围内,与AI预测结节任意一层中心点落在金标准范围内作比较,召回率可相差5%左右,AI给出多层,相当于增加了更多的指示信息,因此其召回率相对较高;在多匹配情况中,以多个AI预测结节与一个金标准结节满足检出要求的情况为例,如果未被检出选取的AI预测结节判为假阳,与未被检出选取的AI预测结节不做处理比较,精确度可相差0.3%左右;对于边界的处理方式的不同,如边界点视为像素点以像素点构建病灶区域或视为物理坐标点以多边形构建病灶区域,也会带来较大的偏差。这是因为像素有一定的尺寸,在检出判断中很可能中心点落在边缘像素点上,这种情况下,以数学多边形的判断形式,很可能视为未检出。
从以上结果可以看出,评价方式的不同,会影响着输出结果,因此必须合理的统一;而像素的处理方式和几何边界的处理方式实际上是数据处理的精度问题,操作时可以通过差值的方式将一个像素划分为像素阵列,提高像素处理方式的精度,从而消除数据处理手段的不同带来的偏差。总之评价方法或数据处理的任何一个环节都会对结果产生一定影响。
评价方法的建立是与产品的输出特性以及测试数据集参考标准有这着直接的联系,相同的算法如果输出方式不同或参考标准不同,所选用的评价方法就有可能不同,测试结果就会存在差异。因此对于接下来的研究,有必要规范产品的输出,以及标准化测试数据集,从而确定评价方法。此外,鉴于目前存在这些差异,在进行各种测试时所给出的结果,必须明确所使用的方法、产品的描述以及测试集的情况,这样得到的结果才是可追溯的结果,才具有参考价值。
本文针对影像类人工智能医疗器械性能的评价,提出了流水线式的检测流程设计,给出了具体实施方法,并讨论了各种特殊情况的处理方式,有助于解决实际检测中遇到的疑虑。本研究内容结合实际的AI产品特点及临床应用,有助于实现产品的客观评价,统一评判标准,为今后影像类人工智能医疗器械检验的标准化工作提供基础。