医疗人工智能产品应用效果的评估框架与流程研究

2020-01-19王士泉李言生苏明亮

医疗卫生装备 2020年1期

王士泉，李言生，苏明亮*，李伟

（1.东华软件股份公司，北京 100191；2.火箭军特色医学中心核与辐射损伤实验室，北京 100088）

0 引言

随着大数据、深度学习等技术在医疗健康领域应用的深入，基于人工智能技术的疾病筛查、诊断、辅助决策类产品进入了高速发展期和初步应用期。然而，国内外尚缺乏对相关产品有效性的评估体系，缺少对医疗人工智能产品效果评估的流程性指引，在一定程度限制了此类技术的研发、应用和推广。因此，建立一套科学的、符合医疗评价标准的人工智能类医疗产品应用效果的评估框架与流程将有利于更加客观、合理地评价医疗人工智能产品应用的实际性能，在给研发机构指出明确提升方向的同时，能够规范化我国医疗人工智能产品应用市场，促进医疗人工智能产业良性、有序发展[1]。

1 现状分析

人工智能从最初的神经网络和模糊逻辑，到现在的深度学习、图像搜索，已经进入第三次发展浪潮。人工智能就是研究使用计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划、感情等）的科学，涉及了计算机学、数学、心理学、语言学、行为学等学科[2]。

医学人工智能是人工智能的一个应用领域。医疗行为本身既涉及医学专业知识，又涉及心理、情感伦理等多学科知识，因此人工智能技术与医学相结合将产生一些重要的变化。人工智能类医疗产品从形态上具备3个特征：首先是软件产品属性；其次是具备“自学习”能力；最后是安全性要求极高。产品的好与坏，最终效果均体现在患者身上[3]。

医疗是一个比较特殊的行业，它与人民群众的身体健康切身相关。人工智能技术及其产品尽管在某些方面能够大大帮助医生或健康服务机构提升服务效率，但由于人工智能技术本身的特点和局限性，在实际应用中有严格的限制，需要一些专业知识才能辨识。而现实中绝大多数医疗机构管理者、医生及患者缺乏相关专业能力，这导致了他们要么盲目相信宣传，大胆“吃螃蟹”；要么不敢实际应用，对其安全性、有效性存在顾虑。这些在一定程度上阻碍了医疗人工智能产品的快速推广与应用。

在上述背景下，本文提出对医疗人工智能产品应用效果的评估框架与流程，旨在加强医务人员和患者对人工智能技术的了解，促进人工智能技术在医疗行业快速应用落地[4]。

2 医疗人工智能产品应用效果的评估框架与流程

医疗人工智能产品评估总体框架主要包括评估方法与评估路径2个部分。其中评估方法包括静态评估（定量评估）与动态评估（定性评估）两部分，分别从产品功能、可靠性、知识能力、学习能力等多个维度进行综合评估；评估路径则从数据资源标准化情况、AI产品实施情况、基础设施建设以及AI产品应用效果4个维度进行综合评价，如图1所示。其中数据资源标准化情况包括数据集标准化与输出文档标准化；AI产品实施情况包括技术架构、功能服务和运行性能；基础设施建设情况包括网络及网络安全、信息安全与基础硬件；AI产品应用效果包括应用建设及利用、联通业务范围等[5]。

图1 医疗人工智能产品应用效果的评估框架

医疗人工智能产品评估核心环节包括确定评估目标、选择评估指标、选择测试数据集、静态评估、动态评估、评估结论等。医疗人工智能产品应用效果的评估流程如图2所示。其中，确定评估目标包括待评估产品使用场景描述、产品运行条件（硬件、存储、网络要求等）、运行模式（云环境或单机环境）、正常运行场景、可预见的异常场景等；评估指标包括准确率、识别率、假阳性率、特异性、敏感性、响应时间等；选择测试数据集则是从由专家标注好的、不同分类应用的标准数据集中进行抽取[6]。

图2 医疗人工智能产品应用效果的评估流程图

3 医疗人工智能产品应用效果的评估操作流程

根据医疗人工智能产品应用效果的评估框架与核心流程，设计评估操作流程，包含以下4个主要内容：评估产品注册登记、产品静态特征的评估、产品动态特征的评估和评估结果分析。

3.1 评估产品注册登记

评估产品注册登记的目的是对待评估的医疗人工智能产品信息进行详细的备案，以便于后续测试环节信息的记录以及评估结果的反馈，从而达到统一和标准化管理要求。

3.2 产品静态特征的评估

静态评估主要用来衡量医疗人工智能产品的成熟度，用以实现同一功能的不同产品在典型应用场景下的性能对比，包括功能性、可靠性、联通性、易用性等多个维度。产品静态特征的评估项目包含以下几点：

（1）功能完备性。主要对产品的工作流程进行评估，判断系统流程是否完备，是否符合预期的输入、输出及异常提示，是否完全覆盖产品描述的全部功能，且各功能测试是否正常。

（2）安全性。产品是否支持指纹、密码等访问方式，是否有明显绕过密码登录的漏洞，是否有数据访问的逻辑漏洞等。

（3）可靠性。产品是否会突然宕机，是否具有数据恢复机制，是否对断电、硬件损坏、系统崩溃、CPU过热、内存溢出等突发情况做出合适的操作。同时产品是否具有完备的日志管理功能，能够对软件的详细情况进行完备的记录，以便于出现问题及时发现原因。

（4）隐私保护。针对医疗疾病数据，产品是否在处理和传递的过程中进行数据加密处理、是否存在可能的窃取用户隐私数据的方式等。

（5）易用性。产品是否具备较好的纠错机制、是否具有良好的用户引导提示、是否具备良好的人机交互方式、是否对错误等异常情况有反馈机制，以及是否易于学习、操作、理解等。

（6）联通性。产品是否需要接入公网、是否可以利用云计算来提高计算能力和效率、是否支持与多系统进行联通、是否支持多源输入并保持多源通信、是否筛选冗余数据等。

（7）特殊依赖性。产品是否需要额外的特殊硬件设备，是否依赖于特定的收费软件API等从而导致额外的费用开销。

（8）效率。产品实现某种功能所占用的计算资源、功能处理及响应时间，是否能够支持并行操作，是否能够和其他产品同时运行等。

（9）可移植性或兼容性。产品从一个计算机系统或环境转移到另一个计算机系统或环境的容易程度。

（10）可扩展性。产品添加和修改相关功能的容易程度、与其他产品结合的容易程度等。

3.3 产品动态特征的评估

动态评估主要用来衡量医疗人工智能产品的智力程度，评估产品适应不同临床场景的可用性，在接近真实的环境中评估产品的可用性，主要包括智力水平、学习能力和知识结构等多个维度。产品动态特征的评估项目包含以下几点：

（1）知识获取能力。主要对产品获取知识的输入数据格式进行评估，如结构化数据和非结构化数据（办公文档、文本、图片、XML、HTML、各类报表、音频、视频等信息）等多种疾病记录格式[7]。

（2）知识获取途径。主要对产品获取知识的方式进行评估，如利用专家提供的某一领域的先验知识，根据海量医疗数据自主学习特征或规律从其他产品直接迁移得到等。

（3）知识掌握能力。主要对产品运用先验知识和学习到的特征进行疾病的预测和检测（病灶定位）的能力进行评估，可以参照目前应用最多的检测指标——特异性和敏感性，以及学术研究常用的指标，如准确率、查全率、查准率、均值评价精度（mean average precision，MAP）、像素精度（pixel accuracy，PA）、平均像素精度（meanpixelaccuracy，MPA）、平均交并比（meanintersectionover union，MIoU）、频权交并比（frequency weighted intersection over union，FWIoU）等[8]。

（4）知识反馈能力。主要对产品真实、不完美数据的反馈进行评估，如数据缺失、低信噪比数据、数据量不足等情况。

（5）知识创新能力。如医疗人工智能能否根据专家提供的先验知识作为基础，在训练之后发现有利于诊断和检测的新规律；根据图像数据训练的医疗人工智能产品能否在加入病历数据后学习其中隐含的共性和联系，进而提高疾病诊断和检测的结果；根据病历数据和图像数据训练的产品在图像数据缺乏的情况下只提供病历数据，其能否根据病历数据对缺乏的图像数据进行合理的猜测等。

（6）可解释性。产品因其行业特殊性，保证检测结果可靠、安全是第一要务，因此产品的可解释性就至关重要。需要注意的是，这里关注的并不是产品算法本身的可解释性，更多的是对产品结果的可解释性进行测试。如通过眼底彩照对眼球病变程度进行诊断的情景下，可以通过可视化算法内部对诊断结果做出贡献的病灶识别的情况，判断其是否符合现阶段医学领域知识，从而达到“可解释”的目的。

（7）学习能力。主要对产品所采用核心算法的先进性、学习速度的快速性和结果的准确性进行评估，如产品是否能从训练数据中学习到有效的特征并得到准确的结果，整个产品学习的周期及其知识库是否能够持续增长和更新等。

（8）知识结构。主要对产品所需要学习的数据维度和大小进行评估，如知识表示的特征维度、多源数据知识结合的结构、知识表示结构是否对于最终的学习目标有明确的定义等。

（9）场景适用性。主要对产品应用类别（管理类、咨询类和诊疗类）的具体场景进行评估。首先对产品注册时给出的应用领域进行测试，评估其是否能够达到该领域的要求。再对该领域下具体的应用场景（三甲医院场景、基层医院场景、体检中心场景、社区诊所场景等）进行评估，判断其可用性场景。

（10）鲁棒性和迁移性。在符合产品输入要求的基础上，对产品的多样性输入进行评估。以影像归档和通信系统（picture archiving and communication systems，PACS）影像图片为例，在正常输入图片工作良好的基础上，评估添加额外噪声、曝光不足/过度/不均匀、色调调整等实际医疗影像可能出现的情况下产品的运行表现[9]。

3.4 评估结果分析

在对医疗人工智能产品的静态特征和动态特征进行评估之后，需要对各评估指标、评估参数进行统计分析，给出最终评估等级和评估意见。具体分析指标包括：

（1）AI性能。包括但不局限于知识获取能力、知识获取途径、知识掌握能力、知识反馈能力、学习能力、知识结构、知识创新能力等。

（2）软件算法性能。包括但不局限于软件运行效率、软件稳定性、软件功能完备性、软件运行环境依赖性、软件异常情况处理、数据恢复情况等。

（3）可解释性。包括但不局限于学习到的各项特征与实际医学知识的相关性、学习到的各项特征对最终诊断和检测等决策结果的影响等。

（4）安全性。包括但不局限于数据是否存在容易泄露的情况、是否会被窃取复制的情况、是否加密、是否有较好的隐私保护机制、是否需要接入公网等[10]。

（5）先进性。包括但不局限于采用核心算法的先进性、软件架构的先进性、构成部分软硬件的先进性、产品理念的先进性、产品解决问题的先进性等。

（6）易用性。包括但不局限于产品交互的舒适度、产品响应的时效性、产品使用人员的培训时间等。

（7）使用周期。包括但不局限于产品的硬件构成及其使用寿命和维护情况、产品的软件环境及其依赖软件库的维护与更新情况等。

（8）成本和依赖性。包括但不局限于产品是否依赖于软件授权、是否依赖于特定的软硬件、是否需要专业公司人员的操作辅助、是否需要额外物理条件（如大面积场地、隔音去噪环境、降温设备等）等。

（9）可靠性。包括但不局限于产品的稳定性、产品的鲁棒性、产品对特定应用场景的诊断和检测结果的准确性、产品诊断和检测结果的可信度等。

（10）实用性（即总体评价统计分析）。综合上述各点对产品的实用性进行总体评价，包括是否具有实际推广价值、是否符合现阶段医疗情况的需要、是否缓解现有医疗资源的紧缺情况、是否提升医疗诊断的质量和效率以及实际增益情况与其构建成本的关系等。

在对医疗人工智能产品进行评估结果的统计分析之后，需要设计出评估量化表来进行结果的备案。评估量化表的设计可参考上述评估项目，也可针对不同应用类别的医疗人工智能产品的评估进行裁剪或扩充。

4 结语

随着人工智能与医疗领域的深度融合，基于人工智能技术的医疗健康产品、工具等须满足客观的标准，从而保证其对安全性、可信赖性、可追溯性、隐私保护等方面的要求。因此，我国亟待建立起医疗人工智能产品进入行业的准入制度与对应的监管平台，建立不同应用类别医疗人工智能产品的测试评估基地与示范院区。此外，为了更有效地评估医学人工智能技术，相关的测试方法也必须标准化，应创建不同应用类别产品的人工智能技术基准，并为基准的制订提供定量要求，从而促进和规范医疗健康人工智能的发展，为智能医疗时代保驾护航。