病理人工智能软件研发过程的关键要素
2023-01-13梁春滢曾祥卫陈静
梁春滢,曾祥卫,陈静
广东省药品监督管理局审评认证中心 (广东广州 510080)
近年来,人工智能(artificial intelligence,AI)技术在医学领域的发展迅速,越来越多的病理AI 软件面市并服务于临床,但目前国内大部分的病理AI软件还难以解决复杂的医疗决策问题,同时也缺乏动态学习、逻辑推理等高级功能。国家药品监督管理局注册产品数据库显示,已上市的病理AI 软件的临床用途主要集中在对病变细胞或组织进行标记、识别、分类和细胞计数等方面,尚缺少对病变性质进行判断并给出具体临床建议、辅助诊断、用药指导或治疗依据的应用,对真正辅助临床决策或解决传统病理诊断存在主观问题的目标还有很大的差距。然而要实现上述临床功能,对病理AI 软件的算法性能则提出了更高要求,病理AI 软件研发过程也将面临复杂临床使用场景的全面分析、核心算法的合理设计、强算力对海量数据的训练及科学的性能测试手段等方面的挑战。
1 病理AI 软件的需求分析
全面、准确的需求分析是软件研发的首要步骤,直接决定了软件算法模型的设计和数据收集等。对于病理AI 软件而言,临床使用场景是需求分析中的关键要素。临床使用场景包括临床病种、适用人群、流行病学、操作对象和应用场景等,其中临床病种目前主要为乳腺疾病、宫颈癌、胃癌等,适用人群可分为不同性别、年龄、人种或高危人群等,操作对象通常为临床医师、阅片医师或护理人员、患者等,应用场景包括疾病预测、分期分诊(肿瘤二分类等)、指导治疗和预后评估等。
2 病理AI 软件的算法模型设计
目前,病理AI 软件的算法可基于已有研究的网络模型,选择单一的网络模型或融合多个网络模型,通过数据集的训练来调整系数而得到最优的模型。在设计模型时,设计人员通常要考虑模型的效率和精度,同时也要兼顾减少模型的参数和计算冗余的问题,这些均与选择的基础网络模型息息相关,比如深度学习算法中的基础网络模型已有较成熟的研究,通常深层级的网络结构更利于提取丰富的图像特征,但也伴随参数冗余、梯度消失和训练复杂等缺点,这就决定了深层级的网络结构优势并不具有普适性。因此,在病理AI软件的实际研发中,研发者充分权衡基础网络结构的优势和缺点,结合需求分析,深度挖掘病理图像特征,才能设计出满足临床用途的最优算法。
选择好基础网络架构后,需通过特定数据集进行训练来调整参数,但在模型优化过程通常会遇到过拟合和欠拟合情况,可通过数据增强、减小网络容量、添加权重正则化、添加dropout 等技术手段防止神经网络过拟合,通过加大模型参数避免欠拟合[1]。
3 病理AI 软件的算法评估
评估算法是否满足预期目标,需经过充分的算法测试、验证与确认活动。构建科学的算法评估方法应基于充分了解产品算法结构、预期目标任务和临床需求,可从软件整个研发周期中的需求阶段、设计阶段、实现阶段和运行阶段确立对应的评估指标、接受准则和关键活动,进而形成每个阶段的评估报告,注意测试人员应独立于研发人员,以保证测试的可靠性和完整性[2]。评估指标不局限于响应时间、精度、召回率、准确率、重复性与再现性、时效性、灵敏度、特异度和ROC 曲线下面积,可使用单一指标,也可组合设置指标,最终的评估则需进一步评审和确认每个环节是否达到放行要求。
4 病理AI 软件的数据集构建
数据集是AI 软件学习的素材,直接参与了算法模型的训练、优化和最终评估阶段。保证数据的准确性、可用性、一致性和完整性是构建数据集的基本要求。软件研发者在构建数据集时需重点关注数据的来源和采集、数据标注和质控、数据集的构成。
4.1 数据的来源和采集
数据的来源可影响数据的完整性和准确性。为使数据集尽可能满足临床预期使用各类场景要求,一方面从临床用途上考虑覆盖各类特殊及对抗性样本,如涵盖预期适用人群、不同部位,病灶大小、病程范围及肿瘤类型、分化程度等;或从地理分布上考虑数据差异性,需尽可能来自不同地域和临床机构;另外,需从设备使用上考虑硬件兼容性,如尽可能来自不同的采集设备[3]。
规范数据的采集主要考虑数据的可用性和一致性,如数字图像保存格式、大小等不同可影响算法性能,同时防止采集的数据出现不能识别或读取的情况。数据采集过程至少保证设备采集方式(二维、三维动态、实时成像或扫描成像)、采集参数(如成像倍数等)、采集精度(如分辨力、信噪比)、输出数字图像的参数[储存格式(DICOM、TIFF 等标准格式)、像素大小、对比度、压缩因子等]的统一。
4.2 数据标注和质控
数据标注过程是否规范将影响数据的准确性和一致性。控制标注数据的质量重点把握以下几点:(1)确定统一的参考标准,如宫颈细胞学中的TBS分类标准、专家共识等;(2)标准化流程和规范化操作,包括具体的标注流程、标注人员要求、定义标注范围(如标记细胞核、腺体、组织等)、特定病种标注形式(如中心点标注、细胞边缘标注)和确保追溯性等;(3)保证标注团队的专业性,对标注专家提出明确的阅片资质要求,明确区分标注、复核和仲裁人员的任务和权限,针对疑难病例样本可考虑多人标注,以提高数据标注的可信度和质量。
4.3 数据集的构成
基于数据集在算法模型评估中的功能,需构建训练集、验证集和测试集。美国FDA 起草的指南指出,制造商需适当区分三者[4],同时国内发布的审评要点也明确各个数据集之间的样本应无交集[3]。因此,在实际设计研发中,研发者需采取一定的措施保证各个数据集之间的独立性。
为避免数据偏性,各个数据集的样本分布应尽可能均衡,阴阳性样本的比例应尽量合理。同时,各数据集的样本量除考虑满足算法结构测试和预期任务外,还需考虑流行病学和统计学要求,若样本量太少,会造成结果的偏倚和算法泛化能力的降低。另外,数据集的来源应尽量接近临床样本真实情况,对来源于第三方平台的数据要充分评估与临床机构数据的同质性。
5 病理切片的质量要求
病理切片的质量是获取高质量标注数据的基础,研发者在前期策划时应考虑制定病理切片的质量要求,进而在数据采集环节严格控制样本的纳入和排除,控制不严时出现取材不全、染色过程结构纹理不清晰、各组织层次不强、切片厚薄不一、切片封片剂过多等问题可影响后续采集图像的质量,造成图像特征提取的偏差,不利于验证标准化的设备采集参数,从而降低诊断结果的准确性。
而提高病理切片的质量需严格规范制片的标准流程和质控手段[5],若采用市面全自动化的染色、制片一体机,还要关注设备参数的设定和确认。另外,上市产品临床使用有相关反馈,软件算法的性能或因染色方法(HE、巴氏等)、制片方式(模式、沉降式)等的不同存在差异。因此,在软件研发时,尽可能验证不同病理切片的兼容性或根据产品已有的研究结果对临床使用过程作出限制,包括在软件中前置设定图像匹配度要求或说明书中明确病理切片质量要求、染色方式和采集图像参数统一等,以提高后续产品诊断结果的准确性。
6 总结与建议
AI 技术在病理诊断领域的应用正在不断探索中,AI 软件在实际的临床实践中将不断遇到疑难病例及复杂且不可预测的使用场景,研发者需在软件研发阶段尽可能分析多方面的影响因素,并找到相应的策略来提高算法的性能。除本文提及因素外,研发者还可从研发新的算法模型、寻求更科学合理的算法测试方法和评估体系等方向进行探索。另外,基于深度学习算法自适应学习和不断迭代的特性,还需进一步考虑相应的网络安全防护设计来防止数据污染、数据投毒和对抗性样本等对模型的攻击,以更好保证产品诊断结果的准确性。
另外在国家层面,则可考虑进一步加大国内AI 技术在医学领域的科研投入,推进临床、软件研发企业、检测机构和审评机构共建高质量可共享的大数据环境,同时加快完善国内的AI 应用标准、测试评价体系及产业的服务性政策,推动AI 技术在病理诊断和辅助诊断方面发挥更大作用,并可持续向精准医疗或疾病预防等方向发展。