多流卷积神经网络细胞分类算法在宫颈脱落细胞学诊断中的价值*
2021-05-25冯琦慧张晓波李清丽沈丹华魏丽惠
王 娜,王 悦**,冯琦慧,张晓波,李清丽,沈丹华,魏丽惠
(1.北京大学人民医院a.妇产科;b.病理科,北京 100044;2.四川大学华西第二医院妇产科四川大学出生缺陷与相关妇儿疾病教育部重点实验室,成都 610041)
子宫颈癌发病率在世界范围内居女性恶性肿瘤第四位[1],我国年新增宫颈癌近11万例,死亡接近5万例[2]。2018年世界卫生组织(WHO)发出全球消除子宫颈癌的行动计划[3]。我国妇女发展纲要也明确提出宫颈癌筛查覆盖率达到80%的目标。宫颈脱落细胞学是目前最重要且有效的宫颈癌筛查手段之一,但我国有3.5亿适龄筛查妇女人口,即使以每3~5年进行一次筛查的标准来实施,年筛查量仍接近一亿人次。目前,我国临床多采用传统人工光镜检测,由病理医师进行阅片诊断,此方法效率低,工作耗时长、强度大,且细胞病理医师的数量不足、水平不一,易导致临床漏诊和误诊。以上均成为掣肘我国宫颈癌筛查覆盖率的重要因素。近年来,人工智能(artificial intelligence,AI)得到快速发展并开始在医学领域中广泛应用[4-8],其中AI参与细胞学病理阅片,有望提高工作效率,提高诊断准确性,降低漏诊率和误诊率,为宫颈癌筛查带来曙光[9-10]。但AI的诊断效能以及能多大程度替代人工仍是未知数。为评估AI在宫颈癌细胞学筛查中的诊断效能,本研究对2019年10月至2020年1月期间“适合国人宫颈癌筛查方案建立”(科技部重大慢性非传染性疾病防控研究)课题组在部分地区随访的202例宫颈薄层液基细胞学标本,利用多流卷积神经网络(mutlti-stream convolutional neural networks,MS-CNN)细胞分类算法进行AI判读,再经病理学医师核验,以评价AI判读的准确性,进而评估AI替代人工判读的可能性,为我国尚处于初步探索阶段的AI病理阅片提供资料。
1 材料与方法
1.1 研究对象 选取“适合国人宫颈癌筛查方案建立”课题中[11]纳入筛查(有性生活史、年龄<65岁、自愿参加、未确诊宫颈癌或癌前病变、未切除子宫),且筛查结果异常(HPV阳性或细胞学≥ASCUS,无需转诊阴道镜和转诊阴道镜病理结果≤CIN1),并参与第二轮随访的202例患者,其中包括北京大学人民医院于内蒙古通辽市筛查的129例,四川大学华西二院于四川省凉山州会东县筛查的73例,分别在2019年10月和2020年1月于当地医院行宫颈脱落细胞学检查和HPV检测。
1.2 实验方法
1.2.1 取样、制片及巴氏染色 TCT(Thinprep cytologic test,豪洛捷公司新柏氏液基细胞学检测)采样刷采集宫颈移行带区域、宫颈管及阴道穹窿的脱落上皮细胞并转移到细胞保存液中。由Thinprep2000全自动处理仪把样本混匀、过滤、转移、固定。苏木素染核(3~5min)→水冲洗1次→95%酒精漂洗1次→橘黄染胞浆(40~60s)→95%酒精漂洗2次→EA50染胞浆(3~5min)→95%酒精漂洗3次→二甲苯(5~10min)→中性树胶封片。
1.2.2 诊断标准 根据TBS-2014报告系统[12]细胞学诊断分为无宫颈上皮病变或恶性细胞(negative intraepithelial lesion or malignancy,NILM),没有明确诊断意义的不典型鳞状上皮细胞(atypical squamous cells of undetermined significance,ASCUS)、低度鳞状上皮内病变(low grade squamous intraepithelial lesion,LSIL)、非典型鳞状上皮-不除外高度病变(atypical squamous cell cannot exclude high-grade squamous intraepithelial lesion,ASC-H)、高度鳞状上皮内病变(high grade squamous intraepithelial lesion,HSIL)、鳞状细胞癌(squamous cell carcinoma,SCC),以及非典型腺上皮细胞(atypical grandular cell,AGC)、原位腺癌(endocervical adenocarcinoma in situ,AIS)、腺癌(adenocarcinoma)。
1.2.3 AI阅片及判读 用生强、江丰等玻片扫描系统获取202例宫颈薄层液基细胞学标本的数字图像并存储,再人工导入深思考人工智能机器人科技(北京)有限公司提供的MS-CNN[13]细胞分类算法,得到判读结果。具体操作是,玻片扫描系统同时装载几十到上百片玻片,一张玻片在60s左右的时间内在某放大倍率的镜头下快速移动,完成逐点扫描并将图像无缝拼接,生成高分辨率的全视野数字化切片(whole slide imaging,WSI),玻片信息得以数字化、完整、永久储存;病理学医师可宏观或以任意放大倍率观察细节。MSCNN是一种适用于细胞分类的神经网络分类算法,图像首先经数据扩增(平移、旋转、翻转变换)和细胞核分割等过程实现预处理,然后根据细胞核形态和纹理、核浆比等人工设计的和自动学习提取的特征进行细胞分类。该分类算法的独特性在于,在双流卷积神经网络对细胞和细胞核特征分别进行隐式提取的基础上,加入一路传统的人工设计的形态学提取流,各流经过全连接层进行特征拼接,最后输出细胞分类。
1.2.4 病理医师阅片及判读 202例样本经AI阅片判读后,全部由一名有资质和经验的病理学医师再次判读,并由另外一名有资质和经验的病理学医师核验,给出最终的人工判读结果。
1.3 统计学分析 采用SPSS21统计软件,计算相应的统计学指标,包括可靠性(符合率、Kappa分析)、真实性(灵敏度和漏诊率、特异度和误诊率)、诊断价值(预测值)。对配对表进行配对卡方检验(McNemar检验和Marginal Homogeneity检验),P<0.05为差异有统计学意义。
2 结 果
2.1 阅片 病理学医师的阅片成功率为100%。机器阅片的成功率为90.10%(182/202),即对182例样本给出判读结果,余未给出判读结果的原因如下:6例细胞量少,6例细菌过多,8例制片模糊。本文仅对同时具有人工判读结果和机器判读结果的182例进行分析。
2.2 判读结果和结果分析 以人工判读结果为标准,对MS-CNN两种分类算法的诊断效能分别进行评价,见表1~3和图1。
图1 数字化图像及其MS-CNN判读结果
表1 MS-CNN二分类算法与人工判读结果
MS-CNN二分类和多分类算法的符合率分别为68.13%(124/182)和73.08%(133/182),根据 Kappa值判断其与人工判读结果一致性一般,且存在一定差异(McNemar检验和Marginal Homogeneity检验,P<0.05)。
二分类中,AI判读的阳性率47.80%(87/182)明显高于人工判读15.93%(29/182),灵敏度、特异度、阴性预测值分别为100%、62.09%、100%,即可将所有含有异常细胞的样本筛选出来达到零漏诊率,并且阴性结果100%正确。多分类中,人工判读NILM、ASCUS、LSIL、ASC-H、HSIL 分别有153 例(84.07%)、22例(12.09%)、7 例(3.85%)、0例、0 例,MS-CNN分别有 112例(61.53%)、58例(31.87%)、9例(4.95%)、1 例(0.55%)、2 例(1.10%),特异度分别为 96.55%、73.75%、98.29%、99.45%、98.90%,阴性预测值为99.03%。
表2 MS-CNN多分类算法与人工判读结果
表3 MS-CNN算法诊断效能综合评价
3 讨 论
目前,AI已在乳腺癌、肺癌、甲状腺癌、膀胱癌以及妇科肿瘤的影像学和病理学阅片中应用,对肿瘤的诊断、分型、分期、预后判断等方面有重要意义。AI辅助宫颈脱落细胞学阅片的优点主要在于:(1)通过高通量、高速度的影像扫描系统获取高分辨率的数字化图像,实现图像信息数字化、完整、永久的云端存储。(2)辅助教学、科研和远程会诊。(3)绝大多数研究显示[9-10],AI判读的效率、敏感度、特异度、准确性高,特别是低漏诊率使其有较好的临床应用前景。现各种算法准确性大多接近93.78%,使用KNN和SVM进行两分类时,准确性可达99.27%和98.5%[10]。以金域医学与华为云EI合力开发的人工智能辅助宫颈癌筛查为例,该模型在排阴率高于60%的基础上,阴性片判读的正确率高于99%,阳性病变的检出率超过99.9%。据报道[13],MS-CNN算法取得了Herlev宫颈细胞数据库目前最好的分类结果,二分类准确性达99%,其在Ideepwise宫颈细胞数据库多分类准确率也达到了85%。本文进一步验证MS-CNN算法的诊断效能,旨在为我国尚处于初步探索阶段的AI辅助宫颈细胞学阅片提供更多参考资料。
本研究中182例测试结果显示,MS-CNN在筛选异常细胞方面表现突出,但符合率不高。二分类算法灵敏度达100%,这和李雪等[14]的研究结果一致。因此,临床医生或可考虑在初筛中应用该漏诊率为零的人工智能方法,将含有异常细胞的样本全部筛选出来,再由细胞病理学医师对阳性结果样本进一步判读;但37.91%的误诊率提示二分类算法仍需进一步学习以达到灵敏度和特异度的平衡,达到既不漏诊又最大程度减少临床病理医师工作量的目标。此外,研究中多分类算法模型的符合率较二分类高,误诊率较二分类低,这与MS-CNN算法本身的优势有关,既利用了传统的人工设计特征提取流提供的宫颈细胞领域知识,又利用了卷积神经网络隐式学习大量训练数据的优势;但是灵敏度不高,存在漏诊病例,可能的原因之一是该算法仅学习了Herlev数据集和Ideepwise数据集,训练数据相对较少,因此算法的完善需要更多像本研究一样的临床数据的支持,其他原因还可能发生在制片、扫描以及不同级别的细胞之间本身容易混淆判读等环节。
需注意的是,本文对MS-CNN诊断性能的评价可能存在偏倚,原因如下:(1)灵敏度和特异度等评价指标会因研究地点、研究对象特征、患病率、疾病严重程度、参考标准等不同而产生差异。本研究中样本仅来自于宫颈癌筛查项目中部分地区结果异常且参与随访的人群,以人工判读的细胞学结果而非组织病理学结果为标准评价诊断效能;(2)LSIL的样本少,且样本中不包括ASC-H、HSIL和腺细胞异常的样本。
综上所述,在宫颈脱落细胞学筛查中,人工智能已经逐步参与到制片、扫描、细胞分类等各个环节。从本研究结果看,MS-CNN二分类算法在宫颈癌初筛中其筛出阴性样本的准确率达100%,有望部分替代病理医师的初筛工作,将更多的人力集中在阳性标本的判读工作中,显著提高宫颈癌筛查效率及覆盖率。但鉴于其目前较低的阳性标本的准确率,该AI算法仍需进一步学习完善,以达到漏诊率和诊断符合率之间更好的平衡,实现精确分类(TBS标准)的最终目标。