人工智能辅助系统在宫颈病变细胞学诊断中的应用效果研究
2022-10-09廉亚丽
郭 晓,刘 颖,王 蕊,廉亚丽,杜 芸*
(河北医科大学第四医院细胞学室,河北 石家庄050011)
宫颈癌(cervical carcinoma)发病率在全球女性患者恶性肿瘤中位居第3,在发展中国家位居第2[1]。2020年,全球女性中宫颈癌新发人数约60万,死亡人数约34万,我国新发病例约11万,死亡病例约2.6万。由于筛查手段的完善和早期干预治疗,西方发达国家宫颈癌的发病率和死亡率有所下降;而我国近年来,宫颈癌的发病率和死亡率均逐年升高,而且出现年轻化趋势[2]。
宫颈癌从癌前病变发展到原位癌、早期癌、浸润癌是一个漫长的过程[3],是可以通过早期的措施进行防控甚至消灭的癌症,若能够及时发现病变并得到有效治疗,将对宫颈癌的防治取得明显成效,患者的生活质量得到明显提高。宫颈液基薄层细胞学(thinprep cytologic test,TCT)检测是目前宫颈筛查的首选方法[4],而我国注册病理医生不到2万,有经验的细胞病理医生更匮乏,加之医生易受主观因素、视觉疲劳等的影响,都极大地限制了宫颈癌筛查。
近年来,随着人工智能(artificial intelligence,AI)的快速发展,其在医学图像领域得到广泛应用。AI通过分析有经验的病理医生标记的细胞的图像,捕捉图像中特征数据,运用一些算法将其融入到计算机中,可提高工作效率,减轻阅片人员工作量,为宫颈癌的筛查提供了可行性方案[5]。
以往已有一些研究[6-9]将AI作为病理诊断的辅助性工具进行尝试,多集中于将TCT标本的病变细胞进行标记或者分为阴、阳性,缺乏对病变细胞的分级。湖南品信研发的吉米娜风险分层的AI辅助诊断系统应用视觉卷积神经网络结合细胞显微成像分析技术依照TBS(the bethesda system)诊断系统(2014版)尝试对病变细胞进行分级诊断。本文试图通过比较AI辅助阅片与人工阅片的可靠性指标,来探讨该系统在宫颈癌筛查中的应用价值。
1 材料与方法
1.1 临床资料
收集2017年1月—2021年12月河北医科大学第四医院进行的宫颈TCT标本2 719例,同时进行AI辅助阅片和人工阅片,其中有病理活检结果标本1 179例。
1.2 前期准备与建立数据集
前期共收集宫颈液基薄层细胞学标本15 946例,其中未见上皮内病变或恶性细胞(negative for intraepithelial lesion or malignancy,NILM)11 097例,意义不明的非典型鳞状细胞病变(atyical squamous cells of underermined signification,ASC-US)2 639例,不典型鳞状细胞,不能排除高度上皮内病变(atypical squamsus cells cannot exclude high-grade squamous intraepithelial lesion,ASC-H)280例,低度鳞状上皮内病变(low-grade squamous intraepithelial lesion,LSIL)1 637例,高度鳞状上皮内病变(highgrade squamous intraepithelial lesion,HSIL)287例,鳞状细胞癌(squamous cell carcinoma,SCC)6例。对制片染色后的玻片采用20倍的物镜进行扫描、图像拼接和分析形成全视野的数字化切片,由经验丰富的细胞病理医生选择10 343 976幅图像进行标注异常细胞和正常细胞。采用Faster R-CNN+FPN目标检测的方法自动完成病变细胞的定位和分类,筛选其中有细胞的图片输入到局部图像块特征提取网络得到块特征,然后添加可学习的分类标记特征,将所有的块特征和分类标记特征一并输入到标注的Transformer编码器中,将Transformer输出的分类标记特征输入到多层感知机,最终按照TBS系统得到切片分类结果,包括定性结果(正常、异常和不满意)和表示异常概率的严重程度分数(标记出异常细胞并给出异常细胞级别的置信区间),我们将识别的鳞状细胞数少于5 000的玻片定义为不满意。
1.3 检测方法
1.3.1 TCT标本取样应避开月经期,采样前24 h禁止用药、冲洗及性生活。用扩阴器充分暴露宫颈,将采样刷深入宫颈鳞状交界,施加压力并顺时针旋转3~5周,将收集的细胞洗入盛有Thin-Prep细胞保存液的小瓶中,制作巴氏染色的1张液基涂片,由计算机扫描生成数字化切片后交给病理医生。人工阅片由两位经验丰富的细胞病理学医生采用镜下阅片方式采用双盲法按照TBS系统进行判读,如遇到结果不一致时,由两位医生商议后决定。AI辅助阅片采用数字化切片智能阅片,系统按照TBS系统给出判定结果,细胞病理医生根据系统标记出病变细胞的分级以及分级置信度综合评定后给出最终判定结果。
TBS系统诊断结果描述为:①NILM;②ASCUS;③ASC-H;④LSIL;⑤HSIL;⑥SCC。ASC-US及以上的涂片认定为阳性涂片。
1.3.2 宫颈活检对于细胞学阳性或细胞学正常临床医生高度怀疑有宫颈病变的患者进行宫颈多点活检。病理诊断根据2014年世界卫生组织(World Health Organization,WHO)女性下生殖道肿瘤分类标准,将病理结果分为正常或炎症、低级别病变(LSIL,包括CINⅠ)、高级别病变(HSIL,包括CINⅡ、CINⅢ及原位癌)、早期浸润癌及浸润癌。
1.4 统计方法
应用SPSS 26.0统计软件对数据进行分析,采用Fisher精确法估计指标的95%CI。两种方法率的比较采用χ2检验,以P<0.05为差异有统计学意义。以活体组织病理学检查结果为金标准,评估AI辅助诊断系统与人工阅片在宫颈癌诊断方面的敏感性、特异性和符合率等指标。
2 结果
2.1 宫颈细胞学检查与病理活检结果
2 719例患者同时进行AI辅助诊断系统和人工阅片检查后,AI诊断为NILM者926例(34.1%),ASC-US者451例(16.6%),ASC-H者153例(5.6%),LSIL者836例(30.7%),HSIL及SCC者353例(13.0%);人工阅片诊断 为NILM者852例(31.3%),ASC-US者792例(29.1%),ASC-H者116例(4.2%),LSIL者710例(26.1%),HSIL及SCC者249例(9.0%)。
1 179例患者进行了阴道镜下宫颈活检,病理诊断为正常及炎症者497例(42.2%),低级别病变CINⅠ者185例(15.7%),高级别病变及癌者497例(42.2%),其中包括CINⅡ者146例(12.4%)、CINⅢ及癌者351例(29.8%)。
2.2 AI辅助阅片与人工阅片宫颈细胞学分级分布及一致性分析
两种阅片方式的分级分布见表1,AI辅助阅片比人工阅片更有可能将玻片分类为ASU-H、HSIL及以上级别,人工阅片更有可能将玻片分类为ASC-US。有1 858例(825例NILM、320例ASC-US、474例LSIL、54例ASC-H和185例HSIL及癌)患者被AI辅助阅片和人工阅片分类为同一等级。在不同诊断分级的病例中,101例经AI辅助阅片诊断为NILM的患者被人工阅片分类为ASC-US,27例(8例ASC-US、16例LSIL、2例ASC-H和1例HSIL)患者经AI辅助阅片归类为异常细胞学被人工阅片分类为NILM。AI辅助阅片与人工阅片的总体符合率为68.3%[95%CI(66.6%,70.1%)],相应的Kappa值为0.578[95%CI(0.556,0.600)],两者阅片方法基本一致。
表1 AI辅助阅片和人工阅片的宫颈细胞学分级分布及一致性分析
2.3 AI辅助阅片和人工阅片的宫颈细胞学分级与组织病理学的对照
AI辅助阅片和人工阅片的组织病理学上的分布见表2。有2例CINII级患者被AI辅助阅片归为正常,1例CINⅢ级患者被人工阅片归为正常。人工阅片可能比AI辅助阅片更可能将患有高级别病变及癌的患者归类为ASC-US或LSIL。
表2 AI辅助阅片和人工阅片的宫颈细胞学分级在活检组织病理学中的分布
AI辅助阅片诊断为低级别病变及炎症的准确率为87.8%(643/732),见表3,有12.2%(89/732)的高级别病变及癌的患者被漏诊,人工阅片诊断为低级别病变及炎症的准确率为71.6%(648/905),有28.4%(257/905)的高级别病变及癌的患者被漏诊,两者比较差异有统计学意义(P<0.01),AI辅助阅片在诊断低级别病变及炎症的准确率高于人工阅片。
表3 AI辅助阅片和人工阅片的准确性分析
AI辅助阅片诊断为高级别病变及癌的准确率为91.3%(408/447),有8.7%(39/447)的患者诊断过高,人工阅片诊断为高级别病变及癌的准确率为87.6%(240/274),有12.4%(34/274)的患者诊断过高,两者比较,差异无统计学意义(P=0.111),AI辅助阅片在诊断高级别病变及癌的准确率与人工阅片相当。
2.4 AI辅助阅片和人工阅片诊断宫颈高级别病变及癌的效果评价
在诊断高级别病变及癌方面,AI辅助阅片敏感性为82.1%(408/497),高于人工阅片的敏感性48.3%(240/497),AI辅助阅片特异度为94.3%(643/682),略低于人工阅片的特异度95.0%(648/682)。AI辅助阅片的ROC曲线下面积为0.882,大于人工阅片的ROC曲线下面积0.717,两者比较差异有统计学意义(P<0.01),AI辅助阅片在诊断高级别病变及癌的方面比人工阅片更有价值(见图1)。
图1 AI辅助阅片和人工阅片诊断宫颈高级别病变及癌的ROC曲线
2.5 AI辅助阅片和人工阅片时间分析
2名细胞病理医师阅片2 719例,共耗时227 h,AI辅助阅片仅用136 h完成阅片工作,节省了91 h的时间。
3 讨论
早在2009年,国家卫生部和妇女联合会在全国农村妇女和城镇家庭困难妇女中开启了两癌(乳腺癌和宫颈癌)的筛查工作。十多年过去了,虽然全国宫颈癌的筛查人数达到1亿人次,但我国的宫颈癌筛查覆盖范围和人数仍远远满足不了需求,究其原因可能有以下几点:①我国人口众多,筛查工作量巨大;②不同地区经济水平差异,导致“两癌”筛查开展的差异;③宫颈液基薄层细胞学(thinprep cytologic test,TCT)检测是目前宫颈筛查的首选方法,而病理医生人数匮乏,加之医生易受主观因素、视觉疲劳等的影响,都极大地限制了宫颈癌筛查。
2022年1月18日,国家卫生健康委又一次印发了《宫颈癌筛查工作方案》,将宫颈癌筛查纳入了政府民生工程,其中提出明确目标,到2025年底,实现适龄妇女宫颈癌筛查率达到50%以上。同时《宫颈癌筛查工作方案》中提到可以通过创新宫颈癌筛查模式,来提高宫颈癌筛查的早诊率。
近年来,随着AI的快速发展,其在医学图像领域得到广泛应用。人们开始探索AI在细胞病理学领域的应用,也使得我们向宫颈癌的自动筛查迈进了一步[5]。1992年,NSI开发了第一个商业化的自动辅助系统PAPNET[6],该系统采用神经网络接受目标图像,并根据其与训练的异常细胞的相似性,用来核查可能遗漏的宫颈上皮异常。之后2004年和2008年开发的ThinPrep成像仪[7]和FocalPoint GS成像系统[8]用基于多种细胞特征的专用算法来识别可疑视野,由细胞学家进行核查。Zhang等[9]利用卷积神经网络(convolutional neural network,CNN)将宫颈细胞学图像分为良恶性,准确率达98%。之前的AI让病理医生更多的精力集中于阳性和可疑细胞,而不是寻找细胞,一定程度上降低了病理医生工作强度,缓解了医疗资源的紧张。但是相较于标记出病变细胞,对病变细胞的分级诊断更具有意义。分级诊断能够避免医生的主观判断,有利于诊断标准的统一,真正实现宫颈癌筛查的自动化,推进宫颈癌的大规模筛查的推广,使病人能够早发现早治疗。本研究采用的AI辅助阅片对前人的技术进行改进和升级,将视觉卷积神经网络与细胞显微成像分析技术结合起来,直接用目标检测的方法自动完成病变细胞的定位和分类。
本研究中发现AI辅助阅片和人工阅片在细胞学分级中能够达到基本一致,说明AI辅助阅片的诊断效能与人工阅片相当。AI辅助阅片在诊断低级别病变及炎症的准确性高于人工阅片,说明AI辅助阅片能够早期发现病变且诊断准确性高。AI辅助阅片与人工阅片在诊断高级别病变及癌的准确性均较高,因此临床医生对细胞学发现高级别病变及癌的患者即使没有临床症状,也应进一步采取措施,以免延误病情。在对诊断高级别病变及癌的研究中发现AI辅助阅片的敏感性高于人工阅片,AI辅助阅片的ROC曲线下面积大于人工阅片的ROC曲线下面积,说明AI辅助阅片对于高级别病变及癌的诊断价值更高。在收集的2 719例标本中,AI辅助阅片诊断为ASC-US 451例,人工阅片诊断ASC-US 792例,AI辅助阅片降低了不确定性细胞比例,使分类更加精确。我们对AI辅助阅片漏诊的2例CINⅡ患者的玻片进行了复诊,发现可能由于染色不充分、制片不良等原因造成漏诊,而人工阅片造成的1例CINⅢ级漏诊,可能由于病变细胞不典型造成。在阅片时间方面,AI辅助阅片比人工阅片节省了91 h,且AI辅助系统可24 h连续阅片,能够有效缩短阅片时间,同时可避免人为技能水平、疲劳等因素,有效提高宫颈癌的筛查效率。
本研究的优点,首先是将AI辅助阅片与人工阅片在分级诊断方面进行了比较,其次以组织学为参考,展示了AI辅助阅片在宫颈癌初筛或分诊中的应用价值。缺点是未将腺上皮病变纳入研究,在TBS系统分级诊断中是不完整的,其次在染色不佳、制片不良等情况下可能会造成漏诊。
综上所述,AI辅助诊断系统能够大幅提升宫颈癌筛查的效率,减少病理医生的工作量,能够避免病理医生的主观因素,提高诊断的准确性,减少误诊和漏诊,其应用前景广阔,值得推广。