APP下载

基于皮肤镜图像智能分析的早期蕈样肉芽肿诊断模型构建

2021-10-12刘兆睿张漪澜谢凤英

协和医学杂志 2021年5期
关键词:炎症性皮肤科皮肤病

刘兆睿,张漪澜,谢凤英,刘 洁

1中国医学科学院 北京协和医学院 北京协和医院皮肤科 疑难重症及罕见病国家重点实验室国家皮肤与免疫疾病临床医学研究中心,北京 1007302北京航空航天大学宇航学院图像处理中心,北京 100191

蕈样肉芽肿(mycosis fungoides, MF)是最常见的皮肤T细胞淋巴瘤(cutaneous T-cell lymphoma, CTCL),为皮肤科疑难重症及罕见疾病,晚期患者预后差、治疗手段有限,早期识别及诊治可改善患者预后,具有重要的临床意义。早期MF可表现为红斑鳞屑性皮损,与银屑病、慢性湿疹等良性炎症性皮肤病难以鉴别。近年来随着皮肤影像学的发展,皮肤镜图像在皮肤病的鉴别诊断中发挥了重要作用[1]。鉴于早期MF及炎症性皮肤病的预后存在较大差异,目前尚缺乏有效的无创指标进行早期诊断,而通过构建基于图像智能分析技术的早期诊断模型可高效识别皮肤镜图像并进行二分类,有望实现MF的早期诊断。本研究以早期MF患者和炎症性皮肤病患者为研究对象,比较基于皮肤镜图像的智能分析与皮肤科医师对二者的鉴别诊断能力,并对错误分类的皮肤镜图像进行分析,以提高早期MF的诊断效率,为构建MF早期诊断模型奠定基础。

1 资料与方法

1.1 研究对象及分组

1.1.1 研究对象

回顾性纳入2016年1月至2020年12月北京协和医院皮肤科门诊确诊的早期MF患者和临床表现与之相似的炎症性皮肤病(银屑病、慢性湿疹、脂溢性皮炎、玫瑰糠疹、扁平苔藓)患者。纳入标准:(1)早期MF均经组织病理学、免疫组化、T细胞受体基因重排检查等确诊,并符合欧洲癌症治疗研究组织(the European Organization of Research and Treatment of Cancer, EORTC)以及国际皮肤淋巴瘤学会(International Society for Cutaneous Lymphoma, ISCL)提出的早期MF诊断标准[2];(2)根据临床表现、皮肤镜、组织病理学(部分病例)、治疗反应等,由2名经培训且经验丰富的皮肤科医师共同作出炎症性皮肤病的诊断;(3)入组前1个月内未接受系统或局部治疗;(4)均行皮肤镜检查,且选取早期(斑片期及斑块期)皮损进行分析。排除标准:(1)仅毛发、甲、黏膜等特殊部位受累的病例;(2)皮肤镜检查图像不清晰者。

本研究已通过北京协和医院伦理审查委员会审批(审批号:JS- 2003)。

1.1.2 分组

按4∶1的比例,将患者随机纳入训练集和测试集。

1.2 研究方法

1.2.1 皮肤镜图像采集及诊断特征

采用奥地利MoleMax公司(MoleMax lid,Digital lmaing Systems)皮肤镜系统进行图像采集。根据皮损表面情况,采用偏振光浸润式、偏振光非浸润式或非偏振光浸润式进行拍摄,用75%乙醇作为镜头与皮损之间的浸润液体,放大倍数为20倍、30倍或40倍。根据既往临床经验、文献[1- 5]及预实验,MF的皮肤镜特征(图1A)为:暗红色背景,均匀分布的点状血管,“精子样”血管,橘黄色斑片状区域,片状分布的白色鳞屑,多角形色素网、色素点(见于皮肤异色病样MF)。炎症性皮肤病的皮肤镜特征如下:(1)银屑病(图1B):亮红色背景,规则分布的点/球状血管,片状白色鳞屑;(2)慢性湿疹(图1C):不均匀分布的点状血管,海绵状水疱,片状分布/弥漫分布的黄色鳞屑,暗红色背景;(3)扁平苔藓(图1D):Wickham纹,多种血管结构,蓝灰色、黄棕色色素结构,毛囊角栓;(4)脂溢性皮炎(图1E):不均匀分布的分支状血管和线状弯曲血管,毛囊周围黄色或白色无结构区,蜂窝状色素网;(5)玫瑰糠疹(图1F):外周分布的白色鳞屑(“领圈”征),黄色背景,不规则分布或簇集分布的点状血管和线状血管。

图1 早期蕈样肉芽肿及炎症性皮肤病皮肤镜图像

1.2.2 模型构建及性能验证

采用五倍裁剪法对训练集进行数据扩充,在像素为256×256皮肤镜图像的左上、左下、右上、右下角以及中心剪裁出像素为224×224的图像,使图像数目扩展为原来的5倍。使用训练集病例皮肤镜图像对6种经典网络结构利用迁移学习进行训练,以构建卷积神经网络(convolutional neural networks,CNN)二分类模型。6种网络结构分别为AlexNet[3]、VGG16[4]、ResNet18[5]、DenseNet121[6]、SENet[7]以及EfficientNet-B0[8],均为2012年以来的经典CNN结构,常用于皮肤镜图像的分类。二分类模型的构建采用Logistic回归法,使用交叉熵函数作为损失函数。采用5折交叉验证法对CNN二分类模型进行训练。训练过程中使用迁移学习法将在ImageNet数据集中预训练的模型参数在训练开始时对CNN二分类模型进行初始化,以降低因数据量较小导致的过拟合现象,提高CNN二分类模型的泛化能力。

采用测试集数据对CNN二分类模型的性能进行验证。6种网络结构均选取经5折交叉验证后的最佳模型(每种网络结构均有1个最佳模型),并取6个最佳模型的均值为各项指标的最终结果:(1)对每幅皮肤镜图像进行鉴别诊断;(2)对所有病例的皮肤镜图像进行判读,将网络分类层输出归一化后取均值,对每例病例进行疾病归类。

1.2.3 皮肤科医师诊断标准

从测试集每例病例的皮肤镜图像中随机挑选1幅图像,并结合皮损的临床图像制成网络问卷,由13名有经验的皮肤科医师在未知CNN二分类模型分类、病理结果及其他临床特征的情况下对测试集病例的皮肤镜图像进行诊断。13名皮肤科医师中,高级职称2名,中级职称2名,初级职称9名。所有参与诊断的皮肤科医师均经过皮肤镜培训且通过考核,同时具有1年以上皮肤镜判读经验。

1.3 统计学处理

采用SPSS 23.0软件进行统计学分析。CNN二分类模型交叉验证评估结果以均数±标准差表示。计算CNN二分类模型、皮肤科医师的诊断准确度、灵敏度、特异度、阳性似然比、阴性似然比等指标,并采用独立样本t检验进行组间比较。采用Kappa值评估CNN二分类模型与皮肤科医师组内诊断结果的一致性。其中Kappa值>0.75表示组内诊断结果的一致性较高,0.40~0.75表示一致性中等,<0.40表示一致性较差[9]。采用受试者工作特征(receiver operating characteristic,ROC)曲线评估CNN二分类模型与皮肤科医师在早期MF与炎症性皮肤病中的鉴别诊断价值。其中曲线下面积(area under the curve, AUC)越接近于1,表明模型对二者鉴别诊断的效果越好。取双侧检验,以P<0.05为差异具有统计学意义。

2 结果

2.1 一般临床资料

共纳入48例早期MF患者(皮肤镜图像402幅)和96例炎症性皮肤病患者(皮肤镜图像557幅)。其中训练集117例(皮肤镜图像772幅),测试集27例(皮肤镜图像187幅)。训练集中,MF患者40例,炎症性皮肤病患者77例(银屑病20例、慢性湿疹20例、扁平苔藓17例、脂溢性皮炎10例、玫瑰糠疹10例);测试集中,MF患者8例,炎症性皮肤病患者19例(银屑病5例、慢性湿疹5例、扁平苔藓4例、脂溢性皮炎3例、玫瑰糠疹2例)。研究流程见图2。

图2 研究流程图

2.2 卷积神经网络二分类模型交叉验证评估结果

训练集117例病例的772幅皮肤镜图像,经五倍剪法扩展共获得3860幅皮肤镜图像。表1为训练集6种基于CNN的网络结构经5折交叉验证法训练后对早期MF和炎症性皮肤病进行二分类的统计指标,可知EfficientNet-B0网络在交叉验证中获得了较低的阴性似然比,较高的阳性似然比、灵敏度、特异度以及准确度,在早期MF的识别中有较好的分类性能。

表1 CNN二分类模型交叉验证评估结果

2.3 卷积神经网络二分类模型及皮肤科医师诊断结果比较

测试集中,皮肤科医师鉴别诊断早期MF与炎症性皮肤病的灵敏度和特异度分别为70.19%和94.74%,Kappa值为0.677。按图像分类时,CNN二分类模型对早期MF与炎症性皮肤病鉴别诊断的AUC为0.87,灵敏度和特异度分别为75.02%和82.02%,Kappa值为0.563。按病例分类时,CNN二分类模型对早期MF与炎症性皮肤病鉴别诊断的AUC为0.97,灵敏度和特异度分别为87.50%和93.85%,Kappa值为0.920,见表2。

表2 CNN二分类模型与皮肤科医师诊断结果比较[均值(95% CI)]

2.4 卷积神经网络二分类模型与皮肤科医师诊断早期蕈样肉芽肿的效能比较

选取6种CNN二分类模型中对早期MF诊断效能最好的EfficientNet-B0网络结构进行可视化分析。ROC曲线显示,按病例分类时,CNN二分类模型诊断早期MF的AUC为0.99,灵敏度和特异度分别为88.9%和100%,且13名皮肤科医生的诊断灵敏度和特异度均值对应点位于曲线右下方,提示该模型对早期MF的分类效果较好,且优于皮肤科医师的平均水平,见图3。

图3 CNN二分类模型诊断早期MF的受试者工作特征曲线及与皮肤科医师诊断结果比较圆点为13名皮肤科医师的诊断灵敏度和特异度(存在部分医师诊断数据一致,圆点重合的情况),▲为其均值。当圆点位于曲线右下方时,说明CNN二分类模型的诊断效能优于皮肤科医师平均水平MF、CNN:同图2;AUC:同表2

2.5 分类错误的图像分析

图4为CNN二分类模型误诊的1例早期MF患者(男性,30岁)的皮肤镜图像及临床图像。在采用CNN二分类模型进行单幅图像鉴别诊断时,4幅图像中的3幅(图4A~4C)诊断错误,1幅(图4D)诊断正确。皮肤科医生选择图4B进行诊断,其诊断准确度为76.92%。

图4 CNN二分类模型误诊的1例早期MF病例的皮肤镜图像及对应的临床图像

皮肤科医师对6例早期MF病例的诊断准确度较低(0~76.92%,对其余患者的诊断准确度为92.31%~100%)。其中对1例早期MF病例的诊断准确度为0(图5A),3例为69.23%(图5B~5D),2例为76.92%。6种CNN二分类模型对上述6例病例的平均诊断准确度分别为100%(皮肤科医师:0)、100%(皮肤科医师:69.23%)、83.33%(皮肤科医师:69.23%)、100%(皮肤科医师:69.23%)、50.00%(皮肤科医师:76.92%)、100%(皮肤科医师:76.92%)。

图5 皮肤科医生诊断准确率较低的早期MF病例皮肤镜图像及对应的临床图像

3 讨论

MF是最常见的CTCL,早期MF易被误诊为慢性湿疹、银屑病、玫瑰糠疹、脂溢性皮炎、扁平苔藓等炎症性皮肤病,通过影像学检查进行评估可提高CTCL检出率,并避免不必要的活检操作,具有重要的临床应用价值。本研究基于皮肤镜图像,探究CNN二分类模型对早期MF与炎症性皮肤病的鉴别诊断能力,结果显示,测试集中皮肤科医师鉴别诊断早期MF与炎症性皮肤病的灵敏度和特异度分别为70.19%和94.74%,Kappa值为0.677。按图像分类时,CNN二分类模型对早期MF与炎症性皮肤病鉴别诊断的AUC为0.87,灵敏度和特异度分别为75.02%和82.02%,Kappa值为0.563。按病例分类时,CNN二分类模型对早期MF与炎症性皮肤病鉴别诊断的AUC为0.97,灵敏度和特异度分别为87.50%和93.85%,Kappa值为0.920,提示该模型对早期MF具有较好的识别能力,尤其按病例分类时,灵敏度、特异度均较满意,且不同网络结构模型之间,诊断结果的一致性较高。进一步ROC曲线分析显示,按病例分类时,EfficientNet-B0网络结构CNN二分类模型诊断早期MF的AUC为0.99,灵敏度和特异度分别为88.9%和100%,亦提示CNN二分类模型对早期MF的分类效果较好,且优于皮肤科医师的平均水平。

3.1 皮肤镜图像的人工诊断

皮肤镜作为一种无创的影像学检查手段,具有便捷、实时、患者接受度高等优点。Lallas等[10]和Ghahramani等[11]分别通过回顾性研究发现早期MF最常见的皮肤镜特征为短线状血管、橘黄色斑片状区域和“精子样”血管,其中“精子样”血管为早期MF的特征性血管结构。本课题组于2019年回顾性分析了北京协和医院皮肤科诊治的31例早期MF患者的皮肤镜特征,并与慢性湿疹和银屑病患者的皮肤镜表现进行比较,结果显示出现线状血管(灵敏度:90.3%,特异度:92.9%)、“精子样”血管(灵敏度:74.2%,特异度:100%)以及橘黄色斑片状区域(灵敏度:90.3%,特异度:91.4%)等皮肤镜表现高度提示皮损为早期MF[12]。Bilgic等[13]对MF、斑块状银屑病、扁平苔藓、玫瑰糠疹和结节性痒疹5种皮肤病的皮肤镜图像表现进行总结后发现,玫瑰糠疹皮肤镜下可见黄色背景,其他皮损背景以亮红色和暗红色为主;斑块状银屑病、玫瑰糠疹和结节性痒疹主要表现为点状血管,MF和扁平苔藓中以点状和线状血管为主;在血管分布上,斑块状银屑病呈规则分布,扁平苔藓呈周边分布,玫瑰糠疹、MF和结节性痒疹呈斑片状分布;在鳞屑颜色上,斑块状银屑病、玫瑰糠疹、MF以白色鳞屑为主,扁平苔藓、结节性痒疹以黄白色鳞屑为主;在鳞屑分布上,除玫瑰糠疹的鳞屑呈外周“领圈样”分布外,其余疾病的鳞屑分布均呈斑片状,提示皮肤镜可用于评估并鉴别诊断MF与炎症性皮肤病。但准确识别皮肤病图像对医生的皮肤镜判读能力有较高要求,一般需经系统培训和长期临床实践,且人工判读皮肤镜图像存在主观差异性。

3.2 皮肤镜图像智能分析

随着人工智能(artificial intelligence,AI)深度学习技术的不断发展,借助皮肤镜图像计算机辅助诊断(computer aided diagnosis,CAD)系统可客观地对多种皮肤科疾病进行诊断,且诊断结果具有较高的重复性[14]。Schindewolf等[15]将CAD系统应用于皮肤恶性肿瘤的协助诊断中,发现恶性黑色素瘤的诊断准确度由75%提高至92%。但传统皮肤镜图像分类模型常使用人工设计的特征,不具有高层语义信息,无法准确描述图像。CNN能利用卷积运算提取图像的高层语义特征,近年来被应用于皮肤镜图像的诊断分类中。谢斌等[16]利用CNN算法成功构建皮肤疾病诊断模型,该模型对基底细胞癌和色素痣分类的正确率为93.5%,证实CNN模型在皮肤疾病的诊断中具有巨大潜力。Serener等[17]基于CNN算法构建常见恶性色素性皮肤病图像分类模型,可实现基底细胞癌、鳞状细胞癌和角质形成细胞肿瘤的分类。

本研究对训练集数据进行5折交叉验证以比较不同网络结构的CNN二分类模型对早期MF与炎症性皮肤疾病的分类性能。结果显示6种网络结构的CNN二分类模型均取得了较好的分类准确度、灵敏度和特异度,尤以EfficientNet-B0网络结构的综合能力最佳,其基于复合系数,通过平衡网络宽度、深度优化网络结构,在皮肤镜图像分类任务中表现出良好的能力。

本研究结果显示,按病例分类时,CNN二分类模型在测试集中对MF与炎症性皮肤病鉴别诊断的AUC为0.97,灵敏度和特异度分别为87.50%和93.85%,Kappa值为0.920。而皮肤科医师鉴别诊断的灵敏度和特异度分别为70.19%和94.74%,Kappa值为0.677。提示CNN二分类模型在早期MF的分类中具有较高的识别能力,且在不同的网络结构模型间达到了高度一致性。进一步对基于EfficientNet-B0网络结构的CNN二分类模型进行ROC曲线分析,结果表明该模型诊断早期MF的AUC高达0.99,且灵敏度和特异度优于13名皮肤科医师的均值,亦说明CNN二分类模型对早期MF的识别能力优于皮肤科医生整体诊断水平。

在对单幅图像识别能力的比较中,CNN二分类模型的灵敏度为75.02%,略高于皮肤科医师(70.19%),但无统计学差异,提示CNN二分类模型根据单幅皮肤镜图像识别早期MF的灵敏度已达临床医生水平。但其特异度、准确度、Kappa值、阳性预测值、阴性预测值均低于皮肤科医师。分析原因:单幅皮肤镜图像所含信息较少,而皮肤科医师可综合皮肤镜图像和临床图像的特征,获得更多的诊断信息与依据。数据量是影响CNN学习能力的关键因素,由于MF较罕见,本研究纳入的患者较少,以致CNN二分类模型的分类能力降低,即便如此,CNN二分类模型在单幅图像早期MF的识别中AUC亦达0.87,提示其对早期MF具有较高的分类能力。

3.3 分类错误的图像分析

在对错误分类病例的皮肤镜图像分析中发现,CNN二分类模型对其中1例病例4幅图像中的3幅图像分类错误,可能与该患者的MF皮损数目较少、局限性分布、血管结构不明显,与慢性湿疹、银屑病等炎症性皮肤病表现极为相似有关。而13名皮肤科医师对6例早期MF患者的诊断准确度较低,其中1例病例均误诊,考虑与该患者皮损呈局限性分布,皮肤镜图像为非浸润模式拍摄、血管结构显示不清晰有关。对于该病例,6种网络结构CNN二分类模型的诊断准确度均为100%。皮肤科医师诊断准确度较低的其余5例病例中,CNN二分类模型的诊断准确度整体亦高于皮肤科医师,提示多点取材、同一病例提供多张皮肤镜图像可提高AI的诊断准确度,达到与临床医生相当甚至更高的诊断水平。

本研究局限性:(1)MF为罕见病,发病率较低,本研究收集的病例数较少,深度学习模型从原始数据中获取的信息较少,造成模型过拟合现象。此外,本研究参与皮肤镜图像诊断的医师均为经北京协和医院培训、有1年以上皮肤镜判读经验的皮肤科医师,其诊断能力不能代表全国医师的水平。(2)为符合临床实践情况,皮肤科医师在进行早期MF分类鉴别时,为其提供了与皮损对应的临床图像以辅助诊断,而CNN二分类模型仅提供皮肤镜图像,两者之间存在操作差异。(3)本研究测试集病例仍来自本研究中心,仅对模型的性能进行内部验证。因此,CNN二分类模型对早期MF的识别能力仍需多中心、大样本量数据研究加以证实,并进行外部数据验证。

综上,基于深度学习的CNN辅助诊断模型具有学习耗时短、受环境因素干扰少、可重复性高等优点,可广泛应用于多种学科疾病的诊断。已有研究表明,应用医生结合AI辅助诊断模型可提高疾病的诊断准确度[18]。在临床实践中,除皮肤影像检查外,病史、病程、组织病理、实验室检查、治疗反应等信息均可为医生作出诊疗决策提供重要信息。尽管本研究中CNN二分类模型对早期MF已取得较好的识别、分类能力,但其仅依赖于皮肤镜图像信息的诊断方法与临床诊断过程并不完全相符。未来,本研究团队将尝试在网络结构中纳入不同模态的临床信息,并构建基于多模态的CNN模型,以提高对不同皮肤病的分类准确度,使AI诊断模型更接近临床实际并具有充分合理的依据,从而进一步用于临床疾病的辅助诊断,提高诊断准确度。

作者贡献:刘兆睿和张漪澜负责研究实施和论文撰写;刘洁和谢凤英负责研究设计和论文审校。

利益冲突:无

猜你喜欢

炎症性皮肤科皮肤病
皮肤科专业基地骨干师资对皮肤科专科体格检查的认知调查
ErbB3在炎症性肠病中的表达及其临床意义
皮肤科药房开展药学服务效果观察
以患者为主的炎症性肠病患者PRO量表特异模块条目筛选
营养干预方法可改善炎症性肠病
高盐饮食或可诱发炎症性疾病
基于gitee的皮肤科教学方法研究
运用中药对药治疗皮肤病瘙痒症状浅析
你想不到的“椎”魁祸首:皮肤病可能与脊椎有关
皮肤科病人的外用药物须知