皮肤颜色对黑色素瘤检测中深度学习算法性能的影响研究
2020-12-24赵惠军法振宗
张 杰,赵惠军,法振宗
(1.解放军总医院医疗保障中心医学工程科,北京100048;2.解放军总医院第六医学中心皮肤科,北京100048)
0 引言
黑色素瘤是一种恶性程度很高的肿瘤,早期发现是提高治愈率的关键。由于黑色素瘤与其他色素沉积皮肤组织的相似性以及不同黑色素瘤之间色泽纹理的差异,只有经验丰富的皮肤病诊断专家才能准确识别黑色素瘤。专家数量的不足以及人体皮肤色素沉积的普遍存在给黑色素瘤的早期筛查和检测带来了困难。通过计算机辅助方法开展自动或半自动检测,将有望实现黑色素瘤更广泛的筛查和早期检测,但传统的计算机辅助方法步骤复杂且诊断准确率不高[1],近年来发展迅速的人工智能检测方法有望克服传统计算机辅助方法的不足,从而推动黑色素瘤早期自动检测的进一步发展。
随着网络模型的逐步改进、计算能力的不断提高及可用数据的持续增长,深度学习在计算机视觉领域取得了巨大成功,在此基础上,深度学习迅速成为医学图像分析的热门方法[2-4]。以皮肤镜图像为诊断基础的黑色素瘤检测同样如此[5-7],其中一项具有代表性的研究是2017 年由斯坦福大学的Esteva 等[8]利用卷积神经网络(convolutional neural networks,CNN)对恶性黑色素瘤和良性痣进行分类,然后与21 位经过认证的皮肤病诊断专家的结果进行对比,结果表明在黑色素瘤检测问题上CNN 能够取得和人类专家相当的表现。国内方面,浙江工业大学的管秋等[9]和深圳大学的李航等[10]分别利用残差网络实现了黑色素瘤的检测。其中,管秋等[9]对比了多种经典深度学习算法对黑色素瘤的识别结果,结果表明50 层的残差网络在多个评价指标上均表现出最佳的结果;李航等[10]利用152 层的深度残差网络实现了皮肤镜图像抽象特征的提取,然后利用支持向量机(support vector machine,SVM)实现了准确分类。以上研究证明了深度学习算法检测黑色素瘤的可行性,获得了较好的算法检测性能,但这类研究主要考察网络模型对算法检测性能的影响,对于皮肤镜图像数据集对检测结果的影响则较少涉及。
皮肤镜图像与其他医学图像的一个显著不同之处在于,相同的病症但源自不同肤色,其图像可能存在显著差异。具体来说,黄种人的色素沉积皮肤镜图像对比度可能小于白种人,这种差异是否影响深度学习算法还是一个未知的问题。为此,本文提出研究皮肤颜色对黑色素瘤检测过程中深度学习算法性能的影响,首先根据正常组织颜色把皮肤镜图像分为白色图像数据集和黄色图像数据集,然后采用经典的ResNet-152 网络和相同的训练超参数,考察训练数据集和测试数据集具有相同背景颜色和不同背景颜色时的检测结果,最后通过结果对比评估数据集中图像颜色对深度学习算法检测性能的影响。
1 方法
1.1 数据准备
数据来源与大多黑色素瘤自动检测研究一样,采用国际皮肤影像协作(International Skin Imaging Collaboration,ISIC)组织构建的面向皮肤科医生和研究人员的公开皮肤镜图像数据集[11]。截至2019 年底,该数据集已经积累了近3 万张皮肤镜图像,其中2.3万张图像能够被外部获取[12]。数据由不同地方的医疗机构上传,每张图像均带有明确的诊断信息,诊断结果分为9 种类别,分别是黑色素瘤(MEL)、黑素细胞痣(NV)、基底细胞癌(BCC)、光化性角化病(AK)、良性角化病(BKL)、皮肤纤维瘤(DF)、血管病变(VASC)、鳞状细胞癌(SCC)和未知类别(UNK)。
按照皮肤镜图像中正常皮肤的颜色,对数据集中图像进行分类,将颜色范围R 为206~254、G 为123~234、B 为100~230 定义为黄色皮肤,将颜色R、G、B 值均大于黄色皮肤范围最大值的定义为白色皮肤,白色皮肤图像和黄色皮肤图像如图1 所示。对图像外圈二分之一像素区域进行判断[如图1(a)中矩形外部区域],如果RGB 值的一半在定义的黄色皮肤范围之内则归为黄色皮肤图像,在定义的白色皮肤范围内则归为白色皮肤图像。通过上述方法从2.3万张图像中分离得到黄色皮肤图像5 412 张,称为黄色皮肤数据集,其中黑色素瘤与非黑色素瘤的比例为535∶4 877,分离出白色皮肤图像12 563 张,剩余的图像主要由于背景颜色杂乱而未纳入研究范围。同时,为了消除数据集大小对研究结果的影响,在后面的实验中,从分离出的白色皮肤图像中随机选取和黄色皮肤图像数量相同的样本组成白色皮肤数据集,选取的白色皮肤图像数据中黑色素瘤与非黑色素瘤的比例为812∶4 600。
图1 2 类不同皮肤背景颜色的皮肤镜图像
白色皮肤图像和黄色皮肤图像2 类数据集均按照样本数量的80%、10%、10%划分为训练集、测试集和验证集。为了提升算法的检测性能,对训练集的图像进行预处理。根据深度学习模型对输入图像的要求,首先将不同大小的图像通过缩放和中心切割调整至224 像素×224 像素,然后对图像进行数据增强处理,包括图像的水平翻转、垂直翻转、±45°和±225°的旋转,最后对图像按照3 个通道的均值和方差进行归一化处理。
1.2 网络模型的选择
构建深度学习网络模型有2 种方法:一种通过运用卷积层、池化层、全连接层等堆叠形成多层网络模型,然后对模型进行反复测试获取最优的网络结构;另一种是在已有的经典模型的基础上根据研究任务特征对模型进行局部的修改。本研究为分类问题,既往研究表明[13],采用后一种方法不仅能够缩短网络测试时间,还能获得更好的分类效果,因此选择后一种方法。
经典分类网络模型有AlexNet、VGG、ResNet、Inception 等,其中每类模型根据层数或者版本不同又可分为多种,层数越多或者更晚提出的模型通常具有更好的分类效果。李航等[10]应用多种经典网络模型对黑色素检测的性能进行了评估,结果表明152 层的ResNet[14](ResNet-152)具有最优的性能,因此本研究选用ResNet-152 作为基础网络模型。ResNet-152 包含了151 个卷积层和1 个全连接层,卷积层之间通过跨层的短接来避免误差反向传播过程中梯度不稳定的问题。原始的ResNet-152 网络模型根据ImageNet 任务的特点包含1 000 个类别的输出,本研究中考察2 种分类方式:一种是按照数据集标签区分的9 种类别;另一种是黑色素瘤分为一类,其余分为一类。针对这2 种问题,分别修改模型的最后一层为9 类输出和2 类输出。
1.3 模型超参数的选择与模型的训练
模型的超参数包括初始化参数、批量样本数量、模型学习率、训练循环次数等。参数的初始化是决定模型训练结果的一个重要因素。模型训练采用随机初始化或者利用其他任务中的预训练参数初始化,初步实验表明采用预训练参数得到的结果显著优于随机初始化方法。训练的批量样本数量选择16、32、64 三种,一般来说较大的批量样本数可能会有更好的结果,但更大的批量样本数可能会导致显卡显存不足的问题。学习率取值选择0.01、0.001 及0.000 1,更大的学习率能够减少训练时间,但同时可能导致模型难以获得最优的结果。对以上所有的参数组合分别进行测试。每种参数组合下模型分别训练20 个轮回,每一个轮回均对训练结果进行保存。模型训练完成之后,对训练结果进行验证和测试,对比各种参数组合下20 个轮回中的最优结果,从中选择在测试集上表现最好的参数组合。所有模型训练在具有CPU Intel Core i7-7800、GPU NVIDIA GTX2080Ti 11 GiB和内存32 GiB 的计算机上进行。
1.4 模型评估方法
模型测试结果采用5 个指标进行评估,分别为敏感度(sensitivity,SEN)、特异度(specificity,SPE)、准确度(accuracy,ACC)、平均精度(average precision,AP)和ROC 的AUC。其中,平均精度为查准率-查全率曲线与坐标轴围成区域的面积。各指标定义如下:
式中,TP(true positives)、TN(true negatives)、FP(false positives)、FN(false negatives)分别为阳性样本正确分类数量、阴性样本正确分类数量、阳性样本错误分类数量以及阴性样本错误分类数量。
1.5 基于不同数据集的训练和测试
在网络模型和超参数相同的前提下,对于二分类和九分类2 种分类问题,分别利用黄色皮肤数据和白色皮肤数据进行训练和验证,然后在相应的测试数据集上进行测试。为了检测皮肤背景颜色对测试结果的影响,在白色皮肤数据训练的模型上,使用黄色皮肤数据的测试集,对比考察测试集和训练集皮肤背景不同时模型的性能。
2 结果
经过对多种超参数组合进行实验,最后选择以基于ImageNet 数据集的预训练参数为初始化参数,64 为批量样本数量,0.000 1 为学习率。黑色素瘤与非黑色素瘤二分类测试结果见表1。从表1 中可知,当训练集与测试集为相同皮肤颜色的图像时,检测指标相近,差距最大的是敏感度和AUC(ROC 曲线如图2 所示),但不超过1%。训练集为白色皮肤图像、测试集为黄色皮肤图像时的5 个测试指标较训练集和测试集均来自黄色皮肤图像的结果均有一定程度的下降,下降最大的为准确度,下降了4.4%,敏感度和平均精度下降也超过了1%。
训练集和测试集均为白色皮肤图像、训练集和测试集均为黄色皮肤图像以及训练集为白色皮肤图像而测试集为黄色皮肤图像时九分类问题的测试结果见表2~4,ROC 曲线如图3 所示。由表2、3 可以看出,在训练模型、超参数、样本数量以及数据增强方法相同的前提下,训练集和测试集为相同颜色皮肤图像时,各项评价指标的均值相差较小。由表3、4 可以看出,在模型和参数相同的前提下,使用同样的黄色皮肤图像为测试集,模型训练集为白色皮肤图像与训练集为黄色皮肤图像相比,平均敏感度下降了约5%,平均精度下降了约3%。由图3(a)、(b)可以看出,测试集和训练集来自相同颜色皮肤图像时,ROC 曲线相差不大;由图3(b)、(c)可以看出,测试集和训练集具有不同颜色皮肤图像时,ROC 的AUC 值总体呈下降趋势。因此,对于九分类问题,与二分类问题类似,训练样本与测试样本皮肤颜色不同时,模型的分类性能显著下降。
表1 模型在测试集上得到的结果(二分类问题)
图2 ROC 曲线图(二分类问题)
表2 多分类问题下模型的测试结果(训练集和测试集均为白色皮肤图像)
3 讨论与结论
无论是黑色素瘤与非黑色素区分的二分类问题,还是包含黑色素瘤的多种皮肤疾病区分的多分类问题,皮肤颜色对深度学习算法检测性能均有显著的影响。当训练集为白色皮肤图像而测试集为黄色皮肤图像时,模型分类性能较训练集和测试集均为黄色皮肤图像时会出现显著下降。导致模型性能下降的原因可能是深度学习算法对不同层次的特征进行自动提取,然后根据提取的特征进行分类。如果测试集与训练集在图像背景颜色方面有较大的差异,则模型难以提取与测试集图像背景有关的特征,从而导致模型性能的下降。
表3 多分类问题下模型的测试结果(训练集和测试集均为黄色皮肤图像)
表4 多分类问题下模型的测试结果(训练集为白色皮肤图像,测试集为黄色皮肤图像)
本研究的主要目的是考察基于深度学习的黑色素瘤自动检测过程中,测试集与训练集来自不同人种肤色是否会导致模型性能的下降,特别是训练数据为白种人,而测试数据或者模型的临床运用对象为黄种人时的情况,进而为提高深度学习算法检测黄种人黑色素瘤提供实验参考。研究中获取不同颜色皮肤镜图像的方法是通过对不同来源公开数据集中健康组织部分的RGB 值进行判断来实现图像的区分,这种方法与人种肤色的直接区分相比可能存在一定的误差。如果能够利用记录有人种肤色的数据集进行实验,将能更好地阐明人种肤色对深度学习算法的影响。另外,皮肤镜图像的颜色不仅与皮肤本身有关,还与进行皮肤镜检查时的环境光线有关,因此在获取皮肤镜图像的时候保证环境光线的一致性有利于后期基于图像的自动检测研究。
图3 ROC 曲线图(九分类问题)
中国(亚洲)黑色素瘤与西方白种人黑色素瘤诊断特征差异的原因,除了皮肤颜色、纹理的差异,还可能是由于生活环境、饮食习惯的不同导致的发病部位以及亚类型的比例不同,这些原因都可能降低通过以白种人为主的西方人数据得到的模型在黄种人皮肤图像上检测的性能。因此,进一步采集中国(亚洲)人皮肤镜图像数据用于自动检测研究,将是下一步的重点研究方向。