淋巴瘤图像分类技术研究综述

2021-03-23张晓丽张魁星魏本征丛金玉

计算机工程与应用 2021年6期

张晓丽，张魁星，江梅，魏本征，丛金玉

1.山东中医药大学智能与信息工程学院，济南 250355

2.山东中医药大学医学人工智能研究中心，山东青岛 266112

3.山东中医药大学青岛中医药科学院，山东青岛 266112

淋巴瘤是由于淋巴细胞病变形成的一类恶性肿瘤[1]，其种类复杂多样，在形态及临床表现等方面多具异质性[2]。在世界卫生组织（World Health Organization，WHO）造血和淋巴组织肿瘤分类中，目前已知的淋巴瘤病理类型有近100种[3]，通常被分为非霍奇金淋巴瘤（Non-Hodgkin Lymphoma，NHL）和霍奇金淋巴瘤（Hodgkin Lymphoma，HL）2 大类，且每个大类中又含有多个小类及亚型[4]。不同类型的淋巴瘤治疗和预后方案也各有差异，错误诊断淋巴瘤类型可导致病情加重，正确诊断并及早治疗能够有效提高淋巴瘤的治愈率[5]。

淋巴瘤的临床表征繁杂，影像学及病理学检查等在淋巴瘤的诊断和正确分类方面具有非常重要的作用。基于淋巴瘤图像分类技术实现淋巴瘤类型的精确分类能够辅助医生更为快速地诊断病情，选择最佳治疗方案。早期淋巴瘤图像分类的技术思想为对图像勾画感兴趣区域（Region of Interest，ROI），并提取该区域的纹理、形态及颜色等特征，最后根据特征进行分类。而目前主要是利用机器学习、深度学习等技术对图像处理，借助相关算法自动提取医学影像或病理图像特征进行分类。在图像分类过程中，采用准确度（Accuracy）、受试者工作特征曲线（Receiver Operating Characteristic Curve，ROC）及 ROC 曲线下面积（Area Under ROC Curve，AUC）等不同指标作为分类结果的评价标准。本文对目前基于机器学习等新技术的淋巴瘤图像分类模型做了系统总结与分析。

1 基于传统特征提取和机器学习算法的淋巴瘤医学影像分类

随着成像技术的快速发展，利用影像学检查可发现肿瘤的早期病变并对其进行定量分析[6]，结合病理图像能够为确诊肿瘤类型提供强有力的支持。医学影像根据成像方式的不同可分为X射线、电子计算机断层扫描（Computed Tomography，CT）、超声图像等，此类图像可由专业的医学成像设备采得。如图1 所示为采集的部分淋巴瘤影像图像。

图1 淋巴瘤影像图像

当前淋巴瘤医学影像图像分类方法主要包括基于传统特征提取的图像分类和基于机器学习的图像分类，其基本过程如图2所示，其中上支为基于传统特征提取的方法，下支为基于机器学习的方法。

1.1 基于传统特征提取的淋巴瘤医学影像分类

传统特征提取的方法由经验丰富的医生手动提取图像的超声、放射等特征，同时利用LBP算子、灰度共生矩阵等传统方法对ROI区域提取纹理等特征，利用统计分析的方法得出分类结果。

2016 年，李毓红等[7]采用Logistic 回归模型对腮腺多形性腺瘤与腺淋巴瘤超声图像的形态、回声等特征分析实现了两类肿瘤的分类。但该研究中涉及的样本量及特征较少，尚需增加样本量与特征量进一步检验。邓晶等[8]回顾分析乳腺淋巴瘤的超声图像发现其超声特征与病理基础有关，利用部分超声特征有助于乳腺淋巴瘤的正确分类。孙俊旗等[9]通过对鼻咽癌与鼻咽淋巴瘤患者的磁共振扩散加权成像（Diffusion Weighted Imaging，DWI）进行回顾性分析，对DWI图像勾画ROI区域并测量表观扩散系数（Apparent Diffusion Coefficient，ADC），分析得出DWI图像结合ADC值能够有效鉴别两类疾病。

2018年，孙振国等[10]采用纹理分析软件提取原发性中枢神经系统淋巴瘤（Primary Central Nervous System Lymphoma，PCNSL）与高级别胶质瘤（High-Grade Glioma，HGG）的DWI 图像的纹理特征，结合图像的ADC 值鉴别 PCNSL 与 HGG。Niu 等[11]通过对比 88 例PCNSL 与HGG 的超声造影与PET-CT 图像特征发现两类图像的特征参数具有极大相关性，结合两类图像特征参数可提高淋巴瘤的诊断正确率。

2019 年，刘文华等[12]对71 例腮腺混合瘤与腺淋巴瘤患者的CT 图像勾画ROI 区域，使用纹理分析方法提取该区域的纹理参数，通过选取具有代表性的纹理参数与肿瘤形态参数相结合鉴别腮腺混合瘤与腺淋巴瘤，能够明显提高诊断准确率。李涵翰等[13]采用MaZda 软件勾画前纵隔淋巴瘤与胸腺瘤CT图像的ROI区域并提取其纹理特征，得出WavEnLLs4 等纹理参数对鉴别两类疾病具有重要意义，能够获得较高的AUC值。Huang等[14]在提取纹理特征的基础上，采用选择算子以及逻辑回归分析等方法分析胰腺淋巴瘤与胰腺癌图像的CT 特征，提高了分类准确率。

图2 淋巴瘤医学影像图像分类系统框架

2020年，韩婷婷等[15]通过对眼眶淋巴瘤与眼眶炎性假瘤的对比度增强T1加权图像（Contrast-Enhanced T1-Weighted Images，CE-T1WI）勾画ROI区域，并提取该区域的纹理特征。使用主成分分析法（Principal Component Analysis，PCA）对有统计学意义的纹理参数降维。建立多变量Logistic 回归模型检验降维后的特征，该模型的AUC、灵敏度及特异度分别为0.913、87.5%、88.0%。李先晓等[16]通过对腮腺NHL 与多形性腺瘤的的超声图像提取超声特征，使用统计学分析的方法实现了两类肿瘤的分类。Shen 等[17]对胸腺淋巴瘤与胸腺癌的动态对比增强磁共振成像（DCE-MRI）衍生参数进行定量分析，经统计学检验可知DCE-MRI 图像衍生参数对鉴别二者具有一定价值，其AUC 值、灵敏度、特异度分别为0.752、57.1%、93.3%。

基于传统特征提取的淋巴瘤图像分类方式需要手动勾画淋巴瘤图像的ROI区域，通过对ROI区域提取特征并进行分析，得出分类结果。该方法存在两个弊端，一方面，在勾画ROI区域上由于每个医生的专业素养不同可能会引起误差，影响最终的分类结果；另一方面，在特征提取上，由于该方法提取的是图像的底层特征，仅能完成几类简单的图像分类，对于复杂度较高的图像其分类精度较低，无法达到精准诊断的要求。

1.2 基于机器学习的淋巴瘤医学影像分类

机器学习是利用计算机分析数据，从已知数据中找到规律，并利用此规律对未知数据进行分析的一项技术[18]，该技术可划分为传统机器学习与深度学习，其算法的多样性为各种学习任务的实现提供了选择条件[19]。随着支持向量机（Support Vector Machine，SVM）[20]、随机森林（Random Forest，RF）[21]与深度学习[22-23]等算法在医学影像分类领域的广泛应用，临床上对肿瘤影像分类的辅助诊断系统应运而生。利用人工智能技术对淋巴瘤影像分类以提高临床对淋巴瘤类型诊断的效率和准确性，逐步成为国内外的研究热点。

胶质母细胞瘤（Glioblastoma，GBM）和PCNSL在磁共振成像（Magnetic Resonance Imaging，MRI）上有许多相似特性，准确鉴别二者十分困难[24]，Liu 等[25]采用Gabor小波分析法对GBM与PCNSL的MRI图像提取纹理特征，利用SVM 与线性判别分析相结合的方法实现了二者的分类。2017 年，Alcaide-Leon 等[26]在一阶纹理特征的基础上，进一步提取图像的二阶纹理特征，采用SVM分类器实现神经胶质瘤和PCNSL的分类，其AUC值可达 0.877。2018 年，Kunimatsu 等[27]选择 PCNSL 与GBM 的CE-T1WI 图像提取放射纹理特征，使用基于线性与基于高斯核的非线形SVM分类器对经PCA降维后的数据进行训练，分类准确度可达75%，该研究表明基于SVM 分类的方法具有一定的可行性，但其分类精度较低无法达到临床需求，尚需进一步改进。吴国庆等[28]针对GBM与PCNSL的MRI图像纹理特征的差异性，提出基于稀疏表示体系的图像鉴别方式。首先利用卷积神经网络分割出图像中的肿瘤区域，其次运用基于字典学习与迭代稀疏表示的方法筛选出高分辨力的特征，最后将特征输入稀疏表示分类器（Sparse Representation Classifier，SRC）进行分类。相较于 SVM 分类器，利用SRC 分类器能够提高GBM 与PCNSL 两类疾病的分类准确率与鲁棒性。Nakagawa 等[29]利用LIFFx 软件提取GBM 与PCNSL 的MRI 图像纹理特征，采用单变量Logistic回归与极端梯度提升（eXtreme Gradient Boosting，XGBoost）的方法进行区分GBM 与PCNSL。实验结果表明，通过对多个参数集成学习可提高分类精度。Kim等[30]对PCNSL与GBM的MRI图像提取放射性特征，采用逻辑分类器、SVM分类器与RF分类器作为混合分类模型实现了二者分类，准确率、AUC 及敏感度分别为0.941、0.979、0.938。

2019 年，Shrot 等[31]通过对 PCNSL、GBM 的 MRI 图像进行归一化、分割ROI 区域等预处理，之后提取图像特征，采用SVM 算法与二叉树结合的方法对输入的影像特征分类，结果显示该模型具有较高的分类精度。Swinburne 等[32]采用多层感知器（Multilayer Perceptron，MLP）模型对GBM、脑转移瘤与中枢神经系统淋巴瘤的MRI 图像分析取得了良好的分类效果。但由于样本数据量少，缺乏代表性，该方法无法对复杂度较大的MRI图像进行准确分类。石颉等[33]分别对淋巴瘤与良性淋巴结的弹性和B 型超声图像提取影像组学特征，利用Adaboost 算法融合双模态图像特征，进而输出分类结果。该方法克服了单模态图像特征单一的局限性，充分利用不同模态图像的特性，有效提高了分类准确率，为之后的模型优化提供了一种新思路。

基于机器学习算法的淋巴瘤影像图像分类相比于传统分类方法无需标定ROI区域，能够直接提取图像全局特征，利用分类器得到分类结果。该方法能够较为客观快速地做出决策，准确率较高，但在特征提取与选择时该方法具有盲目性，仍需要先验知识的指导，在减少盲目性、提取更具价值的特征信息方面还需进一步深入研究。

由此可知，基于传统特征提取方法和机器学习算法的淋巴瘤医学影像图像分类均需要先验知识的指导，对分类结果影响较大。此外，影像学检查辐射性大且只能探查肿瘤病变较明显的地方而不能精准地观察到极细微的病变，难以准确判断淋巴瘤，仍需结合病理学诊断的方法提高诊断的准确性。

2 基于传统机器学习和深度学习算法的淋巴瘤病理图像分类

病理图像是确诊淋巴瘤的“金标准”[34]。组织活检技术是获取病理图像的常用方式，该技术通过对患病部位进行穿刺得到组织样本，经固定、切片、染色等步骤制成几微米厚的薄片组织附着于载玻片上，之后利用显微镜、扫描仪等工具获取病理图像[35]。如图3 所示为常见的淋巴瘤病理图像。准确诊断病理图像具有重要的临床研究价值，针对淋巴瘤病理图像分类，目前研究多为基于传统机器学习和深度学习的方法。

图3 淋巴瘤病理图像

2.1 基于传统机器学习的淋巴瘤病理图像分类

早期，国内外学者们利用机器学习技术在淋巴瘤病理图像分类方面进行了诸多研究和探索。20世纪90年代末，Ruschenburg等[36]采用决策树（Decision Tree，DT）中分类树的方法实现了对低级别非霍奇金淋巴瘤与肌上皮性涎腺炎的分类。2010 年，Orlov 等[37]利用WNDCHARM多用途图像分类器[38]提取病理图像的全局特征实现了滤泡性淋巴瘤（Follicular Lymphom，FL）、慢性淋巴细胞白血病（Chronic Lymphocytic Leukemia，CLL）及套细胞淋巴瘤（Mantle Cell Lymphoma，MCL）的分类，研究结果表明该方法能明显提高分类准确率。之后，Zhang 等[39]采用二进制模式、Gabor 滤波与灰度共生矩阵的方法提取FL、CLL、MCL三种淋巴瘤病理图像的纹理特征；利用投票法对SVM、K最邻近、MLP分类器进行集成，由集成分类器实现淋巴瘤的分类。2011 年，Zorman等[40]提出以RGB的R分量做为参考阈值获取图像特征，结合基于符号的机器学习方法实现了对淋巴瘤病理图像的自动分类。Arora等[41]提出使用聚类的方法对FL病理图像中的细胞进行分割，通过有监督的机器学习方法实现FL的分级，准确率可达89%。Dimitropoulos[42]等在分割FL 图像的基础上，提出一种自适应模糊神经网络的方法对FL 分级，其准确率为90.35%。2015 年，Yan 等[43]提出一种改进的SVM 分类算法分析七种类型的淋巴瘤病理图像，有效提高了模型的分类性能。2016年，Gurcan 等[44]提出一种多阶段的图像增强、分割及分类的方法，首先采用颜色增强和阈值分割的方法对FL、CLL、MCL三类淋巴瘤病理图像进行分割，其次利用LBP、颜色直方图等方法对分割后的图像提取纹理、颜色等特征；最后采用优化核函数的SVM分类器进行分类，该方法能够达到95.5%的多分类精度。2017年，Tosta等[45]采用模糊3-划分熵多阈值分割等算法对FL、MCL 图像分割细胞核、胞浆等组织，之后对分割结果提取纹理与颜色等特征，最后使用SVM 分类器实现FL、MCL 的分类。Roberto 等[46]提出一种基于渗透理论的新方法，结合关联多尺度和多维度等对淋巴瘤病理图像进行定量分析，取得了较好的分类效果。Zanchetta 等[47]运用阈值分割法对FL、CLL、MCL 图像分割并提取其特征，利用多项式（Polynomial，PL）分类器实现三种疾病分类。Ribeiro[48]等利用离散Curvelet 变换和Haralick 提取MCL、CLL、FL 三类病理图像特征，提出融合DT、RF 及SVM 三种分类器特性的方法实现淋巴瘤图像的分类。2019 年，Martins 等[49]在多尺度与多维特征分析的基础上，采用Hermite多项式（Hermite Polynomials，HP）分类器实现了淋巴瘤病理图像的分类。Tosta 等[50]通过遗传算法识别CLL 与FL 图像的肿瘤细胞核，利用适应度函数实现细胞核的无监督分割与分类，其准确率达98.14%。

随着图像分类技术的推进，国内也展开了对病理图像的分析。张建波等[51]利用淋巴瘤病理图像特点，提出一种监督学习的SKLE方法提取图像中的特征并降维，采用Simple Logistic分类器对其分类，实验结果显示该方法能有效提高淋巴瘤图像的分类精度。为国内将机器学习应用于淋巴瘤分类打下了基础。

2.2 基于深度学习的淋巴瘤病理图像分类

深度学习神经网络的出现，许多结构模型被应用到病理图像分析中[52-53]，其中最为常用的模型为卷积神经网络（Convolutional Neural Networks，CNN），其基本思想为利用端到端的学习方法，将图像输入至模型中，通过提取其特征并利用损失函数不断优化，从而输出分类结果。该结构通过多层网络能够自动提取图像信息，无需进行复杂的人工操作过程，有效提高了分类准确率。基于此，研究学者们对基于深度学习淋巴瘤病理图像分类技术提出了众多方案。传统CNN网络架构示意图如图4所示。

图4 CNN网络架构示意图

Achi 等[54]提出一种成组图像预测的方法分析良性淋巴结、弥漫性大B 细胞淋巴瘤（Diffuse Large B Cell Lymphoma，DLBCL）及伯基特淋巴瘤（Burkitt Lymphoma，BL）等全切片图像，采用CNN算法构建模型进行病理图像分类，与单一图像预测相比，使用成组图像预测具有更高的准确率，该研究提出了一种分析全切片病理图像的新思路。Brousset等[55]分别采用 VGGNet、GoogLeNet等不同架构区分FL 与DLBCL，其AUC 值分别为0.95、0.882。该研究表明利用简单的CNN模型也可以提高病理图像的分类精度。Zhu等[56]提出了一种多空间图像重建和迁移学习技术结合的新型分类框架，利用CL、FL、MCL 病理图像的三通道构造新图像，采用预训练的VGG-16 网络提取原图像与重构图像的高级语义特征，将长短期记忆（Long Short-Term Memory，LSTM）层用于特征选择与细化，最后通过softmax 分类。该研究利用LSTM 增强特征的辨别能力能够提高模型的准确率。理论上，增加网络深度或宽度可以提高模型质量和计算能力，Guan等[57]在此基础上提出应用Inception-v3深度卷积神经网络（Deep Convolutional Neural Networks，DCNN）对NHL、鳞状细胞癌等病理图像分类，总的分类准确率达到89.62%。Bai 等[58]提出一种多路径集成的图像分类方法分析 CLL、FL、MCL 图像，采用 RF 与GooLeNet 预训练模型进行不同级别的融合，该模型准确率可达99.1%，AUC 达0.998，明显高于其他方法。Brancati 等[59]针对不同肿瘤提出一种基于FusionNet 的监督编码器（Supervised Encoder FusionNet，SEF）实现乳腺癌与淋巴瘤病理图像分类，SEF通过较强的特征融合能力能够提高分类准确率。Somaratne等[60]提出一种基于AlexNet模型的方法，通过对ImageNet图像进行预训练并进行微调得到模型参数，采用经图像增强与直方图均衡化后的苏木精-伊红（Hematoxylin-Eosin，HE）染色图像作为输入，改进的全连接层作为输出，实现了FL与非FL的分类。该方法虽然有效改善了数据不足的缺陷，但模型进行预训练时耗时较长，还需进一步改进。

2020 年，Sheng 等[61]在 DCNN 的基础上，提出使用更为高效的Faster R-CNN方法对淋巴瘤细胞图像识别分类，采用四步交替迭代的方法得到高于96%的分类准确率，达到了良好的识别效果。但是该方法存在研究数据较少、耗时长等不足，尚需进一步完善。随后，Miyoshi等[62]对DLBCL、FL等淋巴瘤病理图像分别做倍率为5、20、40的放大处理，利用层数为11层的深度神经网络构建分类器对病理图像分类，与病理学家诊断结果相比具有更高的准确率。但是该方法在处理过程中需要病理学专家手动注释，耗费人力物力，还需设计一种自动注释软件以提高效率。Mohlman[63]等在CNN 的基础上，采用三个独立的CNN 网络实现了BL 和DLBCL的分类，结果显示多个CNN 融合结构在淋巴瘤分类方面具有良好的应用前景。Ganguly 等[64]利用ResNet 50作为预训练模型结合AdamW 优化算法对NIA 数据集中的淋巴瘤病理图像分类，取得98.13%的三分类精度。该研究证明了深度神经网络的分类性能不仅取决于网络体系，还取决于使用的优化算法，为之后分类模型的优化提供了一种新方向。Zhang等[65]在探索深度学习对淋巴瘤分类的过程中，发现在数据预处理与特征提取方面深度学习还存在部分缺陷，基于此提出迁移学习与PCA 融合的方法实现NHL 的分类，三分类准确率达98.93%。该方法具有较强的模型通用性与较高的分类能力。

由上述学者研究可知，目前基于机器学习与深度学习技术的分析已成为淋巴瘤病理图像分类的主要方法。深度学习将图像特征提取与分析融为一体，相比于传统的机器学习算法，分类过程中采用监督式或半监督式的高效算法代替手动获取特征的方法[66]，有效减少了中间过程产生的误差，能够提高淋巴瘤病理图像的分类准确率。但由于深度神经网络是“黑匣子”网络，提取的特征在临床上认可度低，还需要进一步结合临床信息加以改进从而增加对医学方面的可解释性。表1 所示为当前基于淋巴瘤病理图像分类技术的研究概况。由表1可知使用深度学习技术在淋巴瘤图像分类中具有更好的应用价值。

3 讨论与结论

机器学习与深度学习技术是当前研究淋巴瘤图像分类的重点技术，该技术通过模拟人脑进行分析学习的机制，利用多层神经网络对输入的淋巴瘤图像提取低层特征，进一步将特征进行组合得到更加抽象的高层语义特征，从而获得区分淋巴瘤图像类别的显著特性，以提高分类准确率。该技术为淋巴瘤图像分类提供了新思路、新方法，但是在淋巴瘤图像分类研究中依旧存在许多难点问题亟待解决。

（1）淋巴瘤类型复杂多样，且在实际临床中多种疾病存在交叉现象，增加了病理图像的复杂度。如同时患有嗜血综合征与淋巴瘤时，由于两类疾病的结合，加大了图像分类的难度。

（2）由于成像设备不同，不同成像原理获取的图像存在较大差异，不同类型的图像对各种模型架构的精准选择是淋巴瘤图像分类中面临的最大挑战。

（3）深度学习与传统分类方法相比，需要更大的数据量。由于淋巴瘤图像需要借助扫描仪等设备和软件才能导出，且涉及伦理问题，图像获取难度大，公开的数据量较少，在一定程度上给深度学习的应用研究带来了困难。

多年来，淋巴瘤分类一直是国内外的研究热点，特别是近年来，随着人工智能技术的出现，基于深度学习的淋巴瘤图像分类已成为国内外学者的研究热点。

表1 淋巴瘤病理图像分类技术总结

深度学习模型的多样性与高效性为分类工作的实现提供了技术支持，例如深层卷积神经网络能够提高分类准确率；迁移学习可解决样本数据稀缺的问题；联邦学习[67]可致力于改善各医院数据不公开、医学图像模态多样等问题。因此，以深度学习为基础的分类方法将会成为未来几年淋巴瘤图像分类的主流技术。随着研究的不断深入，上述问题必然会得到有效解决。

4 展望

国内外机器学习、深度学习等技术的兴起，使得人工智能技术对淋巴瘤图像分类含有巨大潜力。通过构建机器学习分类模型，在一定程度上降低了人为因素的干扰，提高了分类精度。特别是深度学习神经网络的提出为图像分类提供了一条更加精准的方案，深度学习以其独特的优势已在肺癌、皮肤癌、乳腺癌图像分类等领域[68-70]取得了巨大成绩，为医学图像分类提供了新的方式方法，在辅助临床治疗与预后方面具有重要的研究价值。因此对深度学习技术加强理论与实验研究，能够进一步提高图像分类的准确度。今后基于深度学习的淋巴瘤病理图像分类技术可能着重于以下几个方向发展：

（1）研究适合不同数据规模的学习算法，逐渐增加模型深度寻找更体现原始数据特征的模型，以期获得更为准确的分类精度。

（2）设计一种适合于淋巴瘤图像分类的深度学习网络结构，通过改进网络模型架构与引入新参数，使其能够从大量无标注的图像数据中准确分类。

（3）设计一种将淋巴瘤影像图像特征与病理图像特征相融合的网络模型，寻找两类图像间的相关性，提高分类准确度。

（4）利用深度学习技术进一步分析淋巴瘤患者的病理和影像图像，对患者病情进行风险评估与预测，辅助临床诊断和预后分析。

随着人工智能技术的发展与机器学习、深度学习算法的不断优化，未来将会产生更为高效、准确的辅助诊断工具应用于淋巴瘤图像分类方面，为临床的精准治疗提供有效支撑。