APP下载

改进BYOL 的非小细胞肺癌表皮生长因子受体基因突变预测

2022-06-01杨嘉楠王忠昊王昊霖耿国华

光学精密工程 2022年9期
关键词:视图分类器肺癌

杨嘉楠,王忠昊,王昊霖,耿国华,曹 欣*

(1.西北大学 信息科学与技术学院,陕西 西安 710127;2.西北大学 文化遗产数字化国家地方联合工程研究中心,陕西 西安 710127)

1 引言

肺癌是对人类健康和生命威胁最大的恶性肿瘤之一,我国的肺癌发病率和死亡率都居于第一[1-2]。根据病理类型肺癌可分为非小细胞肺癌(Non-small Cell Lung Cancer,NSCLC)和小细胞肺癌(Small Cell Lung Cancer,SCLC),其中非小细胞肺癌约占肺癌总发病率的80%~85%[3]。近年来,基于非小细胞肺癌驱动基因的靶向药物不断出现,其疗效可靠、副作用轻微,已成为最受关注的治疗方法之一。在驱动基因中,表皮生长因子受体(Epidermal Growth Factor Receptor,EGFR)是目前突变率最高的靶基因,也是非小细胞肺癌患者应用最广泛的靶基因之一[4-5]。大量研究表明,只有对EGFR 突变敏感的人才能受益于靶向药物EGFR 酪氨酸激酶抑制剂(Epidermal Growth Factor Receptor Tyrosine Kinase Inhibitor,EGFR-TKI)[6]。因 此,EGFR 基因检测的突变状态已成为临床应用靶向药物的先决条件[7],突变检测的结果尤其重要。

18F-氟-2-脱氧葡萄糖(18F-fluoro-2-deoxyglucose,18F-FDG)[8]PET/CT 显像是目前在医院临床上最常用的分子成像方式,它是一种结合细胞糖代谢和组织形态学的双模态影像学检查方法,广泛应用于恶性肿瘤、心血管和神经系统等领域[9]。中国原发性肺癌诊疗规范明确指出,18FFDG PET/CT 是肺癌诊断,临床分期与再分期、疗效判定和预后预测的最优手段[10]。18F-FDG PET/CT 显像技术,可以更为精准地诊断临床患者EGFR 基因是否发生突变,辅助指导临床靶向药物的应用[11]。

对于非小细胞肺癌EGFR 基因突变预测,近年来的研究主要围绕着影像组学和机器学习展开。影像组学是近年来医学中的热点领域,它将癌症成像特征与基因表达相关联。影像组学具有反映病变生物学行为的多个定量特征,可对病变的基因表型和突变情况进行预测[12]。Zhang 等[13]利用定量影像组学标志物和临床变量预测非小细胞肺癌EGFR 的突变状态,对180例非小细胞肺癌患者提取反映肿瘤异质性和表型的485 个定量特征,利用基于多变量Logistic模型预测EGFR 的突变状态。结果发现,影像组学特征具有预测非小细胞肺癌EGFR 突变状态的潜能,且影像特征预测非小细胞肺癌是否存在EGFR 突变的价值显著优于单独使用临床变量模型。

机器学习算法能够在没有明确指令的情况下执行特定任务,它依赖于模式和推理。这些算法被馈送数据并且能够创建复杂的数学模型。虽然线性回归等基本学习模型能够对线性关系进行建模,但更高级的机器学习模型,例如逻辑回归、支持向量机(Support Vector Machine,SVM)和随机森林具有更高的模型容量,以及非线性建模的潜力[14-16]。深度学习是机器学习的一个子集,它使用多个表示层从原始输入中逐步提取更高级别的特征[17]。对于非小细胞肺癌的预测,机器学习和深度学习可以结合使用:深度学习用于提取CT/PET 扫描特征[18],而机器学习用于建立各种特征之间的关系。Wang 等[19]使用卷积神经网络VGG-16 模型,以96 例肺癌患者的CT 图像作为网络输入,预测非小细胞肺癌EGFR 的突变状态,取得了不错的效果。然而,这种方法需要依赖大量专家手工标注的患者图像数据,耗费大量的资源。在专家手工标注的患者图像数据数量不充足的情况下,网络训练出的模型会因样本重复率太高而过拟合。

为了解决专家手工标注的患者图像数据不足的问题,人们将视线转向了无监督神经网络。无监督神经网络不需要大量专家手工标注的患者图像数据,就能区分患者病历的阴性、阳性。Francisco 等[20]提出了一种无监督迁移学习方法,先在一个胸部CT 图像数据集进行卷积自编码器的预训练,然后为训练出的卷积自编码器增加分类器,在另一个包含EGFR 突变状态信息的肺癌患者CT 图像数据集进行任务训练。这种方法的优势在于不需要大量专家手工标注的患者图像数据,然而其预测结果准确率却不如有监督训练方法。

随着深度学习领域的高速发展,PIRL[21],CPC[22],SimCLR[23],MoCo[24],SwAV[25]、SimSiam[26]和BYOL[27]等自监督对比学习方法脱颖而出。与传统的分类方法不同,对比学习并不去学习一张图片归属于哪个类别,取而代之的是去学习各个图片实例之间的相似点与不相似点,通过缩小相似图像间的距离,增加不相似图像间的距离,在向量空间上完成图像样本的聚类,构建成向量字典。通过对比学习训练出的模型不需要大量已标注数据,就能有效地提取图像特征[28],得到接近有监督方法的预测准确度。

本文提出了一种基于改进BYOL 的非小细胞肺癌EGFR 基因突变预测方法。对患者肺部病灶区CT 和PET 双模态图像进行优化处理,在通道维度上将它们连接并作为网络模型的输入。同时,修改了BYOL 网络投影层中非线性多层感知器(Multilayer Perceptron,MLP)的层数,提升了网络预测准确率。通过调整任务阶段顶层分类器,使模型的预测准确率进一步提升。

2 基本原理

2.1 材 料

从医院处获得了近几年来非小细胞肺癌EGFR 基因突变检测的患者CT 图像与PET 图像。为了制作非小细胞肺癌EGFR 基因突变数据集,需要对原始图像进行预处理。使用专家勾画MASK 文件对CT 原图与PET 原图进行勾画操作,只保存患者病灶区部分的CT,PET 图像。然后,计算出PET 数据对应的SUV 值作为新的PET 数据。

在计算时本文使用基于DICOM 标签的计算规则[29]:

其中:XPET为PET 数据读取的一个三维矩阵,YSUV为SUV 计算后新PET 数据的三维矩阵,变量DRT为放射性核素总剂量,WP为患者体重,IR为重定标截距,SR为重标斜率,TA为采集时间,TRS为放射性药物起始时间,LRH为放射性核元素的半衰期(秒)。

对CT 图像数据使用中值滤波法去除噪声,以优化CT 图像数据。将处理后的CT-PET 图像按4∶1 划分为训练集和测试,用于网络的训练与测试。

2.2 方 法

2.2.1 网络结构

网络的整体流程如图1 所示。从非小细胞肺癌EGFR 基因突变数据集中读取患者病灶区的CT-PET 图像对作为网络的输入x~D,其中D表示非小细胞肺癌EGFR 基因突变数据集,x是从D中均匀采样得到的CT-PET 图像对。通过t和t'两种不同的图像增强操作组得到x的两个不同的视图v和v'。fθ和fφ表示两个网络结构相同但是网络权重参数不同的卷积自编码器。将x的两个不同的视图v和v'分别经过fθ和fφ两个卷积自编码器正向传播得到yθ和y'φ。gθ和gφ表示两组网络结构相同但是网络权重参数不同的投影层非线性多层感知器。然后,yθ和y'φ分别经过gθ和gφ两组 非线性多 层感知 器得到zθ和z'φ。对z'φ进行停止梯度传播得到sg(z'φ),而zθ则经过预测层qθ传播得到qθ(zθ)。最后,使用sg(z'φ)和qθ(zθ)进行损失计算,反向传播更新online 网络权重参数并依照online 网络权重参数调整target 网络权重参数。

网络中卷积自编码器采用ResNet-50 网络框架[30],去除了网络顶端的全连接层分类器。投影层使用3 层非线性多层感知器,通过3 个以ReLU激活函数和批量归一化操作隔开的全连接层,将卷积自编码器提取的特征降维,对网络输出的特征向量做L2 正则化操作,将投影特征向量的长度进行归一化后投影在投影空间,即投影在一个长度为1 的单位超球面上。预测层和投影层结构类似,将提取的特征向量映射到单位超球面上,同时使online 网络和target 网络不一致,此时任何图片经过网络投影后,在投影空间里面所有图像的映射都不会坍塌到同一个点,避免产生模型坍塌现象,学习不到有用的信息。损失函数使用均方差(Mean Squared Error,MSE)损失函数,即:

其中:x和y表示两个特征矩阵,i为其下标,n为矩阵元素总数。通过最小化online 网络和target网络映射在单位超球面上的距离来优化online 网络权重参数。

通过损失函数计算梯度并反向传播,更新online 网络的各层权重参数,见式(3):

其中:θ是online网络权重参数,δ是学习率,optimizer 是梯度优化器,∇L是损失值的梯度。target 网络由于梯度停止操作,无法通过梯度反向传播更新网络权重参数。取而代之,target 网络的权重参数会随着online 网络的权重参数改变,见式(4):

其中:φ是target 网络的权重参数,τ是超参数,介于0~1 之间,这里取τ=0.99。

2.2.2 损失函数原理

BYOL 网络通过对输入图像使用两种不同的随机图像增强操作,产生2 张不同的视图,将两张视图输入网络两个不同的分支,最终将特征向量映射在单位超球面上。BYOL 网络认为同一张图片的两种不同的视图应该互为正例,它们的特征向量映射在单位超球面上时应该尽量地靠近对方。因此,BYOL 网络的损失函数目标是最小化同一张图片两个不同视图特征向量映射在单位超球面上的距离。BYOL 的损失函数如下:

L1是余弦相似度的变形,它的最小值相当于两个特征向量余弦相似度的最大值,也就是说随着损失函数的缩小,两个视图的特征向量在单位超球面上的映射之间的距离会越来越近。由于online 和target 两个网络分支不对称,所以BYOL网络会交换两个图像增强后的视图,使其沿另一个分支路进行前向传播,计算损失值L2。

所以BYOL 网络的最终损失函数如下:

其中:online(v1),online(v2)分别为视图1、视图2在online 网络的输出特征向量,target(v1),target(v2)分别为视图1、视图2 在target 网络的输出特征向量。

图1 网络结构框架Fig.1 Network structure frame

2.2.3 双模态通道维度连接

Liu[31-32]、Zeng[33]、Wang[34]和Yin 等[35]的研究结果表明,CT 和PET 图像对患者EGFR 等相关基因突变、生物靶向治疗疗效的预测及动态评估具有一定价值。从CT 和PET 图像中提取出来的图像纹理特征可以用来预测非小细胞肺癌患者EGFR 的突变情况。这里将非小细胞肺癌患者肺部病灶区的CT 和PET 图像在通道维度上连接叠加作为网络的输入,将112×112×1 尺寸的图像矩阵在通道维度上连接,得到一个112×112×2 尺寸的新图像矩阵,作为网络的输入,见图2。

图2 CT,PET 图像的通道连接Fig.2 Channel connection of CT and PET images

2.2.4 图像增强

BYOL 网络通过对同一张图片采用两种不同的图像增强,产生两种视图,然后将两种视图分别输入网络的两个不同分支得到输出计算的损失值。由于这两个视图是由同一张图片变换而成,因此它们应该属于同一个实例,经过网络提取的特征向量映射在单位超球面上时,视图之间的距离应尽可能地小。然而,如果两个视图过于相似,会出现模型坍塌现象,影响网络训练结果。因此,对比学习需要采用一种图像增强方式,使得同一张图片经过图像增强变换出来的两个视图在保持原实例特征的前提下尽量不相似。

本文从基础图像增强方法库中挑选出几种适合单通道灰度图像的图像增强方法(高斯模糊、水平翻转、垂直翻转、锐化和缩放后随机裁剪),如图3 所示。从这几种随机增强库中每次随机选出不定数量且参数随机的图像进行组合。通过随机挑选得到的两个增强操作组会产生两个在保持原图像实例特征的前提下,尽可能不相似的视图。

图3 图像增强结果Fig.3 Image augmentation results

2.2.5 网络实现

本文提出的方法分为预训练和任务网络训练两部分。在预训练阶段,将无标签数据集输入网络,经过200 个Epochs 的迭代不断优化网络权重参数,使网络学会将输入的样本进行分类,对比学习网络会缩小相似样本间的距离,扩大不相似样本间的距离,最终所有输入的数据样本被聚为两类:阴性和阳性。在任务网络训练阶段,将少量含标签的数据集(仅使用20%标注数据)输入网络,并在网络顶部增加分类器,经过100 个Epochs 的迭代优化,得到最终训练好的模型。任务网络训练阶段因为有专家标注的阴性、阳性标签,可以为预训练阶段的模型分出来的两个类型确定阴性、阳性。具体实验参数如表1 所示,预训练网络和训练任务网络都使用Adam 梯度优化器,经过调试将学习率设置为0.000 3,训练时的Batch Size 设置为35。预训练网络和训练任务网络的Epoch 分别为200 和100。在训练阶段与测试阶段将112×112×1 大小的PET 与CT 图像融合,形成双通道112×112×2 的矩阵并输入网络进行训练及测试,详细参数见表1。如图4 所示,Loss 曲线经过多个Epochs 的迭代最终达到收敛。

表1 网络训练超参数Tab. 1 Network training hyper-parameters

图4 训练Loss 曲线Fig.4 Training loss curve

2.2.6 评价指标

使用专家的手动标注作为基本事实,本文使用ROC曲线(Receiver Operating Characteristic Curve)以及曲线下面积(Area Under the Curve,AUC)对网络进行定量评估[36-37]。

ROC 曲线是基于混淆矩阵得出的。一个二分类模型的阈值可能设定为高或低,每种阈值的设定会得出不同的真正例率(TPR)和假正例率(FPR),将同一模型每个阈值的(FPR,TPR)坐标都绘制在ROC 空间里,就成为特定模型的ROC 曲线。ROC 曲线横坐标为假正例率,纵坐标为真正例率。使用ROC 曲线作为模型分类性能的评判标准有两个优点:(1)ROC 曲线简单、直观,通过图示可观察分析学习器的准确性,并可用肉眼做出判断;ROC 曲线将真正例率和假正例率以图示方法结合在一起,可准确反映某种模型真正例率和假正例率的关系,是检测准确性的综合代表;(2)ROC 曲线不固定阈值,允许中间状态的存在,利于使用者结合专业知识权衡漏诊与误诊的影响,选择一个更加合适的阈值作为诊断参考值。

AUC 就是ROC 曲线的下面积。在比较不同的分类模型时,AUC 值越大的分类器,分类准确率越高。

3 实验和结果分析

3.1 对比实验

实验使用由医院提供的180 余名患者肺部CT 和PET 成像,对每个患者的CT 和PET图像进行勾画操作,只保存患者肺部病灶区。将CT和PET 图像成对保存,制成肺部非小细胞肺癌EGFR 数据集。实验环境统一使用NVIDIA Ge-Force TITAN V显卡,Python 版本为3.7,CUDA 版本为10.2,所用 框架为Pytorch 1.10.1 版本。使用本文提出的网络获得基于非小细胞肺癌EGFR 基因突变数据集上的预测结果,并与目前广泛应用的医学图像影学以及主流有监督卷积神经网络VGG-16,ResNet-50,Inception v3 及无监督迁移学习CAE 方法进行对比。实验结果如表2 所示。

表2 不同方法非小细胞肺癌EGFR 基因突变的预测AUCTab. 2 Predicting AUC for EGFR gene mutation in non-small cell lung cancer by different methods

本文通过使用改进的BYOL 网络进行自监督训练,使用无标签图像,即未通过专家标注的图像数据,迭代200 个Epochs 训练出一个ResNet-50 预训练模型,再使用少量有标签图像(20%的已标注数据)迭代100 个Epochs 微调预训练的网络模型,得到任务网络模型。图4 为网络训练时的损失下降曲线。在不需要大量标记数据的情况下获得了77% AUC,比传统的影像组学(67% AUC)的预测效果更好,还高于使用普通卷积神经网络的有监督方法,和目前比较主流的无监督迁移学习方法(68% AUC)。虽然本文提出的方法AUC 低于融入患者临床信息的ResNet-50 网络,但是该方法是自监督训练,不需要大量的人工标注数据集,也不需要患者的大量临床信息特征,具有更大的发展潜力。其优势总结如下:(1)该方法预测得到的AUC 高于传统影像组学及卷积神经网络的AUC;(2)使用自监督学习,不需要大量人工标记数据,不需要患者的临床信息,更加便捷、节省成本;(3)使用对比学习方法,让相似的病灶区样本间距离缩短,不相似的病灶区样本间距离增大,学习到样本间的相似性,更好地进行分类预测。

3.2 消融实验

为了进一步探究网络结构对本文提出的基于双模态的改进BYOL 对比学习网络的影响,本文通过一系列消融实验,分别探究了顶层分类器、投影层非线性MLP 层数和双模态数据集的影响。

3.2.1 顶层分类器对性能的影响

本文在任务模型的输出部分分别使用了全连接层、支持向量机和随机森林3 种分类器,实验结果见图5。其中,全连接分类器的分类预测由全连接神经网络实现,以ReLU 函数为激活函数,最后使用交叉熵损失函数进行损失计算;支持向量机分类器基于1 024 维输入向量的线性核函数的SVM 模型进行分类;随机森林分类器基于输入1 024 维特征向量,使用随机森林和L1 正则化进行分类。3 种分类器分别得到了77%AUC,75% AUC,74% AUC。从表3 可以看出,使用全连接分类器取得的实验结果略优于其他两种方法。

表3 消融实验结果Tab. 3 Ablation experiment results

图5 三种分类器预测AUCFig.5 AUC of three classifiers

3.2.2 投影层非线性MLP 层数对性能的影响

Chen T 等[23]和Chen X L 等[26]发现,通过增加投影层非线性MLP 的层数可以有效提高对比学习网络模型的分类准确率。而原始BYOL网络的投影层只有2 层非线性MLP,因此实验投影层分别使用2 层非线性MLP 和3 层非线性MLP 训练出的模型进行分类。结果显示,3 层非线性MLP 训练出的模型得到了77% AUC,高于2 层非线性MLP 训练出的模型(74%AUC)。由此表明,通过增加投影层非线性MLP 的层数可以有效地提高对比学习网络模型的分类准确率。

3.2.3 双模态对性能的影响

已有研究表明[31-37],CT 和PET 图像在预测非小细胞肺癌EGFR 突变中具有一定的参考价值。本文将患者病灶区的CT 图像和PET 图像信息融合起来作为网络的输入。实验分别使用患者病灶区CT 图像和PET 图像的融合信息与只使用CT 图像信息作为网络输入训练网络,最终分别得到了77% AUC 和75% AUC。从实验结果可以看出,同时使用患者病灶区的CT 图像和PET 图像两个模态时可以得到更好的效果。

4 结论

本文基于改进BYOL 的自监督非小细胞肺癌EGFR 基因突变预测方法,以BYOL 自监督对比网络为基础对其网络结构进行改进,加深了非线性MLP 的层数,同时融合了CT 和PET 两个模态的图像数据,指导网络提取更有效的图像特征,提高预测准确度。本文所提的网络结构与方法最终得到了77% AUC,相对于传统的影像组学方法的分类结果提高了7% AUC,相对于有监督VGG-16 网络的分类结果提高了5% AUC。在不需要大量专家手工标注数据集及大量患者临床数据的情况下(仅使用20%标注数据),该方法仅比融合了患者大量临床信息等数据的有监督网络低9% AUC,能够有效地指导医师无创且自动地根据患者的CT,PET 图像判断是否发生非小细胞肺癌EGFR 基因突变,从而帮助患者进行EGFR 靶向治疗,展示了其辅助临床决策的潜力。

医学图像并不像普通图像那样包含大量场景,所以高级语义特征(如病灶区的形状、轮廓)以及低级语义特征(如病灶区的边缘、纹理)都很重要。后续的研究中,会继续关注跟随对比学习图像分类方面的最新进展,探究AUC 更高的医学图像分类方法。

猜你喜欢

视图分类器肺癌
对比增强磁敏感加权成像对肺癌脑转移瘤检出的研究
氩氦刀冷冻治疗肺癌80例的临床观察
基于特征选择的SVM选择性集成学习方法
基于深度优先随机森林分类器的目标检测
视图
基于差异性测度的遥感自适应分类器选择
Y—20重型运输机多视图
SA2型76毫米车载高炮多视图
Django 框架中通用类视图的用法
microRNA-205在人非小细胞肺癌中的表达及临床意义