基于深度卷积神经网络方法构建肺部多模态图像分类诊断模型*

2019-03-19武志远姚二林郭秀花

中国卫生统计 2019年6期

武志远马圆唐浩姚二林郭秀花△

【提要】目的介绍卷积神经网络方法，并将其应用于肺部多模态图像进行肺结节良恶性分类。方法基于肺部PET-CT多模态图像，分析临床信息与卷积神经网络的结合并与机器学习支持向量机方法作效果对比。结果 52名患者的323张结节图像纳入研究。研究表明，模型中纳入临床信息能够改进模型的分类效果，准确率、灵敏度、特异度分别为0.913、0.942、0.417；在与支持向量机模型的对比分析中，卷积神经网络模型特异度较低为0.417，而灵敏度达到0.942；支持向量机模型灵敏度较低为0.570，而特异度达到0.927。结论基于肺部PET-CT多模态图像进行肺结节良恶性判别，卷积神经网络能够获得较高的灵敏度。

据世界卫生组织统计报道，肺癌的发病率、致死率在所有癌症中占据首位[1]，其原因是多数患者在初次诊断时就已经处于晚期。提高肺癌患者的生存质量、降低肺癌的死亡率，主要挑战在于提高肺癌早期诊断率。高分辨CT是诊断肺部孤立性肺结节的最常用影像学方法。但是低剂量CT的肺癌筛查假阳性较高[2]。而PET-CT融合两种模态的图像，同时反映病灶的结构信息和代谢信息[3]。因此肺部PET-CT融合图像的计算机辅助诊断(computer aided diagnosis,CAD)成为热点。针对肺部PET-CT多模态融合图像的多数研究主要是通过机器学习方法，进行人工特征提取，基于深度学习进行肺结节良恶性分类的研究少有报道[4-5]。

原理与方法

卷积神经网络(convolutional neural network,CNN)起源于猫视觉皮层的研究，受生物神经网络的启发而设计[6]。其中，ResNet网络被用于2015年ILSVRC比赛中，已将错误率降到3.57%[7]。CNN方法在图像分类识别和物体定位检测方面凸显优势并取得良好效果[8-9]。

1.卷积神经网络的结构

(1)卷积层

由多个特征面组成，通过卷积核与上一层特征面相关联。卷积核是一个权值矩阵，可以提取输入的局部特征，卷积层中的神经元通过激活函数，获得每个神经元的输出值，这一过程具有权值共享的特点；卷积层的计算表达式为：

式中：l代表卷积层所在层数；Mj代表上层的输入特征图；k是卷积核；b是偏置；f是激活函数。

(2)池化层

紧跟在卷积层之后，它的每一个特征面唯一对应于其上一层的一个特征面，不会改变特征面的个数。池化层起到二次提取特征的作用，通过池化操作使神经元数量减少，对图像进行降维，并提高图像特征的变换不变特性，降低网络模型的运算量。常用的池化方法有最大池化、均值池化、随机池化，新提出的池化方法有混合池化、Lp范数池化、空域金字塔池化。池化层的计算形式为：

式中：down()代表下采样函数；β和b代表下采样层系数和偏置；f是激活函数。

(3)全连接层

在CNN结构中，经多个卷积层和池化层后，连接着1个或1个以上的全连接层，以整合卷积层或者池化层提取到的局部特征信息，最后一层全连接层的输出值被传递给一个输出层，向外界输出结果，进行分类、检测、识别等任务。每个神经元的输出为：

hw,b(x)=f(wTx+b)

式中，hw,b(x)表示神经元的输出值；x代表神经元输入的特征向量；w表示权值向量；b代表权值；f为激活函数。

2.卷积神经网络的训练

(1)向前传播阶段

卷积和池化依次进行，上一层的输出作为下一层的输入，并通过激活函数逐层传播。

(2)误差传播阶段

通过实际输出和期望输出间的误差反向传播，计算损失函数，得到各个网络层的误差函数，然后基于各个权值和偏置对误差函数求导，最后采样随机梯度下降法对网络权值和偏置进行更新和优化，使得实际输出和期望输出间的误差平方和达到最小或小于某一期望阈值。

对于一个含有m个样本的数据集，用批量梯度下降的方法求解神经网络。单个样本(x，y)的代价函数可表示为：

整体代价函数可表示为：

求解神经网络就是为了使得代价函数J(W,b)达到最小化。最小化代价函数J(W,b;x,y)，用以下方法更新参数W和b：

α为参数的更新率，即学习率。

3.本文采用的模型结构

Le Net-5网络由3个卷积层，2个池化层，2个全连接层构成，加上输入层和输出层共包含8层，最初被用于手写数字识别。本研究中结节图像的分类模型基于Le Net-5网络做出调整。

实例分析

1.资料来源

收集52例来自首都医科大学附属北京宣武医院患者的肺部PET-CT图像，最终323张肺结节图像纳入研究，其中良性44张，恶性279张。病例诊断由病理科医生依据手术病理切片做出。通过问卷调查和查阅病人入院信息等方法，收集包括病例人口学特征信息(年龄、性别)和结节形态学信息(结节大小、淋巴结是否肿大、结节数量、结节密度、实质性改变、有晕征、毛玻璃样改变、毛刺征、分叶征、空泡征、钙化、空洞、胸膜凹陷征、胸水)共计16个变量。

(1)纳入标准

拍摄机器为UMI51096环光导PET-CT；图像格式为DICOM；有病理诊断结果。

(2) 排除标准

个人信息填写不完整，数据缺失；结节难以分割提取的病例。

对DICOM格式的PET-CT图像进行预处理，在临床大夫和影像科大夫的辅助下，每个患者保留包含肺部结节的图像进行手动分割，提取感兴趣区域；对图像感兴趣区域采用区域增长法进行增强与降噪，去除周围组织，最终转化为323张归一化的png格式、28×28大小的肺结节二维图像。区域分割[22]实质是把具有某种相似性质的像素连通，从而构成最终的分割区域。研究采用区域生长法对PET-CT图像中的肺结节进行分割。

2.结果

(1)人口学及结节形态学特征分析结果

本次共收集病例52例，其中良性病例8例，恶性病例44例。其中，男性35例，女性17例。其中最大年龄为86.19岁，最小年龄为40.47岁。经统计学检验发现，年龄(t=-1.315,P=0.194)和性别(χ2=-1.790,P=1.000)在良恶性两组之间无统计学差异。

肺结节形态学特征方面，经卡方检验发现，结节大小(P=0.073)、有晕征(P=0.551)、毛玻璃征(P=0.499)、毛刺征(P=0.056)、分叶征(P=0.164)、空泡征(P=0.833)、钙化征(P=0.109)、空洞(P=1.000)、胸膜凹陷征(P=1.000)、胸水(P=0.311)、淋巴结肿大(P=0.071)、结节密度(P=0.469)、实性结节(P=0.499)、结节数量(P=1.000) 16个变量均无统计学差异。

(2)图像数据平衡处理结果

将结节图像随机分为训练集239张和测试集80张，训练集标记为良性32张，恶性207张，为解决良恶性图像数量间的不平衡问题，进行图像扩充(平移、旋转、填补等处理)，最后训练集中良性标签1568张，恶性标签1856张。

(3)临床信息对于分类结果的影响

基于Le Net-5结构，对比不纳入临床信息和纳入临床信息模型的分类效果，灵敏度和特异度的截点值均设为0.5，结果如表1所示。

表1 纳入特征变量前后模型分类效果对比

结果表明，纳入人口学和结节形态学特征后，模型的识别能力得到提升，特异度上升至0.417，灵敏度达到0.942。

(4)卷积神经网络与支持向量机方法的比较

CNN模型能够自动提取图片特征，并对输入图像进行降维。机器学习方法需要手动提取特征，本课题组之前用二代小波变化提取图像纹理值特征，与临床特征一起送入支持向量机分类器(support vector machine,SVM)进行肺结节图像良恶性分类，结果如表2所示。

表2 CNN与支持向量机分类效果对比

实验表明，CNN模型在灵敏度上优于支持向量机模型，对于肺癌的早期发现意义重大；支持向量机特异度优于CNN模型，误诊率低。

(5)模型结果汇总

三个模型基于准确率、灵敏度、特异度、AUC值进行比较，结果表明与不加入临床信息的模型(模型1)相比，加入临床信息的CNN结构(模型2)的识别率和灵敏度较高，SVM模型(模型3)的特异度较高，具体结果如图1所示。

图1 肺结节分类模型效果对比

讨论

1.临床特征对于结节良恶性分类效果差异分析。

基于CNN自动提取的图像特征进行良恶性分类，分类能力有限。李学沧[10]等人将CNN应用于肺癌病理图像自动分类中，同时将图像的颜色特征和边缘特征纳入分类器，取得了良好的效果。研究表明，肺癌图像的自动分类不应仅仅局限于网络自动提取的特征，应将临床先验知识与模型提取特征相融合，基于多维大数据优化网络结构，在不增加模型参数和运行时间的基础上，提高诊断的准确度。

2.医学图像分类逐渐出现智能化趋势

有研究[11-12]通过深度学习的方法进行肺结节的自动提取。今后可以将两个模型结合起来，首先搭建结节检测的模型，对感兴趣的图像区域进行自动分割，将提取的区域作为输入进入第二个良恶性分类模型，进行肺结节良恶性的分类诊断。此外，较小的数据量无法满足深度学习海量数据驱动的要求。解决办法一方面需要加强数据量的收集与质量控制，另一方面可以将迁移学习理论[13]与医学图像分类结合。应用开源的图像数据库，如自然图像数据(ImageNet,CIFAR-10)、医学图像数据库(LUNA16,LIDC-IDRI)等大数据资源，选择合适的源域数据，解决目标领域的分类任务。褚晶辉等人[14]就将迁移学习与深度卷积神经网络相结合，提出了自然图像数据与医学图像数据作为源域的二次迁移学习策略，构建了基于54名患者的乳腺肿瘤诊断系统。

目前，有研究[15]开始运用3-D卷积神经网络进行感兴趣区域的分割和疾病诊断。现有开源的3-D CNN模型，可以在DICOM格式的医学图像中，通过三维卷积核作为特征提取工具，进行图像分类。