基于LSTM与注意力结构的肺结节多特征抽取方法

2022-08-25倪扬帆杨媛媛郑德重王卫东

上海交通大学学报 2022年8期

深度学习方法在计算机视觉领域显示出了巨大的潜力.相比于传统的图像处理或机器学习算法，深度模型在图像分类、语义分割和实例分割上都具有更加优秀的表现.传统的深度模型只针对单一任务进行构建，易于训练拟合.然而，实际场景中的大部分问题都由多个任务组成，如实例分割问题融合了语义分割以及图像分类任务，而目标检测问题融合了图像分类与位置坐标回归任务.若使用独立模型进行训练，多个模型之间训练过程复杂，各个任务之间的相关性也并未纳入考量使得模型的性能与效率较差，而多任务形式的模型构建能够很好地解决这些问题.多任务模型是一种单输入多输出的网络结构，旨在对多个任务进行联合参数学习，进而充分挖掘任务之间的相关性信息.同样的，模型也需要对各个任务的差异性特征具有较好的适应能力.

针对结节的计算机断层扫描 (CT) 影像特征抽取，需要采用多任务结构进行模型构建.作为肺癌的早期表现形式，肺结节的良恶性判定是应对肺癌威胁的关键.在CT影像特征上，结节病灶的形状、边缘和内部特征对结节良恶性具有很高的相关性，一些细微的差别便会导致结节病理上截然不同的诊断，这对影像科医生来说是一个巨大的挑战.本文根据北美放射协会 (RSNA)所提出的结构化报告标准将结节形态特征分为3大类别，分别为形状特征、边缘特征和内部特征，准确地对这些结节特征进行分类需要构建高泛化性与鲁棒性的多任务模型结构.为了解决这些问题，本文在多任务模型中引入了基于注意力机制的特征抽取结构与基于长短期记忆(LSTM)网络的时序分类器结构.

作为我国历史上在南方地区定都的唯一一个汉族王朝政权，宋代时期，因内忧外患局势，矛盾问题突出，采取多方面措施保证社会环境安定，如与外族政权签订和议，这些均要求国内有较大的财富。同时，在靖康之变影响下，宋朝王室南渡，于江南定都，原因在于当时江南环境较为安逸。也正因这种政治中心南移变化，引起经济上的变动，王朝将所有精力致力于江南一带的经济发展中。另外，由当时宋朝政治环境看，并不主张着力北伐，许多史料中均有记载，宋朝对其统治区域内的经济发展高度重视，自宋高宗赵构开始便有这种表现。由此可见，政治中心的迁移以及政治环境变化，是导致经济中心南移的重要原因。

传统的多任务结构将卷积神经网络 (CNN) 作为其图像特征编码器，通过软/硬参数共享的形式进行分类器的训练.本文在传统多任务模型中引入了基于注意力机制的中间结构.该结构能够融合各时刻的特征信息，并通过非线性激活函数提取当前时刻的图像注意力特征.在分类器的设计上，本文使用基于长短时记忆网络的时序结构进行构建，LSTM结构能够有效地传递各时刻的特征参数，并解决长、短时间依赖问题.为了进一步提升模型的分类效果，使用双通道输入结构，即结节CT影像输入与结节掩模影像输入，轮廓信息的引入显著提升了模型对相关特征的分类效果.由CNN编码器、注意力机制以及LSTM时序分类器所组成的多任务模型能够有效地解决结节多特征分类问题.

综上所述，本文的贡献主要为以下几点：

(1) 提出一种新的多任务特征抽取结构，不同于传统的参数共享或多模型结构，该结构通过基于注意力机制的中间结构进行特征融合，融合产生的注意力向量能够有效地提高当前任务特征的提取效果.

(2) 将基于LSTM结构的时序模型引入多任务分类中，时序分类器在各个时刻都能够较好地进行特征筛选，并提升任务间共享特征的传递效率.

《国家中长期教育改革与发展规划纲要（2010—2020年）》指出要大力推进高等学校创业教育工作。国务院办公厅2015年出台的《关于深化高等学校创新创业教育改革的实施意见》中也明确要求：“把深化高校创新创业教育改革作为推进高等教育综合改革的突破口，树立先进的创新创业教育理念。”面对国家教育发展战略部署和经济社会发展的新需求，创新创业教育已经成为高等教育发展的新趋势和新潮流，如何培养创新型人才，已成为高等院校的重要任务[1]。

(3) 将结节CT图像与掩模图像作为多模型任务的输入，双通道输入结构能有效提升部分结节特征的分类效果.

1 相关工作

多任务分类模型试图取得优秀的多特征抽取效果，这对模型结构的设计要求较高.在以往的多任务分类研究中，采用的模型结构大致分为3种：共享底层的模型结构、正则化约束结构和多专家混合结构.

1.1 共享底层结构

=tanh()⊙

1.2 正则化约束结构

1.3 多专家混合结构

通常的多专家混合(MoE)结构由门控结构与多个专家子模型构成.文献[18]将单专家多门控混和(OMoE)模型结构嵌入到深层神经网络 (DNN) 中.该方法能够用来构建巨大的DNN模型，在语言建模与机器翻译等多任务工作中取得了优异效果.文献[19]将单一门控结构进一步升级，提出多门控的混合专家(MMoE)模型，该模型在OMoE模型的基础上增加了门控单元的数量，增加的门控单元能够对各个任务之间的关系进行建模.在计算机视觉领域，文献[20]使用3类不同的模型结构进行多任务特征学习，分别为堆叠式的去噪自动编码器 (SDAE)，CNN结构以及手动设置的图像特征，如Haar角点特征、HoG特征等.融合后的图像特征通过随机森林分类实现多任务输出.该算法表明，不同结构的特征提取模型能够提高算法鲁棒性，但是由于模型较为复杂，所以存在训练难度较大的问题.不同于自然语言处理问题，视觉领域中的图像编码模型往往更为重要，加之模型的任务数量相对较少，因此如何构建高效、泛化能力强的特征提取方法是多专家混合结构研究的重点.

2 方法

本文提出的基于注意力机制与LSTM结构的多任务模型能够对结节的各项特征进行有效分类.卷积神经网络作为高效的图像特征提取手段被用作图像编码器.不同深度、不同结构的CNN模型可以通过其强大的特征理解能力对图像进行初步编码.在传统的图像多任务分类中，由于任务数量一般不超过5个，所以使用共享图像编码器的方式能够获取较好的效果.但是，结构化报告所需的图像特征信息往往超过5个，由简单的多层感知器 (MLP) 构成的分类器易造成模型退化问题，模型的编码输出需要通过特征变化来获取分类所需的解码特征.对于单输入多输出的多任务模型，在每一个分类任务中自适应地进行特征抽取能够在提高分类性能的同时降低模型的过拟合风险.在分类输出阶段，使用更加有效的输出方式能够更好地保护各阶段共享特征.因此，本文在多任务模型中引入了基于注意力机制的中间结构与基于LSTM结构的分类器，其算法结构如图1所示.其中：AVG为平均操作；,分别为不同时刻下LSTM结构的隐层信息与细胞信息；ATT为基于注意力机制的中间结构.由于结节的边缘特征与形状特征易受其周边结构的影响，本文将分割后的结节掩模图像作为模型输入之一.掩模为像素值为0或1的二值化图像，本文中将结节区域标记为1而背景区域标记为0.

2.1 基于注意力机制的模型中间结构

（118）南亚异萼苔Heteroscyphus zollingeri（Gottsche.） Schiffn.余夏君等（2018）

(1)

(2)

(3)

图3展示了3种不同的多任务结构，其中：模型为时刻编码器与中间注意力结构的模型状态.图3(a)为传统的共享权值多任务结构；图3(b) 为OMoE结构，由此发展而来的MMoE模型加入了多门控结构，即键-值融合结构；图3(c) 结构为本文所提出的单模型时序结构，此结构将键-值融合结构从控制各模型连接强度转变为控制每一个中间结构的特征输出，仅使用单一结构便能够达到类似MMoE模型的效果，降低了模型复杂程度，也使模型更容易拟合.

2.2 基于LSTM结构的分类器

为了传递不同时刻之间的共享特征，构建了LSTM形式的分类器.LSTM结构能够很好地进行各分类特征之间的耦合，最大程度地保留特征之间的相关性联系.其计算方式如下：

(4)

(5)

先用低ⅰ挡试割，如果工作正常再适当提高一个挡位，收割一段距离后，应停车检查收获质量，观察各部位调整是否适当，无异常现象方可进入正常作业。

但出了件怪事。当科恩回到哈佛大学的实验室，他发现所有实验中的记录都呈现出一种奇怪的趋势。最初，蛋白修饰的神经元都在电冲动一闪而过时发出闪光。但接着，细胞就持续发光，形成了明亮的斑点。“每次记录到一半时，信号就像发了狂一样。”科恩说。

(6)

(7)

(8)

(9)

(10)

(11)

共享底层的结构适用于分类任务较少的情况.由于共享底层结构具有高效、易于训练的特点，成为了大多数多任务模型的基本结构.文献[9]使用参数共享的层次语义卷积神经网络 (HSCNN) 进行CT影像特征提取与多任务特征分类.在进行多任务分类时，HSCNN使用结节的形态学特性作为基础属性，结节的良恶性风险作为高阶属性，从而提高模型对结节良恶性风险的预测效果.层次化结构能够一定程度上提高模型对重要属性的分类效果，但是如果模型中的基础任务属性过多会造成模型拟合困难、预测效果下降等问题.文献[10]使用端到端的多任务模型对COVID-19患者的胸部CT影像进行病灶分割、病情风险预估与肺部影像重建，3个任务共享模型的编码器.该多任务模型的分割、分类与重建效果相较于单任务的U-Net结构更加优秀，这反映了多任务模型在进行不同模式的相关任务学习时能够相互促进、提高性能.但由于底层参数的共享，在模型优化时，各个类型任务输出有可能会相互影响，甚至相互冲突.为了解决这一问题，一些研究者在不同类型任务损失中加入权值以防止模型的退化.

(12)

由于输出特征中存在着一些类别间不平衡问题，所以使用了焦点损失函数作为模型的代价函数，各个任务之间样本分布的不均衡十分容易造成模型过拟合的问题.本文在焦点损失函数的基础上进行了权值修正，可以表示为

2.3 损失函数

由于各个任务的分类空间不同，各类别之间样本平衡性不同，所以本文将结节形状特征作为模型初始阶段的分类输出、边缘特征、内部特征和恶性风险依次作为中段、后段和末段分类输出，按照从底层特征到高维特征的准则进行输出顺序的排列.由于任务中存在从次要任务到主要任务的渐进关系，确保模型的良恶性分类效果最优，所以本文将分类器的模型设置为单向LSTM.不同于自由文本生成模型，在使用LSTM结构进行多任务模型构建时并不会遇到长时期依赖问题.

(13)

(14)

(15)

3 实验与结果

本文使用3类不同的多任务模型，在公开数据集LIDC-IDRI上进行结节属性分类.3种类型分别为共享底层结构的多任务分类模型、OMoE、本文所提出的基于注意力机制与LSTM结构的时序结构模型.实验基于Python 3.6 与Pytorch实验框架，训练与测试使用了深度学习服务器，其主要配置为英特尔10核处理器i9-7900X，3张NVIDIA GTX 1080显卡与64 GB GDDR4内存.在设计实验时，将公开数据集 1 561 个结节样本按照5∶1∶4划分为训练集、验证集与测试集.本实验中，设置LSTM解码器的隐藏层大小为512，图像编码输出的通道数为 2 048，对每一个全连接层设置了Dropout，置空比例设置为0.5，以防止模型出现过拟合现象.所有的模型使用Adam算法作为其优化器，各分类模型统一设置了学习率和训练策略，初始学习率为0.001.为了确保模型不发生过拟合问题，本实验使用了早停学习策略，当验证集损失连续15轮不出现明显下降时，停止模型的训练.将输入图像尺寸设定为48像素×48像素×48像素，为了使模型更容易收敛，各输入图像通过其像素均值 avg() 与标准差 std() 进行归一化操作，归一化计算方法如下：

(16)

式中：为未经过预处理的原始图像.

在实验中，选取ResNet结构作为图像编码器，本文提出的基于注意力机制与LSTM时序结构的多任务分类模型被标记为“Res50+ATT+LSTM”，ResNet50被用于构建共享底层的多任务模型，ResNet50与ResNet101组成的双模型结构被用于构建OMoE.为了验证基于注意力结构的中间层对多任务分类性能的影响，本文将ResNet50直接连接一个LSTM结构分类器作为另一个基准模型 (Res50+LSTM)；为了对比单向LSTM结构分类器与双向LSTM结构分类器的差异，在第2个实验中添加了双向LSTM结构分类器模型(Res50+ATT+Bi-LSTM) 作为对照组.

1.综合治疗措施。沙门氏菌对土霉素、新霉素、氟苯尼考、磺胺嘧啶、新诺明比较敏感，大肠杆菌对土霉素、新霉素、氟苯尼考、卡那霉素、呋喃唑酮、喹诺酮类药物敏感，魏氏梭菌可使用氟苯尼考治疗。

3.1 实验数据

本文使用公开数据集LIDC-IDRI作为实验数据.该数据集中CT影像采集时的峰值电压为 120～140 kV，峰值电流为40～624 mA.该数据集由4位经验丰富的影像科医生进行标注，每个结节都拥有其主要特征的小组评估意见.其主要特征分别为钙化、内部结构、分叶、边缘、形状、毛刺、纹理和恶性概率，如表1所示，其中：括号中的数字为量化后的标签.表1反映了各个特征的描述与分级情况.由于一些特征中的各分级数量很不平均，如钙化特征中的爆米花型和半层型；内部结构特征中的空气类型等都较为罕见，所以使用原分级标签进行多任务分类会造成较大的训练偏差，本文通过阈值化处理来平衡各标签样本数量，并将各特征划归至其后括号内的数字标签 (0/1/2) 下.同时，该数据集还给出了每个结节的真实体素轮廓情况，由于每位医生所标注的结果之间存在差异，本文使用了50%的一致性标准来生成模型训练所需的掩模数据.在实际应用中，为了实现有效的结节掩模提取，可以通过两阶段通用分割算法nnU-Net、3D U2-Net等快捷准确地获取结节掩模图像.

基于正则化约束的模型希望通过先验的目标函数来约束模型间的参数，构建任务间的相关性.文献[14]提出“脏模型”的概念来约束任务间的模型参数.他们将每一个任务模型参数分解为两部分，共享特征参数与独立特征参数.在训练阶段对共享特征参数与独立特征参数分别设定不同的超参数权重进行优化，但是该方法仅能优化浅层特征，并不能很好地挖掘深层的共享特征.文献[15]通过特征投影将不同任务间的共享特征进行优化表示，这种提取共享特征的方法被称为交替结构优化(ASO) 法.而文献[16] 则通过特征稀疏表示 (差异特征表示) 与共享特征低秩表示来进行特征建模，并使用不同的约束方法对这两种不同类型的特征进行筛选与训练.然而，正则化约束结构需要通过人为的约束条件进行参数优化，且并未明确提出分类器的构建方式.

3.2 评价指标

在所构建的多任务分类任务中，使用各分类项的准确率、值以及绝对距离误差 (ADE) 作为评价指标，其中值是分类召回率与精确率的调和平均.由于在分类任务中，模型的召回率与精确率存在此消彼长的矛盾，综合这两种指标的评价方法能够总体上反映出模型的分类性能.而绝对距离误差是指模型输出向量与标签向量之间的距离误差，能够直观反映出模型之间的分类效果差异.在这些评价标准中，分类准确率与值越大表示模型的分类效果越好，而绝对距离误差越小，表示分类效果越好.其计算方式如下：

(17)

(18)

(19)

4.编辑“抓手”下力。各位编辑以对历史负责、对油田负责、对职工群众负责的态度，热心修志事业，尽快熟悉情况，发挥文字功底厚实优势，善学习，肯动脑，能吃苦，坐得住，踏踏实实做好分篇编纂工作。编辑人员通过干中学、学中干，加强学习交流，反复学习领会省史志办制订的省志编纂通则、行文规定等规范性文件，积极参加省里组织的培训、交流，牢牢把握编纂原则，实事求是地记述以胜利油田为主的山东石油工业发展历程与现状，立足当代、详近略远。经常带着问题研讨，切磋交流体会，“碰撞产生火花”，提高修志业务能力。修志人员素质的提高，为编纂高质量志书打下基础。

3）初馏塔煮塔1次，常压塔煮塔2次，减压塔煮塔2次，在煮塔结束后要确认塔底及侧线集油箱含油污水排放干净，再进行下一次煮塔。总结煮塔过程，其实没有特别的技巧，就是要严格落实各项措施，确认执行到位。从本次塔器打开情况来看，煮塔效果较好，更重要的一点是煮塔产生的含油污水量控制较小。

3.3 实验结果

本文仅使用结节CT图像作为模型输入进行实验比较，如表2所示，表中各加粗项为各分类特征下的最优结果.从表2中可以看出，ResNet50结构与OMoE结构模型在性能上总体相近.尽管OMoE结构模型在ResNet50的基础上增加了另一个ResNet101组成了双模型结构，但是在某些特征上，如钙化、恶性概率等，OMoE结构性能相比ResNet50结构出现了下降.在使用LSTM结构作为模型分类器之后，特征的总体分类性能出现了提升，在分类的准确率和值上相较前两种模型分别提升了1.89%与1.23%，而ADE相差不大.在使用注意力结构作为模型中间层后，分类效果有了进一步提升，相较于不带注意力中间模块的网络，在分类准确率、值与ADE上性能分别提升了0.76%、0.62%与0.04.值得注意的是，在“实性程度”“恶性概率”上，Res50+ATT+LSTM模型相较于前几种结构提升较大.相较于模型简单的共享底层机构，使用分步特征提取的注意力结构能够更好地分阶段提取图像特征、提高分类效果.

此外，江西还是客家人聚居的中心之一，是客家文化的大本营，客家文学和民俗文化也是江西独特的文学和文化资源。江西还是中国工农红军、中华苏维埃政权的大本营，是中央苏区所在地。因此，江西又是苏区文学生存发展的“红土地”，孕育了无数光辉灿烂、极具时代特色的苏区文学作品。

图4反映了各模型在形状 (球形/椭球形/索条形) 特征、边缘 (边界模糊/清晰) 、纹理 (实性/半实性/磨玻璃) 与恶性概率这4个指标上的结果箱线图.从图4中可以看出，在使用共享底层或OMoE模型对图像进行多任务分类时，ADE结果会出现较大的波动.而本文所提出的Res50+ATT+LSTM方法结果波动性较小，中位数也是各模型中最小的.

表3展示了各模型加入结节掩模图像作为输入的结果.由表3可知，由于图像的掩模反映结节的毛刺、分叶和形状等特征，在这些分类项上，双分支输入结构性能有所提升.使用结节CT影像与掩模的Res50+ATT+LSTM取得了最好的分类效果，相较于前3种模型在分类准确率、值以及ADE上分别提升了1.65%、1.68% 以及0.08.图5对比了各模型在加入结节掩模图像后的多任务分类结果，其中：为仅使用结节影像进行多任务分类；+为使用结节影像与掩模图像进行多任务分类.从图5可以看出，加入结节轮廓信息后，各模型在形状、边缘等分类任务的ADE中位数以及波动范围均有一定程度降低，这说明了在加入结节掩模后，模型在相关特征上泛化能力更强，不易出现较大偏差.相较于单向结构，双向LSTM分类器将模型的整体参数量提高了1倍，但是各分类任务的结果相差并不明显.

表4展示了所提方法与其他已有方法的结果比较，其中文献[9]所提出的深度层次模型是共享底层结构的多任务分类模型，从结节的低级属性 (形状、边缘等) 到高级属性，层次化构建整个模型.文献[20]使用了3不同的模型结构进行多任务特征学习.多任务模型预测结果如图6所示.由图6可知，所提方法在实现更多特征分类的同时，在边界、钙化、良恶性分类上均取得了更好的结果.

援助来自于斯图加特的Sicos BW有限公司，卡尔斯鲁厄理工学院和斯图加特大学于2011年夏天共同创立了这家公司，旨在为企业，尤其是中小型企业提供模拟仿真、高性能计算、大数据和智能数据方面的咨询。由于得到了合作双方以及巴登符腾堡州科学、研究和艺术部（MWK）的大力支持，该公司持中立立场并免费提供服务。来自德国各地、对高性能计算感兴趣的模拟用户可从Sicos BW公司获得有关应用和工具的所有必要信息，模拟仿真专家帮助他们建立一个可行的工作方案，其中包括访问高性能计算机。目标是：企业最终能够独立或通过Sicos BW公司合作网络中的相应合作伙伴将高性能计算机上的模拟仿真集成到产品开发过程中去。

3.4 结果讨论

由上述实验结果可以看出，基于注意力机制与LSTM时序结构的多任务分类模型在性能上优于共享底层模型与多专家混合模型.多专家混合模型中的门控单元被替换为基于注意力机制的中间结构，将“加权求和”操作转变为对整个特征图进行增强或抑制，特征被更为充分地利用.通过表3与图5可知，由于双向LSTM结构需要重复计算编码器与注意力中间结构，易造成一些分类任务的过拟合现象，而单向LSTM结构并不存在这个问题，模型也更加容易训练.另外，时序模型能够提高各时刻间参数的传递效率，使得模型自适应地选择是否保留先前时刻的特征参数，以提升各分类任务之间的联结效果.该结构使得互相关联的分类任务之间相互促进，互不相关的任务之间相互独立.由于LSTM结构对信号依赖的自主选择，本文所提出的结构能够胜任更多数量的分类任务，且模型易于训练，具有较强的泛化性能.图6(c)展示了多任务分类模型对不同类型结节的预测结果，结果以概率的形式给出，能够辅助影像科医生更好地完成诊断工作.

虽然，基于注意力机制与LSTM时序结构的多任务分类模型取得了较好的分类效果，但是对于模型的细节需要进一步优化.如在分类任务先后顺序的选择上，由于LSTM结构不同于多层感知器结构，在不同特征顺序下，各时刻模型间的参数传递效果不同，导致某些任务结果出现差异.在本实验中，通过不断变换各任务的顺序进行多次训练测试，各个任务的结果随着位置的不同而出现差异，但总体上的平均性能相差不大.另外，对于模型损失函数的选择上，本文使用了改进后的焦点损失函数，在一些特定的场景中，各任务的数据量有可能极不平衡，重要性也都各不相同，因此需要对任务属性的重要性以及不确定性，即各任务之间相关置信度进行建模.在今后的工作中，将继续在这些方向上对本文工作进行优化.

4 结语

本文提出一种基于LSTM时序结构的多任务模型，并在模型中加入基于注意力机制的特征抽取结构.注意力结构能够充分融合不同时刻间图像特征，提高模型的特征提取能力.基于LSTM结构的时序输出模型能够很好地传递任务间共享参数，并保留当前任务独立参数，使分类模型更加稳定.该模型在肺结节的多任务特征抽取上取得较好的效果，能够辅助医生更好地完成影像报告撰写工作.所提出的模型能够推广到其他多标签问题中，通过不断优化其结构与损失函数，解决更多场景下的图像理解任务.