基于T1增强成像的人工智能算法在肛瘘内口诊断中的可行性研究

2023-03-14袁军陈欣悦常时新王乐周自明

安徽医药 2023年3期

袁军, 陈欣悦, 常时新, 王乐, 周自明

肛瘘又称肛管直肠瘘, 是肛管或直肠与肛周皮肤相通的肉芽肿性管道, 主要侵犯肛管, 故常称为肛瘘。肛瘘内口多位于齿状线附近, 外口位于肛周皮肤处。肛门腺和隐窝的感染被认为是瘘管形成的主要原因[1］。肛周外瘘口破溃流脓、疼痛是肛瘘的临床表现。肛瘘一旦形成, 病人自愈机会极少, 手术是治愈的唯一手段[2］。术中准确地寻找到内口并进行妥善处理, 是肛瘘手术根治、避免术后复发的重要保证。目前诊断肛瘘的常规影像检查技术主要包括临床检查、直肠腔内超声、螺旋CT检查及磁共振检查等[3-5］。其中, 磁共振检查作为一种无创、易行的检查技术手段, 由于其软组织分辨率高, 具有可任意角度成像等优势, 已经成为临床用于诊断肛瘘, 确定内口及瘘管、瘘管走形的重要手段[6］。疑为肛瘘病人的磁共振扫描序列通常包括T1 WI、T2WI、T2压脂成像（T2WI with fat-saturated, T2 WIFS）、扩散加权成像（diffusion weighted imaging, DWI）、T1增强成像等。与其他序列相比, T1增强成像对提高复杂性肛瘘病人的内口定位准确性及分型评估具有更重要意义[7］。

人工智能（artificial intelligence, AI）是当前科学技术发展中的一门前沿学科[8］, 其强大的后处理能力和进一步学习、分析能力逐渐得到医疗界的认可, 广泛应用于医学领域。如在肺小结节CT诊断[9］、糖尿病眼病的眼底镜诊断[10］、恶性黑素瘤的皮肤镜诊断[11］等。但在肛瘘的磁共振人工智能诊断方面目前还未有明确报道。卷积神经网络（convolutional neural network, CNN）是AI领域中一种广为应用的模型, 2012年在ImageNet图像分类大赛上夺得冠军的AlexNet[12］使得CNN正式进入大规模研究和应用阶段。后来有研究在AlexNet的基础上将网络的层数增加到19层, 对图像特征的提取能力进一步增强[13］。其后研究者发现在GoogLeNet中使用的Inception结构, 使用多个卷积核在不同尺度上提取图像特征再进行融合, 能使模型更好地感知图像[14］。ResNet模型使用的残差单元能够克服以往随着网络加深反而准确率下降的问题[15］。在ResNet的基础上, 有研究在提出的DenseNet中使用了密集连接, 使得与ResNet具有相同性能的DenseNet的参数量减少了一半[16］。基于此, 本研究拟采用CNN模型对病人的磁共振T1增强图像进行分类, 探讨迁移学习及端到端学习两种不同的AI算法技术对肛瘘内口诊断的价值及意义。

1 资料与方法

1.1 一般资料回顾性分析上海中医药大学附属岳阳中西医结合医院2019年5月至2021年5月行肛管磁共振扫描病人103例。其中磁共振诊断为肛瘘并经手术确诊的病人58例, 其中男39例, 女19 例, 年龄（41.39±10.12）岁, 范围为20～59岁, 于58例病例中选取526幅显示肛瘘内口的磁共振T1横断位图像。正常病例45例。其中男32例, 女13例, 年龄（38.375±8.90）岁, 范围为25～54岁, 于45例病例中选取522幅磁共振T1横断位的正常图像。病人或其近亲属知情同意, 本研究符合《世界医学协会赫尔辛基宣言》相关要求。

纳入标准：①有详细的手术记录证实为肛瘘的病人；②术前行磁共振T1增强和其他常规序列扫描的病人。排除标准：①既往有肛周、直肠手术史者；②合并其他肛管疾病, 如肿瘤、克罗恩病；③不宜进行磁共振T1增强检查病人。通过数据增强的方法将图像扩增至3 400幅, 根据是否患病进行分层, 采用分层随机抽样的方法将数据分为训练组（n=2 720）和验证组（n=680）。

1.2 扫描设备所有病人均使用飞利浦ingenia3.0 T磁共振仪进行检查, 采用体部线圈, 仰卧位, 头先进, 以耻骨联合为中心定位。T1增强采用mDixon-w序列, 层厚4 mm, 层间隔2 mm, Fov=250 mm×250 mm×110 mm, voxel=1 mm×1 mm×4 mm, TR=4.4 ms, TE=1.54 ms, flip angle=10°, 打药后90 s采集图像。

1.3 数据来源与增强将肛瘘病人及正常病例的Dicom格式图像转化为JEPG格式, 并调整对比度、亮度, 形成图像集。图像集中包括522幅横断位的正常图像, 526幅显示肛瘘内口的异常图像。

出于增加图像数量的考虑, 本研究使用Color Jittering进行数据增强。Color Jittering是一种基于色彩抖动的数据增强方式。通过改变原始图像的图像亮度（brightness）、饱和度（saturation）、对比度（contrast）和色调（hue）产生新数据。本研究进行4次色彩抖动, 将正常图像扩增到1 692幅, 异常图像扩增到1 708幅, 共3 400幅图像形成扩增图像集。

1.4 方法

1.4.1 模型选用现有研究发现, 在神经网络训练过程中网络梯度会随着网络深度的加深容易造成梯度爆炸或梯度消失问题, 导致网络Loss无法收敛, 易造成网络无法更新或退化[17-20］。因此, 本研究在ResNet（图1A）中引入残差模块（shortcut connection）来对抗深度学习中深层网络的退化问题, 残差模块连接方式如图1B所示。

该连接方式构成的残差结构输出xi如下式（1）所示, 包括两部分即原本的输入xi-1和残差Fi（xi-1）。 ResNet不仅保留了输入信息的完整性, 而且当网络深度增加时, 残差Fi（xi-1）会逐渐趋于0而只保留输入xi-1, 从而解决网络性能的退化问题。

本研究所用的两种残差模块结构如图1C所示, 左侧为两层残差结构, 通过串联两个3×3卷积层构成, 参数较简单, 泛化能力强。右侧为三层残差结构, 串联两个1×1和一个3×3卷积层, 能够更加充分地学习复杂特征, 且由于在第一个1×1卷积层进行了降维, 降低了网络的参数, 即使网络的深度进一步增加也不会出现梯度爆炸问题。

图1 用于肛瘘内口诊断的图像分类模型ResNet结构及其连接方式：A为ResNet网络结构；B为残差模块连接方式；C为两种残差模块结构

此外, 本研究还使用由密集块（dense block）和过渡层（transition layer）组成的DenseNet[16］作为主要网络进行训练和测试。其中, 密集块起到加强特征重用、缓解梯度消失的作用。过渡层则能够降低密集块输出的特征通道数减少网络的参数, 避免过拟合, 本研究DenseNet结构如图2A所示。

复合函数之间的密集连接（dense connection）构成了密集块, 与ResNet的设计类似, DenseNet也是直接将输入与输出相连, 但密集连接是将网络的任意层均与其后所有层直接相连。如图2A所示。

如式（2）所示, 后面层的复合函数的输入xi-1取决于前面所有层的复合函数输出Hi, 当前层的输出又作为后面层的输入。

[x0, x1, x2...xi-1]表示将0～i-1层的输出深度级联。如图2B, 复合函数Hi主要由批量归一化[16］（batch normalization, BN）、ReLU激活函数层[21］、3×3的卷积层和dropout层构成。其中批归一化是在网络中任意一层对该层的输入进行归一化处理, 进而解决网络训练中的梯度消失或梯度爆炸问题。

密集块之间为过渡模块结构如图2C所示, 主要由BN层、ReLU层、1×1卷积层、dropout层和池化层构成。过渡模块将密集块输出的特征图的通道数降低并输入下一个密集块中, 使得网络参数量大大减少, 避免了网络发拟合现象的发生。

图2 用于肛瘘内口诊断的图像分类模型DenseNet结构及其密集连接方式：A为DenseNet结构；B为复合函数结构；C为过渡层结构

1.4.2 迁移学习深度学习需要大量的数据进行训练, 但肛瘘病人及正常病例的数据较少, 因此使用迁移学习方法来提升网络检测准确率。本研究首先使用ResNet-18、ResNet-34和DenseNet-121在ImageNet数据集上进行预训练, 然后将训练得到的网络各层权重作为迁移学习的初始化参数, 然后将模型迁移到肛瘘图像数据集上进行训练和微调。在ImageNet数据集上进行预训练的模型能够提升肛瘘图像重要的颜色特征和纹理边缘特征的提取能力。保留预训练模型中全连接层前的各层参数, 然后使用肛瘘病人和健康图像数据集进行全部层的迁移学习训练, 得到基于ResNet-18、ResNet-34和DenseNet-121的肛瘘病人检测模型, 最后进行模型预测和对比实验。

2 实验与结果

2.1 实验环境实验环境为基于ubuntu系统的tensorflow1.5, NVIDIA GeForce RTX 2080 Ti（11 GB）, CPU为英特尔Xeon（R） silver 4210, 运行内存为64 GB。

2.2 评价指标诊断实验需要具备正确诊断患病和未患病的能力, 从而准确反映疾病实际情况。本研究使用到的评价指标为灵敏度、特异度、受试者操作特征曲线（ROC曲线）和曲线下面积（AUC）。AUC能够度量分类模型的好坏, AUC值越大, 模型的分类效果就越好。

2.3 实验设置本研究选用ResNet-18、ResNet-34和DenseNet-121进行训练和验证。设计以下两个对比实验：（1）分别对ResNet-18、ResNet-34和DenseNet-121进行端到端学习和迁移学习对照实验。（2）选用ResNet-18, 并分别进行正常训练（端到端学习）、迁移学习、改变训练epoch以及数据增强的三组实验, 实验设置如表1所示。

表1 用于分析ResNet-18、ResNet-34和DenseNet-121模型病人检测效果的八组对比实验设置情况

2.4 实验结果ResNet-18和ResNet-34使用迁移学习, epoch=50的loss曲线分析表明, 在原始数据集下训练得到的ResNet-18模型不收敛, ResNet-34达到收敛。在使用增强数据集训练后得到的ResNet-18达到收敛效果。通过修改训练参数epoch为100, 使ResNet-18的训练次数翻倍, 得到的loss曲线同样达到收敛效果。证明本研究采用的数据增强方法达到预期结果。

以ROC曲线分析对比八组实验, 其中效果最好的是基于迁移学习的ResNet-34模型, 能够在较低的假阳性率下取得最高的真阳性率, 说明该模型的漏诊率和误诊率均较低, 能够满足病人的诊断需求。每个模型在测试集上的灵敏度、特异度、AUC值如表2所示。通过将第1组和4组、5组和6组、7组和8组分别对比得出, 同种网络在其他条件都相同时, 使用迁移学习比使用端到端学习训练得到的模型AUC值大, 证明使用本研究使用的迁移学习方法达到了预期效果。

表2 用于分析ResNet-18、ResNet-34和DenseNet-121模型病人检测效果的八组对比实验的实验结果

对比第1组和第5组数据, ResNet-18和ResNet-34的AUC值均在0.9以上；而在第7组和第8组数据中, DenseNet-121两种模型的效果差于同条件下两类ResNet模型, 但使用迁移学习的模型也在0.85以上。根据“2.2”中的指标, 在第1、5、7三组中使用迁移学习的网络模型都属于效果较好的分类器, 但其中AUC最大的是ResNet-34, 证明分类效果最好的是使用迁移学习的ResNet-34模型。

同时, 比较第1组和第5组数据的灵敏度与特异度后, ResNet18模型的特异度更高, 但灵敏度较低。而ResNet-34模型的灵敏度更高, 特异度相对低。特异度高表示误诊率低, 即使用ResNet-18迁移学习模型时, 对正常图像的判断结果较准确, 但同时由于其灵敏度较低, 对异常图像的分类不够准确。灵敏度高表示漏诊率低, 即使用ResNet-34迁移学习模型时, 对异常图像的判断结果较准确, 能够达到对肛瘘病人的诊断要求。

3 讨论

肛瘘由于其瘘管、内口数量和位置的不确定性, 容易造成术后复发。术前磁共振检查可以有效地提高诊断的准确率并对瘘管走形与分布提前进行了解, 有利于后续手术的开展。尤其是T1增强序列, 由于肛瘘的内口及瘘管通常由丰富的炎性肉芽组织组成, 所以在T1增强序列上可呈现出不同程度强化, 这种对比增强为快速诊断内口提供了依据。由于内口位置关系, 有时会受到周围水肿组织的挤压而变形, 当临床及影像医生面临大量磁共振图像数据时, 有可能存在诊断不准确的情况。因此, 快速准确地进行肛瘘的诊断特别是内口的寻找, 对提高诊断准确率, 提升诊断效率, 提供临床分型依据, 具有重要价值。AI技术的进步为快速准确寻找肛瘘内口提供了支撑。由于瘘管图像纹理复杂, 需要使用较深的CNN提取特征, 但随着网络深度的增加可能会发生准确率下降的问题。ResNet中使用的残差单元避免了该问题的发生, 且在利用图像深层特征的基础上对医学图像的分类性能优异[22］。由于使用了密集连接, DenseNet在和ResNet保持相同的分类精度的同时其网络模型的参数量和运算量大大减少, 在最少的存储和运算基础上实现对医学图像的精确诊断[23］。

端到端模型往往需要更多的数据样本训练才能使得模型收敛而不至于过拟合, 因此本研究采用迁移学习的方式来完成网络模型的训练, 并与端到端的学习方式做了对比分析。研究表明, 不同数据集的图像分类任务间通过微调可以有效地共用网络模型参数, 甚至共用数据集, 并能取得良好的效果[24］。也就是说可以使用ImageNet 训练的网络模型的权值, 初始化网络从而进行迁移学习。

迁移学习作为一种常用的模型学习方法, 可以根据任务之间的相似性, 进行模型的迁移, 试图尽可能地将一个任务已有的经验类推到另一个任务上, 辅助完成另一个任务, 解决弱计算的矛盾。基于模型的迁移方法是指从源域和目标域中找到它们之间共享的参数信息以实现迁移[24］。

根据不同的实现方法, 迁移学习分为（1）基于样本的学习；（2）基于特征的学习；（3）基于参数的学习；（4）基于相关性的学习。其中, 最常用的方法就是基于参数的学习, 即在不同的任务领域中共享网络结构, 论文中进行基于参数的迁移学习, 在基于ResNet网络和DenseNet网络在ImagNet数据集预训练所得模型参数基础上, 在实验中进行参数微调, 使得提取特征区域更加匹配于肛瘘病变区域, 从而使得模型逐渐适应影像特征的提取。

在本研究中, 我们基于残差网络模型采用迁移学习方法构建了较为准确的肛瘘识别诊断模型。在保证网络深度的情况下, 有效缓解影像数量不足的问题, 使得网络能够充分提取图像的浅层及深层特征, 提高网络性能及识别准确率。

4 结论

综上所述, 本研究使用迁移学习策略训练得到的ResNet-34模型的灵敏度高、漏诊率低, 特异度高、误诊率低, 可以有效识别肛瘘内口, 对提高临床诊断准确性及提升诊断效能有重要意义。可在此研究基础上, 拓宽该智能诊断模型在其他肛周病变检测与辅助诊断的相关研究, 扩大样本量并优化迭代算法, 进一步提高诊断效能。