APP下载

深度学习分析剪切波弹性图像评估肝纤维化

2021-04-14陈文波金洁玚郑荣琴

中山大学学报(医学科学版) 2021年2期
关键词:训练组置信区间纤维化

陈文波,卢 雪,金洁玚,郑荣琴

(1.清远市人民医院超声科,广东清远 511500;2.中山大学附属第三医院超声科,广东广州 510630)

慢性肝病(chronic liver disease,CLD)是多种肝脏疾病的统称,表现为肝脏慢性坏死和炎症,需要临床干预,包括保肝或抗纤维化治疗[1]。目前肝纤维化评估国际上常用的标准为METAVIR 病理分级标准:F0、F1、F2、F3、F4,纤维化程度依次加重[2]。准确评估肝纤维化,对于指导治疗、评估疗效及预后判断均有重要意义[3]。但肝脏组织穿刺活检是侵袭性技术,易产生疼痛、出血等不良后果[4],且存在取样误差[5-6]及观察者间误差[2]。常用无创评估手段有血小板比值(AST to platelet ratio index,APRI)、FIB-4 指数(Fibrosis-4 Score,FIB-4),尤其瞬时弹性成像(transient elastography,TE)和二维剪切波弹性成像(two dimension shear wave elastography,2D-SWE),得到临床和众多指南推荐[4,7-8],但APRI 和FIB-4 诊断效能较低,而TE 仍具备无成像系统、适用性不佳、取样范围小等局限性,2D-SWE不同研究、不同制造商之间存在较大的差异性[8]。近年来影像组学定量评估及自动化分析,以其无创性、全面性、简便易行性等特点,备受关注[9]。国内外学者利用影像组学,对肝纤维化进行评估,准确率0.82~0.90,最高受试者工作曲线下面积(area under the receiver-operator-characteristic curve,AUC)0.87~0.97[10-14]。这些研究仍有局限性,如没有组织学作为金标准、样本量较小、提取的特征不如2DSWE 与肝纤维化关系紧密等。因此,深度学习分析剪切波弹性图像(deep learning elastography,DLE)有可能克服2D-SWE 技术局限性、提高诊断效能,实现肝纤维化精准评估。

1 材料与方法

1.1 一般资料

收集2012 年11 月至2016 年10 月感染科临床确诊的行2D-SWE 检查的CLD 患者,纳入标准:①各种病因导致的CLD;②年龄≥18 岁;③行肝脏组织穿刺活检。排除标准:①2D-SWE 图像资料不全;②缺失重要的血清学结果;③肝移植术后。本研究为回顾性分析,无法取得患者知情同意,但经过伦理委员会批准,并在Clinical Trails 上注册(审批号:NCT03221049)。

1.2 仪器及方法

1.2.1 2D-SWE 操作者具有超过300例腹部超声检查经验,在监督指导下进行超过50 例2D-SWE检查,使用统一标准化操作流程及标准进行2DSWE检查训练[15-17]。2位2D-SWE 操作经验超过两年、超声操作经验超过10 年的高年资医师是本研究的质量控制者。采用Supersonic Aixplorer型超声诊断仪(Supersonic Imagine,SSI,France),选择SC6-1型凸阵探头,探头频率范围为1.0~6.0 MHz。仪器条件设置如下:二维灰阶图像放大至120%,深度调节至8 cm,聚焦设置于6 cm。患者禁食8~12 h,平卧位,右上肢上抬,于右肋间避开胆囊及肝脏内大血管等管道结构,冻结图像后在充盈较好的区域选取直径为20 mm 的感兴趣区域。重复测量5 次,采用中位数作为肝脏硬度测值。

1.2.2 血清学检查 选取2D-SWE 检查的前后一周内的结果,包括:空腹血糖、谷丙转氨酶(alanine aminotransferase,ALT)、谷草转氨酶(aspartate aminotransferase,AST)、血小板计数(platelets,PLT)、总胆红素、直接胆红素、间接胆红素、谷酰转肽酶、凝血酶原活动度百分比、碱性磷酸酶、白蛋白。APRI=[(AST/AST 正常值上限)×100]/PLT;FIB-4=(年龄×AST)/(PLT×ALT1/2)。其中,AST、ALT 单位均为IU/L,PLT 单位为109/L,AST 正常值上限为40 U/L。

1.2.3 TE 部分纳入的患者自愿进行了TE(FibroScan;Echosens)的检查。患者要求与2D-SWE一致。采样位置尽量与2D-SWE 一致,深度为皮下2.5 cm~6.5 cm,避开大血管区域。满足:①10 次有效测量;②总测量成功率≥60%;③四分位距/中位数≤30%。

1.2.4 DLE 确保F0~F4 各期患者比例一致的前提下,将最终纳入分析的患者使用随机数法分成两组,一组为训练组,另一组为验证组,训练组略多于验证组。DLE 模型建立于Ubuntu 16.04 操作系统(Canonical Group Limited,London,United Kingdom),使 用GeForce 980 Ti(NVidia Corporation,Santa Clara,California,United States)的6G 图形处理器,深度学习框架为Keras(Version 1.4,François Chollet,California,United States),后端是Tensorflow(Version 1.3,Google,Inc.,California,United States)。使用卷积神经网络方法,输入图层使用训练组的2D-SWE 图像,经过卷积、激活、池化3 个步骤[14],最终建立深度学习模型(图1)。

1.2.5 病理取材及诊断 穿刺时尽量选择2DSWE与TE检查时的相近部位。病理标本由两位超过6 年经验的病理科医生诊断,若结果不一致,则由第3位超过10年诊断经验的上级医师进行复查。

图1 DLE的图像处理示意图Fig.1 Image processing of DLE

1.3 资料分析

1.3.1 DLE 的诊断效能 使用建立好的深度学习模型于验证组中评估各期肝纤维化,并分别将其与单独使用2D-SWE、血清学标志物、TE 时的诊断效能进行比较。

1.3.2 DLE 的稳定性 确保亚组间F0~F4 各期患者比例一致前提下,将验证组中F0~F4各期患者随机平分为3 个亚组。分别以DLE 模型进行测试,比较三组间的差异以反映DLE的稳定性。

1.3.3 统计方法 使用SPSS 20.0 及Medcalc 11.2。Shapiro-Wilk 检验年龄及血清学资料的正态性,其中正态性方差齐的定量资料差异性检验使用Student’st-test,否则使用Mann-WhitneyU非参数检验。无序分类定性资料如性别、纤维化病理分级使用卡方检验。在Medcal 中构建受试者工作曲线,诊断效能以AUC 表示。两组间的AUC 差异性检验选择Delong test,如各种手段评估同一纤维化病理分级时AUC 的两两比较、验证组中3个亚组评估稳定性时的AUC 两两比较。结果均选择双侧假设检验,以P<0.05为界定义差异是否有统计学意义。

2 结果

2.1 基线资料

感染科临床确诊并行2D-SWE 检查的共572名慢性肝病患者,纳入本研究。其中27 例因为图像资料不齐全、缺失重要血清学结果及肝移植术后被排除,最终545例患者纳入分析(图2),包括乙型肝炎367 例、自身免疫性肝病45 例、胆汁性肝硬变30 例、药物性肝损伤13 例、丙型肝炎9 例、酒精性肝损伤2 例、其他79 例。包括一般资料、血清学资料、纤维化病理分级,结果见表1,正态性定量资料表示为均数加减标准差,非正态性定量资料表示为中位数及四分位差,定性资料表示为数量及占比。所有项目差异均无统计学意义(P>0.05)。

图2 患者纳入情况Fig.2 The results of patient enrollments

2.2 DLE的诊断效能及其与其他常用手段的对比

训练组建立DLE模型,可知训练组中迭代次数为80 左右时,模型已经可以趋于稳定(图3),而本研究训练组样本量为305,每个患者可以提供5 张图像,迭代次数为1 525。DLE 评估CLD 患者F=4、F≥3、F≥2 的诊断效能,结果见表2~4,所有方法中,DLE 的诊断效能最高(图4),AUC 分别达0.99[95%置信区间为(0.97,1.00)]、0.98[95%置信区间为(0.99,0.99)]、0.92[95%置信区间为(0.88,0.95)],均明显高于2D-SWE、APRI、FIB-4、TE,差异有统计学意义;2D-SWE 表现出第二高的诊断效能,AUC 分别为0.89[95%置信区间为(0.86,0.92)]、0.86[95%置信区间为(0.83,0.89)]、0.86[95%置信区间为(0.83,0.89)],高于APRI(分别P<0.01,P<0.01,P<0.01)、FIB-4(分别P<0.01,P<0.01,P<0.01)、TE(分别P=0.188 4,P<0.05,P=0.073)。而APRI、FIB-4、TE 三者间两两比较,评估F=4、F≥3、F≥2 的诊断效能差异均无统计学意义(P>0.05),AUC 最高只达0.81[95% 置信区间为(0.71,0.89)]。

表1 患者基线资料Table 1 Baseline characteristics of the patients [ or M(IQR)]

表1 患者基线资料Table 1 Baseline characteristics of the patients [ or M(IQR)]

2.3 DLE的稳定性

DLE 评估纤维化的稳定性结果见表5,不同验证组的选择,并不影响DLE 的诊断效能(图5),评估同一肝纤维化病理分级时,3 次试验两两之间分别比较诊断效能,差异均无统计学意义(P>0.05)。

图3 损失函数变化趋势Fig.3 The trend of the loss function

3 讨论

3.1 DLE准确评估肝纤维化

此为单中心、回顾性队列研究,样本量较大,对比了DLE、2D-SWE、血清学标志物、TE评估肝纤维化的诊断效能。对于CLD 患者F=4、F≥3、F≥2 的评估,DLE 均表现出明显高于其他手段的诊断效能(表2~4),差异有统计学意义,AUC 最高达0.99[95%置信区间为(0.97,1.00)],其诊断能力堪比肝脏组织穿刺活检。2D-SWE 表现出第二高的诊断效能,AUC 最高达0.89[95%置信区间为(0.86,0.92)]。其他手段诊断效能差别不大,最高只达0.81[95%置信区间为(0.71,0.89)]。提示DLE 可用于准确评估肝纤维化。

不同病因造成的肝纤维化病理分级与超声表现上存在差异。但结果部分我们可知80 次迭代训练组已经可以满足需求(图3),而本研究迭代次数为1 525,远大于80。基于巨大迭代数的深度学习模型,完全可以忽略不计不同病因造成影响。而上述优秀的诊断效能也足以说明,模型几乎没有受到不同病因造成的干扰。

DLE 相对于2D-SWE 有两个明显的优势。第一,DLE 的输入图层包含了整个2D-SWE 的2.5 cm×2.5 cm 的感兴趣区域。第二,DLE 使用卷积神经网络技术,对2D-SWE 图像自动化特征提取及深度学习。因此,与2D-SWE 单独使用基于剪切波速度的较小的感兴趣区域内的肝硬度平均测值不同,DLE 可以消除单一测值带来的不同研究、不同制造商之间的差异,并实现大量特征的分析,包括隐藏在2D-SWE 图像中各图层的信息,最终对肝纤维化进行定量自动化分析,显然更加彻底和全面,最终显著提高诊断效能。

表2 DLE、2D-SWE、TE、APRI、FIB-4评估F=4的诊断效能Table 2 Diagnostic performance of DLE,2D-SWE,APRI and FIB-4,TE for assessing F=4

表3 DLE、2D-SWE、TE、APRI、FIB-4评估F≥3的诊断效能Table 3 Diagnostic performance of DLE,2D-SWE,APRI and FIB-4,TE for assessing F≥3

3.2 DLE稳定性好

结果显示DLE表现出良好的稳定性,更改验证组,DLE 评估肝纤维化的诊断效能差异均无统计学意义(表5),且与基本试验中(表2-4)DLE 的诊断效能类似。说明无论我们使用哪些数据作为验证组,DLE 均能得到较好的诊断效能,为其临床推广应用提供了可能性。

3.3 局限性

由于本研究是探索性的,因此为回顾性单中心研究,较于前瞻性多中心研究证据质量欠佳。另外,DLE 的技术本身仍有改进空间,比如纳入其它信息如肝实质图像、血清学结果等,构建DLE 诺模图综合分析模型。

表4 DLE、2D-SWE、TE、APRI、FIB-4评估F≥2的诊断效能Table 4 Diagnostic performance of DLE,2D-SWE,APRI and FIB-4,TE for assessing F≥2

图4 对比DLE、2D-SWE、APRI、FIB-4、TE评估肝纤维化的ROC曲线Fig.4 Comparison of ROC curves among DLE,2D-SWE,APRI,FIB-4 and TE for the assessment of liver fibrosis

图5 对比DLE模型分别用于组1-3评估肝纤维化的ROC曲线Fig.5 Comparison of ROC curves among three groups when DLE model was used,respectively,for the assessment of liver fibrosis

表5 不同验证组应用DLE评估肝纤维化时的诊断效能比较Table 5 Comparisons of using different validation groups for DLE to evaluate liver fibrosis

3.4 结论

DLE 能准确评估肝纤维化,其诊断效能高于其它常用手段,并具有较好的稳定性,有望成为肝纤维化无创评估的新手段,有较好的临床推广前景。

猜你喜欢

训练组置信区间纤维化
肝纤维化无创诊断研究进展
新型抗阻力训练模式改善大学生身体素质的实验研究
定数截尾场合三参数pareto分布参数的最优置信区间
p-范分布中参数的置信区间
跑台运动训练对脊髓损伤大鼠肺功能及HMGB-1表达的影响
多个偏正态总体共同位置参数的Bootstrap置信区间
肝纤维化的中医药治疗
线上自主训练与线下指导训练表面肌电差异分析
列车定位中置信区间的确定方法
肾纤维化的研究进展