三种自动勾画软件应用于中上腹部危及器官勾画的准确性研究
2021-03-23
广东省第二人民医院 放疗科,广东 广州 510317
引言
随着科学技术的发展,调强放疗技术被越来越广泛地应用在临床肿瘤的治疗中,其高度的靶区适形度和陡峭的剂量梯度大大地提高了肿瘤治疗的增益比[1-2]。因此在放疗计划设计阶段就要求临床医师精确定义和勾画靶区与危及器官(Organs at Risk,OAR)。传统的手工勾画OAR不仅费时费力,而且重复性差,此外患者在经过一段时间放疗后,身体的解剖结构会发生变化,肿瘤缩小,则需要重新定位并制订放疗计划[3-5],而繁琐重复的OAR勾画无疑大幅降低放疗计划制定的效率,也给临床医师造成负担。目前国内外有基于图谱库和形变配准融合自动勾画软件应用于头颈部肿瘤[6-9]、胸部肿瘤[10-14]和下腹部肿瘤[15-20]的OAR自动勾画临床可行性研究,较少检索到关于中上腹部的危及器官自动勾画的临床研究,以及基于深度学习卷积神经网络算法的软件在临床上准确性应用的研究。
因此本文研究三款自动勾画软件pinnacle、LinkingMed和Manteia对于中上腹部危及器官勾画的准确性,以及比较这三者自动勾画与手工勾画间的几何精度差异并探讨在中上腹部肿瘤中自动勾画方式应用于临床的可行性分析。
1 材料与方法
1.1 自动勾画工具
Pinnacle 9.10是飞利浦公司的治疗计划系统,其中内置有自动勾画模块SPICE(Smart Probabilistic Image Contouring Engine),该模块是通过匹配图谱库的模板进行概率形变配准得到的自动轮廓。LinkingMed和Manteia是由国内的公司开发的两款自动勾画软件,它们都是基于深度学习卷积神经网络算法,通过对大量医生所标注的勾画数据进行训练学习,不断地调整卷积核和权重等参数所建立的算法模型。
1.2 病例选择
选择2019年9月至2020年3月在广东省第二人民医院接受放疗的中上腹部肿瘤患者26例,其中肝癌(Ⅰ~Ⅱ期)15例,结肠癌7例,腰椎转移瘤4例。行仰卧位,以热塑体膜固定,在西门子大孔径螺旋CT(Somaton Sensation Open)下,以3 mm的层厚层距扫描并重建CT图像。扫描得到的CT图像数据传送至Pinnacle9.10放疗计划系统、LinkingMed和Manteia自动勾画系统。
1.3 OAR勾画
由1名有经验的放疗医师在Pinnacle9.10计划系统上手工勾画OAR,并要求上级主任医师审核和修改。OAR包括:肝、脊髓、双肾、胰腺和胃,并定义为参考勾画Vref。Pinnacle9.10计划系统的自动勾画的OAR为肝、脊髓和双肾,定义为VP;LinkingMed和Manteia自动勾画的OAR与手工的一样,分别定义为VL和VM,勾画完毕即导入放疗计划系统,再传入LinkingMed进行比较评估。
1.4 评价指标
以手工勾画为金标准,分别计算这三种自动勾画结果的质心偏差(Center of Mass Deviation,DC)、Dice相似性系 数(Dice Similarity Coefficient,DSC)、Hausdorff 距 离(Hausdorff Distance,HD)、包容性指数(Inclusive Index,IncI)和敏感性指数(Sensitivity Index,SI)[15],下列公式中下标为ref的为手动勾画参考值,auto的为自动勾画值。DC、DSC计算公式见公式(1)~(2):
用于比较有限样本集之间的相似性与差异性,DSC值越大,样本相似度越高。HD计算,见公式(3):
用于表示某一集合中离另一集合最近点的所有距离的最大值。
IncI和SI的计算,见公式(4)~(5):
1.5 统计学处理
建立Excel数据库,应用SPSS 19软件进行数据分析。采用单因素方差法检验,P<0.05为差异有统计学意义。数据以均值±标准差(±s)的形式表现。
2 结果
2.1 勾画时间的比较
Lingkingmed和Manteia的勾画时间是从图像导入自动勾画系统开始计时至勾画结束,约为40 s。Pinnacle系统勾画的时间从点击Auto-segmentation自动勾画开始至勾画结束,约为5 min,医生人工勾画的时间约为30 min。
2.2 三组自动勾画结果的DC比较
不同组勾画结果的DC比较如图1所示,统计学差异如表1所示。三组勾画的肝、肾和脊髓的DC值<10 mm,其中右肾和脊髓的DC<5 mm。Pinnacle勾画组的结果偏差比其他两组大。LinkingMed和Manteia勾画组肝、双肾和脊髓的DC均值<7 mm,而胰腺和胃的DC值较大,其中LinkingMed勾画组的结果比Manteia勾画组的偏差大。LinkingMed和Manteia勾画组与Pinnale勾画组的结果,除脊髓外,均有统计学差异。LinkingMed勾画组和Manteia勾画组胰腺的结果有统计学差异。
图1 三组自动勾画结果的DC
表1 三种自动勾画危及器官DC的结果(±s,mm)
表1 三种自动勾画危及器官DC的结果(±s,mm)
注:*是代表VL和 VM,VL和VP,VM和VP之间具有统计学差异。
参数 VL VM VP P值肝 6.25±5.92 5.19±5.17 9.80±6.95 △○左肾 1.12±1.66 1.14±1.59 7.05±7.90 △○右肾 0.77±0.76 1.11±1.28 2.72±2.72 △○脊髓 4.93±7.10 2.90±4.73 3.43±5.19 0.432胃 23.89±17.62 16.88±18.00 0.162胰腺 21.02±18.22 8.84±12.64 *
2.3 三种自动勾画结果的DSC比较
不同自动勾画结果的Dice系数比较如图2所示,统计学分析如表2所示。肝、双肾和脊髓的DSC平均值>0.8,LinkingMed和Manteia的DSC均值>0.9。Manteia勾画组胃和胰腺的DSC均值>0.7。LinkingMed勾画组与Pinnale勾画组的结果均有统计学差异。Manteia勾画组与Pinnale勾画组的结果除了肝外,均有统计学差异。胃和胰腺的勾画结果显示,LinkingMed和Manteia勾画组有统计学差异。
图2 三组自动勾画结果的Dice系数比较
表2 三种自动勾画危及器官DSC比较结果(±s)
表2 三种自动勾画危及器官DSC比较结果(±s)
注:*是代表VL和 VM,VL和VP,VM和VP之间具有统计学差异。
参数 VL VM VP P值肝 0.97±0.02 0.95±0.05 0.94±0.03 △左肾 0.96±0.06 0.96±0.05 0.81±0.16 △○右肾 0.98±0.02 0.96±0.04 0.9±0.11 △○脊髓 0.90±0.06 0.90±0.07 0.81±0.07 △○胃 0.54±0.25 0.75±0.15 *胰腺 0.43±0.26 0.71±0.16 *
2.4 三种自动勾画结果的HD比较
不同自动勾画结果的HD比较如图3所示,统计学分析如表3所示。三组勾画结果的双肾和脊髓的HD均值<20 mm,肝的HD均值<26 mm,Pinnacle勾画组的结果偏差比其他两组大。LinkingMed勾画组的胃和胰腺的HD均值大于Manteia的勾画结果。统计学分析结果显示,LinkingMed勾画组双肾的结果与Pinnale勾画组的有统计学差异,LinkingMed勾画组右肾和胰腺的结果与Manteia的结果有统计学差异,Manteia勾画组左肾的结果与Pinnale勾画组的有统计学差异,其他指标均无统计学差异。
图3 三组自动勾画结果的HD
表3 三种自动勾画危及器官结果的HD(±s,mm)
表3 三种自动勾画危及器官结果的HD(±s,mm)
注:*是代表VL和 VM,VL和VP,VM和VP之间具有统计学差异。
参数 VL VM VP P值肝 22.27±15.76 18.87±12.55 25.95±12.40 0.182左肾 7.07±3.90 8.46±3.43 19.19±15.91 △○右肾 4.14±2.26 7.73±3.81 9.65±5.07 *△脊髓 15.14±18.77 8.54±10.82 9.59±13.08 0.222胃 54.21±36.68 40.27±32.11 0.145胰腺 46.44±37.64 19.01±21.66 *
2.5 三种自动勾画结果的IncI和SI分析比较
不同自动勾画结果的IncI和SI分析比较如图4和图5所示,统计学分析如表4和表5所示。IncI是指自动勾画与手动勾画所重合的体积与自动勾画体积的比值,SI是指自动勾画与手动勾画所重合的体积与手动勾画体积的比值。因此当自动勾画与手动勾画结果完全吻合的时候,IncI与SI的值为1,若两者完全没有重叠的话,这两个值为0。三组勾画结果的肝、肾和脊髓的IncI均值>0.8,其中肝、右肾和脊髓的IncI均值>0.9。LinkingMed和Manteia的勾画组IncI均值大于Pinnacle勾画组。LinkingMed勾画组胃和胰腺的IncI均值大于Manteia勾画组,两者勾画组均值>0.7。三组勾画结果的肝、肾和脊髓的SI均值>0.87,除了Pinnacle勾画组脊髓IncI均值为0.73。LinkingMed和Manteia的勾画组SI均值大于Pinnacle勾画组。Manteia勾画组胃和胰腺的SI均值>0.7,其结果优于LinkingMed勾画组结果。统计学分析结果显示,LinkingMed勾画组和Manteia勾画组的肝和双肾的IncI值与Pinnale勾画组的有统计学差异,LinkingMed勾画组的右肾IncI值和Manteia的结果也有统计学差异,其他指标无统计学差异。LinkingMed勾画组肝、双肾和脊髓的SI结果与Pinnale勾画组的均有统计学差异,Manteia的结果除肝外,也均与Pinnacle组的有统计学差异,LinkingMed和Manteia的胃和胰腺的SI值也均有统计学差异。
图4 三种自动勾画结果的IncI
图5 三种自动勾画结果的SI
表4 三种自动勾画危及器官结果的IncI(±s)
表4 三种自动勾画危及器官结果的IncI(±s)
注:*是代表VL和 VM,VL和VP,VM和VP之间具有统计学差异。
参数 VL VM VP P值肝 0.97±0.03 0.97±0.03 0.93±0.04 △○左肾 0.98±0.02 0.96±0.03 0.80±0.22 △○右肾 0.98±0.03 0.96±0.03 0.92±0.04 *△○脊髓 0.92±0.09 0.90±0.08 0.92±0.07 0.096胃 0.87±0.13 0.84±0.13 0.453胰腺 0.76±0.28 0.73±0.17 0.691
表5 三种自动勾画危及器官结果的SI指数(±s)
表5 三种自动勾画危及器官结果的SI指数(±s)
注:*是代表VL和 VM,VL和VP,VM和VP之间具有统计学差异。
参数 VL VM VP P值肝 0.97±0.03 0.94±0.07 0.94±0.03 △左肾 0.95±0.09 0.97±0.09 0.87±0.09 △○右肾 0.97±0.03 0.96±0.07 0.90±0.14 △○脊髓 0.89±0.09 0.91±0.08 0.73±0.10 △○胃 0.45±0.26 0.72±0.21 *胰腺 0.34±0.24 0.71±0.19 *
3 讨论
随着自动勾画危及器官软件越来越多地应用于临床,国内外有诸多关于自动勾画软件应用于头颈部、胸部和盆腔的研究,而对于中上腹部危及器官自动勾画的研究较少,中上腹部的危及器官主要有形状变异小、边界清晰的大体积器官如肝脏、双肾和脊髓等,以及形状变异大、组织对比度欠佳的结构如胃和胰腺等。对于肝脏、肾脏和脊髓这样边界清晰的大结构,本案中的三种自动勾画软件均有较好的勾画效果,其DSC均值都大于0.8,这个结论与Wittenstein等[21]在骨转移瘤的危及器官勾画的结果近似。LinkingMed和Manteia所勾画的这三种结构的DSC均值大于Pinnacle组的结果,而标准误更小,可以认为LinkingMed和Manteia勾画的更稳定和准确。DC和HD越小,则与手工勾画的结果差异越小,IncI和SI越接近1,则自动勾画和手动勾画的结果就越吻合。根据对DC、DSC、HD、IncI和SI的各个数值的比较可以看出,LinkingMed和Manteia对于肝、双肾和脊髓的勾画效果略优于Pinnacle的勾画效果。在本案的研究中,Pinnacle组左肾的各项指标与LinkingMed和Manteia组的差别比右肾的大,是因为Pinnacle的SPICE是基于概率分割图像,在相邻结构之间的对比度很小的情况下很难识别他们之间的边缘以产生可接受的轮廓,因此在部分病例中pinnacle自动勾画左肾时将部分的脾脏也算入了左肾的轮廓中,导致了左肾的各项指标偏差增大。由于SPICE是基于自身图谱库的概率分割图像,因此只有有限的器官模板可以选择自动勾画,且不能像ABAS那样建立各种图谱库。神经网络卷积算法是通过对海量的轮廓进行深度学习,训练得到更合适的权重使得该模型算法对于各个器官的识别和勾画更加准确,而且可以训练和勾画各种想要的器官,因此本案研究中LinkingMed和Manteia组比Pinnacle组的结果更加优。对于形状变异大、组织对比度欠佳的结构如胃和胰腺,王琳婧等[15]和王金媛等[16]在研究中提到,这样的结构,自动勾画软件所勾画的基本难以满足临床需要(如直肠的DSC值约为0.5),这个结论与LinkingMed勾画结论相符,Manteia勾画这两者结构的DSC均值>0.7,与手工勾画的重合度较好。从DC、HD、IncI和SI的各个数值的比较来看,Manteia的结果更优,这是因为在神经卷积网络算法中,不同的卷积核、训练权重和训练集等都导致模型算法的不同,并造成不同的识别和勾画结果,Manteia对于这种形变较大,充盈程度无法控制及组织对比度欠佳的结构识别勾画的功能更强大一些。
综上所述,在上腹部危及器官的自动勾画中,这三种软件对肝脏、双肾和脊髓均有着较好的勾画效果,而Manteia对于胰腺和胃的勾画也基本符合临床需要,但考虑到临床剂量评估的准确性,应当在自动勾画的基础上适当进行手工修改。由于本研究中所采用的Pinnacle9.10是2014年版本的软件,而版本的更迭可能会对算法和勾画效果会产生一定的影响,LinkingMed和Manteia两款软件也还在临床试验阶段,算法还在不断的优化改进中,因此本研究的分析结果仅限于当前所使用软件和版本。