利用医学相似性指数评价放疗中靶区自动勾画效果的可行性研究
2021-10-11何奕松余行张盛元罗勇傅玉川
【作 者】何奕松,余行,张盛元,罗勇,傅玉川
1 四川大学华西医院 放疗科,成都市,610041
2 四川大学核科学技术研究所,辐射物理与技术教育部重点实验室,成都市,610064
0 引言
恶性肿瘤的精确放射治疗,要求肿瘤医师准确地勾画靶区(target volumes,TVs)和危及器官(organ at risks,OARs),通过最优化的计划设计来获得治疗所要求的剂量分布目标[1-2]。虽然已有许多勾画指南和专家共识发表,但在临床实践中仍普遍存在观察者间误差(inter-observer variability,IOV),且手动勾画(manual segmentation,MS)会耗费肿瘤医师大量时间[3-4]。随着医学影像自动分割技术的发展,将基于图谱(atlas-based,AB)或基于深度学习(deep-learning-based,DL)的自动勾画(automatic segmentation,AS)应用于放疗领域逐渐成为可能[5-7]。许多研究已经证实AS能在保证较高精度的同时降低IOV和时间消耗[8-9]。
为了表征AS对感兴趣区域(region of interest,ROI)的勾画精度,通常的做法是比较其与对应MS之间的相似度。其中Dice相似性系数(Dice similarity coefficient,DSC)是比较的主要参数之一,计算AS和MS面积或体积上的重合度,其值越接近1,说明越相似[10]。由于DSC的整体性计算特点,它无法准确地捕捉轮廓之间的局部偏移,这种偏移可表现为局部欠缺勾画(under-delineation,UD)或局部过度勾画(over-delineation,OD)。有时,UD或OD会因为体积占比小而在计算DSC时被忽略,而这在实际的临床判断中却是不能被忽视的[11]。
为降低UD、OD带来的不确定性,研究者们在评估时增加豪斯多夫距离(Hausdorff distance,HD)来进行辅助判断[12]。HD是基于距离的相似性参数,越接近0,说明越相似。HD能在一定程度上辅助DSC描述由UD、OD带来的最大偏移,但由于它的高度敏感性,占比小而偏移大的UD或OD会使HD陡然增大,从而混淆实际判断。采用DSC和HD并行的方式,能在一定程度上描述轮廓间的几何相似性,但要从临床实践角度做到全面准确的相似度表征,还需要增加带有医学性考虑的参量。
针对这一问题,近年来已有多项研究聚焦于如何让相似性参数单一化且带有主观的医学性考虑。YEGHIAZARYAN等[13]提出了一种混合特征集群边界重叠指标,能够惩罚重合度不佳的区域,避免参数值过度膨胀。LI等[14]提出了一种线性化校正几何参数的方法,能够根据肿瘤医师的经验校正轮廓的几何参数,使其带有医学主观性考虑。KIM等[15-16]提出了一种具有医学考虑的轮廓相似性参数,基于双向局部距离,采用内惩罚系数(inside level,il)和外惩罚系数(outside level,ol)来计算待测试轮廓的得分。
针对放疗靶区勾画中AS和MS的相似度评价问题,利用KIM等提出的医学相似性指数(medical similarity index,MSI),通过设置不同的il和ol对UD和OD进行不同程度的惩罚来表征AS的勾画精度,并与以DSC为代表的几何相似性参数进行比较,从而探讨利用MSI评价放疗中靶区自动勾画效果的可行性。
1 材料和方法
1.1 MSI方法
将手动勾画结果(轮廓记为ground truth,GT)作为参考来评价自动勾画(轮廓记为prediction,PR)。MSI的计算主要包含三个步骤(见图1)。首先计算PR到GT的双向局部距离(bidirectional local distance,BLD)[15],然后根据由正态分布派生的权重函数(weight function,WF)计算医学性函数(medical consideration function,MCF),最后根据MCF计算得到MSI[16]。第一步通过质心匹配找到PR上每个点在GT上的对应点,当该点在GT内时,BLD为负,反之为正,如式(1)所示,其中pr,gt分别表示PR、GT上的点,‖.‖表示欧式距离,计算时考虑体素间距,下同。
图1 医学相似性指数(medical similarity index,MSI)的计算过程Fig.1 The calculation process of the medical similarity index (MSI)
第二步引入il和ol计算在所选WF下的每个pr的BLD得分,记为MCF,如式(2)所示,其中l表示il或ol的值,x表示每个BLD的值。
第三步综合所有MCF,其平均值作为当前il、ol下PR相对于GT的MSI,如式(3)所示。
1.2 DSC
DSC是使用最广泛的体积相似性系数,能够从总体上描述轮廓之间的空间重叠比率,由式(4)计算得到[17]。
1.3 轮廓数据
1.3.1 MS数据集
为保证TVs剂量的同时降低OARs的受照程度,肿瘤医师在勾画时应尽量避免UD或OD。选取鼻咽癌中低危临床靶区(the intermedia risk clinical target volume,CTV2)[18-19]作为待勾画对象,以探究MSI评价AS的可行性。选取2017—2019年于我院接受调强放射治疗的100例鼻咽癌患者,所有患者都采用头肩模固定,由SOMATO Definition AS(128 rows,SIEMENS,GER)扫描,层厚为3 mm,得到大小为512×512、体素间距为0.91~0.97 mm的电子计算机断层扫描影像(computer tomography,CT)。由我院一名有十年以上放疗经验的医生在计划系统Pinnacle3(V9.2,PHILIPS,USA)上准确地勾画出CTV2,将其轮廓GT作为MS数据集。CTV2为预防性照射区域,通常在CT上就能完成勾画,如图2所示。
图2 同一个病例的CT数据集中的3个不同层面下,手动勾画的CTV2轮廓示意图Fig.2 Schematic diagram of the manual segmentation of CTV2 among three different slices in the same patient's CT dataset
1.3.2 AS数据集
在上述100例患者中,随机选取10例作为测试集,其余90例作为获得AS数据的材料。采用两种不同的自动勾画方式来获得待测试数据。第一种为基于图谱的自动勾画方式,由我院日常临床工作的自动勾画软件(Elekta CMS,ABAS 2.0,SWE)给出。在勾画的过程中,采用多模板的勾画策略[20]:在90个病例中随机选取9个作为模板,分别对每个测试例进行勾画,最后通过STAPLE算法得到“可能性”最大的轮廓作为结果[21],记为ABAS。
第二种为基于深度学习的自动勾画方式,由我们根据级联思想[22-23]搭建的深度学习网络给出。其结构为粗分割定位U-Net 和细分割勾画U-Net的级联[24]。网络基于TensorFlow-Keras框架,在Python3.6上搭建。训练时选择15个作为验证集,通过调参使网络达到最佳水平,然后分别对测试集的每个病例进行预测,结果记为DLAS。
1.3.3 惩罚系数的选取
通过以上方式,测试集的每个病例将包含3组轮廓:作为GT的MS,作为PR的ABAS和DLAS。分别以病例为单位计算GT vs ABAS(简记为VA)和GT vs DLAS(简记为VD)的DSC。同时,由于MSI的特点,il、ol的值越大,表明对UD或OD的惩罚力度越强,在标准正态分布下的权重函数衰减越大,因此得分将更低。研究选取的惩罚系数如下:il=1,ol=1,表示不惩罚UD或OD;il=3,ol=3,表示对UD和OD都进行惩罚;il=1,ol=3和5,表示加强对OD的惩罚;ol=1,il=3和5,表示加强对UD的惩罚。然后,进行DSC和MSI(il=1,ol=1)的相关性分析,验证在无惩罚下MSI是否具有和DSC类似的功能。最后选择具有代表性的CT层面,再重复上述计算,这样可以反应出实际观察到的情况。
2 结果
表1为所有病例的平均值和标准差,图3为对应的箱型图。其中,白色箱体代表GT vs ABAS(VA),灰色箱体代表GT vs DLAS(VD),横坐标分别为Dice相似性系数(DSC)和一组医学相似性指数(MSI),其中括号内的值分别代表il和ol。可以看到,VA和VD的DSC较高,分别为0.73±0.04和0.84±0.03,且VD更大。因此,从几何相似度来看,可以得到DLAS和ABAS都具有较好精确度的结论,都可以满足一定的临床需求,且DLAS优于ABAS。但多组il、ol下MSI的值出现了较大的变动。当il=1,ol=1时,VA和VD的MSI分别为0.78±0.07和0.91±0.04,同时,相关性分析显示,Pearson系数为0.71,P<0.01,二者显著相关。说明在这种设定下,DSC和MSI具有类似的表达相似度的功能。
表1 测试集CTV2的GT vs ABAS(VA)和GT vs DLAS(VD)的DSC和一组MSI的平均值±标准差Tab.1 The average ± standard deviation of DSC and a set of MSI between GT vs ABAS (VA) and GT vs DLAS (VD) for CTV2 in test dataset
图3 测试集CTV2相似性参数的箱型图Fig.3 The box-whisker plot of similarity parameters of CTV2 in test dataset
当i l=1,o l=3 和5 时,VA 的MSI 降至0.56±0.08和0.49±0.07,VD降至0.82±0.07和0.77±0.07。VA下降得更多,说明相比于DLAS,ABAS具有更多区域在GT外,即OD更多。根据MSI的特性,ol越大,对OD惩罚力度越大,导致参数值下降越多。同理,当ol=1,il=3和5时,VA的MSI降至0.51±0.09和0.40±0.07,VD降至0.63±0.09和0.44±0.09。说明ABAS和DLAS都有部分区域在GT内,即都存在UD,根据MSI的特性,il越大,对UD惩罚力度越大,导致参数值下降越多。
当il=3,ol=3 时,VA 的MSI降至0.29±0.10,VD降至0.54±0.12。说明在综合惩罚下,VA降低得更多,说明ABAS的UD和OD比例更多。VD虽然高于VA,但与1相差甚远,说明UD和OD现象是不容忽视的。对此,选择典型的DSC相近但轮廓走形却不够好的2D层面作为示例(见图4和表2)。其中粗轮廓线为GT,靠近外侧的细轮廓线为ABAS,靠近内侧的细轮廓线为DLAS,上方箭头代表欠勾画(underdelineation,UD),右侧箭头代表过勾画(overdelineation,OD)。
表2 具有代表性的2D层面轮廓示意图及其GT vs ABAS(VA)和GT vs DLAS(VD)的DSC和一组MSITab.2 The DSC and a set of MSI of GT vs ABAS (VA) and GT vs DLAS (VD) of a schematic diagram
图4 具有代表性的2D层面轮廓示意图Fig.4 A schematic diagram of a representative 2D slice contour
尽管二者的DSC几乎相同,但从图4可以很明显地看到UD和OD现象:DLAS主要在上部存在UD,ABAS主要在右侧存在OD,经过计算得到处于GT外的轮廓比例,DLAS为30%,ABAS为75%。提高ol时,由于ABAS比DLAS具有更多OD,因此前者的MSI比后者下降的更多;提高il时,由于DLAS比ABAS具有更多UD,因此前者的MSI比后者下降的更多。综合考虑时,ABAS的MSI下降得更多,说明它存在更多的OD和UD,而DSC却无法直观地反应出这种差异。表3比较了常用几何相似性参数和MSI的特点。
表3 常用相似性系数与医学相似性系数的比较Tab.3 The comparison of common geometric similarity parameters and medical similarity parameters
3 讨论
目前,医学影像的自动分割工具及相关医疗产品的快速发展已为进入临床使用做好准备[5],这就要求能够提出准确全面地评判自动勾画结果的方法和工具。通常采用的几何相似性参数,如DSC[9-10],虽然能够在一定程度上通过描述轮廓之间在体积上的重叠度来表征相似性,却存在一些隐含的缺陷。相同DSC值,可能对应不同的几何形状[11,16]。图4表示实际的情况,相近的DSC值可能对应有较大差异的轮廓形态。HD也有类似现象,并且由于HD的高度敏感性,即使是一个异常点也会使参数值急剧变差[11]。另一方面,二者都是几何性参数,并未涉及带有医学性考虑的因子,而这在实际的临床工作中是必不可少的[14]。
MSI更像是一种轮廓的平均得分。在计算的过程中,考虑了每个pr相对于GT的位置关系(内或外)和距离关系,然后根据内、外惩罚系数对这个点进行评分,最后综合所有信息作为当前条件下MSI的值。前文的相关性分析显示,无惩罚时,MSI具有和DSC类似的表达功能,当惩罚介入时,MSI可以描述更多DSC无法捕捉的信息,如图4和表2所示。特别是对靶区而言,过度地勾画会增加周围组织的受照剂量,而欠缺勾画又会导致病灶受照剂量不足。因此,本研究以鼻咽癌的治疗靶区CTV2为例,验证了利用MSI评估AS效果的可行性,并与几何相似性参数DSC进行了比较。
由结果可以看到,虽然ABAS的平均DSC为0.73,DLAS为0.84,属于较好的水平[25-26],但在MSI的指导下,二者却出现了明显的差异。通过改变il、ol,可以反应出总体UD和OD水平:增加ol,ABAS的MSI下降得更多,说明ABAS的OD更多;同理,增加il,能反映出ABAS和DLAS都存在UD和OD,且ABAS的UD更多;综合il、ol,DLAS的MSI更高,说明DLAS比ABAS更贴近于GT,而仅靠DSC是无法得出这个结论的,因为DSC总是描述总体体积的重合度。根据这种特性,可以针对性地选取il、ol来对不同ROI的勾画结果进行评判,比如,根据临床需要,可以通过提高ol来加重OAR的保护,通过提高il来保证TVs的剂量,可由肿瘤医师自主地选择。此外,遇到特殊的情况时,可以同时提高il和ol来进行判断。从表3中可以总结出MSI的优势:针对不同性质的ROI,MSI能够做出可调节的针对性判断,使其带有医学性考虑。
值得一提的是,由图3可以看到,MSI的标准差比DSC更大,说明病例之间有更大的变异,这是由于MSI在计算时考虑轮廓点之间的关系导致的,这些情况表明了局部偏移的存在,而单凭DSC是无法衡量的,因为它只考虑体积或面积上的重合度,因此使用医学相似性指数来评价放疗中自动勾画结果是可行的。虽然在实验中取得了显著的结果,但也存在一个不足之处:在以病例为单位计算时,由于CT扫描的特点,层间距的影响无法很好地得到解决。在今后的研究中,可以考虑使用插值拟合的方法模拟出层间丢失的信息,使结果更贴近于实际。除此之外,优化算法、探究不同ROI适合的惩罚系数也是值得研究的内容。
总之,在评价自动勾画结果时,纳入带有医学性考虑的相似性参数能够更加准确地描述轮廓之间的相似度以及其他几何参数无法描述的特点。随着信息技术的持续发展,采用自动勾画模式来完成临床勾画任务也是必然的趋势,但要真正地与临床接轨,就需要引入带有医学考虑的相似性参数来提高医学影像轮廓相似度评估的敏感度,帮助临床医生作判断。
4 结论
综上所述,我们利用基于双向局部距离的医学相似性指数和传统的几何相似性参数分别评判了手动和自动勾画鼻咽癌中低危临床靶区结果的相似度。发现前一种评价方式能够具有针对性地评判过勾画或欠勾画的部分,在高惩罚的情况下,能够保持更高参数值的轮廓相似度更高。在未来的工作中,我们将针对更多有特点的结果进行判断,并尝试改进参数来达到更好的效果。