综合复杂性特征和剂量学评估指标提高剂量验证结果预测模型的性能

2022-05-06申璐瑶魏强林张俊俊宾石珍刘义保

中国医学物理学杂志 2022年4期

申璐瑶，魏强林，张俊俊，宾石珍，刘义保

1.东华理工大学核科学与工程学院，江西南昌330013；2.中南大学湘雅三医院肿瘤科，湖南长沙410013

前言

近年来，机器学习由于其高效性和可预测性逐步成为研究热点，并开始应用于调强放射治疗（Intensity-Modulated Radiotherapy, IMRT）剂量验证结果的预测［1-3］。计划复杂性描述计划的复杂性调制程度，对剂量验证结果有一定的影响［4］，因此有研究将计划复杂性作为特征建立机器学习模型来预测剂量验证结果［5］。随机森林算法［6］是一种经典，高度灵活且稳定的机器学习算法，可用于构建机器学习模型预测剂量验证结果，预测效果良好［7-8］。但仍不能满足临床应用要求，预测精度亟待进一步提高。研究表明，增加与预测指标相关的特征可提高模型预测精度［9］。剂量学评估指标在ICRU 第83 号报告［10］中被定义为评价靶区剂量分布的定量特征，主要有适形度指数，梯度指数和均匀性指数，在临床上用来评估放疗计划质量［11］。计划质量的优劣在一定程度上反映了计划的复杂性，所以剂量学评估指标作为评估IMRT 计划复杂性的指标具有潜在价值，增加剂量学评估指标可能会提高机器学习模型的预测精度。综合计划复杂性特征和剂量学评估指标对提高机器学习模型预测性能的研究有待进一步开展。

本研究利用随机森林算法分别建立基于复杂性特征、剂量学评估指标和综合指标的预测模型，对IMRT 计划剂量验证的结果进行预测，评估3 种模型的预测能力，为提高机器学习模型预测能力提供参考。

1 材料与方法

1.1 计划病例选取

回顾性选取2020年5月～2021年5月在中南大学湘雅三医院放疗中心接受IMRT治疗的肿瘤患者269例，其中乳腺癌患者31 例、宫颈癌患者53 例、食管癌患者31例、脑胶质瘤患者34例、肺癌患者32例、鼻咽癌患者50 例、直肠癌患者38 例、共2 558 个射野。所有IMRT 计划均使用Varian 公司Eclipse 11.0 治疗计划系统进行设计，采用6 MV X射线，计算网格为2 mm，剂量率400 MU/min 或600 MU/min，并在Varian 公司Unique加速器上执行。

1.2 剂量验证

本研究使用的剂量验证设备是电子射野影像系统（Electronic Portal Imaging Device,EPID）非晶硅平板探测器，有效探测面积（40×30）cm2，分辨率0.392 mm/pixcl。每次剂量验证前进行探测器阵列的绝对剂量校准、本底和泛野校准。利用Eclipse配置的Portal dosimetry软件对EPID采集的实际剂量分布与计划系统计算的剂量分布进行比较，并采用2%/2 mm的γ标准［12］和最大剂量10%的阈值进行γ分析。γ通过率阈值为95%［13］，即γ通过率大于95%时，放射治疗计划剂量验证结果表示“通过”，否则为“不通过”。

1.3 特征参数提取

对于每一个IMRT 计划，从计划系统中提取其剂量体积直方图（Dose Volume Histogram, DVH）文件和每一个射野的多叶准直器（Multi-Leaf Collimator,MLC）文件，采用Matlab 编程提取数据，并计算计划复杂性特征和剂量学评估指标，将其作为特征参数。计划复杂性主要描述一个射野强度分布变化的频率和幅度［14］，包含多个量化方法和相应指标。涉及IMRT 计划复杂性的参数通常包括射野不规则度、射野调制、子野联合面积、小野评分、平均不对称距离、调制复杂度分数、叶片序列变化、射野面积变化、边缘度量、子野平均跳数、平均子野面积、子野面积变异系数、射野总跳数、子野数、铅门最大位置、子野平均面积与铅门定义面积之比等［15-19］。涉及剂量学特征的参数，包括适形度指数、均匀性指数和梯度指数。此外，还有靶区体积，病灶部位和剂量率，总共27个特征，具体缩写与释义如表1所示。

表1 机器学习预测中使用的特征Table 1 Features used in machine learning prediction

1.4 模型训练

采用R 语言实现基于随机森林算法构建的机器学习模型，对剂量验证结果进行预测。随机森林算法在构建每棵决策树时，随机有放回地抽取一部分样本，剩余样本称为袋外数据，可以用来评估随机森林内部［20］。因此，模型训练时不需要进行交叉验证来获得无偏估计［21］。按照7：3 的比例将数据集划分为训练集（1 766 个射野）和测试集（756 个射野）。本研究中机器学习模型预测结果为二分类，“通过”表示“阴性”，“不通过”表示“阳性”。剂量学评估指标、复杂性指标和综合指标作为模型输入，分别构建剂量模型、计划模型和混合模型。并通过调整ntree 值和mtry 值对模型进行优化，其中ntree 为随机森林所包含的决策树数目，mtry 为节点中用于二叉树的变量个数。

1.5 模型评估方法

受试者工作特征曲线（Receiver Operating Characteristic Curve, ROC）下面积（Area Under the Curve,AUC）是用来评估模型分类预测效果的综合指标［22］。通过计算AUC 值、特异性和敏感性对模型进行评估。

1.6 统计学方法

采用SPSS 26.0 对数据进行统计分析，Spearman相关系数用于评估每个特征和剂量验证γ 通过率的关联度。P<0.05为差异有统计学意义。

2 结果

2.1 模型性能评估

调整ntree 值和mtry 值对模型进行优化，使模型性能达到最佳。对于剂量模型、计划模型和混合模型，ntree 值分别为20、425 和265，mtry 值分别为2、4和5。用测试集评估模型的预测能力，根据预测结果绘制ROC 曲线（图1），并计算AUC 值、特异性和敏感性（表2）。混合模型的AUC 值最高，为0.82，预测能力最强，计划模型的AUC 值为0.80，而剂量模型的AUC 值只有0.68，预测能力一般。混合模型的敏感性和特异性为0.79和0.70，均高于其他两个模型。

表2 3个模型的性能评估Table 2 Performance evaluation of the 3 models

图1 每个模型在测试集上的ROC曲线Figure 1 ROC curve for each model on the test set

2.2 特征重要性评估

为更好地揭示各特征对剂量验证γ通过率的影响程度，对所有的特征进行重要性排序（图2），其中最重要的前12个特征为：NS、BI、MU、SAS5、MSAS5、CVA、MCS、MAXJ、LSV、UAA、EM、AVV。同时，对特征和剂量验证γ通过率进行Spearman相关性分析，结果显示，27个特征总体上与剂量验证γ通过率呈弱相关，其中21 个特征具有统计学意义（P<0.05），11 个特征与剂量验证γ 通过率的相关系数的绝对值大于0.20。相关系数绝对值>0.30 的特征有NS、MU 和BI，和重要性排序前三位的特征一致。NS 的相关系数最大，为-0.40（P<0.001），呈中等程度关联，MU 和BI 的相关系数分别为-0.33（P<0.001）和-0.31（P<0.001），呈弱关联，3个特征和剂量验证γ通过率的关系如图3所示。此外，为了评估这3 个指标单独识别剂量验证“不通过”的计划的作用，对这3个指标分别进行ROC分析并绘制ROC曲线（图4），NS、MU和BI的AUC值分别为0.69、0.66和0.64，3个特征的相关统计学指标见表3。

表3 3个特征的相关系数、AUC值、特异性和敏感性的比较Table 3 Comparison of the correlation coefficient,AUC,specificity and sensitivity of the 3 features

图2 特征重要性排序Figure 2 Ranking the importance of features

图3 3个特征与γ通过率的关系图Figure 3 Relationships between the 3 features and gamma passing rate

图4 3个特征的ROC曲线Figure 4 ROC curve of the 3 features

2.3 样本数量的影响

样本量的大小直接影响模型训练的效果，为了评估3种模型达到最佳性能所需要的样本量，改变训练样本的数量来训练模型。分别随机选取原始样本量的5%，10%，15%，…，100%，3 种模型各构建20 组模型，计算AUC 值并绘制学习曲线，如图5 所示。3种模型的AUC 值都随样本量的增加而增加，当训练的样本数超过一定值后，AUC 值达到上限，模型的性能将不会进一步改善。剂量模型的样本量达到1 200时，AUC 值达到上限（0.68）；计划模型的样本量达到900 时，AUC 值达到上限（0.80）；混合模型的样本量达到700时，AUC值达到上限（0.82）。

图5 AUC值与用于训练模型的样本数量之间的关系Figure 5 Relationship between AUC and the number of samples used for model training

3 讨论

在机器学习中，特征的选取和数量直接影响模型的预测能力，其和数据一起决定了机器学习的性能上限。增加与预测指标相关性较高的特征在一定程度上可以提高模型的预测性能［9］。目前，大部分预测调强计划剂量验证结果的研究都是基于计划复杂性特征［5］。Li 等［8］的研究证明基于计划复杂性特征建立的随机森林模型具有较高的敏感性。Hirashima等［23］证明计划复杂性特征与剂量组学特征相结合，可以提高模型的预测性能。但是，其剂量组学特征无法直接提供剂量验证不通过的原因。本研究综合计划复杂性特征和剂量学评估指标，建立基于随机森林算法的机器学习模型，预测剂量验证结果“通过”或“不通过”，采用的剂量学评估指标能在计划系统中直接计算得到，可以直观地分析剂量验证不通过的原因。研究结果显示，对于剂量模型，AUC 值为0.68，模型的性能一般，与其他两个模型的差别较大，这可能是由于构建模型所使用的特征较少。对于计划模型，AUC 值为0.8，优于Hirashima 等［23］的结果（AUC=0.73）。而综合复杂性特征和剂量学评估指标构建的混合模型，AUC 值达到0.82，均高于单独的剂量模型和计划模型，与Hirashima 等［23］的结果一致。Li等［8］的结果显示，敏感性对于剂量验证结果预测模型性能的评估也很重要。在本研究中，与其他模型相比，混合模型表现出更高的敏感性。进一步说明，综合计划复杂性特征和剂量学评估指标对提高预测模型的性能有积极的作用。在特征的重要性排序中，NS 的重要性评分最高，其次是BI 和MU。在Spearman 相关性分析中，NS 的相关系数最大，为-0.40，MU和BI的相关系数分别为-0.33和-0.31，均呈负相关。为了进一步分析这些特征辅助计划设计的可行性，对剂量验证结果影响最大的3个特征进行ROC 分析，结果与重要性分析和Spearman 相关性分析结果一致，NS 的AUC 值最大，为0.69，MU 和BI 分别为0.66 和0.64。王凯等［24］的研究表明子野数较少时通过率较高，迟子锋等［25］的研究也显示MU和子野数会影响剂量验证结果。

在重要性分析中，剂量学评估指标对剂量验证结果的影响整体上比复杂性特征弱，其中HI 的影响最大，其次是GI。本研究在计划设计时，使用动态调强技术形成多个小子野，子野的衔接会带来剂量偏差。剂量分布不均匀和剂量梯度较大时会产生更多以及更小的子野，而更狭窄的子野会带来更大的偏差［15］。因此在放疗计划设计阶段，需要在更好的剂量分布和剂量精确性中做出权衡。

训练模型的样本数量直接影响模型的预测能力。在本研究中对于模型达到稳定预测性能所需的样本量，剂量模型为1 200 个，计划模型为900 个，混合模型为700 个，而Lam 等［7］的模型需要1 000 个样本。此外，混合模型达到最佳性能所需的样本量最少，说明增加有效的特征可以降低建模所需的样本量。在数据量不够充足的情况下，可以适当增加有效的特征以提高模型的预测性能。

此外，本研究有一定的局限性，建模使用的数据来自同一台加速器，加速器的性能也会影响剂量验证结果，所以模型在其他机器上的预测效果不稳定。在未来的研究中，可以选取不同加速器的计划并增加与加速器性能有关的特征建立模型，进一步提高模型预测精度和泛化性能。

综上所述，基于计划复杂性特征和综合指标的模型均能较好地对剂量验证结果进行预测，增加剂量学评估指标并与计划复杂性特征综合，可以提高机器学习模型的预测性能，同时在一定程度上弥补样本数量的不足。此外，计划复杂性特征中NS 对剂量验证结果影响最大，虽然剂量学评估指标对剂量验证结果的影响整体上低于计划复杂性特征，但是HI 对剂量验证亦显示出了较大的影响，这些指标均有助于分析剂量验证结果“不通过”的原因。这些指标的结合，为剂量验证结果预测模型性能的改善和特征的选择提供有效的参考。