基于SEER数据库的结直肠癌预后因素探讨及预后模型构建

2017-03-21，,2

中华医学图书情报杂志 2017年11期

，,2

结直肠癌包括结肠癌和直肠癌，是胃肠道中常见的恶性肿瘤。在2015年中国癌症统计和2017年美国癌症统计中，结直肠癌的发病率和死亡率在所有恶性肿瘤中均处在前5位[1-2]。根据美国SEER(Surveillance，Epidemiology and End Results)数据库的最新统计显示，结直肠癌患者5年生存率仅为64.5%，中国结直肠癌患者5年生存率比美国和欧洲更低[3]。因此，建立结直肠癌预后模型，对制定临床决策和改善结直肠癌预后具有重要意义。

近年来，随着机器学习的发展，越来越多的机器学习方法应用于医学模型的构建当。如2015年Kang J等[4]探讨了逻辑回归、支持向量机、人工神经网络等3种方法在预测放射治疗结果中的应用，Bunjira Makond等[5]应用贝叶斯网络方法对肺癌脑转移患者的短期生存能力进行预测，2016年Su Jili等[6]应用支持向量机和基因函数聚类构建喉癌复发模型，曹文哲[7]基于3种机器学习算法建立了前列腺癌诊断模型。在预后模型构建过程中，特征选择是非常重要的一步，也通常被视作数据挖掘的第一步。通过特征选择可以去除大量冗余信息和不相关特征的干扰，降低分析成本，提高准确率，提升模型性能[8]。因此，本文应用人工神经网络(Artificial Neural Network，ANN)分类算法，通过3种不同的变量筛选方法进行特征选择，分别建立结直肠癌预后模型，并进行进一步的比较分析。

1 三种特征选择方法简述

1.1 Logistic回归

Logistic回归中自变量选择的常用方法为逐步选择法。该法按照选入变量的顺序不同分为前进法(forward selection)、后退法(backward elimination)和逐步回归法(stepwise regression)，其共同特点是每一步只引入或剔除一个自变量Xj，决定其取舍则基于对偏回归平方和的F检验，即

(1)

1.2 贝叶斯模型平均法

在标准统计研究中，数据分析者通常从某些类别的诸多模型中选择一个模型，然后进行实验研究。这种模型选择方法忽略了模型的不确定性，会导致过度的推论和决定[10]。同样，如果只是针对一种或者少数几种模型进行特征选择，结果也是不准确的。而贝叶斯模型平均法(Bayesian Model Averaging，BMA)则弥补了这一不足，通过the fast leaps和bounds算法可遍历模型空间中的每一个模型[11]。

假设研究感兴趣的变量为Δ，可能存在的所有模型为M={M1，M2，…，MK}(如果有p个自变量，即特征变量，那么可能存在的模型将会达到2p个)。在给定数据集D的情况下，Δ的后验分布为：

(2)

式(2)中，Mk后验模型概率为：

(3)

公式(3)中，p(D|Mk)是模型Mk的边际似然概率，可由公式(4)得出：

(4)

公式(4)中，θk是模型Mk的所有参数向量。

由公式(2)、公式(3)、公式(4)可以得出Δ的后验分布，从而可以选择最优模型及其所包含的特征向量。

1.3 LASSO回归

(5)

公式(5)中，参数λ表示LASSO回归模型的复杂度，λ越大则惩罚力度越大，纳入模型的变量越少。LASSO回归克服了logistic回归逐步选择法的局限，并且保留了岭回归和子集回归的优点[12]。

2 模型构建

2.1 数据收集与预处理

从SEER数据库的Custom Data中提取被确诊为结直肠癌的患者信息。纳入标准为：肿瘤部位为结直肠且不含阑尾，确诊年份为2004-2009年；排除标准为：原位癌，信息缺失记录。最终共纳入65 145名患者信息，涉及24个预后变量。变量的详细信息见表1。

24个预后变量中有19个为分类型变量、5个为连续型变量。其中，19个分类型变量又包括6个二分类变量(性别、远处转移情况、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、机构类型)、有序多分类变量2个(肿瘤分期、组织分级)、11个无序多分类变量(种族、居住地、发病部位、病理类型、浸润程度、淋巴受累程度、手术类型、放疗顺序、放疗类型、婚姻状况、保险情况)。为避免因哑变量过多造成自由度变高而引发维数灾难以及变量的多重共线性等问题，在保证结果准确度的情况下，二分类变量和有序多分类变量无须设置哑变量，只对11个无序多分类变量设置哑变量即可。

表1 结直肠癌预后变量信息

模型的结局变量为生存状态(survive)，将生存期大于等于60个月的患者视为生存(编码为1)，不足60个月的患者视为死亡(编码为0)。其中，生存人数与死亡人数的比值为36841∶28304，比值接近1∶1，可视为平衡数据。

2.2 特征变量筛选

将数据集按7:3分为训练集和测试集，在训练集内分别用logistic回归、BMA和LASSO回归3种方法对特征变量进行筛选。

2.2.1 logistic筛选回归特征变量

本文设定了α=0.05，作为Logistic回归逐步选择法的纳入标准，一共纳入种族、性别、年龄、居住地、组织分级、病理类型、浸润程度、淋巴受累程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、肿瘤个数、婚姻状况和保险情况等18个特征变量。

Logistic回归、BMA、LASSO回归的结果信息见表2。

表2 Logistic回归、BMA、LASSO回归结果信息

2.2.2 采用贝叶斯模型平均法筛选特征变量

贝叶斯模型平均法可遍历模型空间中的每一个模型。本文共有24个特征变量，可能存在的模型个数将达到16 777 216个。因此，选取后验概率最高的Model1作为最佳模型，Model1内共包含16个特征变量：种族、性别、年龄、居住地、组织分级、浸润程度、淋巴受累程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、婚姻状况和保险情况。

为便于理解Model1，对其进行可视化(图1)。图1中每一行对应一个变量(哑变量)，每一列对应一个模型(本文只纳入了后验概率最高的model1)，红色矩形对应的变量(哑变量)与结局变量呈正相关，蓝色矩形对应的变量(哑变量)与结局变量呈负相关，白色矩形对应的变量(哑变量)未被纳入对应的模型中。

图1 BMA可视化

2.2.3 采用LASSO筛选回归特征变量

构建模型之前需要对自变量进行进一步的矩阵化处理，并设定响应变量为二分类变量。结果见图2。图中每一条线代表一个变量(哑变量)，左侧坐标轴为变量(哑变量)的系数，上侧坐标轴为变量(哑变量)个数，底部坐标轴为参数λ的对数值。

由图2可知，λ作为LASSO回归中一个非常重要的参数，可以调节模型内自变量的数目，因此确定一个最优的λ值极为重要。本文通过十折交叉验证方法确定的最优λ值见图3。

图2 LASSO回归

图3 十折交叉验证

由图3可以看出，不同的λ值(对数值)对应着不同的自变量数目和模型误差。

最优的λ值(对数值)应该对应最低的模型误差，即红色曲线的最低点，这时可以得到最优λ值为0.0003656017。模型共纳入48个变量(哑变量)，对应图3左侧的虚线。

此外，该算法还提供了在其一倍标准误内更简洁的模型，即图3中右侧的虚线所对应的模型，并且两个λ值对应的模型误差变化不大。因此最终选取λ值为0.004106892，这时共纳入30个变量(哑变量)。

30个变量(哑变量)可对应为19个特征变量：种族、性别、年龄、居住地、肿瘤分期、发病部位、组织分级、病理类型、浸润程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴结移除情况、是否化疗、是否为首要恶性肿瘤、肿瘤个数、婚姻状况和保险情况。

2.2.4 特征变量系数

Logistic逐步回归法、贝叶斯模型平均法和LASSO回归3种特征变量筛选方法的共同变量(哑变量)的系数见表3。

2.3 模型构建

基于3种不同的特征变量筛选方法，应用人工神经网络分类算法建立了3个预后模型，分别为logit_ANN、bma_ANN、lasso_ANN。此外，还构建了未进行特征选择的原始数据集基线模型(ANN)。上述各个模型的参数均相同。同时通过准确率、ROC曲线下面积等指标对模型性进行评价的详细结果见表4，ROC曲线见图4。

表3 特征变量系数

表4 各分类器性能比较

图4 ROC曲线

由表4可知，bma_ANN模型的性能最好。进一步优化bma_ANN模型，设定隐藏层个数为5，初始随机数权值为0.1，权值衰减参数为5e-4，最大迭代次数为200，可得到表4中的bma_op_ANN模型。

3 结果分析

3.1 结直肠癌预后相关因素的筛选

Logistic逐步回归、贝叶斯模型平均法和LASSO回归3种方法筛选出的预后影响因素各不相同，相同预后影响因素共有15个：种族、性别、年龄、居住地、组织分级、浸润程度、远处转移情况、受检淋巴结数量、阳性淋巴结数量、手术类型、淋巴转移情况、是否化疗、是否为恶性肿瘤、婚姻状况和保险情况。上述15个因素被3种特征选择方法均纳入模型中，说明这些因素很大程度上会影响结直肠癌的预后，是决定结直肠癌患者5年生存状态的关键因素。3种特征选择方法均排除的变量有4个：肿瘤大小、放疗顺序、放疗类型和机构类型，说明肿瘤的大小、放疗与手术的先后顺序、采取何种放疗方法以及患者的就诊机构对结直肠癌患者5年生存状态的影响甚微，作用几乎可以忽略。剩余的肿瘤分期、发病部位、淋巴受累程度、病理类型和肿瘤个数等5个特征变量因变量筛选方法的不同而被纳入不同的模型。

通过表3进一步研究特征变量对结局变量的作用方向。由表3可知，虽然3种特征变量筛选方法所筛出的共同变量(哑变量)在各自模型内的系数互不相同，但是同一变量(哑变量)在3种筛选方法内的系数的正负情况却基本一致(除哑变量extension2外)。系数为正值的变量(哑变量)与结直肠癌患者5年生存状态呈正相关关系，系数为负值的变量(哑变量)与其呈负相关关系(这种关系阐释多用于连续型变量和有序分类型变量)。由此可以区分预后危险因素和预后保护因素。变量age属于预后危险因素，说明年龄越大患者5年生存概率越小；而变量scope则属于预后保护因素，说明一定程度上移除淋巴结数量的增多有利于改善患者的5年生存状态。

3.2 特征变量选择方法与模型性能的关系

根据表2和表4可知，ANN、logit_ANN、bma_ANN和lasso_ANN模型纳入的特征变量的个数分别为24个、18个、16个和19个，4个模型对应的准确率分别为70.78%、66.45%、72.96%和72.88%。特征变量个数排名为ANN>lasso_ANN>logit_ANN>bma_ANN,而准确率排名为bma_ANN>lasso_ANN>ANN> logit_ANN。因此，模型准确率与其纳入的特征变量个数并无直接关系，并不是特征变量越多越全，就可以得到很高的模型准确率。此外，不考虑数据集的类型以及建模所用方法的特点，直接对数据集进行Logistic回归并通过逐步选择筛选特征变量的做法并不可取。针对本文所用的结直肠癌患者预后信息数据集，应用人工神经网络构建预后模型，Logistic逐步回归法反而导致了基线模型准确率的下降，而另外两种变量筛选方法则对基线模型的准确率有一定的提升。所以，应该根据不同的数据类型、建模方法和研究目的，选择更为合适的特征变量筛选方法，而不是不考虑实际情况，贸然使用最为常见的Logistic逐步回归法。

3.3 提升预后模型准确率的意义

基线模型的准确率为70.78%，最后获得的最优模型bma_op_ANN的准确率为73.18%。从数值上看，准确率只提升了2.4%，但是鉴于医学数据的复杂性且基数庞大，提升2.4%具有一定的实际意义。基线模型预测正确的例数为15 820例，而bma_op_ANN模型预测正确的例数为15 890例，多出70位患者的5年生存状态被正确预测，可节约大量的医疗资源。我国结直肠癌每年新发病例高达30万，并且每年增加4%[13]。因此，在实际应用中，结直肠癌预后模型准确率每提升1%，就相当于多成功预测3 000名结直肠癌患者的5年生存状态，对节省医疗开支和促进医疗资源的合理利用有一定的积极作用。