APP下载

基于多类支持向量机递归特征消除方法特征选择的原发性肝癌患者预后预测*

2019-04-20李琳杨日东王哲杨红梅华赟鹏周毅张学良

生物医学工程研究 2019年1期
关键词:无瘤错误率特征选择

李琳,杨日东,王哲,杨红梅,华赟鹏,周毅,张学良△

(1.新疆医科大学,乌鲁木齐 830011;2.中山大学中山医学院,广州 510080;3.中山大学第一附属医院,广州 510080)

1 引 言

原发性肝细胞癌(hepatocellular carcinoma,HCC)是全球最常见的恶性肿瘤之一,预计未来几年这一疾病负担会骤增[1]。

使用临床数据建立原发性肝癌预后预测模型,将对肝癌的预防和治疗起到推动性的作用。然而由于临床数据呈现高维度、多样化的特点,造成预后预测模型性能下降,即出现了模式分类维度灾难。特征选择可以减少特征数量,删除无关、冗余或有噪声的数据,加快数据挖掘算法的速度,提高预测精度[2],是数据预处理中重要且常用的技术之一[3]。

支持向量机[4](support vector machine,SVM)是有监督的分类算法,分类性能优越,其参数如惩罚因子的值取决于样本的数量而不是特征的数量,与样本-特征的数量比率几乎无关,此模型在各种应用上都有比较稳定的分类性能,可以很好地适应高维小样本数据[5]。正因为这些良好的特性,SVM也被扩展成了封装(Wrapper)的特征选择方法[6]。本研究使用Duan[7]提出的MSVM-RFE对影响患者3年无瘤生存时间(disease-free Survival,DFS)和总体生存时间(overall survival,OS)的影响因素进行重要性排序。Duan在多个数据集上验证了该方法相较于SVM-RFE有更好的稳定性,能选择更好的特征子集,并提高癌症分类的准确性。该方法目前广泛应用于图像处理[8]、文本分析[9]、生物信息处理[10]等应用领域。与其他特征选择方法相比,MSVM-RFE是一种可伸缩、高效的包装方法。

本研究将排序结果与临床医生沟通,将重要特征排序结果依次纳入SVM模型来确定最优特征子集。最后将最优特征子集纳入COX比例风险模型(proportional hazards model,COX),构造能够反映患者1年、3年无瘤生存和总生存风险的列线图(Nomograms)。

2 资料与方法

2.1 病历资料

本研究收集了2005年至2009年在广东省某三甲医院收治的386例肝肿瘤患者的临床资料,包括患者的人口学特征,家族史,体格检查以及术前最近一次的实验室检查。患者的人口学特征包括患者性别、年龄(≥60和<60)、家族史。在根治性肝切除术前获得了患者的白细胞计数(WBC)、红细胞计数(RBC)、血红蛋白(Hb)、血小板计数(PLT)、尿素氮(BUN)、丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、γ-谷氨酰转肽酶(rGGT)、总胆红素(TBIL)、白蛋白(ALB)、甲胎蛋白(ALP),并依据医学参考值范围分为正常值和异常值。此外还获得患者的乙肝表面抗原(HBsAg)的信息,患者是否有门静脉癌栓瘤栓(PVTT)、肝静脉瘤栓(HVT)、胆管瘤栓(BDT)、下腔静脉瘤栓(IVCT)、大血管侵犯、脉管侵犯、周围器官侵犯、并发症、淋巴结转移的信息。肿瘤大小使用最大肿瘤直径。本研究还将反应机体炎症特征的嗜中性粒细胞/淋巴细胞比例(neutrophil to lymphocyte ratio,NLR)作为分析变量。

2.2 方法

首先对数据进行预处理,删除无生存时间记录的样本之后共386名患者纳入研究,样本缺失率约为4.299%,为保证数据样本量,采用最近邻(KNN)插补,获得完整数据集。采用MSVM-RFE特征选择的方法对34个临床特征进行特征排序,通过评估SVM的错误率和受试者工作特征曲线(receiver operating characteristic curve,ROC)下面积(area under curve,AUC),选出最优特征子集,最后构造原发性肝癌患者的1年、3年无瘤生存和总体生存的Nomograms。所有统计分析均在R软件中实现,其中Nomograms采用rms包中的nomogram函数。

2.2.1MSVM-RFE 2002年,由Guyon[11]等人共同提出了一种支持向量机递归特征消除方法(recursive feature elimination based on support vector machine,SVM-RFE),是一种SVM和后向删除搜索策略结合的高性能Wrapper特征选择方法。其中心思想就是寻找一个最优分类面,使其分类面两边的分类间隔可以达到最大[12]。Duan[7]提出了一种与SVM-RFE相似的特征选择算法,但是在每个步骤中,使用多个线性权重向量的统计分析来计算排序分数,在每次迭代中使用交叉验证以稳定特征排名,该方法成为MSVM-RFE。

2.2.2Nomograms Nomograms是一种综合分析多个定量变量和定性变量以预测某特定事件发生的图画法预测模型[13]。模型可以基于Logistic模型和Cox模型,将其结果用直观的图对个体患者进行风险评估。Nomograms根据模型回归系数的大小来制定评分标准,对每个自变量的每种取值进行评分,对每个患者,就可计算得到一个总分,再通过得分与结局发生概率之间的转换函数,计算每个患者的结局时间发生的概率。目前该模型已经受到广大患者和临床医师的认可,并应用于预后风险评估工作。

对于Nomograms的评价指标采用一致性指数 (concordance index, C-index),C-index在意义上与AUC相同,即出现结局事件的患者的预测值高于未出现结局事件的患者的比例[14]。

3 结果

3.1 SVM-RFE特征排序

通过10折交叉验证的MSVM-RFE特征选择对386名患者的34个临床特征进行排序,影响3年无瘤生存时间和3年总体生存时间的重要特征排序结果见表1、表2,平均排序的分数越低,说明该变量越重要。

表2 影响3年总体生存时间的特征

3.2 SVM预测模型

MSVM-RFE的递归过程产生了嵌套的特征子集,但并不产生最优子集数量。为了选取最佳特征子集数量,本研究按照特征排序的结果,依次将特征带入SVM模型来预测患者的存活时间。通过5折交叉验证得到SVM的错误率和ROC曲线下面积,绘制特征数目与癌症生存预测准确度的关系图(见图1、图2),横坐标为特征数,纵坐标代表错误率。从图上可以看出,其生存预测的错误率会随着特征数目的增加,先降低后增加,见图1,当选取的特征数≥6 之后,错误率开始上升,AUC逐渐下降。当纳入前6个特征时,SVM模型的错误率最低为25.38%, ROC曲线下面积为0.7162。图2则表示纳入前16个变量时,SVM的错误率最低,ROC曲线下面积最高。因此,当构造3年无瘤生存时间和3年总体生存时间的COX比例风险模型时,分别纳入6个和16个特征。

图1 预测3年无瘤生存时间模型的错误率和AUC

Fig1TheerrorrateandAUCofpredictionmodelfor3-yearsDFS

3.3 Nomograms

根据SVM-RFE和SVM确定最优子集,并纳入COX比例风险模型,构建患者1年、3年无瘤生存率的Nomograms。图3为原发性肝癌患者手术后的1年、3年的无瘤生存的Nomograms。在构造患者1年、3年总生存率的Nomograms时,使用向前逐步回归的COX的比例风险模型对16个临床特征进行建模,有6个特征为COX回归的显著性变量,结果见图4。表3 为Nomograms中的各特征变量的含义。

图2 预测3年总体生存时间模型的错误率和AUC

Fig2TheerrorrateandAUCofpredictionmodelfor3-yearsOS

图3 1年、3年的无瘤生存的Nomograms

特征类型含义肿瘤大小数值最大肿瘤直径(cm)肿瘤个数离散1=多发,0=单发淋巴结转移离散1=有淋巴结转移,0=无腹水离散1=有腹水,0=无脉管侵犯离散1=有脉管侵犯,0=无TBIL离散1=异常值,0=正常值ALB离散1=异常值,0=正常值rGGT离散1=异常值,0=正常值LDH离散1=异常值,0=正常值

校准验证到患者1年、3年无瘤生存风险和总生存风险的Nomograms,C-index分别为0.701和0.706。

对于Nomograms,患者的每个特征都有对应的变量轴,在变量轴向上绘制一条直线以确定每个变量值。这些数字的总和位于总点轴上,并且向下延伸到生存轴以确定3年或1年存活的可能性。如在图3中,肿瘤单发(Points≈32),最大肿瘤直径为15(Points≈50),没有腹水(Points≈15)、没有淋巴结转移(Points≈40),TBIL和ALB为异常值(Points=0),Total Points=137;将此数值在Total points轴上向Risk概率轴投射,则可知风险大概在0.2~0.25左右。

图4 1年、3年总生存的Nomograms

4 讨论

本研究基于MSVM-RFE的特征选择的方法,对386名原发性肝癌患者的34个临床变量进行特征排序,该方法将原始特征集合中与分类器关联性小、冗余的特征先去掉,然后再次循环进行筛选,直至原始集合中没有特征为止,得到一个按照相关性排序的特征列表。这种方法在处理非线性、样本数目少、空间维度高的问题上尤为有效。

本研究选择10折交叉验证作为重采样方法,使用MSVM-RFE对影响患者3年无瘤生存时间和总生存时间的因素进行重要性排序,与临床医生沟通,确认特征排序结果合理。使用5折交叉验证的SVM,确认影响患者3年无瘤生存时间和总体生存时间的最优特征子集。由图1、图2发现,特征数量可以影响SVM模型预测的准确性,即模型的错误率会随着特征数目的增加,先降低后增加,AUC先下降后上升。在构造3年无瘤生存时间的COX比例风险模型时,纳入前6个变量时的SVM模型的错误率(25.38%)最低,AUC(0.72)最高。分析3年总生存时间的COX模型时,纳入前16个特征的SVM模型的预测错误率最低,为26.41%,AUC最高,为0.73。

将最优子集纳入COX比例风险模型,得到无瘤生存预测模型和总生存预测模型的最小信息准则值(akaike information criterion,AIC)为2529.49和2362.49,。为验证MSVM-RFE特征选择方法是否能够提高预测模型的准确度,本研究将所有特征变量带入COX比例风险模型,得到无瘤生存时间和总生存时间预测模型的AIC值分别为2368.58和2530.301。进行过特征选择之后,COX比例风险模型的AIC值有所下降,证明先对原发性肝癌患者进行MSVM-RFE特征选择,再进行建模能够提高模型的拟合优度和准确度。

最后构建了患者1年、3年无瘤生存风险和总生存风险的Nomograms,其C-index分别为0.701和0.706。该Nomograms在一定程度上可以为原发性肝癌患者提供术后生存风险信息。本研究仍有潜在的局限性需要考虑。HCC患者的随访时间较短,为了更全面的分析患者的术后生存状况,需要进行长期随访后再进一步分析。本研究的数据集仅包括386名患者,且所有数据来源于同一家医院,为了覆盖更多人群,获得更加个体化的预后分析,需收集其他地区医院的HCC患者信息。本研究为保证样本量,对个别缺失值进行插值处理,其结果可能会影响结果。虽然MSVM-RFE现在成为了生物信息学等领域中的研究热点,这种方法属于后向循环消去、包装式算法,因此存在计算相对复杂、收敛速度较慢等问题。

猜你喜欢

无瘤错误率特征选择
限制性随机试验中选择偏倚导致的一类错误率膨胀*
清单式无瘤技术在腹腔镜辅助远端胃癌根治术中的应用效果
93例胰腺导管腺癌患者的临床预后分析
正视错误,寻求策略
Kmeans 应用与特征选择
解析小学高段学生英语单词抄写作业错误原因
腹腔镜治疗妇科恶性肿瘤手术中应用无瘤技术的护理配合
联合互信息水下目标特征选择算法
手术室护士知—信—行模式在恶性肿瘤根治术无瘤技术培训中的应用研究
降低学生计算错误率的有效策略