支持向量机在预测鼻咽癌患者5年生存状态中的应用*
2013-09-14杨胜利何兴平彭明尧朱江红
高 云,杨胜利,何 蓉,何兴平,彭明尧,代 军,朱江红,胡 军,苏 敏,庞 洁
(四川省攀枝花市中心医院,四川 攀枝花 617067)
鼻咽癌是我国南方常见的恶性肿瘤之一,恶性程度高,局部生长快,远处转移率高。放射治疗(以下简称放疗)是治疗鼻咽癌的首选方法,目前该技术有了显著进步,但患者5年生存率仍徘徊在60%左右。如果能比较准确地预测不同患者的预后,也就为临床决策的个体化提供了可能,从而实现临床决策的科学化,并进一步提高鼻咽癌的控制率及患者的生存率。涉及鼻咽癌患者5年生存状态的指标多种多样,产生的大量数据和海量信息已远远超出了人的分析和处理能力。采用何种手段对海量信息进行分析、综合,发现数据间潜在的关系,最终形成可供临床使用的决策知识已成当务之急,数据挖掘技术应运而生[1-2]。人工神经网络(artificial neural network,ANN)和支持向量机(support vector machine,SVM)是数据挖掘中广泛采用于建立预测模型的方法[3]。本研究旨在利用ANN和SVM建立预测模型来判断患者5年后的生存状态,并对两种模型的预测效能进行评估,探索鼻咽癌预后研究的新方法。
1 资料与方法
1.1 一般资料
初选2005年1月至2007年12月我院诊治的鼻咽癌患者155例。入组标准:经鼻咽镜活检病理证实为鼻咽癌;初诊患者;接受放疗;研究所需各项临床资料齐全;从治疗结束随访满5年。共130例患者入组。其中男97例,女33例,男∶女=3∶1;年龄31~75岁,中位数56岁;随访截止时间2007年12月17日,至随访终止时共有46例死亡,死亡率为35.38%。将入组患者按照入院时间顺序和4∶1的比例分为两组,一组作为训练样本,用于筛选变量及建立预测模型,计104例;一组作为验证样本,用于评价模型效果,计26例。
1.2 治疗方法
放疗方案:所有患者均接受放疗,以60Co或直线加速器6~8 MV的X线为主,辅以深部X线,鼻咽剂量66~76 Gy,6~8周完成;颈部剂量 50~70 Gy,5~7周完成;每次2 Gy,每天1次,每周5 d照射。
化疗方案:130例患者中有29例未接受化疗,其余101例接受化疗的患者中61例接受同步放化疗(放化疗同时进行),40例接受序贯放化疗(放疗结束后再化疗)。均采用PF方案,顺铂(DDP,注射剂,规格为每支30 mg,江苏豪森药业股份有限公司)30 mg/m2,静脉滴注,第1~3天给药;氟尿嘧啶(5-Fu,注射剂,规格为每支0.25 g,天津金耀氨基酸有限公司)500~750 mg/m2,静脉滴注,第1~5天给药;21 d为1个周期,总共4~6个周期。
1.3 观察指标
观察指标包括性别、年龄、T分期、N分期、M分期、92福州分期、卡氏生活质量评分(KPS评分)、家族史、病理分化类型、有无颅底骨质破坏、有无颅神经损伤、有无咽旁间隙侵犯、颈部最大淋巴结直径、颈部淋巴结数目、颈部淋巴结活动度、确诊到放疗时间、完成放疗时间、放疗是否连续、放疗前血红蛋白(Hb)含量、放疗末Hb含量、鼻咽放疗剂量、颈部放疗剂量、鼻咽疗效、颈部淋巴结疗效、放化疗联合方式、化疗周期数、EB病毒VCA-IgA滴度、血清LDH水平以及治疗后5年生存状态共29项。以治疗后第5年末的生存状态作为因变量,而以其余的28项观察指标作为自变量。
1.4 单因素分析
首先对训练样本的上述观察指标进行单因素分析,筛选出组间差异有统计学意义的指标,作为建模变量。采用SPSS 2.0版统计软件,对计量资料进行正态性分析,采用独立样本t检验;对计数或等级资料使用 χ2检验,如果出现行×列表资料中有格子的理论频数(T)<1或1≤T<5的格子数超过格子总数的20%,则使用Fisher精确概率法。
1.5 人工神经网络(ANN)建模
ANN是医学领域中广泛用于建立预测模型的方法,是在现代神经生物学研究成果的基础上发展起来的一种模拟人脑信息处理机制的信息分析处理系统[4]。本研究利用软件MATLAB R2012a 中的神经网络工具箱(neural network toolbox 7.0.3)来进行ANN预测模型的建模、训练和仿真。采用前馈型反向传播神经网络(BP网络),网络结构为3层,包括输入层、隐含层和输出层。输入层神经元为单因素分析确定的有统计学差异的观察指标,输出层神经元为5年生存状态(生或死),隐含层神经元数目由经验公式及多次试验确定。经验公式为其中ni为输入层神经元数目,n0为输出层神经元数目,a为常数,且1<a<10。
1.6 支持向量机(SVM)建模
SVM由Vapnik在20世纪90年代中期提出,是一种广泛用于模式识别和分类问题的一种监督式机器学习技术。支持向量机的基本思想是将样本数据映射到一个更高维的空间,然后在这样的样本空间或特征空间里建立一个最大间隔超平面,使得超平面与不同类样本集之间的距离最大,这个距离叫做间隔(margin),边缘上的点叫做支持向量(support vector,见图1),从而达到将样本进行分类的目的[5]。与ANN相比,SVM具有很强的泛化能力、训练速度较快、能获得全局最优解等优点。本研究采用台湾大学林智仁开发设计的被全球广泛应用的SVM工具箱(libsvm 3.14)来进行SVM模型的训练、建模和预测工作。预测鼻咽癌患者5年生存状态的问题本质上是一个分类问题,SVM方法采用C-支持向量分类机(C-SVC),建模的核函数采用径向基核函数(RBF):K(u,v)=exp(-r|u-v|^2),并采用交叉验证(CV)来选择CSVC的惩罚参数C以及RBF的参数γ的最佳取值。交叉验证采用K-折交叉验证(K-fold CV),由于本研究样本规模不大,K取值为4。
图1 SVM原理—间隔及支持向量
2 结果
2.1 单因素分析
年龄、颈部最大淋巴结直径等10项计量资料指标经正态性检验,结果均符合正态分布,采用独立样本t检验,组间差异有统计学意义的为年龄、确诊到放疗时间(P<0.05)。对性别、T分期等18项计数或等级资料指标采用 χ2检验及Fisher精确概率法,组间差异有统计学意义的为T分期、N分期、M分期、92福州分期、KPS评分、有无颅底骨质破坏、有无颅神经损伤、有无咽旁间隙侵犯、鼻咽疗效、颈部淋巴结疗效(P<0.05)。单因素分析筛选出此12项指标作为建模变量。
2.2 ANN 模型
ANN预测模型输入层神经元为12个(即单因素分析筛选出的组间差异有统计学意义的12项指标),隐含层神经元由经验公式及多次试验确定为5个,输出层神经元为1个(即患者5年生存状态),最终确定神经网络的结构。经过网络迭代计算至MSE<0.001时,达到精度要求并保存模型参数,建立ANN预测模型。将验证样本代入确立的ANN预测模型求得其预测值并评估其效能(表1)。ANN模型预测患者5年生存状态的准确率、敏感度、特异度及 Youden 指数分别为 88.5% ,87.5% ,90.0% 和0.78,ROC 曲线下面积为 0.897(图 2)。
表1 5年生存状态预测模型效果评价
图2 5年生存状态预测模型ROC曲线
2.3 SVM 模型
SVM预测模型输入变量为12个(即单因素分析筛选出的组间差异有统计学意义的12项指标),输出变量为1个(即患者5年生存状态),经4-fold交叉验证,确定参数C以及r的最佳取值为C=32、r=10.5561,最终建立 SVM预测模型。将验证样本代入确立的SVM预测模型求得其预测值并评估其效能(表1)。SVM模型预测患者5年生存状态的准确率、敏感度、特异度及Youden 指数分别为 96.2% ,93.8% ,100% 和 0.94,ROC 曲线下面积为0.969(图2),优于ANN模型。
3 讨论
本研究建立预测模型所使用的ANN及SVM均是机器学习和数据挖掘中的常用技术,已在医学领域获得了广泛应用[6-9]。
ANN是近年来迅速发展起来的一门集神经科学、计算机科学、信息科学、工程科学为一体的边缘交叉学科,具有独特的信息存储方式、良好的容错性、大规模的并行处理方式以及强大的自组织、自学习和自适应能力。中山大学肿瘤防治中心的华贻军等[10]报道,利用ANN预测鼻咽癌患者5年生存状态的准确率、敏感度、特异度及 Youden 指数分别为 86.3% ,80% ,89.47% 和 0.664 3,与本研究所建立的ANN模型相比,准确率和特异度类似,但敏感性稍差,可能与建模指标选择有关。
SVM是从Vapnik的统计学习理论发展而来的,主要针对小样本数据进行学习、分类和预测的一种方法。与ANN相比,SVM具有以下主要的优点:传统的统计模式识别方法只有在样本趋向无穷大时,其性能才有理论的保证,而SVM是专门针对有限样本情况的,从而能在小样本条件下建立较好的预测模型;SVM算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题;SVM算法将实际问题通过非线性变换转换到高维的特征空间(Feature Space),在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,通过结构风险最小化原则,极大地增强了模型的推广能力,从而能解决神经网络不能解决的过度学习问题。本研究结果表明,与ANN模型相比,SVM模型能更好地整合各种影响患者5年生存状态的信息,所建立的预测模型也具有更高的准确率、敏感度及特异度,也就是说SVM模型具有更好的预测能力,能为临床决策提供更有力的支撑。
综上所述,采用SVM预测模型能较好地判断鼻咽癌患者5年后的生存状态,为个体化地预测患者的预后提供了一种新方法,其效能优于ANN预测模型。
[1]Nada Lavracea.Data mining and visualization for decision support and modeling of public health - care resources[J].Journal of Biomedical Informatics,2007,40:438 - 447.
[2]Riccardo Bella zziea.Predictive data mining in clinical medicine:Current issues and guidelines[J].International Journal of Medical Informatics,2008,77:81 -97.
[3]Kim SY,Moon SK.Preoperative prediction of advanced prostatic cancer using clinical decision support systems:accuracy comparison between support vector machine and artificial neural network[J].Korean J Radiol,2011,12(5):588-594.
[4]陈新平,张阳德.临床医学中的神经网络技术[J].中国现代医学杂志,2003,13(9):46 -50.
[5]Yu W,Liu T,Valdez R,et al.Application of support vector machine modeling for prediction of common diseases:the case of diabetes and pre-diabetes[J].BMC Med Inform Decis Mak,2010,10:16.
[6]王之龙,高 云,张晓鹏,等.人工神经网络模型基于胃癌生物学行为的MSCT影像信息判断淋巴结转移[J].中国医学影像技术,2011,27(6):1 218-1 222.
[7]Zhang XP,Wang ZL,Tang L,et al.Support vector machine model for diagnosis of lymph node metastasis in gastric cancer with multidetector computed tomography:a preliminary study[J].BMC Cancer,2011,11:10.
[8]Kim W,Kim KS,Lee JE,et al.Development of novel breast cancer recurrence prediction model using support vector machine[J].J Breast Cancer,2012,15(2):230 -238.
[9]Furey TS,Cristianini N,Duffy N,et al.Support vector machine classification and validation of cancer tissue samples using microarray expression data[J].Bioinformatics,2000,16(10):906 - 914.
[10]华贻军,洪明晃,郭 灵,等.应用人工神经网络方法预测鼻咽癌患者5年生存状态[J].肿瘤学杂志,2006,12(4):300-304.