基于诊断肺癌病人生存时间的两种回归模型的比较
2013-04-29孟凡秀
【摘要】近年来,我国肺癌发病率一直居高不下,研究肺癌病人的生存时间,帮助医学工作者制定相应的医疗方案就显的尤为重要。我们随机的调查了40名肺癌患者的生存资料,分别通过了逐步回归模型和Logistic回归模型,通过对两种模型计算结果的比较,来说明逐步回归也是很适合做患者的生存时间预测。通过对患者的生存时间进行了客观地预测和控制,从定量的角度分析患者的生存时间,这对医学工作者具有一定的借鉴作用。
【关键词】Logistic回归;肺癌;生存时间;逐步回归
1.引言
在实际问题中,人们总是希望从对因变量y有影响的诸多变量中选择一些变量作为自变量,应用多元回归分析的方法建立“最优”回归方程以便对因变量进行预报或控制。Logistic回归的因变量可以是二分类[1],也可以是多分类,但是二分类的更为常用,也更加容易解释,所以实际中最常用的就是二分类Logistic回归。Logistic回归模型主要在流行病学中较多[2],比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,为医学工作这提供一定的借鉴。本文中我们应用了两种回归模型来进行生存时间预报,通过比较两种模型的结果,来说明逐步回归模型也是很适合做肺癌病人的生存时间预测的,从而做回归预测时就不局限于Logistic回归模型,从而为医学上诊断病情提供了更加广泛的预测方法。
2.两种回归模型
2.1 逐步回归法
逐步回归的基本思想是:对全部因子按其对y影响程度大小,从大到小地依次逐个地引入回归方程,并随时对全部变量进行检验,看其是否仍然显著,如不显著就将其剔除,直到回归方程中所含的所有变量对y的作用都显著是,才考虑引入新的变量。再在剩下的未选因子中,选出对y作用最大者,检验其显著性,显著着,引入方程,不显著,则不引入。直到最后再没有显著因子可以引入,也没有不显著的变量需要剔除为止。
逐步回归分析时在考虑的全部自变量中按其对y的贡献程度大小,由大到小地逐个引入回归方程,而对那些对y作用不显著的变量可能是中不被引入回归方程。另外,已被引入回归方程的变量在引入新变量进行F检验后失去重要性时[3],需要从回归方程中剔除出去。
4.结论
通过比较,两种回归模型所得到的结果几乎是相同的。即:若患者的生活行动能力评分相同,当时,鳞癌患者的生存时间大于等于200天的概率最大,为66.68006%;大型细胞癌患者生存时间大于等于200天的概率最小,为6.404569%;小型细胞癌患者、腺癌患者生存时间生存时间大于等于200天的概率分别是39.37706%和17.41164%,且鳞癌患者的生存概率是大型细胞癌患者生存概率的11倍。所以我们可以得到,逐步回归也是很适合做流行病的预测和诊断。
参考文献
[1]薛毅,陈立萍.统计建模与R软件[M].北京:清华大学出版社,2006:279-335.
[2]魏宗舒.概率与数理统计教程[M].高等教育出版社,1983.
[3]余锦华,杨维权.多元统计分析与应用[M].广州:中山大学出版社,2005.
[4]Trevor Hastie,Robert Tibshirni,Jerhome Friedman.The Element of Statistical Learning Data Mining,Inference,and Prediction.Print5 edtion,2011.
[5]王斌会.多元统计分析及R语言建模[M].广东:暨南大学出版社,2010:130-138.
[6]陈锋.医用多元统计分析方法[M].北京:中国卫生统计出版社,2001:109-124.
作者简介:孟凡秀(1986—),女,山东枣庄人,硕士研究生,主要从事运筹学、供应链库存管理方面的研究。