预后指数累计分布曲线拐点分析在卵巢癌患者预后分类中的运用*
2016-08-08彭湘旎钟洋王一任
彭湘旎,钟洋,王一任
(1.湖南师范大学附属中学,湖南 长沙 410006;2.湘潭大学 数学与计算科学学院,湖南 湘潭411105;3.中南大学 湘雅公共卫生学院,湖南 长沙 410078)
预后指数累计分布曲线拐点分析在卵巢癌患者预后分类中的运用*
彭湘旎1,钟洋2,王一任3
(1.湖南师范大学附属中学,湖南 长沙 410006;2.湘潭大学 数学与计算科学学院,湖南 湘潭411105;3.中南大学 湘雅公共卫生学院,湖南 长沙 410078)
目的了解卵巢癌(O VC A)患者的预后,帮助临床医师对O VC A患者制定科学合理的治疗方案。方法利用多重逐步C ox比例风险回归模型分析R N As表达数据,建立O VC A患者的预后指数(PI)模型。依据PI分布曲线的拐点,将O VC A患者分为高危组和低危组。结果由10个R N As表达数据计算得到PI值的累计分布曲线,有1个拐点(278.00,-0.780)。将552例O VC A患者分为高危组和低危组,中位生存时间分别为1 678 和1 058 d。经Log-rank检验,两组间生存率比较,差异有统计学意义(χ2=46.365,P=0.000),低危组生存率高于高危组。实例分析表明,利用PI曲线拐点对O VC A患者预后进行分类,具有较好的分类效果。结论用累计分布曲线拐点方法建立O VC A患者的预后分类模型,能进行很好分类,为O VC A患者的治疗和管理提供新的科学依据。
生存分析;预后指数;拐点;卵巢癌
卵巢癌(vari an cancer,OVCA)病死率居妇科恶性肿瘤的首位,其病理类型复杂,起病隐匿,缺乏特异性症状,尚无有效的早期诊断措施。初次诊断的患者中,晚期病例占70%左右。在临床治疗中,个体化程度低,疗效差,导致卵巢癌患者的复发率高,5年生存率徘徊在20%~30%[1-2]。因此,积极寻找卵巢癌预后相关因素,通过控制预后因素和给予患者精准的个体化治疗,以减少复发和延长患者的生存时间显得尤为重要。准确预测卵巢癌患者的预后成为进行个体化治疗的基础。卵巢癌的独立预后影响因子主要包括:国际妇产科协会(Federat i on Int ernat i onal of Gynecol ogy and Obst et ri cs,FIGO)分期、病理类型、肿瘤分化程度和残余肿瘤大小等。除此以外,肿瘤相关基因即肿瘤分子标志物对卵巢癌预后的预测价值不容忽视[3-5]。在以往的卵巢癌流行病学研究中,研究者通常把重点放在单一预后因素的比较分析上[2]。本研究拟采用综合指标——预后指数(prognosi si ndex,PI)综合分析卵巢癌相关肿瘤分子标志物的表达水平,结合累计分布曲线拐点分析,对卵巢癌患者预后的分类进行预测。预后指数为Cox比例风险回归模型(以下简称Cox回归模型)中反映患者个体预后情况的指标,具有足够的预后效能,能帮助临床医师对卵巢癌患者的预后进行准确分类,从而为个体化治疗方案的制定和调整提供科学依据[6-9]。
1 资料与方法
1.1资料来源
本研究中的资料来源于美国癌症基因组图谱(The Cancer Genom e At l as,TCGA)数据库中卵巢癌研究队列子数据库,利用开放的TCGA数据平台(ht t p://t cga-dat a.nci.ni h.gov/t cga)获得分析用的数据。数据为生存分析中随访研究搜集的原始资料,包括552例卵巢癌患者的生存时间、是否截尾的信息,以及患者的12 042种m RNAs、799种m i croRNAs基因的表达数据等。
1.2资料的前期处理
首先对RNAs数据进行对数转换,接着采用单因素Cox回归分析对12 841种RNAs进行单因素分析,初步筛选并获得对患者生存有影响的RNAs,即获得卵巢癌相关的可能基因。
1.3卵巢癌相关基因的预后预测模型
1.3.1多重逐步C ox回归模型对初步筛选获得的多个可能相关基因,采用多重逐步Cox回归分析,同时分析多个RNAs对生存时间和生存结局的影响,从中再筛选并获得对患者预后有影响的RNAs,建立Cox回归模型。
1.3.2预后指数模型Cox回归模型中的线性部分βiXi+βjXj+…+βkXk与风险函数h(t)成正比,即风险越大,其值越大,因此Cox回归模型的线性部分反映一个个体的预后,称βiXi+βjXj+…+βkXk=PI为预后指数。预后指数越大,患者风险越大,预后越差;反之预后指数越小,预后越好[6,10]。
1.4预后指数累计分布曲线拐点分析
以累计频数为横轴,预后指数为纵轴,绘制预后指数累计频数分布图,可以估计频数在某预后指数值上、下,或某2个预后指数值之间。当样本含量足够大且组距很小时,累计频数分布图就成为累计分布曲线[7]。
曲线拐点的数学定义为,若曲线图形在一点由凸转凹,或由凹转凸,则称该点为拐点,拐点是使切线穿越曲线的点。在平面图中,曲线图形为凸或凹,此时横轴值的变化将引起纵轴值出现相应的变化,该变化量用曲线的斜率来描述,曲线的斜率即函数的一阶导数(横轴变量的增量趋于0时,纵轴变量增量和横轴变量增量比值的极限)。函数的二阶导数描述函数斜率的变化率,凹、凸形曲线的二阶导数分别为正和负。二阶导数为正,意味着该点的斜率是递增的,即纵轴变量随横轴变量增大而增加得越多,反之则越少。若曲线图形在拐点由凹转凸或凸转凹,即二阶导数由正变成负或负变成正,二阶导数为0的点即为笔者寻找的拐点[11-12]。
当预后指数累计分布曲线存在拐点时,拐点两侧的变量个数都会增多,但在拐点处没有增加;预后指数值在其取值范围内分布有聚集性。求得拐点处的预后指数值,即可对患者的预后类别做精确分类,继而通过比较各组间的生存过程包括生存曲线、生存率,考察基于预后指数累计分布曲线拐点分析的卵巢癌患者预后分类效果。
1.5统计学方法
采用SPSS 18.0统计软件进行数据分析,应用多重Cox回归分析,获得预后指数的计算模型;对预后指数的累计分布曲线拟合函数求二阶导数,获得曲线拐点,并应用拐点对卵巢癌患者的预后情况分组;采用Log-rank检验进行组间比较,P≤0.05为差异有统计学意义。
附表 逐步C ox回归分析
2 结果
2.1单因素分析
对552例卵巢癌患者的12 042种m RNAs、799 种m i croRNAs基因的表达数据,运用单因素Cox回归分析进行单因素分析,初步筛选并获得对卵巢癌患者生存有影响的37种RNAs,其中34种m RNAs、3种m i croRNAs。
2.2多重逐步C ox回归分析
对单因素Cox回归分析初步筛选的37个可能相关基因的表达数据,采用多重逐步Cox回归分析,同时分析这37个RNAs对生存时间和生存结局的影响,结果显示,10个RNAs对患者预后有影响,通过筛选成为卵巢癌的预后因子(见附表)。从而得到预后指数PI的计算公式为:
PI=-0.515(OVGP1.1)-0.439(PRAM E.1)+0.724 (LYVE1.1)+…+0.557(C1orf 114.1)。
2.3预后指数的累计分布曲线分析
2.3.1预后指数分别将10个基因的表达数据代入预后指数的计算公式,得到552例卵巢癌患者的预后指数值。绘制预后指数累计分布曲线,并进行函数拟合,获得Cubi c函数曲线(R2=0.986)。见图1。
PI=3.231×10-8×(频数)3-2.692×10-5×(频数)2+ 0.009×(频数)-1.983
2.3.2预后指数累计分布曲线拐点Cubi c函数曲线图形自左到右呈由凸转凹,即二阶导数由负变成正,二阶导数为0的点即为笔者寻找的拐点。计算该函数的二阶导数:
PI''=6×3.231×10-8×(频数)-2×2.692× 10-5=19.386×10-8×(频数)-5.384×10-5
图1 预后指数PI累计分布曲线
令二阶导数PI''=0,得(频数)≈278,代入Cubi c函数曲线,计算得PI=-0.78,获得点(278,-0.78)即为曲线的拐点。以PI=-0.78将552例卵巢癌患者分为高危组和低危组,绘制两组Kapl an-M ei er生存曲线(见图2),两条生存曲线无交叉,对两组生存率比较,经Log-rank检验,差异有统计学意义(χ2=46.365,P= 0.000)。高危组和低危组患者的中位生存时间分别为1 678和1 058 d,低危组患者的生存率较高,结果表明,预后指数分布曲线拐点能将卵巢癌患者精确地分为高危组和低危组。
图2 Kapl an-M ei er生存曲线
3 讨论
在卵巢癌患者的预后预测中,卵巢癌相关基因即卵巢癌肿瘤分子标志物表达的预测作用不容忽视。近几年来,RNAs与卵巢癌预后的相关性得到较多的关注[3-6]。本研究基于对12 841种RNAs表达数据分析,建立多重Cox回归模型,获得反映个体预后的指标——预后指数的计算模型[6-7]。对预后指数累计分布曲线拟合函数求二阶导数,获得曲线拐点[11]。
本研究的预后指数累计分布曲线有一个拐点,依据拐点处的预后指数值将卵巢癌患者的预后分成高危组和低危组。对高危组和低危组卵巢癌患者的生存率进行比较,低危组患者的生存率高于高危组的,中位生存时间低危组患者的为高危组患者的1.6倍(1 678/1 058),显示预后指数分布曲线拐点能将卵巢癌患者的预后进行精确分类,即利用预后指数累计分布曲线拐点分析,对卵巢癌患者预后具有较好的分类效果[6,9-10]。
综上所述,基于卵巢癌相关的RNAs表达数据建立的预后指数模型,结合累计分布曲线拐点分析,能帮助临床医师对卵巢癌患者的预后进行较精确的分类,为卵巢癌患者的治疗和管理提供新的依据。
[1]Choi M,Ful l er CD,Thom as CR,et al.Condi t i onal survi val i n ovari an cancer:resul t s f romt he SEERdat aset 1988-2001[J]. Gynecol Oncol,2008,109:203-209.
[2]刘侃,陈红晓,张虹.晚期卵巢癌预后相关因素分析[J].现代妇产科进展,2010,19(12):918-921.
[3]蔡晶,王泽华.肿瘤标志物预测卵巢癌预后的价值[J].中国实用妇科与产科杂志,2015,31(3):226-229.
[4]Cao J,Cai J,H uang D,et al.m i R-335 represent s an i ndepen-dent prognost i c m arker i n epi t hel i al ovari an cancer[J].Am J Cl i n Pat hol,2014,141(3):437-442.
[5]Lee CH,Subram ani an S,Beck AH,et al.M i croRNA prof i l i ng of BRCA1/2 m ut at i on-carryi ng and non-m ut at i on-carryi ng hi ghgrade serous carci nom as of ovary[J].PLoS One,2009,4(10):DOI: 10.1371/j ournal.pone.0007314.
[6]孙振球.医学统计学[M].第4版.人民卫生出版社,北京:2015.
[7]方积乾.卫生统计学[M].第7版.人民卫生出版社,北京:2013.
[8]夏耀雄,李文辉,王晓莉,等.新的预后指数模型GPA在肺癌脑转移中的应用分析[J].昆明医科大学学报,2012(6):113-117.
[9]余红梅,何大卫.预后指数在慢性病及肿瘤病人长期生存预测中的应用[J].中国公共卫生,2001,17(8):749-750.
[10]Cox DR.Regressi on m odel s and 1i f e-t abl es(wi t h di scussi on)[J]. Journal of t he Royal St at i st i cal Soci et y,1972,34:187.
[11]陈玉.曲线拐点的判别法[J].高等数学研究,2008,11(5):9-10.
[12]白晓东.曲线拐点差别法的研究[J].职大学报,2004(4):16-23.
(童颖丹编辑)
Application of cumulative distribution curve inflection point analysis of prognosis index in prognosis of ovarian cancer patients*
Xiang-ni Peng1,Yang Zhong2,Yi-ren Wang3
(1.High School Attached to Hunan Normal University,Changsha,Hunan 410006,China;2.School of Mathematics and Computational Science,Xiangtan University,Xiangtan,Hunan 411105,China;3.Xiangya School of Public Health,Central South University,Changsha,Hunan 410078,China)
Objective To understand the prognosis of ovarian cancer,and help clinicians to make scientific and reasonable treatment plans for ovarian cancer patients.Methods Using the Cox's proportional hazards regression equation method,a prognostic index(PI)was constructed for ovarian cancer patients.With the individual inflection point of the prognostic index curve,ovarian cancer patients were classified to high-risk group and low-risk group.Results The cumulative distribution curves were established using the expression data of 10 RNAs,and 1 inflection point(278.00,-0.780)was obtained.Using this inflection point,552 ovarian cancer patients were divided into high-risk group and low-risk group,and the median survival time of the two groups was 1,678 days and 1,058 days respectively.Log-rank test showed that the survival rate of the low-risk group was significantly higher than that of the high-risk group(χ2=46.365,P=0.000).Case analysis showed that the inflection point of the prognostic index curve had good classification effect on the patientswith ovarian cancer.Conclusions The prognosis model of ovarian cancer patients based on the inflection point of the cumulative distribution curve can accurately classify the prognosis of ovarian cancer patients,which will provide a new scientific basis for the treatment and management of ovarian cancer patients.
survival analysis;prognostic index;inflection point;ovarian cancer
R 737.31
B
1005-8982(2016)05-0124-04
10.3969/j.i s s n.1005-8982.2016.05.027
2015-12-24
*
湖南省哲学社会科学基金(No:14YBA395)
王一任,E-m ai l:bri ght wyr@hot m ai l.com