APP下载

右删失数据下比例风险混合治愈模型的贝叶斯自适应Lasso

2022-08-08王纯杰朱笑莹刘新蕊罗琳琳

关键词:后验贝叶斯乳腺癌

王纯杰,朱笑莹,刘新蕊,罗琳琳

(长春工业大学 数学与统计学院,吉林 长春 130012)

0 引言

在生物医学研究中,一般假定研究的个体都会经历感兴趣的事件.然而,在实际生活中,通常存在部分个体是被治愈的,即延长随访时间,研究个体也不会经历感兴趣的事件.为了解决此类情况,J.Berkson和R.P.Gage[1]提出混合治愈模型,该模型中研究对象包含治愈群体及非治愈群体两部分;V.T.Farewell[2-3]首次对治愈率建立Logistic模型,对混合治愈模型中的潜伏期建立一个参数威布尔分布.针对混合治愈模型中潜伏期部分,即协变量对易感个体生存时间的影响,已经提出了多种半参数模型,其中比例风险混合治愈模型得到了广泛的关注.在临床医学领域中,该模型得到了广泛的应用,如乳腺癌、头颈癌、白血病、前列腺癌、黑色素瘤等[4-7].

在生存分析中经常出现协变量较多的情况,同时也对各类治愈模型的参数估计带来了困难[8-10].因此对混合治愈模型进行变量选择成为众多学者关注的关键问题之一.目前已经有诸多变量选择的方法应用于比例风险混合治愈模型中.X.Liu等[11]采用SCAD和自适应Lasso两种方法对半参数混合治愈模型进行变量选择;田舒[12]考虑带有聚类时间数据的比例风险混合治愈模型,通过SCAD方法对该模型进行变量选择.以上研究都是基于频率学派进行的,而贝叶斯也是统计学中另一个重要的学派,在生物统计中应用广泛.目前在贝叶斯框架下提出了多种变量选择的方法,例如:T.Park等[13]以及C.Hans[14]提出了贝叶斯框架下的Lasso方法.此后,贝叶斯自适应Lasso的变量选择法被广泛应用于生存分析中[13-16].然而针对右删失数据下比例风险混合治愈模型的贝叶斯自适应Lasso的研究较少.

本文将采用贝叶斯自适应Lasso方法对比例风险混合治愈模型进行变量选择,采用三次样条方法拟合基准风险函数.建立贝叶斯框架下的层次模型,结合Gibbs及Metropolis-Hastings 算法对参数进行抽样.在不同设置下的有限样本中验证方法的有效性,最后应用于一个乳腺癌的实例中.

1 数据和模型

在临床研究中,由于某些外界因素的影响,会导致部分样本的生存时间不能被准确观测到,只知道感兴趣的时间发生在某一时间点之后,此时数据发生右删失.考虑n个独立的右删失个体,其数据结构可表示为

为了更好地描述混合治愈模型,引入治愈指标Yi(i=1,2,…,n),Yi表示第i个个体是否被治愈.当Yi=1时表示第i个个体未被治愈,否则个体被治愈.令

π(x)=P(Y=1|X=x).

表示个体易感概率.受文献[2]启发,本文对个体易感概率构建Logistic模型,即

其中β=(β1,β2,…,βs)为s维回归系数向量.

令S(t|Y=1)表示未被治愈患者的条件生存函数,S(t|Y=0)表示治愈个体的条件生存函数,当研究个体被治愈时,生存概率可以表示为

S(t|Y=0)=P(T>t|Y=0)=1.

当研究对象未被治愈时,本文将对其生存时间建立比例风险模型[19].其形式为

λ(t|Y=1,x)=λ0(t|Y=1)exp(zTγ),

其中λ0(t|Y=1)为条件基准风险函数,γ=(γ1,…,γp)为p维的系数向量.因此可得到易感群体的条件生存函数为

S(t|Y=1)=e-Λ0(t)exp(zTγ),

S(t)=π(x)S(t|Y=1)+1-π(x)=π(x)e-Λ0(t)ezTγ+1-π(x).

此时似然函数为

其中累积基准风险函数Λ0(t)是完全未指定的非降函数.本文采用样条的方法对基准风险函数λ0(t)建立三次样条模型

从而得到Λ0(t)为

其中:(t-κm)+=max(0,t-κm),节点个数m是固定的,并且κ1,κ2,…,κm是预先选定的.令h=(h0,h1,h2,h3,h31,…,h3m),得到似然函数的变换形式为

则对数似然函数为

其中:

2 贝叶斯自适应Lasso

本文采用J.Fan等[21]提出的最小化惩罚似然函数法,对比例风险混合治愈模型进行变量选择.基于该模型,参数的贝叶斯自适应Lasso定义为

其中参数λj≥0,j=1,2,…,p.

本文给定待估参数γ一个条件拉普拉斯先验,形式为

令θ=(βT,γT,hT)T基于右删失数据,由层次模型可得后验分布为

选取合适的MCMC算法,从上述后验分布中抽取随机数,即可进行后验推断.

3 后验推断

根据上述后验分布,可求得各个参数的满条件后验.由于参数β,γ,h对应的满条件后验分布不是常用的分布类型,因此本文使用Metropolis-Hastings算法对其进行参数抽样.除此之外,其余各个参数的满条件后验分布为常用的分布类型.因此本文采用Gibbs算法对其进行抽样.抽样算法步骤如下:

⑤α-2j(m)的满条件后验分布为逆高斯分布.从下式中进行抽样:

其中j=1,2,…,q.

⑥参数τ-2j(m)的满条件后验分布是逆高斯分布.可以通过下式进行抽样:

其中j=1,2,…,p.

⑦υ-2j(m)的满条件后验分布为逆高斯分布.从下式中进行抽样:

其中j=1,2,…,s.

⑧参数β(m)的联合后验分布为

β(m)满条件后验分布函数不是常用的分布类型,所以本文采用的是Metropolis-Hastings算法对抽取β(m),其算法步骤如下:

ⅰ.从提议分布中选出一个候选点β(prop),本文选取的是正态分布g(β(prop)|β(m-1))=N(β(prop)|β(m-1),Σ),其中Σ为常数矩阵.

ⅱ.从均匀分布U(0,1)中抽取随机数u.令接受概率r为

判断u和r的大小,如果u

⑨参数h(m)的满条件后验分布为

同理,h(m)满条件后验分布函数不是常用的分布类型,因此仍采用Metropolis-Hastings算法对h(m)进行抽样估计,步骤同上.

⑩参数γ(m)的满条件后验分布为

同理,γ(m)满条件后验分布函数不是常用的分布类型,因此仍采用Metropolis-Hastings算法对γ(m)进行抽样估计,步骤同上.

(3)重复步骤(2),直至所有参数的马尔科夫链收敛.

4 数值模拟

在本节中,通过模拟研究评估所提出的贝叶斯自适应Lasso方法在变量选择和参数估计方面的性能.考虑如下比例风险混合治愈模型:

S(t)=π(x)e-Λ0(t)ezTγ+1-π(x),

其中基线危险函数设置为λ0(t|Y=1)=2,系数向量γ=(0.8,0,1,0,1,0,1,0)T,β=(1,0.9)T.对协变量设置考虑两种情况:

设置1Z为正态分布N(0,1)中产生的8维协变量.

设置2Z1,Z2,…,Z4为正态分布N(0,1)中产生,Z5,Z6,Z7从独立的二项分布B(1,0.5)中产生,Z8从泊松分布P(1)中产生.易感概率从Logistic模型中产生,即

设定协变量X=(1,X0)T,其中X0来自正态分布N(0,0.5).

删失时间来自于的均匀分布U(0,uc)里产生,产生右删失比例为50%,治愈比例为30%的有限样本.选取λ先验分布中的超参数aj0=0.1,bj0=0.05.使用具有4个等距节点的三次样条估计λ0(t)和Λ0(t),即q=8.

在模拟设置中考虑样本量分别为500、1 000、2 000的数据.MCMC算法的链长设置为15 000,退火5 000.模拟过程重复了1 000次.使用偏差的平均值(BIAS)、标准误差(SEE)、均方根误差(RMSE)以及95%置信区间覆盖率(CP)四种指标对贝叶斯自适应Lasso方法进行评估.为了判断系数γ是否显著,设定临界值为0.15.如果参数满足|γ|<0.15,那么就认为其对应的系数就是不显著的.模拟结果见表1—2.

表1 协变量来自正态分布的模拟结果

表2 协变量来自正态分布、二项分布及泊松分布的模拟结果

由表1可以看出,贝叶斯自适应Lasso方法下的BIAS、SSE、RMS的值都较小,CP值都接近于0.95.与此同时,随着样本量的增大,各参数的大部分偏差都相应的减小,标准误差及均方误差也越来越小.同时,所对应的95%置信区间覆盖率越来越接近0.95.除此之外,参数γ选择的准确性也越来越高,当样本量达到2 000时,参数γ选择的准确性达到100%.因此通过模拟研究得出随着样本量的增大,参数估计结果和变量选择的准情性都随之变好.

通过表2中的数据可得如下结论:随着样本量不断增大,参数γ及β的BIAS、SSE、RMS的值都随之减小,CP值也越来越接近0.95.并且,参数γ选择的准确性随着样本量的增大也逐渐升高.综合表1—2,本文提出的贝叶斯自适应Lasso方法在协变量是连续分布和离散分布情况下表现都较好.

5 实例应用

将贝叶斯自适应Lasso方法应用于一个实例中.该数据来自于686个乳腺癌患者,本文对可能造成乳腺癌疾病的因素进行筛选,目的是选择出影响该疾病的8个协变量.该数据的8个可能影响乳腺癌疾病的变量为:horTh(是否进行激素治疗)、age(患者的年龄/年)、menostat(更年期状态,其中pre表示更年期之前,post表示更年期之后)、tsize(肿瘤大小/mm)、tgrade(肿瘤水平因子,水平1<水平2<水平3)、pnodes:(正节点数/个)、progrec(孕酮受体的个数/个)、ester(雌激素受体的个数/个).采用贝叶斯自适应Lasso方法对影响乳腺癌发生的主要因素进行筛选,抽取长度为15 000的马尔科夫链,退火5 000.其结果见表3.

表3 乳腺癌数据变量选择的结果

设置阈值为0.05,从表3可以得出,变量7及变量8对应的估计值小于阈值,所以被剔除.变量2、变量4及变量6与乳腺癌的发生成正相关.变量1及变量3与乳腺癌的发生成正相关.即患者年龄越大患乳腺癌的风险就越大,患者体内的肿瘤越大就越可能恶化,同时,肿瘤水平越高,最后患乳腺癌的可能性越大,正节点数越多,越容易发病.患者可以通过激素治疗来降低患病的风险,没发生更年期的群体不易患乳腺癌,与实际情况相符.

6 结语

本文利用自适应Lasso的方法,对比例风险混合治愈模型进行参数估计及变量选择.在贝叶斯的框架下,通过给各个参数不同的先验构造层次模型,进而求出联合后验分布,利用Gibbs及Metropolis-Hastings 算法对各个参数进行抽样,得到了平稳的马尔科夫链.模拟研究表明,在不同样本及协变量分布不同的情况下,针对比例风险混合治愈模型的参数估计及变量选择问题,所采用的贝叶斯自适应Lasso效果较好.最后将该方法应用到实例数据中,以解决实际问题.

然而本文仅讨论了右删失数据下比例风险混合治愈模型的贝叶斯自适应Lasso方法的可行性,在其他复杂数据类型下需进一步讨论.

猜你喜欢

后验贝叶斯乳腺癌
绝经了,是否就离乳腺癌越来越远呢?
基于贝叶斯解释回应被告人讲述的故事
基于对偶理论的椭圆变分不等式的后验误差分析(英)
乳腺癌是吃出来的吗
胸大更容易得乳腺癌吗
一种基于最大后验框架的聚类分析多基线干涉SAR高度重建算法
Plasticity in Metamorphic Traits of Rice Field Frog (Rana limnocharis) Tadpoles: The Interactive Effects of Rearing Temperature and Food Level
基于贝叶斯估计的轨道占用识别方法
基于互信息的贝叶斯网络结构学习
基于后验预测分布的贝叶斯模型评价及其在霍乱传染数据中的应用