半相依Poisson回归模型及其在卫生服务需求调查中的应用*
2014-03-10山西医科大学卫生统计教研室030001梁洪川张海霞赵俊琴
山西医科大学卫生统计教研室(030001) 乔 楠 梁洪川 张海霞 赵俊琴 王 聪 王 彤
半相依Poisson回归模型及其在卫生服务需求调查中的应用*
山西医科大学卫生统计教研室(030001) 乔 楠 梁洪川 张海霞 赵俊琴 王 聪 王 彤△
半相依回归(seemingly unrelated regression,SUR)也称为似乎不相关回归,它基于多元回归模型,在参数估计过程中考虑了方程间的相关性信息,改进了方程的估计效率。1962年Zellner首次将其运用在线性模型框架中[1],1975年Gallant将半相依线性回归扩展到非线性[2],许多学者的不断深入研究使其在经济、医学、工业和社会科学等多个领域得到广泛运用和发展。
在国内医学领域中,关于SUR已经在应变量与自变量间为线性或非线性关系时进行了理论方法的探讨和应用[3-4]。但在实际应用中有时会遇到结果变量为多个离散变量计数资料的情况,例如在经济计量学研究中,管理者可能会对经济主体同时作出的多元离散经济决策感兴趣;在医疗卫生领域内,医务工作者希望了解某种疾病的多个离散指标的相互关系及其影响因素。统计领域内对因变量为多元连续分布资料的研究由来已久,但对因变量为多元离散分布资料的应用相对较少。本文针对多元离散变量计数资料,以澳大利亚卫生服务需求问题为例,拟合半相依Poisson回归模型,阐明半相依广义线性模型的原理与方法,同时完成R软件实现,为多元离散数据分析提供一种参考。
模型原理与方法
1.基本模型
(1)半相依广义线性模型
半相依广义线性模型(seemingly unrelated generalized linearmodel)从模型结构上与多元广义线性模型相比,只在于半相依模型中某些方程的某些解释变量对应的回归系数为0。由此,我们可以考虑对多元广义线性模型的参数进行限制,使得对应的回归系数为0,从而将多元广义线性模型推广到半相依广义线性模型。
其表示形式,记为
其中yi为(n×1)向量,对应于yi的n个观测值;Z为由n个观测和k个不同的解释变量构成的(n×k)矩阵;Hi是以0或1为元素的(k×ki)阶选择矩阵(或称为限制矩阵);βi为(ki×1)未知参数向量;ei=(e1i,e2i,…,eni)为(n×1)随机误差向量。
(2)Poisson回归模型
Poisson回归属广义线性模型指数分布族,其模型连接函数多采用对数函数。Poisson回归模型的一般形式可写为
其中因变量yi服从参数为λi的Poisson分布:xi表示某一事件观测的发生数,βi是解释向量xi对应的回归系数。
(3)半相依Poisson回归模型
在因变量为离散变量的半相依广义线性回归中,当各方程自变量均相同时其广义最小二乘估计仍优于分别对各方程进行估计的传统方法,因此我们可首先使用多元Poisson回归拟合模型,然后剔除参数为零的自变量,再拟合半相依广义线性回归模型。
2.参数估计
半相依回归模型的参数估计方法是由多元回归模型中推广而来。在多元回归模型中,给定样本Y=(y1,…,yn),我们可以写出yi的记分函数
两者有关系F(β)=E(Fobs(β)),当联接函数取自然联接函数时F(β)=Fobs(β)。令记分函数s(β)=0可得参数的渐近正态估计由于此处的似然方程通常都是非线性的,所以方程的解必须借助迭代法。给定某初值Fisher记分迭代法的公式为
对于半相依广义线性模型,将模型误差的方差-协方差矩阵Wi作为权重,采用迭代最小二乘估计方法,参数估计的准则是极小化以下目标函数
采用迭代最小二乘法可使我们很方便地使用线性回归中的已有程序。在F(β)满足正定的情况下,通常迭代只需进行几次即可收敛。当不收敛的情况出现,一般是由于初值选择不理想所致,或者是由于在假定的参数空间中不存在极大似然值。对于前一种情况可变换初值,多试几次,或者采用修正迭代法依次取λ=1,0.9,…,0.5,直到获得收敛;对于后一种,则要怀疑模型设定的合理性了。
实例分析
数据来自于1977-1978年澳大利亚卫生服务调查资料[7],为探讨卫生服务需求情况,收集了5190位居民的两周就诊数和两日处方数的数据,欲分析两日就诊数和两日处方数与性别、年龄、年收入和是否参保的关系。
通常,两日就诊数和两日处方数可假定服从Poisson分布,所以可以使用Poisson回归模型拟合数据。从逻辑上两日就诊数和两日处方数存在相关关系,因此,我们可以使用两因变量的相关信息以获得有效的估计。使用R软件的VGAM程序包进行分析,模型拟合结果见表1。
由多元Poisson回归模型拟合结果可看到,是否参保对两周就诊数差别无影响,而年收入的多少对两日处方数差别无影响。
将是否参保和年收入变量分别从方程1和方程2剔除,则拟合半相依Poisson回归模型结果见表2。
从表2拟合结果可见,与多元Poisson回归模型拟合结果相比较,是否参保对两日处方数的影响无统计学意义。对于两周就诊数来说,女性就诊数高于男性,其OR值为1.241;年龄越高,两周就诊数越高,每5岁的OR值为3.449;年收入越高,其两周处方数反而越低,每1000澳元OR值为0.758。对于两日处方数,女性处方数高于男性,其OR值为1.811;年龄越高,两周就诊数越高,每5岁的OR值为21.029。另外不同年收入对两日处方数的影响无统计学意义,是否参保对两周就诊数和两日处方数的影响均无统计学意义。这样我们可以得到最终的预测模型。
表1 多元Poisson回归模型参数估计结果
表2 半相依Poisson回归模型参数估计结果
表3给出按传统的处理方法对各方程分别用Poisson回归模型拟合的结果。
从表1~3可见,对各方程分别用Poisson回归模型拟合得到的参数的标准误均大于多元Poisson回归和半相依Poisson回归模型参数的标准误,说明这两种模型的参数估计效率高于传统方法。在本例,半相依Poisson回归模型与多元Poisson回归模型的参数估计结果并不一致,一是前者估计参数的标准误小于后者估计参数的标准误;另外,在多元Poisson回归模型中,是否参保对两日处方数的影响有统计学意义,但在半相依Poisson回归模型,是否参保对两日处方数的影响无统计学意义。从估计参数的标准误大小来看,半相依Poisson回归模型的参数估计效率高于多元Poisson回归模型。本例中是否参保变量由两种估计方法得到的95%可信区间均非常接近于0,其专业价值尚需进一步研究确认。
表3 各方程分别用Poisson回归模型拟合的参数估计结果
讨 论
本文从广义多元线性模型出发,讨论了当因变量为多元分类变量时模型建模的一般理论。在指数分布族内,导出了广义多元线性模型的记分函数,从而得出参数估计的迭代最小二乘法;当每一方程因变量由不同影响因素决定时,我们可以通过对自变量对应参数施加限制,使其参数为零得到半相依广义线性回归模型。以1977-1978年澳大利亚卫生服务调查数据为例,拟合半相依Poisson回归模型,说明其拟合的基本过程及优点。
由于算法复杂,目前能够实现半相依广义线性回归分析的软件非常少,一般的软件只是提供了其中的一种或几种模型,如Gauss软件的CML模块只实现了半相依泊松回归模型分析。在由Yee[6]等编写的R程序包VGAM中,提供了众多的离散多元因变量分析模型,包括广义多元线性模型、半相依广义线性回归模型、向量广义可加模型等。
1.Zellner A.An efficientmethod of estimating seem ingly unrelated regressions and tests for aggregation bias.JAm Statist Assoc,1962,57:348-368.
2.Gallant AR.seemingly unrelated nonlinear regressions.Journal of Econometics,1975,3:35-50.
3.梁洪川,韩宏,郎素萍,等.似乎不相关回归模型及其在老年认知问题中的应用.中国卫生统计,2005,22(6):362-364.
4.赵俊康,梁洪川.非线性半相依回归模型在生长曲线研究中的应用.中国卫生统计,2012,29(3):348-350.
5.Cameron A,Trivedi P.Regression Analysis of Count Data.Oxford University Press,1998.
6.Yee TW.VGAM:Vector Generalized Linear and Additive Models.R package version0.6-7.http://www.stat.auckland.ac.nz/~yee,2005.
(责任编辑:刘 壮)
*:国家自然科学基金项目(81072385);全国统计科研计划重点项目(2009LZ033)
△通信作者:王彤