空间截面回归模型在肺结核病社会影响因素生态学分析中的应用*
2018-11-05饶华祥徐莉立蔡芝锋李永红仇丽霞
饶华祥 徐莉立 蔡芝锋 李永红 仇丽霞
【提 要】 目的 应用空间截面回归模型分析影响肺结核病发病率的社会因素,探讨该模型在公共卫生领域的应用价值。方法 利用OpenGeoDa软件对青海省2013年46个县的肺结核病发病率数据和政府医疗教育支出、农村居民人均纯收入以及人均GDP等6项社会指标进行空间截面回归模型分析。结果 普通最小二乘法(OLS)显示回归残差不独立(Moran’s I=0.178,P<0.05),参照拉格朗日乘数(LM)判断原则,最终选择空间滞后模型(SLM)进行数据分析。SLM分析结果明显优于OLS(R2:0.67 vs 0.57,LogL:4.14 vs-0.82,AIC:7.73 vs 15.63,SC:22.36 vs 28.43),回归残差独立(Moran’s I=-0.03,P>0.05),相邻区域的发病率存在空间外溢现象(ρ=0.5277),农村居民人均纯收入对发病率有影响(b=-0.0446,P=0.0051)。结论 居民收入可影响肺结核病发病率水平,空间截面回归模型在公共卫生领域具有推广价值。
肺结核病是一种已伴随人类历史几千年的慢性传染病,素有“白色瘟疫”之称[1]。影响肺结核病流行的因素较多,国内外已有大量研究从个体水平上探讨了细菌和宿主因素对个体发病的影响[2-5]。从群体水平来讲,社会经济水平和医疗卫生投入等社会因素是否影响地区肺结核病的发病水平,需借助于生态学研究。
经济指标一般以货币为衡量标准,而货币具有时间价值,间隔时间较长的经济指标其可比性较差[6],原则上选取某一横截面数据进行讨论。此类数据具有空间自相关性、异质性和尺度依赖性等特征,传统的多元线性回归分析略显不足。针对横截面数据,空间滞后模型和空间误差模型等空间截面回归模型是比较理想的建模方法,可有效解决空间单元间数据不独立的问题,在公共卫生领域已有所应用[7-10]。因此,本研究运用空间截面回归模型分析2013年青海省肺结核病年发病率与政府人均医疗卫生教育投入费用、农村居民人均纯收入和人均国内生产总值(GDP)等社会指标间的定量关系,探讨空间计量经济模型和传统分析方法在生态学研究方面的优劣性和其在公共卫生领域的推广应用价值。
资料与方法
1.资料来源
本研究资料包括两方面:一是可能影响肺结核病发病率的社会因素资料(自变量),参照相关文献报道和统计年鉴所能获得资料的权限,选取了政府医疗卫生支出、教育支出(千元/人)、医疗机构床位数(张/千人)、医疗机构人员配备情况(人/千人)、农村居民人均纯收入(千元)以及人均GDP(万元)等6项社会指标,来源于《青海省统计年鉴》(2014年)。二是青海省2013年46个县的肺结核病年发病率资料(应变量),来源于中国疾病预防控制信息系统(http://1.202.129.170/UVSSERVER2.0)。
2.分析方法
(1)数据准备
以行政区划代码为连接字段,在ArcGIS软件中将2013年各县肺结核病发病率数据以及政府医疗卫生支出、教育支出、医疗机构床位数、医疗机构人员配备情况、农村居民人均纯收入以及人均GDP等社会指标数据与青海省县级地理数据库(*.shp格式)建立连接,导出的电子地图数据库即为本研究所需的地理信息系统数据库。本研究所需空间权重矩阵采用基于一阶Rook准则构建的行标化空间权重矩阵。
(2)空间截面回归模型
空间计量经济学理论认为一个地区空间单元上的某种现象或某一属性值与邻近地区空间单元上同一现象或属性值是相关的,空间依赖的存在打破了经典统计分析中研究对象相互独立的基本假设,采用普通最小二乘法(OLS)进行模型估计存在明显的局限性,可能使模型设定出现偏差,进而导致研究结果和推论不够完整,甚至错误。空间截面回归模型主要解决基于空间截面数据分析时回归模型中复杂的空间相互作用与空间依存性结构问题。其分析思路是首先采用Moran’sI检验应变量是否存在空间自相关性,如果存在空间自相关性,则采用空间截面回归模型分析,反之,则采用传统多元线性回归模型分析。现对两种主要的空间截面回归模型简要介绍如下[8,10-12]。
①空间滞后模型(SLM)
在空间滞后模型中,空间相关在回归模型右边加以考虑,即在模型中引入空间滞后因子(WY)作为解释变量,因其与时间序列分析中的自回归类似,所以又称为空间自回归模型,包含其他解释变量的混合空间自回归模型表达式为:Y=ρWY+Xβ+ε,式中Y为N×1维应变量向量,X为包含K个解释变量的N×K维向量,WY为空间滞后因子,ε为N×1维随机误差向量,W为N×N维空间权重矩阵,β为解释变量系数,反映了自变量X对应变量Y的影响,ρ为空间自相关系数,反映了研究对象的空间依赖作用,即相邻区域的发病率对本地区发病率的影响方向和程度。在该模型中由于出现变量内生性问题,OLS估计将不再适合。
②空间误差模型(SEM)
在空间误差模型中,空间相关性的存在不影响回归模型的结构,模型表达式为:Y=Xβ+ε,ε=λWε+ξ,式中ε为随机误差项向量,λ为空间自相关系数,Wε为空间滞后误差项,ξ为空间误差模型的误差项。由于SEM模型与时间序列中的序列相关问题类似,也被称为空间自相关模型。参数λ衡量了样本观察值中的空间依赖作用,即相邻区域的被解释变量对本地区观察值的影响方向和程度,参数β反映了自变量X对应变量Y的影响。SEM 的空间依赖作用存在于扰动误差项中,度量了邻近地区关于应变量的误差冲击对本地区观察值的影响程度。在该模型中不存在解释变量与误差项的相关问题,但因误差项ε各观测单元之间存在相关性,此时OLS估计是无效的。
③参数估计及模型选择
本研究中采用Anselin建议的极大似然法估计SLM和SEM的参数,通过Moran’sI检验、两个拉格朗日乘数(Lagrange Multiplier)形式LMERR、LMLAG及其稳健的R-LMERR、R-LMLAG等来实现模型选择,参照图1的分析思路展开分析。通过自然对数似然函数值(LogL)、赤池信息准则(AIC),施瓦茨准则(SC)等指标来对比模型的拟合效果,LogL值越大,AIC和SC值越小,模型拟合效果越好。
图1 空间截面数据回归分析流程图
3.统计分析
社会指标和发病率的统计描述在SPSS 22.0中完成,地理信息数据库的建立在ArcGIS10.2中生成,空间截面回归分析在OpenGeoDa软件中完成,检验水准α=0.05。
结 果
1.肺结核病发病率及社会因素一般概况
2013年青海省共报告肺结核病例6055例,报告发病率为105.64/10万。对发病率和各项社会指标进行统计描述,结果见表1。绘制发病率可视化地图和三维趋势图(图2),结果显示高发病率地区主要集中在青海省西南部的玉树州和果洛州,发病率较低的地区主要集中在东部的西宁市及其周边地区以及西北部的海西州。南北方向呈北低南高的弧形变化趋势,东西方向呈明显的中间高两边低的倒“U”型。三维趋势分析结果与发病率地区分布图相吻合,提示青海省肺结核病存在明显的区域聚集性,并非均匀随机分布。
表1 2013年青海省肺结核发病率及各项社会指标概况
图2 2013年青海省肺结核病发病率可视化地图和三维趋势分析图
2.肺结核病发病率相关社会因素回归分析
(1)数据转换
对发病率数据进行Shapiro-Wilk正态性检验,W统计量为0.796,P<0.001,不服从正态分布。对发病率资料进行以10为底的对数转换后,W统计量为0.980,P=0.621,服从正态分布。因此,采用以10为底的对数转换后的发病率数据为应变量,进行影响因素回归分析。
(2)基于普通最小二乘法的分析
以经对数转换后的发病率与同期政府医疗卫生支出和教育支出等6项社会指标进行OLS拟合。首先对各自变量进行多重共线性判定,按照Anselin提出的判定原则,即如果多重共线性的值超过30,则说明回归模型中自变量存在多重共线性问题,本研究显示该值为14.32,说明各自变量间不存在共线性问题。分析结果显示R2=0.57,LogL=-0.82,AIC=15.63,SC=28.43,除农村居民人均纯收入有统计学意义外,其余各指标均无统计学意义(表2)。残差Moran’sI=0.178,P<0.05,说明回归残差不独立,该资料不适合用OLS进行拟合。参照空间截面回归模型选择原则,LMLAG和Robust-LMLAG均有统计学意义,而LMERR和Robust-LMERR无统计学意义,最终应选用引入空间自相关性的空间滞后模型来定量分析各指标对发病率的影响。
(3)基于空间截面回归模型的分析
采用基于极大似然估计法的空间滞后模型进行回归拟合,结果显示R2=0.67,LogL=4.14,比普通线性回归模型有所提高,AIC=7.73,SC=22.36,低于普通线性回归模型,残差Moran’sI=-0.03,P>0.05,回归残差独立,说明模型中空间滞后应变量的引入可较好地解释地区间肺结核病发病率的空间相关性,该模型优于传统多元线性回归模型(表3)。ρ=0.5277,说明相邻区域的发病率存在空间外溢现象,即在其他影响因素固定不变的情况下,相邻地区肺结核病年发病率每增加9倍,本地区肺结核病年发病率将增加(100.5277-1)倍,即2.37倍。对6项社会指标进行分析,仅农村居民人均纯收入有统计学意义,b=-0.0446,相比传统回归模型其绝对值有所下降,说明原有贡献中有一部分是来自于相邻区域的影响,可解释为在其他影响因素固定不变的情况下,农村居民人均纯收入每增加1千元,本地区肺结核病年发病率将是现有发病率的10-0.0446倍,即0.90倍(发病率降低10%)。
表2 2013年青海省肺结核病发病率与社会因素普通最小二乘法回归分析结果
表3 2013年青海省肺结核病发病率与社会因素极大似然估计回归分析结果
讨 论
据统计,80%的流行病学资料具有空间属性,传染病亦是如此。伴随空间流行病学的发展,空间统计分析方法逐渐成为传染病监测数据研究的热点[12]。本研究采用空间计量经济模型对可能影响肺结核病的社会因素进行生态学研究,为疾病防控和政府医疗卫生投入提供有针对性的建议。实证研究证明,传统回归模型由于没有考虑变量间的空间属性,回归残差存在较强的空间自相关性,参数估计结果有偏。参照空间截面回归模型选择原则,最终选择引入空间自相关性的空间滞后回归模型来定量分析各指标与发病率间的关系,在校正了应变量的空间自相关性后,自变量(农村居民人均纯收入)的回归系数绝对值相比传统模型有所下降,说明原有贡献中有一部分是来自于相邻区域的影响,这和以往他人研究结论一致[13-14]。
就研究结果而言,社会经济水平低下是结核病发病的重要危险因素,经济状况低下地区的结核病发病率往往较高,国内外文献多有报道[15-16]。我国结核病疫情地区间差异较大,西部地区的结核病疫情十分严重,2010年第五次全国结核病流行病学抽样调查显示西部地区活动性肺结核病患病率最高,为东部地区的2.39倍、中部地区的1.50倍[17]。本研究农村居民人均纯收入是影响发病率的主要社会因素,二者呈负相关,与王仲君等的文献报道相符[18]。该指标反映的是广大农牧民的整体生活水平和生存环境,收入水平低下,其生存环境必定堪忧,健康状况难以得到保障,直接影响肺结核的发病。家庭经济条件差仍是肺结核发病的一个重要危险因素,也是导致病患诊治延误和治疗依从性差的重要原因。同时,肺结核病患沉重的医疗负担和劳动力丧失,会给家庭带来严重的经济损失。由于贫困导致患病,而患病又将进一步加重贫困,如此恶性循环,严重影响结核病的防治。作为肺结核病的重要危险因素,大力发展经济,提高居民收入水平,特别是农牧民的收入水平,将有助于改善脆弱人群的生存状态,降低其患病风险。
综上所述,本研究采用空间截面回归模型在生态学层面探讨了影响地区肺结核病发病率的主要社会因素。本研究证实空间截面回归模型相比传统回归分析在生态学研究方面具有明显的优势,应在公共卫生领域相关研究中发挥其应用价值。