APP下载

基于LLGWR模型的山东省人口分布的影响性分析

2015-10-20沈思连王春伟崔建岭

统计与决策 2015年13期
关键词:人口数量平稳性估计值

沈思连,王春伟,崔建岭

(1.河南科技大学 数学与统计学院,河南 洛阳 471003;2.63892部队,河南 洛阳 471003)

0 引言

近年来,人口作为一种基本信息已成为目前研究的热点问题之一。人口的分布状况在一定意义上反映了一个国家或地区自然条件的差异和经济发展水平的高低,研究人口分布对于揭示其地域特点具有重要意义。我国是世界人口大国,而山东省又是人口大省。要想准确把握山东省人口与经济可持续发展的关系,制定合理的人口政策,就有必要对全省人口的空间分布进行深入分析和广泛研究。本文以山东省统计年鉴数据为基础,研究了该省人口数量的空间变化模式,并对该分布模式下的影响因素进行了研究。首先利用Surfer软件的可视化技术研究山东省人口数量的空间分布特征。其次基于近年来发展起来的局部线性地理加权回归(Local Linear Geographically Weighted Regression,简记为LLGWR)技术对该省人口分布的影响因素进行定量分析,并利用F-检验考查各因素在全省范围内的空间非平稳性。

1 人口数量的空间分布

根据网上公布的第六次全国人口普查数据显示,山东省全省常住人口为9579.31万人,位居全国第二,仅次于广东省。同第五次人口普查2000年11月1日0时的9079.31人相比,该省十年间共增加了500万人,增长率为5.50%,平均每年的增长率约为0.54%。这一结果说明十年来虽然人口总量仍呈现上升的趋势,但增长速度已得到控制,相对较慢,这可能是由于近些年来经济社会的发展,人民生活水平的提高以及人们观念的转变所致。

一方面,人口的空间分布及其主要的影响因素通常具有空间非平稳性。另一方面,随着时间的推移,该空间非平稳性也会发生变化。因此,有必要对人口分布的空间差异进行研究,揭示其空间变化规律,从而为制定合理的人口政策和实现人口的有序流动提供主要依据。

1.1 数据来源

为揭示山东省人口数量的空间分布规律,我们选取该省132个市县区(其空间分布如图1),并利用Googleearth软件搜集了相应地区的经纬度数据(单位:度)。另一方面,为了与该省第五次人口普查(即2000年11月1日0时)中的人口空间分布作比较,我们选取2000年11月1日0时和2010年11月1日0时的132个市县区的人口数量数据(单位:万人)。

从图1可以看出,所选的空间站点几乎均匀地分布在全省范围内,这也是对数据进行有效分析和合理解释的必要前提。另一方面,也可看到所有站点(用圆点表示)均在山东省的边界线以内,这在一定意义下说明由Googleearth得到的各市县区的经纬度数据具有较高的精度。

图1 山东省132个市县区的空间分布图

1.2 人口分布的空间特征

为了更直观地展示山东省132个市县区2000年和2010年的人口空间分布特征,并揭示十年来人口数量的空间变化规律,我们利用Surfer软件将搜集的人口数量数据进行可视化(经纬度数据的单位均为度,人口数量数据的单位均为万人),相关结果如图2所示。

从图2可以看出,山东省的人口分布明显不均衡,主要表现为以下几个特征:①全省各地市之间人口总量差距显著,呈现多个同心环,且人口自西南向东北递减,人口主要集中在交通干线和城市地区。②十年来人口相对稀少的地区逐渐缩小,例如,人口总量在20~70万之间的地区明显缩小,这些地区主要集中在北部边界及东北部地区。③人口相对稠密地区的人口总量值显著增加,比如,菏泽-济宁-临沂-日照-青岛-烟台一带,十年间人口总量由90~140万人增加到100~170万人左右。④2000年和2010年的人口分布呈现类似的空间分布模式,即全省范围呈现多个同心环,人口大多集中在经济发达、交通便利的市区。

图2 山东省各市县区2000年和2010年的人口数量的空间分布(左为2000年,右为2010年)

2 人口分布的影响因素研究

人口分布通常受自然因素和人文因素的影响,自然因素包括地形、地势、地貌和气候等,人文因素包括了社会历史条件、经济水平等。本节以山东省统计年鉴数据为基础,搜集取得影响人口分布的可能因素指标:就业率、单位面积的粮食产量(吨/千公顷)、人均粮食产量(吨/万人)、人均GDP(万元)、单位面积的GDP(万元/平方米)、农民的人均纯收入(元)。由于以上衡量指标数据的单位不同,不便于直接进行数据分析。本文首先对以上数据进行标准化,基于标准化后的数据建立合适的空间变系数回归模型,利用近年来发展起来的局部线性GWR方法拟合该模型。

2.1 局部线性地理加权回归方法

空间变系数模型是探索与分析空间数据回归关系空间非平稳性的重要工具之一,尤其是近年来发展起来的LLGWR拟合方法(见文献[4])更是以其概念上的简单性和操作上的易实现性以及在许多领域中的实用性受到人们的普遍重视。由于该估计方法是我们后面进行数据分析的基础,故首先简单介绍一下该方法。

空间变系数模型中系数函数的估计是人们探索和分析回归关系空间非平稳性的主要依据。假定模型(1)中所有的系数函数关于地理位置坐标u和v均具有连续的一阶偏导数。对于研究区域内任意给定的目标位置,令doi为目标位置与第i个观测位置之间的欧氏距离,则根据二元函数的Taylor展开式,在的某邻域内可近似为

为便于表示,引入矩阵符号。令

其中Ip和0p×2p分别表示 p阶单位阵和 p×2p阶零矩阵。

类似于其他的局部光滑技术,在利用LLGWR方法拟合模型(1)的过程中,需要预先确定核函数K(·)和光滑参数h。通常情况下,核函数K(t)取为Gauss函数

窗宽参数h可由某种数据驱动方法来确定。

2.2 实证分析

由于本节的主要目的是为了揭示山东省人口总量与其可能影响因素之间的空间回归关系,故我们基于第二节中该省132个市县区(其空间分布见图1)的人口相关数据进行分析,其中包括各市县区的经纬度坐标(单位:度)、就业率、单位面积的粮食产量(吨/千公顷)、人均粮食产量(吨/万人)、人均GDP(万元)、单位面积的GDP(万元/平方米)、农民的人均纯收入(元)。

由于在后面的估计和检验过程中,各市县区的地理位置坐标均为某平面直角坐标系下的平面坐标,为此在我国西安1980坐标系统下,利用高斯-吕克格投影方法(见文献[6])将各观测站点的经纬度坐标转化为直角坐,其中以零度纬线(赤道)作为横坐标轴,以该省淄博市沂源县所在的经线作为纵坐标轴。

这里需要指出的是,在进行坐标变换的过程中,中央经线的选取比较复杂,一般是根据分带(三度带或六度带)决定的,每个带有自己的中央经线。在此选取该省淄博市沂源县所在地的经线(即为中央经线,因其大致处于山东省的中央,可保证全省面积处于变形最小状态。

另外,为了减小不同量纲对分析结果的影响,我们将原始数据进行了标准化,将人口数量作为因变量,记为Y,就业率、单位面积的粮食产量、人均粮食产量、人均GDP、单位面积的GDP、农民的人均纯收入作为自变量,分别依次记为市县区的地理位置坐标记为

利用LLGWR方法对模型(5)进行拟合,选取高斯核函数(如(4)式所示)和交叉确认方法(见文献[5,6])求得系数函数在各个空间位置处的估计值。基于各系数函数的估计值检验其在所研究的空间区域内变化的显著性,即等价于检验

基于观测数据

首先利用局部线性地理加权回归方法对模型(7)进行拟合。在式(4)中的Gauss核函数下,利用交叉确认方法选择窗宽参数h=76km,相应系数显著性检验的检验p-值分别为0.0435977,0.0494687和0.0457165。

对于给定的显著性水平α=0.1,由于三个 p-值均相对较小,因此可断言模型中的三个系数函数在所研究区域内均存在明显的空间非平稳性,即显著变化。此外,系数函数和在各空间位置处的估计值用等值线的形式展示在图4和图5中。

图4 模型(7)中系数 估计值的等值线图(左为 ,右为

图5 模型(7)中系数估计值的等值线图(左为,右为

从图4(左侧图)中可以看出,系数 β1(u,v)(即截距项)的估计值在北部和东北部地区相对较小,西南部及东部地区相对较大,这也反映了山东省人口分布的基本特点。由图4(右侧图)中可知,人均粮食产量对人口数量的影响强度自西南向东北方向依次有所增加。

图5(左侧图)说明人均GDP对人口数量的影响强度,呈现出几个明显的空间格局。具体来说,系数β3(u,v)的估计值在西部地区沿着西南向东北方向,东部边界地区沿东南向东北方向均依次有所增加。此外,北部地区,影响强度自南向北逐渐变大;南部地区,影响强度自北向南逐渐变大。

图5(右侧图)展示了系数函数 β4(u,v)的估计值。从图中可以看出,该值在全省范围内存在空间差异性。具体来说,全省除了菏泽地区及聊城-济宁-枣庄的西部边界地区外,该估计值自西南向东北方向依次有所增加。在聊城-济宁-枣庄的西部边界地区,农民的纯收入对人口数量的影响相对较弱,往菏泽方向则有所增强。

3 小结

本文考查了山东省人口总量的空间分布规律,并对影响人口分布的主要因素进行了定量分析。具体来说,首先利用描述性统计分析方法与软件的可视化技术揭示了人口数量的空间分布特征。其次,利用空间统计学中近年来发展起来的局部线性GWR模型探索与分析影响人口分布的主要因素,并考查其空间非平稳性问题。分析结果表明人均粮食产量、人均GDP和农民的人均纯收入是影响该省人口分布的主要因素,这三个因素在全省范围内均呈现出显著的空间非一致性。

[1]冯守平.中国人口增长预测模型[J].安徽科技学院学报,2008,(6).

[2]陈文权,赵兹,李得胜.Leslie修正模型在人口预测中的应用[J].世界科技研究与发展,2008,(2).

[3]薛臻.我国人口增长预测数学模型[J].河南科技学院学报(自然科学版),2008,(1).

[4]张静,王兴华.利用神经网络预测人口数量[J].襄樊学院学报,2001,(5).

[5]Hart J D.Nonparametric Smoothing and Lack-of-Fit Tests[M].New York:Springer,1997.

[6]沈永年,孔庆瑜.1980西安坐标系快速高斯投影计算公式[J].冶金测绘,1994,(3).

[7]Lee Y,Mei C L,Zhang W.X.Statistical Tests for Spatial Non-Stationarity Based on The Geographically Weighted Regression Model[J].Environment and Planning A,2000,(32).

猜你喜欢

人口数量平稳性估计值
基于非平稳性度量的数字印章信息匹配
城轨车辆运行平稳性状态监测与性能演化分析*
不同计算时间下的平稳性指标对比研究
CR400AF动车组车载平稳性监控装置误报警分析处理
一道样本的数字特征与频率分布直方图的交汇问题
我国60岁以上人口数量首超15岁以下人口
2018年4月世界粗钢产量表(续)万吨
2020年前俄人口数量将增至1.475亿
“十三五”期间江西省老龄人口数量预测
2014年2月世界粗钢产量表