基于R语言的山东省区域经济差异的空间统计分析

2018-05-31侯丽娟

泰山学院学报 2018年3期

侯丽娟

(泰山学院数学与统计学院，山东泰安 271000)

随着国家经济政策的改革，异世界各国经济贸易的展开，我国的经济迅速发展，整体经济实力以及综合竞争力已经走在国际前列，与之而来的区域经济发展不平衡的问题也越来越突出，本文将重点研究山东省区域经济发展状况，采用空间统计分析的方法，探索山东省各县市之间区域经济发展是否具有空间自相关性.这对山东省区域经济发展政策的制定，以及整体经济发展具有重要意义.

空间统计学源于地理信息系统与统计学理论的结合，是统计学方法在地理空间技术方面应用的创新和扩展.本文采用空间统计分析的方法对山东省区域经济差异进行研究，从而进一步揭示山东省各地市区域经济活动的空间分布特征、内在规律性及动态演变过程.基于R语言和GeoDa程序对山东省2014年的人均GDP数据进行进行空间统计分析，从人均GDP的空间统计结果对山东省的区域经济发展展开思考.

1 R语言介绍

R语言是一种面向统计分析的计算机高级语言，属于数据分析软件范畴，主要用于统计分析,绘图的语言和操作环境.20世纪90年代，R语言正式问世，由两名来自新西兰奥克兰大学的主要研发者Ross和Robert的名字的首字母均为R而得名.现在由“R开发核心团队”负责开发和维护.R是基于1976年美国贝尔实验室开发的S语言的一个GNU项目，所以也可以当做S语言的一种实现，通常用S语言编写的代码都可以不用作修改地在R环境下运行.

2 R语言的软件包概述

R语言是一种面向统计分析的计算机高级语言.具体来讲，R是一个关于包的集合.包是关于函数、数据集、编译器等的集合.编写R程序的过程就是通过创建R对象组织数据，通过调用系统函数，或者创建并调用自定义函数逐步完成数据分析任务的过程.

包是R语言的核心，可以划分为基础包(base)和共享包(contrib)两大类.基础包是R的底层核心，是下载R是默认下载到R的工作空间.共享包是由R的全球性研究型社区和第三方提供的各种包的集合.使用者可根据自己的研究目的，有选择的自行制定下载.本文所涉及的就是程序包(Packages)里面的spdep程序包.

3 空间统计分析的前期准备

3.1 构建shapefile文件

用R语言进行空间统计分析，需要有一个存储了观测值及其空间关系的shapefile文件.R语言无法构建这种类型的shapefile文件，因此我们通过GeoDa软件来建立具有观测值和空间信息的shapefile文件.

创建的shapefile文件是一个存储了空间数据的标准格式，它的使用界面简明、友好，方便我们进行下一的空间统计分析.使用软件GeoDa建立一个具有观测值和空间信息的shapefile文件，至少需要两组数据：一个是观测值，一个是观测值的地理位置坐标.本文要做的是山东省各地市的区域经济差异的空间统计分析，因此需要的观测值就是山东省各地市的GDP值(数据来源：2015年的山东省统计年鉴).

3.2 构建空间权重文件

应用R语言进行空间统计分析还需要空间权重矩阵，这个文件也可以用GeoDa软件创建.用R语言进行空间统计分析的外部数据的基础条件包括据有观测数据和空间信息的shapefile文件和空间权重文件，二者具备就可以对空间数据进行2D、3D的呈现.

3.3 用R语言读入数据文件

Shapefile文件和空间权重文件都不是R语言自身的文件类型，无法直接在R中打开读取.因此我们需要利用R console，在打开窗口中输入命令来读取文件.R语言一般在默认路径中寻找外部文件，因此建议将Shapefile文件和空间权重文件拷贝到R语言的安装目录下，或者在输入命令前将默认路径改变.然后在R程序中载入spdep软件包，并且在R console窗口输入如下命令：

>gdp<-read.csv(“gdp·txt”,header=TRUE,skip=1)

>gdp

其中：“gdp.txt”读入的目标文件；header=TRUE读入数据有标题行；skip=l跳过第一行读入.这样就可以将gdp.txt的数据读入R语言.

命令窗口显示如下:

图1 2014年山东省各市人均GDP

接着用attach(gdp)命令将读入的gdp数据放入R语言的搜索范围.

3.4 读入空间权重文件

>gdpgwt<-read.gwt2nb(“gdpgwt.GWT”,regin.id=ID)

上边的命令使得R语言读入空间权重文件，读入后的文件名记为gdpgwt，文件类型是nb，参数“region.id=ID”表示的是选择区域中唯一的ID号.

在下面要做的统计分析中还需要从nb对象中得出一个listw对象.因此输入如下命令，并将此对象命名为gdpdw：

>gdpdw<-nb2listw(gdpgwt)

4 全局空间自相关分析

4.1 Moran’s I系数的计算与检验

4.1.1 Moran’s I系数的计算

2014年山东省人均GDP的Moran’s I系数计算结果如下:

List of 2

＄I：num 0.457

＄K：num 3.613

其中Moran’s I系数为0.457，K值3.613表示的是样本值的峰度.那么山东省各地市的人均GDP存在空间正相关.也就是说人均GDP高的地区在山东省的分布存在着一定的空间聚集，即人均GDP高的城市之间相对趋于相邻，人均GDP低的城市之间相对相邻.这与山东省的现状较为相符，沿海各城市的人均GDP值相对来说远高于鲁西南地区，慢慢缩小这种差距，也是各地市政府一直努力的一个方向.

4.1.2 Moran’s I系数的检验

下面对山东省各地市人均GDP的Moran’s I系数做基于随机检验性的检验.输入如下命令：

>moran.test(GDP.gdpdw)

运行后结果如下:

然后对山东省各城市人均GDP的Moran’s I系数进行基于正态近似的检验.结果如下：

以上两种方法得到的p值都较小，基本一致，也就是说全局自相关Moran’s I系数是显著的.

4.2 Geay’s C比率的计算与检验

4.2.1 Geary's C比率的计算

结果如下:

List of 2

＄C:num 0.751

＄K:num 3.613

Geary’s C比率为0.751，呈现正的空间自相关性.K值3.613与Moran’s I系数的K值一致，样本峰度也与Moran’s I系数的结果一致.

4.2.2 Geary’s C比率的检验

基于随机检验性的检验和正态近似的检验结果一致.

5 局部自相关分析

5.1 Local Moran I系数的计算

由得到的Local Moran I系数的结果可以看出，p值小于0.05的城市有：淄博、青岛、威海，并且它们的I值都较大且为正值，这说明淄博、青岛、威海这三个城市与其周围的城市有一定的相似性，并且存在着相对较高的空间聚集现象.现实是与这几个城市相关的城市都具有相对较高的人均GDP值，充分印证了这一聚集现象.而p值大于0.95的城市有：德州、菏泽、济宁、临沂、枣庄.这说明与德州、菏泽、济宁、临沂、枣庄这几个城市相关的城市观测值分布比较随机，也比较分散，他们的人均GDP值相对较低.综合来看，处于沿海的城市是高值的空间聚集区，而处于内陆的几个城市，在空间分析中则表现出较为随机、较为分散的分布特征.

5.2 局部G统计量的计算

通过得到的Gi统计量和Gi*统计量结果可以看出，沿海的城市(青岛、威海、烟台、日照、潍坊)、鲁北(东营)、鲁中(济南、淄博)中，除了位置比较靠内陆的潍坊和日照外，其它几个城市的G统计量都很大.充分说明了山东省的经济中心和发展动力，从人均GDP的层面来看仍然是沿海的几个核心城市，所以在沿海地区形成了山东省的高值聚集区.但鲁南和鲁西地区都没有出现局部的高值聚集，也就是说在鲁南和鲁西地区的城市辐射作用并不明显，还没有出现能够带动本地区经济发展的中心城市.