APP下载

基于ArcGis平台利用洛伦兹曲线对基尼系数的简化计算方法

2022-06-24王立志宋红丽郁万妮安娟吴希媛吴元芝

高师理科学刊 2022年5期
关键词:洛伦兹对角线基尼系数

王立志,宋红丽,郁万妮,安娟,吴希媛,吴元芝

基于ArcGis平台利用洛伦兹曲线对基尼系数的简化计算方法

王立志1,2*,宋红丽1,2,郁万妮1,2,安娟1,2,吴希媛1,2,吴元芝1,2

(临沂大学 1. 山东省水土保持与环境保育重点实验室,2. 资源环境学院,山东 临沂 276005)

基尼系数是以洛伦兹曲线为基础推导出来的.在实际应用中,一般用直接计算法、拟合曲线法、分组计算法和分解法等计算基尼系数.这几种方法可行,但缺点很明显,其计算方法有的比较粗糙,并且计算结果不够精确.基尼系数的值取决于洛伦兹曲线与绝对平均线之间面积的大小,可能有相同的基尼系数.为避免一般方法带来的误差,基于ArcGis平台,利用洛伦兹曲线对基尼系数简化计算.步骤为:(1)绘制洛伦兹曲线;(2)将洛伦兹曲线图标坐标进行统计,主要统计图标4个端点坐标,对角线坐标,以及洛伦兹曲线坐标,坐标值按照散点图的轴值进行定义,值为无量纲;(3)将轴坐标数据导入ArcGis平台里的ArcMap;(4)将导入文件转为shape格式线文件;(5)将shape格式线文件转为面文件;(6)计算面文件面积,计算基尼系数.该方法避免了复杂的积分过程,同时也避免了洛伦兹曲线解析式的描述,可以将误差降低到最小,同时简化的计算步骤,在计算效率方面具有较大的提高.

基尼系数;洛伦兹曲线;ArcGis平台;计算方法;计量地理学

基尼系数和洛伦兹曲线是度量离散性分布的有效的统计工具,也是展现差异程度的重要指标,其不仅广泛应用在经济领域研究国民收入分配问题,还可用于分析各个地区生产力布局和产业结构分布问题,描述资本等分配的均衡程度[1].

基尼系数虽然是一个极为简明的数学表达式,由于对洛伦兹曲线表达式解的困难,因此它并不具有实际的可操作性.为了寻求具有可操作性的估算方法,自基尼提出基尼比率以来,许多经济学家和统计学家都进行了这方面的探索[2].在已有的研究成果中,主要有4种具有代表性的估算方法,可以分为直接计算法、拟合曲线法、分组计算法和分解法[3].

直接计算法并不依赖于洛伦兹曲线,它直接度量收入不平等的程度.直接计算法依然采用了以直代曲法计算面积,只不过这个过程在样本数据范围内达到了最小近似,其精确度直接取决于样本数据本身[4].因此,认为它不带任何误差地计算了样本数据的基尼系数值.

拟合曲线法计算基尼系数的思路是采用数学方法拟合出洛伦兹曲线,得出曲线的函数表达式,然后用积分法求出面积,计算基尼系数[5].通常是通过设定洛伦兹曲线方程,用回归的方法求出参数,再计算积分.拟合曲线法拟合洛伦兹曲线具有2个重要的缺点,一是得出函数表达式的过程中,可能产生误差;二是拟合出来的函数必须是可积分的,否则就无法计算[6].

分组计算法,在轴上寻找个分点,将洛伦兹曲线下方的区域分成部分,每部分用以直代曲的方法计算面积,然后加总求出面积[7].分组计算法不依赖于洛伦兹曲线的函数形式,但在以直代曲的环节会出现误差,增加分点的个数可以减少这种误差[8].

分解法则是在求出上述值的基础上,力图研究基尼系数的构成因素,除了得出总的基尼系数的信息之外,在计算过程中还能够获得分解部分内部的基尼系数值[9].

以上方法的计算均需要很大的计算量,同时由于采用的方法不同,计算的结果均存在不同程度的误差.本方法基于ArcGis平台,利用洛伦兹曲线对基尼系数进行简化计算,可以将误差降低到最小,同时简化的计算步骤,可以提高计算效率.

1 基尼系数简介

基尼系数是意大利经济学家基尼(Gini)在1912年提出来的,是用来反映收入分配差异程度的重要指标.基尼系数以洛伦兹曲线(Lorenz curve)为基础进行计算.洛伦兹曲线是指在一个总体(国家、地区)内,以“最贫穷的人口计算起一直到最富有人口”的人口百分比对应各个人口百分比的收入百分比的点组成的曲线.为了研究国民收入在国民之间的分配问题,美国统计学家洛伦兹1907年提出了著名的洛伦兹曲线.由于该曲线可以研究国民收入在国民之间的分配问题,因此,洛伦兹曲线可直观地反映财富分配的性质[10-11].

图1 洛伦兹曲线与基尼系数

赫希曼根据洛伦兹曲线提出的判断分配平等程度的指标,设实际收入分配曲线和收入分配绝对平等曲线之间的面积为,实际收入分配曲线右下方的面积为,以除以(+)的商表示不平等程度[12].这个数值被称为基尼系数或称洛伦兹系数(见图1).

2 基尼系数经典计算方法

假若上述洛伦兹曲线的解析表达式为

则该曲线下方区域的面积为

显然,对应于绝对均衡分布,其洛伦兹曲线就是正方形的对角线,其下方区域的面积为=1/2.基尼系数()的计算公式

在实际应用中,由于同样存在求洛伦兹曲线解析式的困难,所以常采用各种近似方法计算基尼系数,如曲线拟合法.

式中:可以通过最小二乘法拟合,即

采用python语言可进行实现:

#-*- coding:utf-8 -*-

#!/usr/bin/python

import numpy as np

from matplotlib import pyplot as pl

fig,ax = pl.subplots()

def Drawing(xarray,yarray):

ax.plot(xarray,yarray)

ax.plot(xarray,xarray)

ax.set_xlabel(u'横坐标')

ax.set_ylabel(u'纵坐标')

pl.show()

def Gini():

numlist = [1.5,2,3.5,10,4.2,2.1,1.1,2.2,3.1,5.1,9.5,9.7,1.7,2.3,3.8,1.7,2.3,5,4.7,2.3,4.3,12]

xarray = np.array(range(0,len(numlist)+1))/ np.float(len(numlist))

#print "xarray",xarray

numsort = sorted(np.append(numlist,0))

#print "numsort",numsort

csum_numlist = np.cumsum(numsort)

#print "csum_numlist",csum_numlist

sum_num = csum_numlist[-1]

yarray = csum_numlist / sum_num

#print "yarray",yarray

B = np.trapz(yarray,x=xarray)

A = 0.5 - B

G = A /(A + B)

Drawing(xarray,yarray)

return G

a = Gini()

print 'Gini:',a

以上计算无论是直接计算还是编程均需要较为复杂的过程,且存在不同程度的误差.

3 ArcGis平台计算基尼系数

3.1 基本计算步骤

(1)绘制洛伦兹曲线;

(2)将洛伦兹曲线图标坐标进行统计,主要统计图标4个端点坐标、对角线坐标、洛伦兹曲线坐标,坐标值按照散点图的轴值进行定义,值为无量纲;

(3)将坐标数据导入ArcGis平台里的ArcMap;

(4)将导入文件转为shape格式线文件;

(5)将shape格式线文件转为面文件;

(6)计算面文件面积,计算基尼系数.

以《计量地理学基础》[13](2版)第三章离散区域分布的测度为例.某地区职工部门分配见表1.

表1 某地区职工部门分配 (%)

根据表1,以纺织业为例,绘制纺织业洛伦兹曲线(见图2).水平轴和垂直轴比例都是累积百分比,对角线表示沿2种分布之间是完全相等的,有相同的百分比和累积百分比.对角线表示均匀分布,曲线到对角线的离差就是2种分布的差异性测度.

根据图2,确定各点的坐标.图框各坐标依次为:原点坐标为(0,0).顺时针方向依次为(0,100),(100,100),(100,0).洛伦兹曲线和对角线的坐标即为散点图的值,如此便可建立图框所有点的坐标系统.将坐标值导入到Excel表格中(见表2).

图2 纺织业洛伦兹曲线分布

表2 图框及洛伦兹曲线坐标

3.2 ArcGIS对数据的处理

启动ArcMap,点击“开始”——“ArcGIS”——“ArcMap”,打开ArcMap,打开空白地图.点击“文件”——“添加数据”——“添加数据”菜单,点击“添加数据”菜单.在“添加数据”功能界面,点击浏览,选择准备好的坐标文件,设置地图上坐标和坐标对应文本文件中的坐标和坐标列,点击“确定”,坐标数据就添加到了地图上(见图3).

坐标点数据虽然可以添加到地图上,但是不能进行任何的编辑或者分析等应用操作,如果需要对数据进行编辑和分析,需要将坐标点转成ArcGIS支持的数据格式(如shapefile).右键点击刚刚加载的坐标数据,点击“数据”——“导出数据”功能,将数据输出转为shapefile文件,这样就可以对shapefile文件进行下一步计算操作.

添加“编辑器”工具条,点击“开始编辑”,使处于编辑状态,打开“ArcToolbox”,“数据管理工具”——“要素”——“点集转线”.双击,弹出“点集转线”设置界面.需要输入要素为点要素,路径默认.然后需要点击“确定”,即可开始转换.此处操作注意不要选择闭合线,否则会导致输出错误.

鼠标左键单击“Arctoolbox”工具箱,打开工具箱,找到“数据管理工具”——“要素”——“要素转面”.双击“要素转面”工具,弹出“要素转面”窗口,输入要素选择内容列表中的“线段”,会自动生成输出要素,也可以自己修改存放路径等,然后单击“确定”按钮,这样就把刚才的线转成了面图层(见图4).

图3 点转为shapefile格式的线图层

图4 线转为面格式的图层

在矢量数据右键点击,或者按Ctrl+双击矢量数据,打开矢量“属性表”.在“属性表”中,点击左侧“菜单”选择“添加字段”,对新添加的“字段”进行“命名”——“计算面积”,然后选择此字段右键点击,打开“计算几何”.在“计算几何”面板中,忽略“面积”——“坐标系统”——“面积单位”等信息,点击“确定”,即可显示每个面矢量的面积.

通过查询工具可得洛伦兹曲线和对角线围成的区域,即区域A的面积为2 643,而图形1/2的面积也就是+的面积,为5 000,因此基尼系数=2 643/5 000=0.528 6.

采用模拟曲线法求解:

首先洛伦兹曲线的方程为

区域B的面积为对方程进行积分

因此,基尼系数=0.717 6

由于采用模拟曲线法不能很好地将所有的点都归纳到内,模拟曲线的边界是采用最小二乘法进行模拟,因此曲线偏离了实际的边界,导致了计算结果产生较大的误差.

在基尼系数的计算过程中洛伦兹曲线对应的解析式很难准确地获得,因此研究者只能利用现有的统计数据去估计洛伦兹曲线解析式,从而推算基尼系数.然而,由于收集的数据类型的差别,采用的计算公式也有所不同,各公式均存在不同程度的优缺点,但均不可避免产生或多或少的误差.该方法利用了ArcGis的面积计算功能,避免了复杂的积分过程,同时也避免了洛伦兹曲线解析式的描述.因此,简便易学,能计算各种洛伦兹曲线而不受解析式的限制[14].

4 结语

本研究采用ArcGis平台自带工具,利用洛伦兹曲线对基尼系数进行简化计算,避免了复杂的积分过程,也避免了洛伦兹曲线解析式的描述,可以将误差降低到最小.同时,简化的计算步骤,使计算效率具有较大的提高.

[1] 艾小青.城乡混合基尼系数分解方法研究[J].统计研究,2015,32(9):91-96.

[2] 吴文俊,蒋洪强,段扬,等.基于环境基尼系数的控制单元水污染负荷分配优化研究[J].中国人口·资源与环境,2017,27(5):8-16.

[3] 何帮强,洪兴建.基尼系数计算与分解方法研究综述[J].统计与决策,2016(14):13-17.

[4] 程杨杨,徐凌忠,许敏兰,等.基于洛伦茨曲线和基尼系数的我国卫生监督人力资源公平性分析[J].中国卫生统计,2015,32(3):473-476.

[5] 孙才志,白天骄,韩琴.基于基尼系数的中国灰水足迹区域与结构均衡性分析[J].自然资源学报,2016,31(12):2047-2059.

[6] 戴平生.基于回归方程的基尼系数分解[J].数量经济技术经济研究,2013,30(1):150-160.

[7] 刘欢,左其亭.基于洛伦茨曲线和基尼系数的郑州市用水结构分析[J].资源科学,2014,36(10):2012-2019.

[8] 戴平生.基尼系数的区间估计及其应用[J].统计研究,2013,30(5):83-89.

[9] 侯华丽,吴尚昆,王传君,等.基于基尼系数的中国重要矿产资源分布不均衡性分析[J].资源科学,2015,37(5):915-920.

[10] 胡志军,刘宗明,龚志民.中国总体收入基尼系数的估计:1985—2008[J].经济学,2011,10(4):1423-1436.

[11] 蒋艳,曾肇京,张建永.基于基尼系数的中国水生态分区研究[J].生态学报,2015,35(7):2177-2183.

[12] 李刚,程砚秋,董霖哲,等.基尼系数客观赋权方法研究[J].管理评论,2014,26(1):12-22.

[13] 张超,杨秉赓.计量地理学基础[M].2版.北京:高等教育出版社,2007.

[14] 李海峰,李苏.大数据与智能时代的地理信息科学教育变革之思考[J].高教学刊,2017(21):145-146,149.

The simplified calculation method of Gini coefficient using Lorentz curve based on ArcGIS platform

WANG Lizhi1,2,SONG Hongli1,2,YU Wanni1,2,AN Juan1,2,WU Xiyuan1,2,WU Yuanzhi1,2

(1. Shandong Provincial Key Laboratory of Water and Soil Conservation and Environmental Protection,2. School of Resources and Environment,Linyi University,Linyi 276005,China)

Gini coefficient is derived from Lorentz curve.In practical application,direct calculation method is generally used.The Gini coefficient is calculated by fitting curve,grouping and factorization method.These methods are feasible,but the disadvantages are obvious.Some of the methods are rough and the results are not accurate.The Gini coefficient is determined by the area between Lorentz curve and absolute average line,and it may have the same Gini coefficient.In order to avoid the error caused by the general method,based on ArcGIS platform and the simplified calculation of Gini coefficient by using Lorentz curve.The steps are as follows:(1)draw Lorentz curve.(2)The coordinates of Lorentz curve icons are counted,mainly including four end point coordinates,diagonal coordinates,and Lorentz curve coordinates.The coordinate values are defined according to theaxis value of the scatter graph,and the value is dimensionless.(3)Thecoordinate data is imported into ArcMap in ArcGIS platform.(4)Converts the import file to shape format file,line file.(5)Converts the shape format line file to a polygon file.(6)Calculate the area of the file on the surface and calculate the Gini coefficient.This method avoids the complicated integration process,and avoids the description of Lorentz curve analytic formula.It can reduce the error to the minimum,and simplify the calculation steps,and improve the calculation efficiency greatly.

Gini coefficient;Lorentz curve;ArcGis platform;calculation method;econometric geography

1007-9831(2022)05-0071-06

K90

A

10.3969/j.issn.1007-9831.2022.05.013

2022-01-26

山东省本科教学改革研究项目(M2020296)

王立志(1980-),男,山东临沂人,副教授,博士,从事计量地理学研究.E-mail:wanglizhi@lyu.edu.cn

猜你喜欢

洛伦兹对角线基尼系数
基于KF-LESO-PID洛伦兹惯性稳定平台控制
高中物理解题中洛伦兹力的应用
基尼系数
基尼系数
边、角、对角线与平行四边形的关系
看四边形对角线的“气质”
数学题
横看成岭侧成峰,洛伦兹力不做功
母鸡下蛋
什么是基尼系数