APP下载

区域宏观经济数据质量的检验

2015-10-21孙飞宋向东郑阳

中国集体经济 2015年1期
关键词:数据质量

孙飞 宋向东 郑阳

摘要:文章将Benford 法则与联立方程组的计量经济学模型相结合,从定量角度研究区域经济统计数据的质量检验问题,改进了传统的以上年统计数据预测下年统计数据模型,建立以同一年份指标为解释变量和被解释量的联立方程组计量经济学模型,从而避免了由于宏观经济运行环境不稳定导致的预测偏差,并运用2012年实际数据进行了模型检验,效果良好。

关键词:数据质量;联立方程组;Benford法则

一、研究背景

统计数据是一个国家或地区社会经济发展的基本情报,是各级主管部门正确分析国民经济运行态势及制定方针政策和宏观调控的重要依据。同时,准确而充分的统计信息是决策与科学研究的基础,直接影响到社会科学研究能否产生正确的研究结果。因此对统计数据质量作出科学的检验,具有重要现实意义和应用价值。然而由于各地政府为了自身利益过于追求政绩统计,公布的统计数据往往存在着夸大和水分的情况,使得上报数据存在着严重的质量问题,使人们对于统计数据产生信任危机。在这种情况下,检验区域宏观经济统计数据质量成为了各级统计局的一项重要的任务,引起了政府和学者的深入研究和广泛探讨。

二、研究指标

描述区域宏观经济运行的统计指标众多,为了研究定量诊断模型的典型性,本文只选择了区域宏观经济运行的11个核心指标来研究统计数据质量定量诊断模型,包括地区生产总值(RP)、财政收入(CZ)、居民消费水平(JZ)、固定资产投资(I)、人口数(RS)、电力消耗量(DX)、社会消费零售总额(SZ)、区域货运量(HY)、失业率(SYL)、就业工资总额(GZ)和商品零售价格指数(SJ)。

地区生产总值、财政收入、固定资产投资、全社会商品零售总额这四个指标与地区的经济发展水平的相关性较高,能够反映出一个地区政府的政绩,也最容易出现质量问题,而人口数、电力平均消耗量等七个其他指标相比之下只是间接地体现区域宏观经济的运行情况,与地方政府的政绩联系没那么紧密,数据质量不那么容易出现问题,指标数据相对真实可信。

三、模型构建

本文采用联立方程组模型研究区域宏观经济统计数据质量诊断问题。首先,选择内生变量RP、CZ、JX、I为诊断指标;其次,假定外生变量RS、DX、SZ、HY、SYL、GZ和SJ为真实指标。

建立的初步静态结构型模型为

RP=a■+a■RS+a■DX+a■SZ+a■HY+a■SYL+a■GZ+a■SJ+ε■CZ=b■+b■RS+b■DX+b■SZ+b■HY+b■SYL+b■GZ+b■SJ+ε■JX=c■+c■RS+c■DX+c■SZ+c■HY+c■SYL+c■GZ+c■SJ+ε■I=d■+d■RS+d■DX+d■SZ+d■HY+d■SYL+d■GZ+d■SJ+ε■

四、模型的识别判断

上述结构型模型有内生变量M=4,前定变量K=7。对联立方程组的识别性进行判断。

首先,用阶条件对方程组内的第一个方程进行判断:这时m1=1,k1=7,K-k1=0,m1-1=0,所以K-k1=-1,表明可能为恰好识别。其次,用秩条件判断,划去第一行和非零系数所在的列,得3行10列矩阵,即

(B0,Γ0)=

1 0 0 -b■ -b■ -b■ -b■ -b■ -b■ -b■0 1 0 -c■ -c■ -c■  -c■ -c■ -c■ -c■ 0 0 1 -d■ -d■ -d■ -d■ -d■ -d■ -d■

显然Rank(B0,Γ0)=3,M-1=3,则由秩条件判断表明该方程为恰好识别。再根据上述阶条件可知,此方程可以识别。

用秩条件和阶条件判断方程组内的其他方程也均恰好识别,可确定该联立方程组计量经济学模型是可以识别的。

五、统计数据的Benford检验

统计数据呈自然状态分布时存在着特定的分布规律,这种分布规律和Benford定律有着一定的联系。真实的数据可以非常好地符合Benford定律,那么如果有数据和Benford定律相背离,就意味着存在数据失真的可能性。

在2006~2011年我国政府统计数据中选择地区生产总值、财政收入、居民消费水平、固定资产投资、总人口数、电力消耗量、社会消费零售总额、区域货运量、就业工资总额九项区域宏观经济指标,以全国31个省市(西藏地区个别年份无统计数据)为对象进行分析(样本容量n=1647)。考虑到宏观经济指标首位数字出现问题概率较小,本文直接对所有数据的第二位数字分布进行Benford定律测试,整个过程应用Excel软件计算,测试结果如图1、表1所示。

从表1及图1可以看出第二位数字的分布与Benford分布基本吻合,两者之间的差异值的绝对值都小于0.02,并且观察频率与Benford分布一样都是随着数字的变大出现频率逐渐递减的趋势。但是数字4和数字7的频率差异值高于0.01,这种偏离的程度是否在可以接受的误差范围内,还需要对其进行Benford的检验。

(一)提出假设

H0:统计数据的第二位数中,0~9这10个自然数的实际出现次数与Benford定律下的期望出现次数没有显著差别。

H1:统计数据的第二位数中,0~9这10个自然数的实际出现次数与Benford定律下的期望出现次数有显著差别。

(二)构建检验统计量

根据指标数据的第二位数中,0~9这10个自然数实际出现的次数与Benford定律下期望出现的次数构建一个X2统计检验量。

X2擬合优度检验公式为

X2=∑■

式中,Oi和Ei分别是被检验数据的第二位数字出现的实际次数和期望次数。第二位上出现的数字是0-9,X2检验的自由度为9,在0.05置信度下,X2检验值为9.8415小于16.919时,接受原假设,即统计数据的第二位数中每个自然数的实际出现次数与Benford定律下的期望出现次数没有显著差别。

六、模型的估计与检验

利用SAS软件的SYSLIN过程对模型进行估计与检验,数据拟合结果见表2。

通过表2结果可以看出各个方程拟合效果良好,在0.01显著性水平下模型各方程均能通过显著性检验。但个别几个变量的系數检验不能通过,结合变量系数经济意义合理性,对方程中的变量按系数不通过检验的概率值从大到小逐个剔除,最终得到方程为

RP=-0.11571RS+2.558542DX+2.135011SZ+0.004580HYCZ=-0.09835RS+0.242938DX+0.136688SZ+24.56903SYL+0.424629GZJX=-1.22027RS+5.522863GZ+72.96371SJI=1.068947SZ+0.032516HY-1.01736GZ+5.467065SJ

数据拟合结果见表3。

通过表3结果可以看出各个方程拟合效果良好,在0.01显著性水平下本模型各方程均能通过显著性检验。

经过对模型计量经济学检验,联立方程组模型不存在异方差检验性、序列相关性检验和多重共线性。

七、统计数据质量检验

为检验模型的诊断效果,本文对河北、湖南和广西三个地区的2012年宏观经济的地区生产总值(RP)、财政收入(CZ)、居民消费水平(JX)和固定资产投资(I)四个指标进行检验分析。把国家统计局公布的真实RS、DX、XZ、HY、SYL、GZ、SJ数据代入上述模型得出RP、CZ、JZ、I的诊断结果见表4。

通过分析各地区数据APE值,由表4可以看出,模型估计的河北地区的财政收入和固定资产投资、湖南地区的固定资产投资、广西地区的居民消费水平与地方提供数据出入较大,超过了10%。一方面,可能是建模时遗漏了影响这几个宏观经济指标增长的指标变量,也可能是对不符合要求异常数据没有进行有效技术处理造成的;另一方面也可能是这几个指标数据质量确实存在问题有待诊断。

八、小结

本文研究的是区域宏观经济统计数据质量问题,选取11个主要的宏观经济指标构建诊断模型。归纳起来主要有以下几个特点:第一,文章首先对2006~2011年31个省宏观经济指标的截面统计数据进行了Benford法则检验,考察其可靠性,并作为构建截面数据模型的前置条件;第二,文章首创了以同一年指标数据建立宏观经济数据检验的联立方程组的计量经济学组模型的方法,相比以往的结合上一年度数据预测本年度经济数据模型有许多优点。此外,模型的外生变量指标选取还可能优化调整,有些指标的统计数据如经过专业的技术处理后再应用于模型拟合效果可能会更好。

参考文献:

[1]高鸿业.西方经济学[M].北京:中国经济出版社,1996.

[2]李子奈,潘文卿.计量经济学(第2版)[M].北京:高等教育出版社,2005.

[3]高惠璇.SAS系统SAS/ETS软件使用手册[M].北京:中国统计出版社,1998.

*基金项目:全国统计科研计划项目(2011LY064)。

(作者单位:燕山大学理学院)

猜你喜欢

数据质量
电子商务平台数据质量控制系统及仿真模型分析
基于大数据背景下提高供电局数据质量对策分析
强化统计执法提高数据质量
浅析统计数据质量
金融统计数据质量管理的国际借鉴与中国实践
浅谈统计数据质量控制
企业统计工作之我见
统计学在质量管理中的应用研究
统计信用与统计数据质量研究