浙江宏观经济统计数据质量评估的实证研究——基于统计数据的匹配性<br/>

浙江宏观经济统计数据质量评估的实证研究——基于统计数据的匹配性

2013-12-06朱一波

统计科学与实践 2013年12期

关键词：统计数据宏观经济浙江

朱一波

（国家统计局浙江调查总队，浙江杭州 310012）

一、前言

（一）数据质量的重要性

随着经济社会发展，公众对统计数据日益重视，对数据质量的要求也已不仅仅在于数据是否准确，更在于数据是否能真实反映出当前的经济社会现状。公众并不熟悉这些统计数据是如何得到的，他们关心的是这些统计数据是否和他们的切身感受相符合。

从社会对统计数据的需求来看，统计数据质量问题的核心可以整理归纳为准确性、时效性、有效性、可比性等。影响统计数据质量的各方面现实因素有：统计方法的科学性、源头数据的质量、数据加工的合理性以及统计数据的人为干预等。

（二）研究背景和方法

国内学者对于统计数据质量评估研究的方向主要集中在两个方面，一是对评估方法和体系的理论研究，二是运用实证分析方法对统计数据质量进行评估。

本文基于国内外各学者对统计数据质量的检验方法，从统计数据匹配性的角度出发检验浙江宏观经济统计数据：一是以宏观经济指标的纵向匹配性来检验数据是否可以反映出浙江经济的波动规律；二是以宏观经济指标的横向匹配性来检验数据是否可以及时反映出当前的浙江宏观经济信息。

二、浙江宏观经济统计数据质量评估的模型准备

（一）待评估指标的选择

本文参考《浙江省国民经济和社会发展第十二个五年规划纲要》的目标中提到的与浙江经济运行状况密切相关的宏观经济指标，根据统计数据的来源、统计方法、以及政府与民众对指标的关注程度，选取了以下宏观经济统计指标并分为待评估的统计指标和可信统计指标两类，具体如表1。

表1 各统计指标分类及记号

（二）基本假设

在浙江统计实践中，基础性评估、逻辑性评估已在统计工作中长期进行。因此可以假设前文中待评估的统计指标大部分数据是准确的，并假设可信统计指标的数据均是准确的。

本文需要检验的是这些待评估的统计数据是否符合经济运行及波动的规律，以及是否可以反映出浙江的经济状况。因此继续做出假设：

1.高质量的宏观经济统计数据应符合经济运行的规律，即一个统计指标的数据应在时间上存在纵向匹配性。

2.高质量的宏观经济统计数据应该与历年的经济状况相吻合，即同一时期内各宏观经济统计数据之间以及与其他经济数据应该存在横向匹配性。

三、统计数据质量的纵向匹配性评估

在实际检验中可以发现，数值型统计指标和比例型统计指标存在显著区别，因此本文在检验各待评估指标的纵向匹配性时将它们分类讨论。

（一）数值型统计指标的纵向匹配性评估

1.数据的初步分析与预处理。由于y3即浙江省城镇人均可支配收入的1979年数据存在缺失，因此对y3只分析其1980年至2011年的年度数据。为消除指数型变量带来的异方差性，需要对这些数值型统计指标取自然对数。

2.ARIMA模型建立。由ADF检验结果可知，lny1、lny2、lny3、lny4、lny5、lny6均为一阶单整序列，Ljung-Box检验则发现差分后的各变量均非白噪声。由此对各指标考虑时间序列的随机性模型，本文采用ARIMA模型。

对这六个变量分别建立ARIMA模型，模型残差经Ljung-Box检验为白噪声。经残差图对比后认为模型预期值与真实值的差距在0.1以上的，是偏离ARIMA模型预期的数据。

3.数据匹配性分析。从各因变量的匹配情况看：lny1与ARIMA模型匹配性最好，仅有1993年的数据偏离了模型预期；lny2、lny3、lny4、lny6与模型匹配性次之，各有三至四个年份的数据与模型有所偏离；lny5与ARIMA模型的匹配性相对较差。

分年度来看：与ARIMA模型不匹配的数据都出现在2000年以前，自2000年开始的各指标数据均与ARIMA模型匹配良好；1993年的各指标数据均高于模型预期，1985年、1988年、1989年等年份出现的次数也较多且偏离方向基本一致，体现出各指标间明显的联动性。

（二）比例型统计指标的纵向匹配性评估

比例型统计指标均为比例或百分比数据，它们的特点是单位较为统一，或者可以认为是没有单位，指标数据的走势一般会较为稳定。

1.ARIMA模型建立。与数值型统计指标类似，数据匹配性分析仍用ARIMA模型。与前模型的区别在于：

（1）z1、z3、z4为带截距的平稳序列，z2为带时间趋势的平稳序列。

（2）z5、z6则均为一阶单整序列，且差分后的z5、z6均为白噪声序列，无法运用ARIMA模型。

（3）分析acf图和pacf图时，发现z1、z3、z4均有比较明显的周期性，因此运用的是带季节性的ARIMA模型。

（4）经残差图对比后认为，模型预期值与z1、z3、z4的真实值差距在5以上的，或者模型预期值与差分后的z2的真实值差距在1以上的，是偏离ARIMA模型预期的数据。

2.数据匹配性分析。最终数据匹配性分析结论如下：

（1）与模型不匹配的统计数据主要出现在1995年以前，1995年之后仅有2001年的z3略高于模型预期。

（2）差分后的z2与模型有所偏离的年份集中在1981年以前，而之后的模型残差均较小。

（3）z1、z3、z4与模型有所偏离的年份主要集中在1984年以前以及1989年、1993年这几个年份，并且偏离方向基本一致，体现出较强的联动性。

四、统计数据质量的横向匹配性评估

本文在考察统计数据横向匹配性时，为减少被考察数据对模型造成的影响，使用交叉验证法，具体方法和步骤为：

（1）对每一个统计指标每一年度的数据分别进行数据横向匹配性考察。

（2）在考察具体某个统计指标某一年的数据横向匹配性时，首先假设该指标其他年度的数据是可信的，并继续假定其他一部分统计指标可信。

（3）以被考察指标为因变量，并以（2）中选定的可信指标作为自变量，先将被考察年度数据剔除之后建立模型。

（4）将被考察年度的自变量指标代入步骤（3）中计算得到的模型，计算得出被考察指标数据的模型预测值或预测区间。

（5）检验被考察的数据真实值是否与步骤（4）中计算得到的预测值差距较大，或是否落在了预测区间外，以判断该数据的横向匹配性是否存疑，若匹配性存疑则记录其为高于或低于模型预期。

（一）可信指标数据的初步分析与预处理

由于同为数值型变量，为消除指数型变量带来的异方差性，需要先对各可信统计指标求取自然对数。

由于x1、x2即浙江省进出口值的1985年以前数据存在缺失，因此只考虑对1986年至2011年的宏观经济年度数据进行横向匹配性评估。

（二）待评估指标与可信指标之间的匹配性评估

本文以可信指标作为自变量，使用线性回归模型，并运用交叉验证法，来检验待评估指标与可信指标之间的匹配性。

1.自变量的预处理。经过相关分析得知，x1、x2、x3、x4、x5、x6、x7之间存在着非常强的相关性。本文选用主成分分析法旋转自变量矩阵。旋转后的各主成分根据其贡献率的由大到小分别计为px1、px2、px3、px4、px5、px6、px7。

2.模型的预回归。首先以px1、px2、px3、px4、px5、px6、px7为自变量，并分别以lny1、lny2、lny3、lny4、lny5、lny6、z1、z2、z3、z4、z5、z6为因变量，建立12个回归模型，并用逐步回归法筛除的各回归方程的部分主成分自变量。被筛除的主成分自变量将不再用于之后的横向匹配性评估。

根据各回归方程的检验结果看：

（1）以z3、z4为因变量的两个回归模型F检验不显著，说明两个居民收入增长率指标是不适合运用这些自变量建立回归模型的。

（2）lny1、lny2、lny3、lny4、lny5、lny6、z2对应的回归模型通过了F检验， R-squared值也均在0.99以上，说明模型解释性较强，比较适用于进行横向匹配性评估。

（3）z1、z5、z6对应的回归模型通过了F检验，说明它们与同年的可信统计指标存在一定程度的关联。但R-squared值较低，说明模型解释性较差，得到的匹配性评估结果只能用于参考。

3.数据匹配性分析。根据模型预回归的结果，z3、z4不适合应用该模型进行匹配性分析，因此仅使用交叉验证法依次验证lny1、lny2、lny3、lny4、lny5、lny6、z1、z2、z5、z6的1986年至2011年的各年度数据。其中z1、z5、z6对应模型的解释性较差，与这三个模型有关的数据质量诊断仅用于参考。

从结果看，1986年以来浙江省大部分宏观经济统计数据横向匹配性良好，详细情况如下：

（1）浙江全社会投资指标数据完全通过了横向匹配性检验，没有存疑数据。生产总值、三产增加值、消费价格指数这三项指标的横向匹配性存疑数据也都不超过一个。

（2）1986年、1992年这两个年份出现的次数较多，且在这两年各指标的不匹配情况较为类似，说明这些数据的变化很可能是由于各待评估指标之间相互影响所致，而非仅仅由这些可信指标所决定。

（3）模型认为1986年浙江省生产总值数据偏高，但参考GDP增速的回归模型看并没有相应GDP增速过快的情况。

（4）模型认为1986年、1992年、2002年、2011年这四年的三产增加值比重数据横向匹配性存疑，但是从三产增加值的模型看仅认为有1995年的数据高于预期。

（5）在其他解释性较强的模型中，除1986年、1992年这两个年份外，仅有1987年的城镇居民收入低于预期值，其他数据横向匹配性良好。

（6）各解释性较弱的模型中，检验得到的横向匹配性存疑的数据也并不多，也可基本判断数据与可信指标的横向匹配性良好。

（三）各宏观经济指标之间的匹配性评估

为进一步分析所有宏观经济指标之间的横向匹配性，可以改进模型，并需要增强假定：首先以所有选定的宏观经济指标变量作为一个变量总体，然后在验证某一个待评估指标的横向匹配性时，假设变量总体中所有其他宏观经济指标均是可信的。

考虑到自变量数量非常多，且自变量之间存在着严重的自相关，本文选择使用人工神经网络回归模型来检验所有数据的匹配性。

1.变量总体的预筛选。运用五折交叉验证法验证后发现z1、z3、z4、z5、z6不适用于使用该模型的，因此考虑将z1、z3、z4、z5、z6从变量总体中筛去，即变量总体中只保留lny1、 lny2、 lny3、 lny4、 lny5、 lny6、 z2、 lnx1、 lnx2、lnx3、lnx4、lnx5、lnx6、lnx7这几个变量。

2.模型的预估计。在使用神经网络模型进行数据匹配性评估之前，还需要先确定各因变量下的人工神经网络模型隐藏层的节点数。本文以变量总体中各待评估指标为因变量，分别使用五折交叉验证法，来确定各模型的节点数。

3.数据匹配性分析。根据模型预估计的结果，使用交叉验证法依次验证lny1、lny2、lny3、lny4、lny5、lny6、z2的1986年至2011年的各年度数据。

根据前文中时间序列模型检验数据匹配性的标准，可以认为当lny1、lny2、lny3、lny4、lny5、lny6对应的模型预期值与真实值的差距在0.1以上、或者z2对应的模型预期值与真实值差距在1以上时，判断其真实值与模型预测值相差过大，数据匹配性存疑。

评估结果显示在人工神经网络模型下各宏观经济指标之间的横向匹配性非常优秀，仅有浙江省全社会投资这一指标数据与模型略有不匹配的情况。但在前文中已证得全社会投资指标与可信指标是完全匹配的，因此可认为浙江省各宏观经济指标的横向匹配性非常好。

五、结论及建议

（一）数据质量评估结论

浙江宏观经济统计数据质量较好，具体体现在以下几点：

1.各指标在时间序列上基本匹配，特别是2000年以后的数据完全匹配，说明随着统计机制的健全与完善，统计数据的质量也越来越好。1985年以前的统计数据，以及1988年、1989年、1993年这三年份各指标数据出现纵向不匹配，均与对应年份浙江政治、经济形势有关。21世纪以来，随着浙江统计体制机制不断完善，同时经济运行也相对稳定，各宏观经济数据均未出现时间序列不匹配的情况。

2.同年度下，全省生产总值、服务业增加值及其占生产总值比重、城镇居民人均可支配收入、农村居民人均纯收入、全社会固定资产投资、社会消费品零售总额等宏观经济统计指标的统计数据完全匹配，体现出了浙江宏观经济数据优异的横向匹配性。

3.剔除价格因素后的GDP增长率、城乡居民收入增长率体现出了良好的周期性，反映了经济周期的规律。居民消费价格指数、工业生产者价格指数则表现出了价格变动的惯性以及其变动量的随机性，可以认为是在时间序列上匹配的。两个价格指数既表现出一定的独立性，同时也与当年的其他宏观经济数据表现出一定程度的关联性。

根据以上对统计数据匹配性的分析，可以得出浙江宏观经济统计数据质量较好的结论。