我国宏观经济统计数据质量诊断方法与实证
2018-03-21王晶
王晶
(陕西秦农农村商业银行股份有限公司,西安710082)
0 引言
随着我国经济发展方式的转变和需求结构的不断变化,我国经济体制逐步走向市场经济体制,利益主体随之日益多元化,统计工作所面临的内外部环境都发生了非常大的转变,统计工作迎来了更大的挑战。目前实际统计工作中,统计数据不协调是导致统计数据质量不高的重要原因之一,单个指标的数据准确性已经不能作为评估数据质量的唯一标准,不同宏观经济统计指标的数据之间也应该处于一种相互协调的关系。为此,学界和政府统计部门均纷纷从数据协调性角度加大了对统计数据质量评估方法的探索力度。
Rawski(2001)[1,2]指出自1998年以来中国官方公布的GDP数据有高估嫌疑,并且偏误远远大于统计技术困难带来的误差,官方GDP增长率不能反映真实的经济成果,文中给出了反映中国经济增长情况的真实评估结果。Sinton(2001)[3]基于能源数据内部不同项目之间应该协调一致的假定,对1990—2000年中国能源统计数据质量进行了评估,认为90年代初的能源数据比较准确、可靠,但自90年代中期以后数据质量有所下降。阙里和钟笑寒(2005)[4]选取10个宏观经济核心指标,利用1984—2001年我国28个地区面板数据构建固定效应变截距模型对GDP数据准确性进行评估。研究发现,各地区在1984—2001年整个研究时期内,并没有找到国内生产总值数据有长期错误的依据。刘洪和黄燕(2009)[5]以C-D生产函数为基础,选取1978—2004年相关指标数据构建计量模型,通过计算COOK、W-K等传统统计量对GDP准确性进行评价,经计算得到1978年、1984—1986年、1991年GDP数据值得质疑。卢二坡和黄炳艺(2010)[6]以C-D生产函数为基础,构建基于稳健MM估计的数据质量诊断方法,对1978—2008年我国GDP数据准确性进行了评估,认为我国的GDP数据是相对可靠的。
对国内外文献进行总结,发现在模型估计方法上,大多学者仍采用普通最小二乘法对模型参数进行估计,然而OLS回归易受到数据集中少数异常值的影响,从而模型估计结果不准确,根据拟合模型得到的残差不能检测出所有异常点。近年来统计学者开始重视稳健估计方法,并建立基于稳健估计方法的数据质量评估模型,该方法能够有效地解决OLS方法中经常出现的多个异常点掩盖的弊端。
1 宏观经济统计数据协调关系模型、估计方法与实证结果
1.1 协调关系模型的经济理论依据——道格拉斯生产函数
本文以C-D生产函数即柯布-道格拉斯生产函数为例进行实证分析,并且将财政支出当作经济增长的内生变量,即包含财政支出要素的经济增长模型为:
其中,Yt为总产出量,Kt、Lt分别代表(私人)资本投入量、劳动投入量,eεt表示随机误差项,A0为初始的技术水平,λ为技术进步率,a、b分别为劳动和资本的投入产出弹性。将式(1)两边取自然对数,得:
通常假设规模报酬不变,即有α+β=1,则式(2)可变换为:
可以通过对式(3)进行参数估计,来考察资本、劳动对总产出的影响。
1.2 协调关系的估计
1.2.1 数据来源及处理
样本数据皆取自1978—2014年《湖南统计年鉴》。其中,总产出量Yt选用地区生产总值数据,资本存量Kt用固定资产投资总额替代;劳动力数量Lt用年平均从业人数代替。为消除物价因素的影响,各个变量在计算时,进行不变价处理,均除以以GDP平减指数换算成真实值,由于年鉴中没有GDP平减指数,所以采用如下公式进行换算:
其中,GDPi代表第i年的名义GDP值,GDPiindex代表第i年的GDP指数,GDP1978代表1978年GDP名义值,GDP1978index代表1978年GDP指数(1978=100)。
1.2.2 估计方法
建立计量模型,模型形式如式(3),在对式(3)进行参数估计时采用稳健回归方法,因为相比普通最小二乘估计,稳健回归能够提供不受异常值或偏态残差分布影响的无偏估计,并且能更好地识别异常点。
稳健MM估计的基本原理是,首先在迭代的S估计方法的基础上得出对异常值具有高度耐抗性的回归系数和对应残差的初始估计,然后运用M估计方法导出回归系数。假设被解释变量y受p个相互独立的解释变量x的影响,两者之间的关系可以由多元线性回归模型表示为:
式(5)中,εt是独立同分布的误差项,令xt=(x1t,…,xpt),θ=(α0,α1,…,αp),定义第t年观察值的残差为
式(6)中,ρ(·)是满足一定条件的损失函数,是对称、连续、严凸或者在正半轴上非降的函数。为了使得式(6)的解具备尺度同变性,残差et(经由一个离散尺度标准化。
损失函数ρ(·)的选取对于取得高的稳健性特征和高效率至关重要。通常,初步的S估计以及最终的MM估计都选择Turkey的双权型ρ(·)函数,该函数定义如下:
对于S估计,常数k设置为1.547可以保证50%的破坏点。而对于第二步的MM估计,常数k设置为4.685可保证最终估计具有95%的效率。
1.2.3 估计结果
因稳健MM回归估计的模型形式是线性的,所以需将前述函数形式(3)转换成线性形式,令则需要估计的模型转换为运用稳健MM估计方法对湖南省地区生产总值与资本投入量、劳动投入量之间的协调关系进行估计,具体采用STATA软件实现模型参数的估计,结果如表1所示。
表1 基于稳健MM估计的回归结果
稳健MM回归模型为:
将其转换回三次函数形式,即协调关系模型为:
构建了湖南省地区生产总值与资本投入量、劳动投入量之间的协调关系模型,接下来需要在此模型基础上,对湖南省宏观经济统计数据质量进行评估。
2 宏观经济统计数据质量诊断方法与实例
2.1 宏观经济统计数据质量诊断方法
2.1.1 趋势拟合诊断法
现有的趋势拟合诊断法通过计算第t期被解释变量的实际统计值与根据模型得到的估计值之间的误差率来评估数据之间协调性,如果误差率超出自己设定的允许误差范围,则认为该期数据不协调,这一数据的可信度值得怀疑。具体公式如下:
通过阅读大量文献发现统计学者普遍认为宏观经济数据估算值偏离实际值的程度超过5%的时候,则认为这一数据是可疑的。本文在前人研究基础上,也将最大允许误差率设置为5%。
2.1.2 统计诊断法
稳健回归本身是当数据集中存在异常值时,使估计结果能够对于异常值有较好的抵抗性,减少异常值对估计结果的影响,但它也可以通过稳健残差—稳健距离诊断图(RR-RD诊断图)实现异常点类型的识别与数据质量的诊断。RR-RD诊断图的纵轴是标准化的稳健残差RRt=et,横轴是自变量X空间的稳健马氏距离RDt。
式(12)中,均值向量μMCD和协方差矩阵∑MCD是根据MCD估计得到的稳健估计量,用来抵抗异常值对估计结果的影响,p指模型中解释变量的个数。
根据RR-RD诊断图不仅可以诊断出哪些数据点为异常值,还能够识别异常值的类型。从纵轴上来看,在假设残差服从正态分布的情况下,如果或则可将该数据点看成是Y方面的异常点。RRt的临界值±2.24,此处2.24是Y方向上允许偏离的最大距离,即后文中的最大允许偏离距离。从横轴上来看,如果(p为模型中解释变量的个数),则可将这一数据点视为X方面的异常点,该稳健距离被认为有过高的杠杆效应。RR-RD诊断图将数据点分为四类:|RRt|和RDt都小的为正常值;|RRt|大而RDt小的为纵向异常点;|RRt|和RDt都大的为坏的杠杆点;|RRt|小而RDt大的为好的杠杆点。在四类数据点中,正常值和好的杠杆点与数据集整体趋势一致,不会导致数据质量下降,但是纵向异常点与坏的杠杆点都从X空间或者Y空间远离数据集整体趋势,这两种数据点的存在会增大回归系数的标准误差,从而导致数据质量的下降。
2.1.3 综合诊断法
在前两种诊断方法中分别运用到误差率δt与稳健残差RRt数据质量诊断统计量,这两个指标分子都为预测值偏离真实值的程度,但是这两个指标数值协调性临界值不同,导致两种诊断方法的评估结果不同。
统计诊断法中:RRt=et/,||RRt≤2.24(各指标数据之间相互协调)
在趋势拟合诊断法中,RRt的协调性临界值是其大小不恒等于2.24,所以上述两种诊断方法的临界值大小不同会造成其评估结果的不同。为了更科学地对数据质量进行诊断,本文建议将两种方法相结合,构建更合理的数据质量诊断方法——综合诊断法。
在综合诊断法中需要用到两个概念:相对误差率和相对稳健残差。相对误差率用来表示,相对稳健残差用δt来表示。定义如下:
式(15)中Δt为综合偏离误差,也是描述数据真实值与估计值之间的偏离程度。如果|Δt|≤2,则认为各指标数据之间相互协调,该年数据质量较好;反之,数据质量较差。
2.2 宏观经济统计数据质量的诊断
运用趋势拟合诊断法、统计诊断法及综合诊断法分别对湖南省地区生产总值与资本投入量、劳动投入量之间的协调性进行诊断,诊断结果如表2所示。
表2 基于三种诊断法的数据协调性诊断结果
(1)通过分析基于趋势拟合诊断法的误差率δt数据可知,湖南省地区生产总值真实值与预测值之间的误差率绝对值均在5%以内,说明各数据之间协调性较好,即整体数据质量较好。但需要注意的是,1978—1982年、1989年、1990年的地区生产总值真实值与预测值之间的误差率绝对值相对于其他年份来说较大,均在1%之上。
(2)通过分析基于统计诊断法的数据质量评估指标可知,1978—1982年、1989年、1990年、2011年的|RRt|大于2.24,这些数据点可看作是Y方向上的异常点。1978—1988年、2009—2013年的RDt数据大于这些数据点可看作是X方向上的异常点。为了更直观地观测稳健残差RRt与稳健距离RDt的相对位置,绘制RR-RD诊断图,如图1所示。
图1 RR-RD诊断图
结合表2、图1可以看出,1983—1988年、2009年、2010年、2012年、2013年的稳健距离RDt虽然被诊断为异常,即远离X空间,但是它们并非纵向异常值,所以这些年份的数据为好的杠杆点,它们的存在不会造成数据不协调。1978—1982年、2011年的RDt很大,被诊断为异常,即X方面异常,同时它们都是纵向异常值,这些数据为坏的杠杆点。1989年、1990年的稳健残差RRt被诊断为异常,但稳健距离RDt正常,即Y方向异常但X方向正常,这两年数据是纵向异常点。故1978—1982年、1989年、1990年、2011年湖南省地区生产总值与资本投入量、劳动投入量数据不协调,这说明这些年份的数据是可疑的,数据质量较差。
与基于趋势拟合诊断法的数据质量诊断结果相对比,发现两种方法的诊断结果存在一定的差异,从方法理论上并不能判断到底哪种方法评估结果更可靠,故最终采用综合诊断法对湖南省宏观经济统计数据质量进行诊断。
(3)通过分析基于综合诊断法的综合偏离误差Δt可知,1978—1982年、1990年的综合偏离误差Δt绝对值大于2,而其余年份的综合偏离误差Δt绝对值小于2,故湖南省地区生产总值与资本投入量、劳动投入量数据之间不协调的年份主要集中在1978—1982年、1990年,即表明这些年份的数据是可疑的,数据质量较差。
3 结论
本文构建基于稳健MM估计方法的宏观经济统计数据协调关系模型,并在趋势拟合诊断法和统计诊断法的基础上提出综合诊断法,并运用综合诊断法对湖南省宏观经济数据质量进行诊断。
对湖南省宏观经济统计数据质量进行实证分析,研究表明:1978—1982年、1990年湖南省地区生产总值与资本投入量、劳动投入量数据之间存在不协调问题,这些年份数据质量较差。综合分析数据质量诊断结果,发现湖南省各年份宏观经济统计数据质量水平参差不齐,数据不协调的程度略有差异,但是可以确定的是某些年份确实存在数据不协调问题,这种不协调导致自身数据质量不高。
[1] Rawski T.What is Happening to China’s GDP Statistics?[J].China Economic Review,2001,12(4).
[2] Rawski T.China’s GDP Statistics:A Case of Caveat Lector?[J].China Economic Quarterly,2001,12(5).
[3] Sintion J E.Accuracy and Reliability of China’s Energy Statistics[J].China Economic Rview,2001,12(4).
[4] 阙里,钟笑寒.中国地区GDP增长统计的真实性检验[J].数量经济技术经济研究,2005,(4).
[5] 刘洪,黄燕.基于经典计量模型的统计数据质量评估方法[J].统计研究,2009,(3).
[6] 卢二坡,黄炳艺.基于稳健MM估计的统计数据质量评估[J].统计研究,2010,(12).