我国粮食总产量数据质量评估方法

2013-10-20吕莉莉刘春红

统计与决策 2013年23期

吕莉莉，刘春红

（天津财经大学统计系,天津 300222）

0 引言

我国农业耕地有限、农业人口数量非常多、农业综合生产力不高、农村经济社会相对发展落后，结合我国农业的实际情况，通过选取粮食产量作为产出变量，粮食作物播种面积，农用机械总动力，化肥施用量，有效浇灌面积，成灾面积以及农业劳动力等6个指标作为投入变量，以研究分析这些因素对粮食产量的影响程度。基于计量经济学的理论我们得出一个比较理想的模型并且基于此模型我们对粮食产量的数据质量问题给出一系列的解释。

1 模型建立

1.1 C—D生产函数模型简介

生产函数这一名词是由美国数学家CharlesCobb和经济学家PaulDauglas提出的，他们用历史统计资料研究二十世纪初美国的资本投入和劳动投入对产量的影响时，得出的一种生产函数，是分析投入和产出之经济数量关系的常用的一种生产函数。模型如下：

Y=AKαLβ其中A为常数项，代表一定的技术水平。A,B分别为资本投入和劳动投入的生产弹性。

1.2 数学模型的建立

影响粮食产量的因素非常多，本文选取了粮食作物播种面积，农用机械总动力，化肥施用量，有效浇灌面积，成灾面积以及农业劳动力作为解释变量。我国的粮食产量为被解释变量。

模型使用1990～2010年的时间序列数据(数据来自于《中国统计年鉴》)。粮食产量的C—D模型如下

其中Y为粮食产量，A为常数项，S代表粮食作物播种面积，K代表农用机械总动力，H代表化肥施用量，G代表有效浇灌面积，Z代表成灾面积，L代表农业劳动力，α1，α2，α3，α4，α5，α6表示的是粮食作物播种面积，农用机械总动力，化肥施用量，有效浇灌面积，成灾面积以及农业劳动力的产出弹性。

我们把上式(1)式两边取对数得到如下形式的多元线性回归方程：

我们利用统计软件求解该模型如下所示:

由于F0.05(6,14)=2.85＜91.13924所以总体回归方程是显著的。在α=0.05的情况下 t0.025(14)=2.15多个参数未通过t检验因此存在严重的多重共线性，这一点可以通过各解释变量的相关系数表得到（见表1所示）。

表1 相关分析结果

由于此模型存在多重共线性因此我们采用逐步回归法进行改进，最终我们的到如下的的模型：

t值分别为（-6.155），（15.321），（21.828），（-5.618）R2=0.972，Rˉ2=0.967 DW=1.742 dl=1.03 du=1.67 t值均显著，通过怀特检验我们也知道此模型不存在异方差，并且1.67＜DW＜4-1.67,所以此模型也不存在序列相关性。

综上所述，我们得到的模型lnY=-6.918+1.352lnS+0.339lnH-0.079lnZ是一个比较合理的模型。

从此模型中我们可以看出粮食产量主要受制于粮食作物播种面积，化肥施用量，成灾面积，并且粮食作物播种面积的产出弹性最大，说明播种面积仍然是粮食产量制约性最强的因素，因此我们要积极保证播种面积，扩大播种面积是提高粮食产量的有效途径。化肥施用量的产出弹性排第二位，说明我国就粮食产量而言，化肥的使用对粮食仍有重要的作用，但过度使用化肥也会对土壤的有机结构造成影响，不利于农业的可持续发展。成灾面积也是影响粮食的一个重要方面，我国是一个自然灾害发生比较频繁的国家，生态环境非常差，其中荒漠化面积占国土面积的27.3%，所以必须采取一些措施，例如加大财政投入、进行大江大河治理、退耕还林、农田水利建设，以此来提高抗灾能力。

2 对粮食产量数据质量评估

统计诊断是20世纪70年代中期发展起来的一门统计的分支学科，因为任何统计模型都只能是对客观现象复杂变化过程的一次近似描述，不可避免地要包含着某些假设，甚至模型本身也是一种假定。所以，在研究实际问题时，常面临这样的问题：收集到的客观现象的数据准确性如何，错误数据对模型的估计影响有多大。模型统计诊断就是针对这些问题而发展起来的。通过统计诊断，可以找出严重偏离既定模型的数据点，也就是所谓的异常值点，强影响点，高杠杆点。

在上述具有经济意义的模型下，通过计算模型的统计诊断量，分析各个样本点对模型的影响，找出所谓的异常点，从而认为这些数据是数据质量的可疑点。因此我们可以使用如下统计量：学生化残差，马氏距离，Cook距离，杠杆值来进行分析。

2.1 学生化残差，马氏距离，Cook距离，杠杆值

(2)Cook统计量。

该统计量用于检验强影响点，度量对参数β的影响的基本的统计量。Cook提出以Cook距离来衡量某一个数据点是否是强影响点，理论依据是:对于模型，在参数空间Rp中，真实参数β与其估计值之间存在一定的关系，形成以为中心的椭球，落在椭球以外的β点的概率很小，可以考虑通过删除所考察的数据点i前后的两者的差异来衡量影响，其中表示删除数据点i后对原始模型进行估计得到的参数估计值。Cook距离定义如下

其中，s2表示通过整个样本对模型进行估计得到的随机误差项的方差估计值。Cook距离的大小反映了删除某个数据点后，模型残差发生的变化量。

(3)另一个度量数据点影响的中心点杠杆值，反映某一个数据点对模型拟合的影响，用hi表示第i个数据点的杠杆值，通常比较hi与临界值h（h=2*k/n），如果前者比较大，判定第i个数据点为强影响点，其中k为解释变量的个数，n为样本量。同样地，马氏距离也是度量强影响点的一个有效统计量。

2.2 实例分析

⑴基于上述（3）模型使用SPSS软件我们可以得到学生化残差的折线图如图1所示。

图1表明，1995～2010年间的学生化残差基本都在0值附近上下波动，但是可以看出2008年、2001年，2006年、2000年、2010年的绝对值都超过了1，因此我们可以认为这些数据点为异常点。

（2）通过软件我们得到如下的马氏距离图。

从图2中我们可以看出马氏距离的值大部分都在2～3之间波动，波动性比较大的点有1990年、2004年、2003年、2010年、1991年分别为 7.60、7.46、7.36、4.72、3.002由此可见，异常点主要集中在这四年。

（3）利用软件得到Cook距离的折线图。

图3显示，1995～2010年的Cook距离均在0.1以下小幅度波动，2000年升高到了0.1024接着2001年又有小幅度的升高上升到0.13，然后又逐渐回落，到了2003年、2004年骤然升高，升高到0.134，随后几年有小幅度的波动，直到2008年上升到了0.17，到了2009年回落了，然而2010年又升高到0.16。因此我们可以认为2008年、2010年、2004年、2001年、2000年较有可能称为异常点。

（4）最后我们得到杠杆值的折线图如图4所示。

图4表明杠杆值大部分都在0.3以下，杠杆指从 1990年的0.3800111下降到1991的0.150103214,随后的几年变化比较平稳。直到2003年杠杆值超出了临界值(为0.286)达到了0.3678,2004年又有了小幅度的升高达到0.373，从此之后杠杆值变化较平稳，均未超出临界值。因此我们有理由认为1990年、2004年以及2003年的值为异常值。

图1 学生化残差折线图

图2 马氏距离图

图3 Cook距离的折线图

图4 杠杆值折线图

我们把通过学生化残差、马氏距离、Cook距离、杠杆值得出的异常值和强影响点整理如表2所示。

表2 异常值及强影响点整理表

从表2中我们可以看出，2004年，2010年分别出现了3次；2003年、2008年、2001年、2000年、1990年分别出现了两次，1992年和2006年分别出现了1次。

因此我们可以把这些点都归到可疑点数据类，通过查找有关的这些可疑样本点的资料，记录对其进行的复查，同时还要对这些年份的宏观经济环境、发生的重大事件等进行分析，最后才能下结论评估可疑样本数据的质量。

3 结论及评价

（1）所建立的计量模型的形式及解释变量的选取没有趋势模拟评价法那么随意，遵循一定的经济理论，借助与考察相关的经济指标的数据来研究考察指标的数据质量是该方法的一个特点。

（2）本文主张选取较少的解释变量进行分析。因为在解释变量较少的情况下，既可以通过控制解释变量的数据质量有效控制评估的效果，同时也可以将模型简化。

（3）在模型建立后，通过诊断统计量，诊断出偏离模型的样本点，认为在由模型所建立的空间系统中，各个指标的位置由解释变量和被解释变量的值确定。如果发生的偏离也就是说解释变量与被解释变量明显的不符时，在假设解释变量的数据可靠地前提下，怀疑观测指标的数据质量。与趋势模拟评估法不同的是运用诊断统计量可以对各个样本点同时进行评估。

[1]尹成杰.关于我国粮食生产波动的思考及建议[J].农业经济问题,2003，(10).

[2]熊华,谭丽燕,王争艳.南宁市粮食生产影响因素分析[J].华中农业大学学报(社会科学版),2006，(6).

[3]肖国安,王文涛.粮食产量的波动及其平抑[J].湖南科科技大学学报,2006，（1）.

[4]KuehYY.Weather Cycle Sand Agricultural Instability in China[J].Journal of Agricultural Economics,1986,37(1).

[5]张军等.中国省际物质资本存量估算:1952～2000[J].经济研究,2004,(10).

[6]王小鲁.关于中国经济增长率的几点讨论[J].经济学（季刊）,2002,(1).

[7]许宪春.中外经济学家对中国经济增长率的评论[J].财贸经济，2003,(2).

[8]陈晓玲，李国平.我国地区经济收敛的空间面板数据模型分析[J].经济科学，2006，（5）.

[9]李金昌.论什么是统计数据质量[J].统计与决策,1998,(9).