浅谈随机误差项在线性回归模型中的应用

2020-10-21李波涛

西部论丛 2020年2期

经典线性回归模型是计量经济学分析的重要工具。线性回归模型由解释变量、被解释变量和随机误差项组成。其中，解释变量为非随机变量，被解释变量为随机变量，被解释变量观测值与解释变量根据参数计算出的估计值之间的差项是一个随量，我们称之为随机误差项或随机干扰项。

由于经济变量之间的关系是错综复杂的，影响一个被解释变量的因素有很多，从经济变量动力学关系和经验数据统计显著性水平检验两个方面进行判断，我们可以将其分为重要解释变量和非重要解释变量。通常情况下，不同的研究者、研究目的和研究数据，会对一般性模型进行约化和简化，得到的模型中解释变量仅含有显著性水平较高的因素，而将显著性水平较低的因素统一归入随机误差项。所以，随机误差项可以概述表示由于人们的认识以及其他客观原因的局限而没有考虑到的种种偶然因素。

随机误差项源于偶然因素。其中，偶然因素分为模型固有因素和模型设定过程中产生的、但是可以通过技术手段避免的因素。其中，固有因素又称为“原生”的随机误差项，包括代表众多细小影响因素和变量的内在随机性;可以避免的随机误差项又称为“衍生”的随机误差项，包括未知的影响因素、残缺数据、数据观测误差以及模型设定误差。

由以上各种因素组成的随机误差项，是线性回归模型中的一个不可或缺的影响部分。线性回归模型的参数估计服从一定的分布，而这个分布直接与随机误差项的概率分布相关。所以，确定随机误差项的概率分布是线性回归模型参数估计的基本前提。

根据高斯-马尔可夫定理，线性回归模型要得到满足无偏性、线性性和有效性的参数估计量，随机误差项需要满足零均值、同方差、互不相关，并且服从正态分布。而随机误差项服从正态分布的理论依据是中心极限定理。中心极限定理指出，在自然界与生产中，一些现象受到许多相互独立的随机因素的影响，如果每个因素所产生的影响都很微小时，总的影响可以看作是服从正态分布的。也就是说，如果随机变量X1，X2，......Xn独立同分布，并且具有有限的数学期望和方差：E（Xi）=μ，D（Xi）=σ20（k=1，2....），那么，当n很大时，随机变量近似地服从标准正态分布N（0，1）。

根据上述两个定理，我们可以得出经典线性回归对随机误差项组成部分的具体要求主要包括以下两部分。

一、随机误差项包含的因素很多，并且相互独立

根据之前分析，随机误差项包括代表众多细小影响因素、变量的内在随机性、未知的影响因素、残缺数据、数据观测误差以及模型设定误差。这些因素主要由现实生活中经济个体决策行为的多样性和随机性造成的经济变量关系的复杂性造成，这些因素大多是无法度量的，例如个人的偏好、个人对未来的预期等。同时，由于这些因素本身是随机的，我们无法观察到他们之间稳定的因果关系，所以可以将其理解为相互独立的。

二、随机误差项包含的因素对被解释变量的影响是很微小的。

对被解释变量的影响很微小，是指虽然它们也是被解释变量的影响因素，但是在一定显著性水平下，这些解释变量的变动不引起被解释变量的变动。例如，在分析居民消费决定因素时，除了个人资产存量、当期收入等重要因素外，居民生活区域的超市数量、周围人的消费水平等因素也会对居民的消费造成一定的影响，但这些影响相对较小，在统计检验水平上不显著，一般在回归模型中将其列入随机误差项。

根据以上分析，我们在建立线性回归模型时，随机误差项的掌握实际上就是考虑“大量独立”和“影响微小”两个方面，我们从经济变量之间的动力学关系和统计检验兩个角度进行分析。

一、研究经济系统的动力学关系

建立线性回归模型时，我们需要充分识别哪些因素对被解释变量有重要影响，而哪些因素对解释变量没有重要影响，我们可以从经济系统的动力学关系入手，即在经济理论的指导下分析研究对象的实际经济行为，从行为理论上理清变量之间的关系，从而确定该变量对被解释变量的影响是直接的还是间接的。我们将具有直接影响的变量作为解释变量放入模型当中，同时将虽然从内在本质意义上对被解释变量有影响，但是从经济主体之间的关系意义看没有直接作用的因素从模型中予以剔除。

二、模型的统计检验必要性

模型设定过程时，一个被解释变量和所有影响因素之间只能存在一种客观的正确的关系，即模型设定必须遵循“唯一性”原则，作为研究起点的总体模型必须是唯一的，也就是说，模型应当具有“一般性”。

从统计学上讲，只有首先建立”一般性”的模型，才能保证随机误差项满足“基本假设”。建立“一般性”模型后，出于对模型的实用性出发，应当通过变量的显著性水平检验，将显著性水平低于实际要求的变量从模型中剔除，保留显著水平相对较高的变量，从而使模型更具有实用性，是计量经济学模型设立的一个思路。

但是，如果没有经过对“一般性”模型的参数进行检验，直接根据个人经验省略了部分，就相当于将这些变量计入了随机误差项。事实上，如果这些变量对被解释变量的影响是统计显著的，那么随机误差项将不符合“微小”的前提假设，高斯马尔科夫基本假设随即遭到破坏，在此基础上建立的模型估计出的参数都是无效的。

例如，商品销售量一般至少受到商品价格、居民收入、相关商品价格等因素的影响，假设正确的模型为Q=a+b1P+b2Y+b3P+u，此时u符合中心极限定理的基本假设。如果实际过程中，假设商品价格是影响商品需求量的唯一显著因素，建立了Q=a+b1P+u的模型，则u= u +b2Y+b3P，其中，Y和P对Q的影响并不“微小”，所以u不再符合中心极限定理的基本假设，在此基础上估计出的模型参数将不再是BLUE.

研究经济系统的动力学关系分析结合统计检验必要性判断，基本可以筛选出回归模型中重要的影响变量，从而确保随机误差项所包含的影响因素都是独立而微小的。

通过以上分析可以发现，对随机误差项的研究实际上是对回归模型设定精确性和实用性的研究。建立线性回归模型时，我们并不能直接确定随机误差项是哪些微小因素的集合，而是通过排除法将重要解释变量之外的其他因素合并计入随机误差项。这种分析方法实际上是要求我们在建立计量经济学经典线性回归模型时应充分考虑经济因素理论和现实两方面的关系，充分认识一个经济变量具体受哪些经济变量的影响，以及这些变量的重要程度。通过行为经济分析和数理统计检验两个方法，将各个解释变量对被解释变量的影响水平进行划分，并以正确的形式将重要的解释变量引入模型。至此，对被解释变量影响水平较低的因素，一并计入随机误差项，确保从理论上符合中心极限定理的基本要求，并进而得到经典线性回归模型中获取BLUE参数的理论依据。

作者简介：姓名：李波涛性别：男出生年：1983 ，籍贯到市：山西省临汾市，民族：汉，职称：中级会计师学历：在职研究生，研究方向：计量经济学