基于GM(1，1)一逐步回归模型的用水量预测

2016-11-28孙丽芹常安定位龙虎魏伟平

统计与决策 2016年20期

关键词：用水量关联度预测值

孙丽芹,常安定,位龙虎,魏伟平

(1.长安大学理学院,西安710064;2.西安建筑科技大学土木工程学院,西安710055)

基于GM(1，1)一逐步回归模型的用水量预测

孙丽芹1,常安定1,位龙虎2,魏伟平1

(1.长安大学理学院,西安710064;2.西安建筑科技大学土木工程学院,西安710055)

为了对城市的用水量有个更精确的预测,文章将逐步回归模型与灰色预测模型相结合,提出了一种基于灰色预测——逐步回归的总用水量预测模型。该模型以逐步回归方法为基础,利用灰色相关性分析方法对观测数据进行处理,进而对预测模型的因变量进行筛选,并将灰色理论引入到回归模型分析中,对预测模型进行改进。通过实例分析可知:所提出的耦合模型与单一预测模型相比,在一定程度上改善了预测效果,达到了简化模型、提高拟合精度和增强模型预测能力的目的。

年用水量;逐步回归分析;灰色预测;灰色关联度

0 引言

近年来,我国特别是北方地区的水资源短缺问题日趋严重,水资源成为焦点话题。以世界上水资源严重短缺的大都市之一——北京为例,其人均水资源占有量不足300m3,为全国人均的世界人均的北京属于严重缺水的城市。北京市水资源短缺已经开始影响和制约北京社会和经济发展。为此,政府采取了一系列措施,例如:建设南水北调工程,建立污水处理厂,调整产业结构等。但是,随着气候变化及社会经济的发展,水资源短缺始终存在。那么对城市总用水量进行预测估计,并以此为依据针对不同风险因子采取相应的有效措施来避免水资源短缺的风险或减少其造成的危害,这对社会经济的稳定、可持续发展具有很大的意义。

本文提出了一种基于灰色系统的多元逐步回归预测模型[1]来对城市的年总用水量进行预测,并以北京市为例,建立北京市总用水量的预测模型,对北京市的总用水量的变化趋势进行了预测,并通过与其他模型结果进行比较,验证了此模型在预测分析方面具有较好的性能。

1 多元逐步回归模型原理

1.1 逐步回归原理

在实际运用回归分析时,对效应集起作用的变化集因素很多,这样会引起变量之间的相关性以及多重共线性等问题。而逐步回归(stepwise Regression,SR)[2]的基本思想是:从其中任意一个预报因素开始,依据其对因变量作用的显著程度,从大到小的依次引入回归方程,对已经选入的变量因素要进行一个个的检查,每一步都要做一次统计检验,这样以保证引入新的显著因子之前,回归方程只包含显著因子,即留下影响显著的因子,除去其他的因子。如此反复,经过若干步之后得到一个“最优”的变量子集,它包含了所有的显著因子。

1.2 多元线性回归分析[3]

多元线性回归的基本原理就是设预测对象y与多个影响因素变量xi() i=1，2，…，p;p＞1之间存在线性关系,设其数学模型为:yi=a0+a1x1+a2x2+…+apxp,利用j组已有的观测值在根据最小二乘法原理求出模型中的待定系数

2 灰色预测GM(1，1)模型

灰色预测是以灰色模型为基础的,在诸多的灰色模型中,以灰色系统中单序列一阶线性微分方程模型GM(1，1)模型最为常用。简单介绍GM(1，1)模型[4]:

(1)原始数据累加以便弱化随机序列的波动性和随机性,得到新的数据序列:

其中,α、μ为待定系数,分别称为发展系数和灰色作用量,并记α、μ构成的向量为只要求出参数α、μ,就能求出x(1)(t),进而求出的未来预测值。

利用模型进行预测:

3 预测步骤

步骤1:根据灰色系统关联系数[5]选择出对预测对象有显著影响的回归因子。

步骤2:再运用matlab,利用逐步回归法对这些回归因子进行筛选,选择出对预测对象有主要影响的回归因子。

步骤3:根据步骤2所得到的主要影响因子与预测对象的数据,运用matlab建立多元线性回归模型。

步骤4:对这些有主要影响的回归因子,按照GM(1，1)模型的要求,分别建立相应的微分方程,并求出各自的发展系数α和灰色作用量μ。

步骤5:由步骤4求出的微分方程分别预测出各个主要影响因子的预测值。

步骤6:由步骤5所计算出的预测值代入步骤3所得的多元线性回归模型中进而求得预测对象的预测值。

4 算例分析

根据北京市1991—2008年统计年鉴资料数据,从中选取7个影响总用水量的因子:农业用水(亿m3)、工业用水(亿m3)、第三产业及其他用水(亿m3)、降雨量(mm)、城市绿化率(%)、污水处理率(%)以及北京地区的常住人口(万人)作为研究对象。

4.1 灰色系统关联度的求解

对于灰色系统关联度[6]的分析,首先要确定参考序列,即作为比较的母序列,同时以几个因素作为比较序列。此时选定北京市总用水量作为参考序列,而影响总用水量的7个因子作为比较序列。(数据见表1)

表1 1991一2008年北京市水资源相关数据

为了避免由于量刚的不同而对关联度引起的影响,需对表1中的数据作初值变化,变换过后再进行关联度的分析。

关联分析[7]是系统分析技术的一种,它是对系统中各因素的关联程度进行分析并对系统动态过程发展态势的量化作比较分析的一种方法。其本质是对各列数据进行几何关系的比较,找出比较序列的发展趋势与参考序列发展趋势的吻合情况,并以此判断比较各影响因子与母序列的关联程度,从而选择出影响母序列的显著因子。利用变换过后的数值进行关联度分析,得到北京市总用水量与各个影响因子之间的关联系数,进而得到总用水量与各个影响因子之间的关联度(见表2)。

表2 总用水量与各个影响因子的关联度

从表2中可以看出北京市总用水量与农业用水、工业用水、降雨量、城市绿化率以及常住人口的关联度比较大,而与第三产业及其他用水、污水处理率的关联度较小,故选取农业用水、工业用水、降雨量、城市绿化率以及常住人口5个因子作为自变量,总用水量作为因变量来建立逐步多元线性回归模型。

4.2 多元逐步回归与灰色系统耦合模型的建立与预测

通过以上的灰色系统关联度分析得知,所研究的影响因子中对北京市总用水量变化的相关性最为紧密的是农业用水(x1)、工业用水(x2)、降雨量(x3)、城市绿化率(x4)以及常住人口(x5)5个因子。为了模型的简化,故采用逐步回归的办法,选择出主要的影响因子为农业用水、工业用水与城市绿化率,并使其进入多元回归模型进而得到北京市总用水量与主要影响因子之间的多元线性回归模型为: