基于时差相关分析与回归模型的用水总量预测
2017-03-21刘呈玲方红远
刘呈玲,方红远
(扬州大学,江苏 扬州 225009)
随着人口增长、社会经济发展,水资源短缺问题愈发严重,科学管理、合理分配才能实现可持续发展。2013年1月,国务院办公厅发布出台了《实行最严格水资源管理制度考核办法》,各地区广泛开展水资源承载负荷评估工作。太湖流域作为我国经济、文化、科技最为发达的地区之一,严格落实最严格水资源管理制度,配套开展流域水资源承载能力评价研究等项目,将用水总量、地下水开采量作为评价流域水资源承载负荷能力的指标。其中,用水总量为最严格水资源开发利用控制红线,对其进行预测与分析对太湖流域水资源承载能力评估具有一定的现实意义,并能为各地开展水资源研究与评估工作提供参考依据。
本文根据太湖流域水资源状况,借鉴水资源预警的思想,利用时差相关分析法筛选预警指标,作为太湖流域用水总量的主要预测因子,并以此构建多元线性回归模型,预测太湖流域未来用水总量,为太湖流域水资源承载能力核算与评估提供一定的技术方法和决策依据。
1 时差相关分析法
1.1 时差相关分析理论
相关分析是研究随机变量之间的相关关系的一种统计方法。时差相关分析法,则是通过对时间关系的量化,利用相关系数表征各指标序列在某段时间内的先行、同步或滞后的关系的方法[1]。相关系数有正有负,分别代表正负相关,取值范围为-1到1。
1.2 模型与计算方法
时差相关系数可按以下原理进行计算[2]:
假设时差相关系数R,基准指标Y={Y1,Y2,Y3, …,Yn},被选指标X={X1,X2,X3, …,Xn},则:
(1)
式中:l为超前或滞后期,被称为时差或延迟数(l=0时表示不移动,表示同步;若表示超前,则对应的l﹤0;若表示滞后,则对应的l﹥0);n为所取数据的个数;MB表示最大延迟数。
取不同的l值,分别代表不同的时差,并计算时差相关系数Rl,取绝对值最大的R′l作为时差相关系数。时差相关系数对应的时差数l的正负,可判断被选指标与基准指标先行、同步或滞后的关系。它反映了被选择指标与基准指标的波动最接近,即为时差相关系数。只有超前相关性较强的指标才能被选为预测性指标。
2 多元回归模型
2.1 多元线性回归模型理论
多元线性回归模型是研究一个因变量和多个自变量间的线性关系方法[3],设有n组观测数据(x1,x2,…,xpi,yi)(i=1,2,…,n),其中x为自变量,y为因变量。假设其满足以下关系式:
yi=β0+β1xi1+β2xi2+…+βpxip+εi
(2)
i=1,2,3,…,n
式中:β0,β1,…,βp为待定参数;εi为随机误差,其均值为0,方差为σ2。
(3)
2.2 回归模型统计检验
多元线性回归模型的统计检验是指运用数理统计的方法,检验模型方程、参数估计值的拟合优度、显著性等。拟合优度检验,即R2检验,是检验所有解释变量与被解释变量之间的相关程度。方程显著性检验就是检验模型的解释变量与被解释变量之间的总体线性关系是否显著[4]。
2.3 回归模型适用性分析
随着流域水资源用水量的日益增加,对流域用水总量进行科学分析和预测是满足流域发展需求、保证水资源可持续利用的前提。通常所采用的区域用水量预测方法有用水定额法、回归分析法、神经网络法、灰色模型预测法等,多元线性回归模型具有方法简单,模型简洁,便于开发及预测费用较低等优点[5],因此本文运用多元线性回归模型对太湖流域未来用水总量进行预测,并进行模型的数理统计检验,为确定模型是否适用于指标估计值,将所建回归模型用于样本外某一时段的实际预测,并将预测值与实际观测值进行比较,分析两者差距的显著性。
3 应用研究
3.1 研究区域概况
太湖流域位于我国沿海中部,长江三角洲南部,是我国第三大淡水湖。太湖流域整体略呈三角形,北依长江,东临东海,南濒钱塘江,西以天目山、界岭、茅山山脉等山丘为界,流域面积为36 896 km2,水面面积为5 551 km2,行政区划分属江苏、浙江、上海和安徽三省一市。太湖流域地处中纬度地区,属于典型的亚热带季风气候,四季分明。流域多年平均气温15~17 ℃,年平均日照时间1 800~2 240 h,多年平均降雨量为1 177.3 mm,多年平均年水面蒸发量为822 mm,多年平均年径流量为161.5 亿m3,受大气环流影响,流域内的降水量年际变化较大,年内分配不均[6]。太湖流域多年平均水资源总量为177.4 亿m3,人均水资源占有量为398 m3,耕地水资源占有量为48.47 m3/hm2,长江多年平均过境水量为9 334 亿m3。
太湖流域是我国社会经济最发达的地区之一,其自然条件优越,人口稠密,据统计资料显示,至2012年末,太湖流域人口达到20万人,约占全国总人口数的4.4%;太湖流域社会经济发展迅速,2012年太湖流域国内生产总值达54 188 亿元,人均GDP达9 153元,是全国人均GDP的2.4倍。但流域经济社会的高速发展,人口的不断增加,用水总量、污染排放量也迅速增大,水质、水量、水生态等水资源问题逐渐制约着太湖流域的经济社会可持续发展[7],为切实做好最严格水资源管理工作,对太湖流域未来用水总量进行预测具有较高的实用价值。
3.2 基于时差相关分析的预测因子选择
区域用水总量受多种因素影响,本文主要以全面性、代表性、可量化为原则,根据太湖流域水资源状况及利用情况,在参考《太湖流域及东南诸河水资源公报》等相关资料的基础上,选取13个核心指标,对太湖流域2003-2014年的用水总量进行分析,统计的指标数据如表1所示。
本文采用SPSS19.0软件对上述统计指标进行时差相关分析,其中用水总量指标为基准指标,其余13个指标为被选指标,计算被选指标相对于基准指标超前或滞后若干期(3年以上)的相关系数,取相关系数绝对值最大值作为被选指标的最大相关系数,一般要求大于0.5,其对应超前或滞后的移动年数即为时差数,以此为依据划分先行、滞后或同步指标[8]。若指标的最大时差相关系数在超前期得出,则该指标为先行指标;若指标的最大时差相关系数在延迟期得出,则该指标为滞后指标。依据上述方法及统计指标,移动年数拟定为5年,计算太湖流域各被选指标值与用水总量指标时差相关系数,确定每个指标的性质类别,计算结果见表2。
表1 太湖流域社会经济发展和水资源状况指标Tab.1 Indexes of social and economic development and water resources in Taihu Basin
注:X1为用水总量,亿m3;X2为人口,万人;X3为生产总值,亿元;X4为二、三产业结构比;X5为农田面积,万hm2;X6为生态环境用水,亿m3;X7为降雨量,mm;X8水资源总量,亿m3;X9为万元GDP用水量,亿m3;X10为用水消耗总量,亿m3;X11为污水排放总量,亿t;X12为工业用水,亿m3;X13为人均用水量,m3;X14为每公顷农田灌溉用水量,m3。
表2 太湖流域用水总量的先行、同步及滞后指标Tab.2 Forward-looking, synchronous andlagging indexes of Taihu water consumption
根据时差相关分析计算,人口、生产总值、农田面积、用水消耗量、产业结构比、人均用水量、工业用水、每公顷农田灌溉用水这8个指标相关关系绝对值的最大值出现在先行年份,对用水总量具有预警作用,其先导强度与先行长度如表2中所示。因此,13个水资源承载力指标中共有8个先行指标,剩余5个为滞后指标。其中8个先行指标可作为预测性指标,对太湖流域用水总量进行预测。
3.3 回归模型的预测及检验
3.3.1 模型的建立
依据时差相关分析法筛选出的预警指标,设因变量y为用水总量(亿m3),利用SPSS19.0软件进行线性回归计算,得出多元线性回归预测模型:
Y=-120.807+0.031x1+0x2-51.092x3+0.648x4-
0.288x5+0.595x6+0.215x7+0.009x8
其中生产总值x2的回归系数为0,将其从自变量指标中去除,试算可知模型更加合理。因此最终计算分析得到的多元线性回归预测模型为:
Y=-105.639+ 0.017x1-30.207x2+0.904x3-
0.290x4+0.820x5+0.112x6+0.012x7
式中:自变量x1为人口数,万人;x2为二、三产业结构比;x3为农田面积,万hm2;x4为用水消耗总量,亿m3;x5为工业用水,亿m3;x6为人均用水量,m3;x7为每公顷农田灌溉用水,m3。
3.3.2 模型的有效性检验
运用SPSS19.0软件对该多元线性回归模型进行拟合优度检验、方程总体线性的显著性检验(F检验)可得[9]:
(1)拟合优度检验。模型自变量与因变量之间相关关系,即R值为0.998,R方值为0.997,调整R方值为0.991,接近于1,说明此模型方程的拟合度较高。
(2)显著性检验。根据Anova表,模型回归平方和为2 905.152,回归自由度为7,残差平方和为9.978,残差自由度为4,总计平方和为2 915.129,总计自由度为11,模型的F统计量的值为166.382,其概率值为0,通常在显著性水平为0.05的情形下,可以认为自变量与因变量之间有线性关系,此模型F统计量的概率值0﹤0.05,故判定该回归方程有效。
(3)合理性检验。将太湖流域2003-2014年各年度数据代入模型进行用水总量的预测,将预测的用水总量与各年度实际用水总量进行比较,分析其相对误差,结果如表3所示。表中最小相对误差为0.58%,最大相对误差为1.25%,预测等级为“好”,可以认为此用水总量预测模型是合理的。
表3 太湖流域2003-2014年用水量预测值与用水量实际值相对误差Tab.3 The relative error between annual predicted value ofwater consumption and actual value of waterconsumption in Taihu Basin
预测的精度等级按照以下划分:相对误差<3.5%为好;3.5% ≤相对误差<5.0%为合格;5.0%≤相对误差<10.0%为勉强;相对误差≥10.0%为不合格。
为检验研究方法以及模型在估计值情况下预测的合理性,运用多元回归模型,利用太湖流域2003-2008年数据预测2009-2014年数据。由于各预警指标与用水总量指标具有较强的相关性,对各预警指标进行趋势分析,可以预测出未来一段时间太湖流域的用水总量,具体如下:
结合太湖流域实际情况,2003-2008年流域总人口逐年递增,平均增加率为4.0%,故以此估算2009-2014年人口数据;二、三产业结构比在2003-2008年逐年递减,平均减少率为-4.5%,故后5年数据以此估算;流域农田面积在前6年有增有减,但总体趋势为减少,结合流域实际情况,取最小值116.16万hm2作为2009-2014年农田面积数据;2003-2008年的用水消耗总量数据处于上下波动的状态,有增有减,综合实际情况,取6年平均值111.6 亿m3,作为后六年流域用水消耗总量数据;流域人均用水量除2003-2004年为递增,2004-2008年逐年递减,因此取2004-2008年平均减少率-4.2%,估算2009-2014年人均用水量数据;对流域2003-2008年工业用水进行分析,可以发现其数据先增后减,根据流域经济社会发展,取6年平均值201.4亿m3,作为2009-2014年流域工业用水量;每公顷农田灌溉用水量2003-2008年有减有增,结合流域农业发展水平,取6年平均值7 050 m3,作为2009-2014年流域每公顷农田灌溉用水量。根据以上预测方法,对太湖流域2009-2014年用水总量数据进行预测,从而检验此模型以估计值预测用水总量的合理性,结果如表4所示。从表中可以看出,最大相对误差出现在2014年,为5.30%,其他年份预测精度均为“好”。预测值与实际值相差不大,故按照以上方法估计各指标值可行,此多元回归模型在预测值情况下仍保持合理有效。
表4 太湖流域2009-2014年用水总量预测Tab.4 Water consumption forecast in Taihu Basin from 2009 to 2014
3.4 预测成果及分析
按照以上各指标值的估算方法,结合实际情况,2015-2020年流域总人口以2011-2014年平均增长率1.1%测算;二、三产业结构比以2009-2014年平均减少率-2.6%估算;农田面积取2009-2014年最小值86.26 万hm2;流域用水消耗总量取2009-2014年平均值100.6 亿m3;人均用水量按照2009-2014年平均变化率-3.6%计算;工业用水量、每公顷农田灌溉用水量取2009-2014年平均值211.8 亿m3、6 990 m3。将估测值代入回归模型中,得到太湖流域2015年用水总量预测值为339.6 亿m3,2020年用水总量预测值为338.3 亿m3。
根据预测数据,2015年太湖流域用水总量较2014年减少1.14%,2020年较2015年用水总量减少0.37%。可以看出,虽然流域人口、产业结构等不断地变化,但随着水资源利用率的提高以及节水措施的进一步落实,太湖流域用水总量基本保持稳定[10]。
4 结 语
本文运用时差相关分析法筛选出太湖流域用水总量的预警指标,借鉴线性回归理论,运用SPSS19.0软件建立多元线性回归模型,并进行统计检验及模型有效性分析。预测结果表明太湖流域用水总量逐步趋于稳定,但水资源与经济社会发展之间的矛盾仍存在,如何通过用水量对流域水资源承载能力进行核算、评估与预警值得进一步探索与讨论。
[1] 纪良纲, 王慧娟. 商品流通规模监测预警指标的筛选----基于时差相关分析法的视角[J]. 经济与管理, 2008,22(2): 5-7.
[2] 陈 旭. 基于时差分析法的旅游经济运行预警指标筛选[J]. 生态经济, 2013,(11): 87-89,105.
[3] 陈 威. 基于多元线性回归模型的武汉市水资源承载力研究[J]. 河南理工大学学报(自然科学版), 2017,36(1):75-79.
[4] 刘京娟. 多元线性回归模型检验方法[J]. 湖南税务高等专科学校学报, 2005,18(5):48-49,59.
[5] 张 雄, 党志良, 张贤洪, 等. 城市用水量预测模型综合研究[J]. 水资源与水工程学报, 2005,16(4):24-28.
[6] 李魏武, 陶 涛, 邹 鹰. 太湖流域水资源可持续利用评价研究[J]. 环境科学与管理, 2012,(1):85-89.
[7] 孙远斌, 高 怡, 石亚东, 等. 太湖流域水资源承载能力模糊综合评价[J]. 水资源保护, 2011,27(1):20-23,33.
[8] 任永泰, 李 丽. 哈尔滨市水资源预警模型研究(Ⅰ)----基于时差相关分析法的区域水资源预警指标体系构建[J]. 东北农业大学学报, 2011,42(8):136-141.
[9] 周 晨, 冯宇东, 肖匡心, 等. 基于多元线性回归模型的东北地区需水量分析[J]. 数学的实践与认识, 2014,(1):118-123.
[10] 沙之杰, 周金峰. 多元线性回归模型预测天津市用水量[J]. 西昌学院学报(自然科学版), 2008,(2):32-35.