基于回归分析的车辆数据增长与预测模型研究*
2015-08-27谌业文王旭琴
谌业文,胡 尧 ,王旭琴
(贵州大学 理学院,贵州 贵阳550025)
随着时间的推移与社会经济的发展,城市居民生活水平质量的不断提高,汽车进入家庭“与日巨增”的发展趋势不可动摇。以北京2011 年第二轮个人申请购车摇号为例,306865 位个人申请小型载客汽车,经审核截止至2011 年2 月8 日24 时,小客车指标申请个人共有292280 个有效编码,二月个人小型载客汽车申请仅有17600 个中签编码,摇号中签率约为6.02%,全国其他一二三线城市的发展虽没有北京“巨增”趋势猛烈,但在仍没有采取限购等强制措施的外力下,各大中小型城市的车辆增长必将发展不止。尽管全国各地均加大了道路等基础设施的建设,各线城市加强了道路、轨道及公交等建设的投入,极大的地改善了各线城市城区交通环境。但受地形等各城市特定因素的限制,大多数城市道路交通基础设施建设用地仍处于较低或不协调水平,车辆保有量与道路增长很不协调,供需矛盾较为突出,各城区交通拥堵状况在将来一定时期内更加日益严重。
介于各线各大中小城市发展的共性,各类机动车辆数据的增长是必然趋势。交通事故预测[1]及车辆增长交通数据的预测具有一定程度的不确定性[2],基于Logistic、Gompertz 等时间序列及其它如分段外推预测模型用于汽车保有量的预测时有出现,局部区域车流的Poisson 模型[3,4]预测条件太严格。之前的预测模型与保有量样本数据之间会随时发生变化,有时预测数据不一定切合实际发展的需要。为了详尽了解各类车辆数据的发展规律,更加科学准确地预测未来数据。本文基于数据自身发展规律,考虑国家政策等相关因素的影响,增加随机因子,通过公安部车辆管理系统贵阳市交警支队提供数据建立车辆数据增长随机因子预测模型,类似推广至各线各大中小城市,以期为相关部门提供决策依据。
本文利用数理统计线性与非线性回归分析原理,通过拟合原始数据与估计回归参数,建立给定置信区间的回归预测模型。同时通过模型分析误差提取随机因子,进一步修正模型建立带有随机因子的回归模型并对下一阶段的增长趋势作了随机预测。
1 数据准备
依据我国公安部车辆管理系统,贵阳市交警支队车辆管理所提供的机动车报表数据(2007 年7 月至2010 年12 月),部分数据统计报表格式如表1。
本文重在分析贵阳市各类车辆增长短期预测发展趋势,根据增长数据的给力特性,数据分析主要针对三类(小型载客汽车、合计汽车与总计机动车)数据中的四项(累计、个人、进口与新注册)增长类型数据进行分析。根据月报表整理的三类数据见表2。
表1 机动车报表格式
表2 2007 年7 月至2010 年12 月小型载客汽车、合计汽车与总计机动车月报表数据(单位:辆)
2 基于回归模型的数据增长模型
为了拟合数据模型,对表1 中的各项数据按数量级分别描述其各自的散点图(图1 与图2),通过散点图形状,后面尝试分别寻找非线性与线性回归拟合曲线进行增长模型预测研究。
图1 三类增长数据中累计与个人项散点图
图2 三类增长数据中进口与新注册项散点图
2.1 非线性增长曲线拟合
从图1 与图2 散点图可以看出,小型载客汽车、合计汽车与总计机动车数据中的累计、个人与进口项均具有非线性拟合特性,根据分析选择非线性指数拟合模型[5]:
为了更直观,将三类数据分别选择适当模型(1)式的初始值,计算三类数据各项非线性曲线拟合数据的参数估计值、参数协方差估计矩阵与误差方差估计值等。同时为了分析研究数据的发展趋势与预测值的置信区间,取置信水平为95%的总体均值区间观测值与预测值置信区间,其置信区间、拟合模型等见图3 至图8。
图3 小型汽车累计与个人项拟合
图4 合计汽车累计与个人项拟合
图5 总计机动车累计与个人项拟合
2.2 线性增长曲线拟合
从上述图2 看出,小型载客汽车、合计汽车与总计机动车三类数据中每月新注册车辆数据不具有模型(1)的非线性特性,故以下本文拟将对其作线性回归分析。
图6 小型载客汽车进口项拟合
图7 合计汽车进口项拟合
图8 总计机动车进口项拟合
通过初步线性拟合,三类数据中每月新注册项的线性判定系数分别为0.8430、0.8171 与0.7895,拟合度均有进一步提高的可行性。故分别对其进行残差分析,剔除异常值(均为2008 年12 月与2010 年1 月两月数据)并作稳健性回归分析,均通过检验,判定系数分别提高至0.9057、0.8698 与0.8483,拟合回归直线方程分别为y = 116x +1680、y = 132.7658x +2629.6 与y = 160.1869x +3724.5 ,利用文献[6]取置信区间半径置信水平如前取为95%,分别对三类月新注册车辆数据进行区间控制预测如图9 -图11 所示(注:内为异常值点)。
图9 小型载客每月新注册项拟合
图10 合计汽车每月新注册项拟合
图11 总计机动车每月新注册项拟合
3 模型评价与随机因子模型预测
研究建立了较理想的数据拟合模型,但由于车流增长数据的难以预测性,必须考虑政策节假日前后等随机因素对模型的影响,故下面评价模型,增加正态随机因子。下面分为非线性与线性两部分,同时为了节省篇幅,仅以小型载客汽车的累计、个人、进口与每月新注册项为例进行分析。
3.1 车辆数据预测分析
由各类非线性拟合模型,分析其预测值与真值之间的误差。下面具体分析以小型载客汽车累计项与个人项,其他各项数据类似。
根据模型计算得累计小型载客汽车车辆数据真值、预测值及相对误差如下(注:2007 年7 月至2010 年12 月,由于2008 年2 月、9 月与2009 年1月数据分析时缺失):
年 月:07 -7 07 -8 07 -9 07 -10 07 -11 07 -12 08 -1 08 -3 08 -4 08 -5 08 -6 08 -7 08 -8
真 值:115749 117909 120246 122698 125167 127525 131114 136002 139658 142114 145245 148094 150622
预测值:111082 113731 116443 119220 122063 124973 127953 134129 137327 140602 143954 147387 150902
相对误差:0.0420 0.0367 0.0327 0.0292 0.0254 0.0204 0.0247 0.0140 0.0170 0.0108 0.0090 0.0048 0.0019
年 月:08 -10 08 -11 08 -12 09 -2 09 -3 09 -4 09 -5 09 -6 09 -7 09 -8 09 -9 09 -10 09 -11
真 值:155599 159227 161783 168676 172894 177737 182589 187618 191829 196844 201904 207040 212124
预测值:158184 161957 165819 173821 177966 182210 186555 191003 195558 200221 204996 209884 214889
相对误差:0.0163 0.0169 0.0243 0.0296 0.0285 0.0245 0.0213 0.0177 0.0191 0.0169 0.0151 0.0136 0.0129
年 月:09 -12 10 -1 10 -2 10 -3 10 -4 10 -5 10 -6 10 -7 10 -8 10 -9 10 -10 10 -11 10 -12
真 值:217985 225733 231169 237075 242972 249902 256316 262205 267341 273593 279501 286578 293751
预测值:220013 225260 230631 236131 241762 247527 253430 259473 265660 271995 278481 285122 291921
相对误差:0.0092 0.0021 0.0023 0.0040 0.0050 0.0096 0.0114 0.0105 0.0063 0.0059 0.0037 0.0051 0.0063
类似可得个人小型载客汽车车辆数据真值、预测值及相对误差如下:
年 月:07 -7 07 -8 07 -9 07 -10 07 -11 07 -12 08 -1 08 -3 08 -4 08 -5 08 -6 08 -7 08 -8
真 值: 88618 90508 92620 94814 96965 99019 102185 106553 109853 112097 114869 117432 119604
预测值: 85163 87439 89775 92175 94638 97167 99764 105168 107979 110864 113827 116869 119993
相对误差:0.0406 0.0351 0.0317 0.0286 0.0246 0.0191 0.0243 0.0132 0.0174 0.0111 0.0092 0.0048 0.0032
年 月:08 -10 08 -11 08 -12 09 -2 09 -3 09 -4 09 -5 09 -6 09 -7 09 -8 09 -9 09 -10 09 -11
真 值:124117 127445 129778 136238 140101 144581 149090 153684 157551 162136 166882 171687 176384
预测值:126492 129873 133344 140566 144323 148180 152140 156206 160381 164667 169068 173586 178225
相对误差:0.0188 0.0187 0.0267 0.0308 0.0293 0.0243 0.0200 0.0161 0.0176 0.0154 0.0129 0.0109 0.0103
年 月:09 -12 10 -1 10 -2 10 -3 10 -4 10 -5 10 -6 10 -7 10 -8 10 -9 10 -10 10 -11 10 -12
真 值:181927 189094 194185 199678 205152 211404 217285 222489 227036 232725 238110 244600 251210
预测值:182989 187879 192900 198056 203349 208783 214363 220092 225974 232013 238214 244580 251117
相对误差:0.0058 0.0065 0.0067 0.0082 0.0089 0.0126 0.0136 0.0109 0.0047 0.0031 0.0004 0.0001 0.0004
由此可预测小载客汽车累计与个人两项数据2011 年1 月至12 月数据,其预测值分别如下(其他类各项非线性预测同理也可得到):
298882 306009 313306 320778 328427 336258 344277 352487 360892 369498 378309 387330 257828 264719 271793 279057 286515 294172 302034 310106 318394 326903 335640 344610
3.2 模型评价及随机模型预测
通过上述累计小型载客汽车车辆数据的真值与预测值之间的分析可知,其预测值与真值之间的平均相对误差为1.56%,其平均绝对误差约为2587 pcu,即为正态随机因子的均值,方差取为样本数据的方差。故有
同理通过上述个人小型载客汽车车辆数据的真值与预测值之间的分析得,预测值与真值之间的平均相对误差为1.53%,其平均绝对误差约为2036 pcu,故分析随机因子有
模型显示的某一随机预测与下一时段(2011年)的某一预测值见图12 与图13。
图12 小客车累计与个人项随机因子某一预测模型
图13 小客车累计与个人项随机因子某一预测值
类似可得小载客汽车进口项,合计汽车与总计机动汽的累计、个人及进口项随机模型及平均相对误差依次为
yIn= 4287.2658296e0.023720551257t+ εIn,
εIn~N(260,1.0709 ×105) 3.65%
yhC= 199970.76591e0.01851842544t+ εhC,
εhC~N(3616,6.1234 ×109) 1.28%
yhI= 143938.27860e0.021664019151t+ εhI,
εhI~N(2767,3.6164 ×109) 1.30%
yhIn= 4860.4943366e0.021846366346t+ εhIn,
εhIn~N(282,1.2685 ×105) 3.62%
yzC= 289348.14659e0.016977436037t+ εzC,
εzC~N(4096,1.2026 ×1010) 1.03%
yzI= 229876.42284e0.018910614895t+ εzI,
εzI~N(3392,8.2836 ×109) 1.05%
yzIn= 4934.3356111e0.021623475134t+ εzIn,
εzIn~N(285,1.2917 ×105) 3.61%
3.3 线性模型评价与随机因子模型预测
小型载客汽车每月新注册车辆数据拟合模型见图9,其2011 年1 月至12 月的点预测值与区间预测值如下:
6668 6784 6900 7016 7132 7248 7364 7480 7596 7712 7828 7944 95%置信区间:
区间上限: 7667 7783 7899 8015 8132 8248 8364 8480 8596 8712 8828 8944
预测值: 6668 6784 6900 7016 7132 7248 7364 7480 7596 7712 7828 7944
区间下限: 5669 5785 5901 6017 6133 6249 6364 6480 6596 6712 6828 6944误差分析如下:
年 月:07 -7 07 -8 07 -9 07 -10 07 -11 07 -12 08 -1 08 -3 08 -4 08 -5 08 -6 08 -7 08 -8
真 值: 4620 4331 4928 4231 4458 3830 5533 5494 6586 4935 5798 5496 4718
预 测 值: 1796 1912 2028 2144 2260 2376 2492 2724 2840 2956 3072 3188 3304
相对误差:1.5724 1.2652 1.4300 0.9734 0.9726 0.6120 1.2203 1.0169 1.3190 0.6695 0.8874 0.7240 0.4280
年 月:08 -10 08 -11 08 -12 09 -2 09 -3 09 -4 09 -5 09 -6 09 -7 09 -8 09 -9 09 -10 09 -11
真 值: 4683 5764 4323 5291 6988 8396 7702 7602 7275 8574 8489 8365 8573
预 测 值: 3536 3652 3768 4000 4116 4232 4348 4464 4580 4696 4812 4928 5044
相对误差:0.3244 0.5783 0.1473 0.3227 0.6978 0.9839 0.7714 0.7030 0.5884 0.8258 0.7641 0.6974 0.6996
年 月:09 -12 10 -1 10 -2 10 -3 10 -4 10 -5 10 -6 10 -7 10 -8 10 -9 10 -10 10 -11 10 -12
真 值: 9490 11102 6794 8672 9463 10422 8958 8849 8439 9401 8808 12065 11800
预 测 值: 5160 5276 5392 5508 5624 5740 5856 5972 6088 6204 6320 6436 6552
相对误差:0.8391 1.1042 0.2600 0.5744 0.6826 0.8157 0.5297 0.4817 0.3862 0.5153 0.3937 0.8746 0.8010
由此可以看出,新注册车辆数据受社会经济、居民生活习惯、政策与季度节假日等随机因素影响较大。假定在一定时期内随机因子均衡,对车辆数据的随机因子利好利空影响可相互抵消,模型发展趋势不变,可通过近三年半每月新注册车辆数据方差,即随机因子的方差,故有增加随机因子的线性随机模型
模型显示的某一随机预测与下一时段(2011年)的某一预测值见图14 与图15。
图14 小型载客汽车每月新注册项某一随机预测值
图15 小型载客汽车每月新注册项随机因子某一预测
4 结论
利用2007.7 -2010.12 车辆月报表数据,基于回归分析的增长与预测模型研究得知:小型载客汽车、合计汽车与总计机动车中累计、个人、进口数据均呈非线性指数方式增长,通过模型预测2011 年12 月:小型载客汽车累计数据、个人拥有车辆数据及进口车辆数据将分别达到38 万(387330)、34 万(344610)与1.54(15434)pcu,合计汽车与总计机动车中的累计、个人与进口项车辆数据则将分别达到54 万(543574)、46 万(463702)、1.58 万(15813)辆vehicle 与72 万(723725)、63 万(638240)、1.58 万(15861)辆vehicle;而每月新注册车辆数据则以线性关系模型增长,截至2011 年底每月小型载客汽车、合计汽车与总计机动车的每月新注册数据将达至0.8 万(7944)、1 万(9799)与1.2 万(12375)辆vehicle 以上。
本文研究分析数据期间,先后经历07 年7 月1 日起执行的《乘用车燃料消耗量限值》,不符车型停产,对车市的影响持“平级”评估,但同期公安部出台服务群众十六项措施受到欢迎,同年下半年的车船税、交强险开征,国Ⅲ标准开始汽车污染排放控制新阶段、交通事故快速处理减少堵塞、新能源车设门槛等对车市利好利空持平;08 年新版交强险正式实行(2 月1 日 利好)、国Ⅲ标准实施(利空)、汽车消费税调整(9 月1 日 利好);09 年燃油税改革方案实施(1 月1 日 利好)、1.6L 及以下排量购置税减半征收(2009.1.20 -2009.12.31 日)、汽车下乡政策继续实施(2009.3.1 -2010.12.31)、以旧换新加大投入力度(2009.6.1 -2010. 5.31),09 年国家一系列振兴汽车产业政策正式实施,车市出现井喷,大大提振了国际金融危机下的中国车市;10 年的购置税等政策有所缩水,但依靠惯性,车市仍大踏步向前走一段时间,年底,车辆购置税减免和汽车下乡补贴同时停止了,出现一定的低点。但传统节假日(如春节)与各商家大力促销,车辆数据变化受政策等各种随机因素的干扰,各类数据散点图的增幅特别是每月新注册数据变化均表现龙为突出,故文中新注册项的随机因子取0 均值是合理的。
为了尽可能克服政策等随机因素的干扰,本文基于回归模型的增长与随机预测模型可通过数次随机模拟(如30 次、50 次等),但随机预测次数不宜太少或太多,太少随机性太强,偶然性较大,随机预测次数太多则趋向纯线性或非线性模型。由此利用随机因子模型模拟仿真预测下一时段(如至2011.12)数据,取其适当模拟次数的随机预测均值供决策部门参考。
[1]刘小明,任福田,段海林. 交通事故时间序列预测方法研究[J].中国公路学报,1995,8(1):125 -142.
[2]马艳丽,高月娥.我国未来汽车保有量情景预测研究[J].公路交通科技,2007,24(1):121 -125.
[3]胡尧,韦维,王登梅,等.一种确定信号交叉口拥堵的概率统计预警模型[J].数理统计与管理,2010,29(4):603 -614.
[4]胡尧,罗文俊,戴家佳.Poisson 过程中的几何分布[J]. 高校应用数学学报,2009,24(2):155 -158.
[5]陈家鼎,孙山泽,李东风. 数理统计讲义[M]. 北京:高等教育出版社,1993:160 -174.
[6]茆诗松,程依明,濮晓龙. 概率论与数理统计教程[M]. 北京:高等教育出版社,2009:407 -411.