基于多元线性回归模型对四川省物流需求的预测分析

2024-04-05梅敏

中国储运 2024年2期

文/梅敏

1.引言

根据国家统计局显示，2021年四川省地区的生产总值（GDP）53850.8亿元，比上年增长11.0%。其中，第一产业增加值5661.9亿元，增长1.8%；第二产业增加值19901.4亿元，增长13.7%；第三产业增加值28287.6亿元，增长11.2%。三次产业对经济增长的贡献率分别为10.5%、40.0%和52.5%。同时根据《2021年四川物流业运行情况通报》发布的消息显示，2021年四川省社会物流总额达到101075.7亿元，按可比价格计算增长12.0%。占第三产业增加值的35.7%，所以物流业对经济增长的贡献率是非常大的。作为中国西部经济发展高地、综合交通枢纽、物流中心和国内外商品的集散中心的四川省，近年来，物流业的规模越来越大，发展也越来越迅速。所以对四川省的物流需求进行预测研究对物流相关部门和企业来说是非常有意义的。

2.理论分析

物流需求预测是根据市场过去和现在的需求以及物流市场需求变化之间的关系，利用合适的经验判断、技术方法和预测模型，对反映市场发展趋势的指标进行预测，从而采取适当的策略去谋求最大的利益。多元回归分析预测是指通过对两个或两个以上的自变量与一个因变量之间的相关性，建立预测模型进行预测的方法。文中拟用Eview s7.0软件对物流需求建模，并采用普通最小二乘法进行模型的估计。设y为因变量，自变量为x1-x9，自变量与因变量之间为线性关系，则多元线性回归模型：y=c+β1x1+β2x2+β3x3+β4x4+β5x5+β6x6+β7x7+β8x8+β9x9+ε。

3.基于多元线性回归的四川省物流需求预测实证分析

3.1 样本和数据来源。影响物流需求的因素有很多，本文借鉴前人的研究成果的基础上考虑数据可获性因素，最终选取了GDP（亿元）、第一产业GDP（亿元）、第二产业GDP（亿元）、第三产业GDP（亿元）、社会消费品零售总额（亿元）、居民人均消费支出（元）、进出口贸易总额（亿元）以及公路、水路货运量（万吨）等9个指标作为影响物流需求的指标来分析。此外这些数据均来源于《国家统计局》1991-2020的数据。对于第一产业GDP（亿元）、第二产业GDP（亿元）、第三产业GDP（亿元）、社会消费品零售总额（亿元）以及公路、水路货运量（万吨）这些指标的数据是直接选取的《国家统计局》中对应的年度数据。对于进出口贸易总额（亿元）由于年鉴上没有现成的数据，是用境内目的地和货源地的进出口总额（千美元）乘以相应年份的美元平均汇率后再换算成亿元单位而得。由于所选取的数据均是正向的，所以在进行分析之前，没有必要将数据正向化。首先是对9个自变量指标（x1-x9）和因变量y进行了相关性分析，所以以下相关系数表是基于附录中的原始数据通过EXCEL软件进行分析得来的。

3.2 相关性分析。因为相关系数能够准确地反映变量间线性关系的强弱程度，所以通常都用相关系数来表示变量间的线性关系：

其中，n 为样本容量，Xi和Yi为两变量对应的样本值。Rxy∈[-1，1]，如果Rxy>0，则表示两变量之间存在正相关；反之，则存在负相关。把1个指标的数据代入公式（1）中可以得到相关系数矩阵。

上述自变量是依据经济学和物流学的专业知识，再结合前人的研究成果筛选出来的，从表中可以看出自变量与因变量之间存在高度的正相关性，且各自变量之间也是有着较强的正相关性的，绝大部分大于0.8，这个结果虽然表明因变量与自变量之间是可以建立多元线性回归模型的，但是会造成一个比较严重的问题，就是模型会存在严重的多重共线性。

3.3 模型的建立

3.3.1 多元线性回归模型。多元线性回归模型的一般形式为：y=c+β1x1+β2x2+β3x3+…+βpxp+ε（1）；其中，β1，β2，β3，βp是p个有待回归确定的系数，y是被解释变量，也称为因变量，c是常数项，x1，x2，…，xp是p个可以测量或可控制的一般变量，称为解释变量，也叫自变量，ε 是随机误差。

3.3.2 多元线性回归模型建模。为筛选出更加合理的自变量，将附录1的原始数据导入Eview s7.0软件，首先通过建立因变量与每一个自标量的一元回归模型来查看他们的参数估计值，t统计量以及R^2值以及调整R^2值。可以发现一元回归模型的参数估计值均为正向的，t统计量的结果也是非常好的，R^2值大部分都在0.8以上，但是拟合优度表现最好的是X4（第三产业增加值）。这也在以上结果的基础上，建立因变量y与自变量x1-x9之间的多元线性回归模型。分析得出，调整后的R2=0.999908，是显著大于0.9的，说明所建立的回归方程整体对y的拟合优度是很高的，另外F=32741.3所对应的P值是小于0.05的，因此，是有理拒绝零假设认为由x1-x9组成的方程整体对y的解释能力非常强，并且判断出错的概率极其低的。但是再来观察t值就会发现x6（公路货运量）和x7（水路货运量）以x9（进出口贸易总额）对应的t统计量所对应的P值小于0.05以外，其他均大于0.05是通不过检验的。并且从结果中可以看出x2-x5的系数都为负数，而实际情况中GDP的增长定会带动货运量的增加，所以软件分析出的结果跟定性分析的结果是明显不符的。所以需要对模型进行更深入的分析，本文采用的是利用Eview s7.0软件对模型进行逐步回归。新的回归模型是剔除了自变量x1的，由剩下的x2，x3，x5-x9与y组成的多元线性回归模型组成。并且可以看到新模型的调整后的R^2=0.999916，是显著大于0.9的，说明所建立的回归方程整体对y的拟合优度是很高的，另外F=45798.68所对应的P值是小于0.05的，因此，是有理拒绝零假设认为由组成的方程整体对y的解释能力非常强，并且判断出错的概率极其低的。但是还可以发现x3和x5对应的t统计量的P值大于0.05，因此x3和x5通不过检验，其中x9对应的P值接近0.05，本文给予的处理方法是直接剔除自变量x3，x5和x9三个自变量。而由x2，x6，x7，x8建立多元回归模型，最后得出了如图1的结果。由x2，x6，x7.x8建立的回归模型调整后的R^2=0.999861，是显著大于0.9的，说明所建立的回归方程整体对y的拟合优度是很高的，另外F=50175.54所对应的P值是小于0.05的，因此，是有理由拒绝零假设认为由组成的方程整体对y的解释能力非常强，并且判断出错的概率极其低的。最后自变量对应的t统计值的P值均小于0.05，因此这四个变量是通过检验了的。所形成的多元线性回归计算公式如下：y^=4749.651+1.688149x2+1.020190x6+1.034629x7-0.48892x8（2）

3.4 模型检验。在模型应用之前还需要对模型进行自相关检验，本篇文章应用的是LM 检验，先后进行了滞后三阶，滞后二阶，滞后一阶的检验，得到的AIC，SC，HQ以及对用的P值，按照AIC，SC，HQ信息准则的大小以及P值要小于0.05的标准，最后判断滞后一阶是较为合理的，因此可以判断扰动先是存在一阶正自相关的。不仅仅通过LM 检验可以检验到正相关，从回归结果如图3中的DW=0.873966不在（0，4）之间，也是可以判断模型存在正自相关性，但是无法判断存在几阶正相关性。通过LM 检验结果了解到模型存在一阶滞后项后需要对模型进行序列相关的修正。通过分析修正后的结果得知由x2，x6，x7.x8建立的回归模型调整后的R^2=0.999903，是显著大于0.9的，说明所建立的回归方程整体对y的拟合优度是很高的，另外F=57622.5所对应的P值是小于0.05的，因此，是有理由拒绝零假设认为由组成的方程整体对y的解释能力非常强，并且判断出错的概率极其低的。最后自变量对应的t统计值的P值均小于0.05，因此这四个变量是通过检验了的。最重要的是最后的DW=1.771739是处于0-4之间的，模型是不存在自相关性。最终的多元线性回归计算公式如下：y^=4534.657+1.736915x2+1.018128x6+1.117028x7-0.500455x8（3）

3.5 模型的预测结果。根据计算公式得到的1991-2020年的货运量的实际值，拟合值和残差项的分析结果：拟合度是较好的，因此模型是可以用来对四川省的物流需求进行预测。并且预测效果良好。四川省的货运量从1991-2020年间呈现震荡增加的趋势，从预测误差表可以看出，用于预测的模型在预测准确性上是很好的。综上所述，模型能够很好地预测四川省的货运量，第一产业增加值和公路货运量以及水路货运量、社会消费品零售总额这四个指标在很大程度上是预测四川省物流需求的重要指标。

4.结论及建议

基于1991-2020年四川省货运量及相关数据建立的多元线性回归模型，四川省GDP、第三产业增加值，居民人均消费支出与货运量都表现出了高度的相关性。并且根据定性分析，四川省的农林牧副渔总产值、第三产业的发展以及居民消费水平，还有进出口总额等都是与货运量高度相关的，但是因为存在多重共线性，最后只能剔除这些变量。随着电商的蓬勃发展以及疫情防控政策方面的促进，物流业的发展进入了高速发展期，不管从政策上还是从市场需求上都有非常大的利好。物流需求的长足发展是离不开经济的持续增长，物流供给与物流需求的匹配，将直接影响到整个经济的增长速度，所以物流需求的预测对区域物流中心的设置与分布、物流设施的配备是很重要的，但是通过模型得到的预测结果不是一个绝对值，它与未来实际发生的物流需求量之间还是存有一定差距，但是不影响对发展趋势的判断。后期的研究中为保证预测模型尽量接近物流需求量发展的变化规律，有以下三点建议：第一，在进行物流需求量预测方面需要统计部门、研究机构和物流企业对物流需求进行全面调查、统计，以获得第一手数据资料，以便于更加准确地反映我国物流业的发展趋势；第二，重视定性预测方法对预测模型进行修正；第三，以年为单位的数据由于时间过于长远，可变因素太多，预测的精准度不佳，后期如能获得较为全面的数据应该以月度数据或者季度数据来预测获得的结果将较为精确。