基于大数据回归分析预测法的经济发展影响因素分析
2022-12-25张端
张端
摘要:河南省经济发展受制因素有很多,大数据时代为数据挖掘带来了很多方便。文章通过SPSS软件对部分影响因素进行分析总结,对数据做了回归分析预测和主成分分析,发现人均地区生产总值、失业率、财政支出、就业率等有直接关系,为经济的发展提供统计支持。
关键词:大数据;回归预测分析;逐步回归分析
一、引言
大數据是以容量大、类型多、为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析的新一代信息技术和服务业态。目前很多工作的快速处理都是依托了大数据带给人们的便利,让节省了大量时间,得到需要的数据。因此,本文在大数据的背景下,通过使用回归分析预测法分析影响河南经济发展的重要因素,为河南经济的平稳发展提供启示和建议。影响经济发展的因素有很多,所以本文将采用多元回归分析预测法进行分析预测。
二、多元回归分析预测法理论
回归分析预测法是在分析市场现象自变量和因变量之间关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量关系,分为一元和多元回归分析预测法,影响经济发展的因素有多个,本文选取多元回归分析预测法。依据自变量和因变量的相关关系不同,又分为线性回归预测和非线性回归预测,本文从多元线性回归预测进行分析,分析影响河南省经济发展的几个重要因素。
多元线性回归预测模型是含有多个解释变量的线性回归模型,其方程可写为:
Y=β0+β1X1+β2X2+…+βpXp+ε(1)
其中,β0是回归常数,β1,β2,…βp是总体回归参数,当p=1时,公式为一元线性回归模型;当p≥2时,公式为多元线性回归模型。ε为随机误差,且ε~N(0,σ2)。
三、数据收集
从中国国家统计局官网抽取出2012~2021年影响经济发展的固定资产投资、财政预算支出、居民消费价格指数、城镇失业率、城镇就业人员、进出口总额等指标(见表1)。将河南省人均地区生产总值确定为因变量Y,X1,X2,X3,X4,X5,X6,分别表示固定资产投资、财政预算支出、居民消费价格、失业率、就业人员、进出口总额。可以得到Y的多元线性回归预测模型:
Y=β0+β1X1+β2X2+β3X3+β4X4+β5X5+β6X6+β7X7+ε
从表格1中可以看出城镇登记失业率和城镇就业人员有缺失项,首先使用软件对缺失值进行分析。利用已有的数据推断分析缺失值的估计值,从而更准确地分析所有数据对经济发展的影响,进而提高统计的可信度。
四、相关性分析
相关性分析是一种衡量多个解释变量与被解释变量之间相关密切程度的一种统计方法,通过SPSS软件中的相关性分析,发现自变量之间的相关性和自变量与因变量的相关性。表2显示了各变量之间的相关系数,包括自变量和因变量在内的7个变量之间的Pearson相关系数及单尾检验的显著性水平。其中城镇固定资产投资、财政预算支出、进出口总额与人均生产总值的相关系数均大于0.90,且显著相关的系数均小于0.01,表明他们具有很强的线性相关性,城镇登记失业率与人均生产总值的相关系数为0.668,显著相关系数小于0.01,说明其与人均地区生产总值有密切的线性相关性,人均地区生产总值与这四者之间是否有定量的线性关系,还需进一步验证。然而,各自变量之间存在比较大的相关系数,有多重共线的可能。
五、多元线性回归分析
1. 线性趋势考察:通过SPSS分析发现六个变量与人均地区生产总值基本呈线性关系。
2. 模型纳入与剔除的变量:采用逐步回归法即Stepwise,共建立两个模型,纳入两个变量财政一般预算支出和城镇登记失业率,默认纳入标准,剔除标准。
3. 独立性:模型2中Durbin-Watson检查值为2.083,当检查值分布在0~4之间,越接近2,观测值相互独立的可能性就越大,多元线性回归的观测值具有相互独立性。R值模型1与模型2都比较高接近于1,自变量与因变量之间的回归关系比较密切。
4. 方差分析:两个模型中的P<0.001,说明至少有一个自变量解释了一部分因变量的变异,从而使得回归变异变大残差变异减少,模型成功建立。回归变异平方和/总平方和=R2,因此方差分析和R2,结果同出一源。
5. 回归分析的主要结果:回归系数分析
模型中P值均<0.05,在α=0.05的检验水准下,可以认为偏回归系数均不为零,有统计学显著性,均可纳入到最终的模型中。
模型中财政一般预算支出和城镇登记失业率均影响人均地区生产总值,通过VIF=1.967可知本模型不存在多重共线性。
由上述分析可知,模型2的拟合效果好于模型1,故选取模型2作为线性回归方程模型,建立线性回归方差模型,由模型可知,在本研究中影响人均地区生产总值的最有效的两个量是财政一般预算支出和城市登记失业率。财政一般预算支出每增加一倍,人均地区生产总值会增加约4.932亿元;城市登记失业率每增加一个百分点,人均地区生产总值会减少约3929元。
然而,在用逐步回归法做线性回归时,几个预定的变量被剔除,纳入的变量只有两个,说明选择的变量之间的相关性比较大,所以在今后的研究中数据选取要更加结合实际情况,使得模型拟合的结果更具有说服力。
参考文献:
[1]张叶青,陆瑶,李乐芸.大数据应用对中国企业市场价值的影响——来自中国上市公司年报文本分析的证据[J].经济研究,2021,56(12):42-59.
[2]邱子迅,周亚虹.数字经济发展与地区全要素生产率——基于国家级大数据综合试验区的分析[J].财经研究,2021,47(07):4-17.
[3]顾刘金.应用SPSS软件实现多重线性回归分析[J].预防医学,2018,30(03).
[4]胡良平.多重线性回归分析的核心内容与关键技术概述[J].四川精神卫生,2018,31(01):1-6.
*基金项目:河南省高校人文社会科学研究一般项目“大数据背景下模型平均与预测方法在社会经济领域的应用研究”(编号:2023-ZDJH-583)。
(作者单位:郑州信息工程职业学院)