APP下载

基于集成算法的工业增加值预测模型研究★

2024-05-27闫海波

现代工业经济和信息化 2024年2期
关键词:互信息决策树增加值

谢 洋, 闫海波

(新疆财经大学统计与数据科学学院, 新疆 乌鲁木齐 830012)

0 引言

工业是立国之本、强国之基,工业作为国家经济的支柱,对实体经济运行状况的准确把握至关重要。工业增加值作为国家经济的关键指标,在国民生产总值中占主导地位,同时在社会经济活动中扮演关键角色。工业的增长对国家建设、国际贸易、新技术创新以及落后地区经济发展都具有重要意义。

当前,学术界对工业经济预测领域进行了深入广泛的研究。以吴彦军、丘斌、王占峰[1]等人致力于运用大数据技术,拓展工业经济统计与预测的应用。这一研究方向为提高预测准确性开辟了新的思路。朱云英[2]的研究强调了统计指标和景气指数在工业经济预测中的重要性,特别是企业景气指数在模型预测工业增加值时所具备的信息可靠、前瞻性强、预测性强等特点,为工业统计指标在预测中的关键作用提供了有力支持。

在工业增加值预测的研究中,学者们通常采用传统方法和人工智能方法这两大类。传统方法主要包括回归模型法[3]、趋势外推法模型[4]以及时间序列模型[5]。尽管这些方法相对简单,但由于受制于宏观经济数据在短期预测中的限制,它们的预测精度存在一定下降。与此同时,人工智能方法包括随机森林、自适应增强、极致梯度增强、支持向量回归机和神经网络等[6]。因此,顾海燕[7]等人提出了基于多个模型的融合算法,以适应更复杂的非线性数据和不同应用场景需求。

因此本文使用GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 算法模型,并采用粒子群优化算法对模型的重要参数进行调整,通过对比分析选出在工业增加值预测中表现更好的预测效果。

1 相关算法原理

1.1 随机森林回归(RFR)

RFR 是一种基于决策树的集成学习算法。其基本思想是通过随机抽取Bootstrap 样本并建立多个决策树模型,通过对多个模型的预测结果进行平均化,提高回归问题的预测准确性。RFR 模型建立的主要步骤如下:

1)通过Bootstrap 方法在原始样本集s 中抽取k个训练样本集。

2)使用CART 学习对k 个训练集训练从而形成k 棵决策树模型。在决策树生成中,假设有N 个特征向量,从N 个特征向量中随机选择m 个,每个内部节点在这m 个特征变量中进行优化划分,m 值为随机森林模型形成中的一个常数。

3)将k 棵决策树的结果组合起来,得到最终结果。回归问题使用简单平均的组合方法。

1.2 AdaBoos 算法

AdaBoost 是一种基于Boosting 算法的迭代学习方法。在K 次迭代中,它根据每次迭代的误差调整样本权重,通过组合多个弱分类器构建出一个强分类器,提高模型性能。

1.3 CatBoost 算法

CatBoost 是一种梯度提升框架,专为处理类型特征而设计。它通过处理类别特征的优化方法,降低了过拟合风险,提高了训练效率。CatBoost 使用一种基于有序Ordered TS 的排名提升方法来解决预测偏差问题。其主要思想是为训练集生成一个随机序列,用前个样本训练第个模型,并用它来拟合第个样本,得到一个样本残差估计值。Ordered 模型能进一步优化时间复杂度,减少需要训练的模型数量。

1.4 GBDT 算法

GBDT 算法也被称为梯度提升决策树,是一种由多个决策树组成的迭代算法[11],它通过不断迭代,每次迭代都根据前一轮的残差拟合一颗决策树,最终通过组合多个弱分类器形成强分类器。

1.5 XGBoost 算法

XGBoost 是一种用于监督学习算法中分类和回归的极端梯度提升树算法,由Chen 等人提出[12-14]。XGBoost 通过正则化控制树模型复杂度,同时支持并行计算,提高了训练速度和模型性能。

1.6 LightGBM算法

LightGBM是一种基于梯度提升框架的决策树算法,采用基于直方图的学习方法,通过更高效的树建立方式和并行学习,提高了训练速度和效率。相比于决策树,预测精度得到提升,使得该算法同时兼顾了训练速度和预测精度。

1.7 粒子群优化算法

Kennedy 和R.Eberhart 在1995 年提出的粒子群优化,粒子群优化(PSO)是指为了模仿鸟群的捕食行为,大量引入无质量的粒子,并赋予粒子两个属性:行进方向和行进速度[7]。每个粒子在搜索空间中单独的搜寻最优解,并将其记为当前个体极值,并将个体极值与整个粒子群里的其他粒子共享,找到最优的那个个体极值作为整个粒子群的当前全局最优解,粒子群中的所有粒子根据自己找到的当前个体极值和整个粒子群共享的当前全局最优解来调整自己的速度和位置。

粒子群算法优化过程如下:

步骤一:设置关键字参数个体记忆因子c1,群体记忆因子c2,种群规模pop 以及最大迭代次数max_iter。

步骤二:从给定参数值范围中生成一个随机种群,从种群中随机选择一组参数值作为初始种群,并根据生成初始种群的方法生成一组初始化速度值和随机位置。

步骤三:定义目标函数(适应度函数),即将测试集输入模型后,计算模型的均方根误差。以初始种群以及种群个体作为参数输入,计算个体适应度和群体适应度,更新并比较个体和群体适应度,从而获得个体极值(pbest)与其位置和群体(全局)极值(gbest)与其位置。

步骤四:迭代寻优,寻找速度与位置。

对粒子群的速度进行更新,并对越界的速度进行约束,速度更新公式为:

对粒子群的位置进行约束,位置调整公式为:

步骤五:若满足设定的最小误差或最大迭代次数,输出粒子群的全局最优值和其对应的位置以及每个粒子的局部最优值和其对应的位置。

2 指标选取与处理

2.1 数据来源

在工业增加值的预测中,本研究精心选择了一系列指标,时间范围覆盖了2003 年第一季度至2022 年第四季度。这些指标分为自然因素和社会因素两大类,旨在深入理解它们对工业增加值的影响。

自然因素主要考虑了自然灾害、温度和气候等因素。尽管大规模的自然灾害,如火山喷发和地震,可能对工业产生短期负面影响,而温度和气候的变化也可能在一定程度上影响工业的成本,但由于这些因素的瞬时性和难以量化,在选择预测工业增加值的指标时决定不纳入考虑。

本研究将焦点放在了社会因素上,包括固定资产投资、规模以上企业个数、GDP、居民消费价格指数、规模以上工业企业利润总额、规模以上工业亏损企业亏损总额、规模以上工业企业发电量等。这些指标是通过国家统计局统计得到的。

2.2 特征选择

2.2.1 相关系数

对指标进行相关分析时,最常见的一种方法是计算相关系数,它能够反映出变量之间的线性相关程度。其计算方法为:

式中:ρx,y绝对值越大,说明相关性越强。其优点是计算简单;缺点是只能用来判断变量之间的线性相关程度,而无法描述变量间的非线性关系,即使它们之间的非线性关系很显著,相关系数仍可能接近0。

图1 的热力图直观地展示了特征之间以及各特征与目标变量之间的相关系数,可以初步分析特征的重要性。可以看出一些经济指标之间存在较强的相关性。例如,固定资产投资、GDP、工业增加值等与其他指标之间存在较强的正相关关系。这些观察有助于了解不同经济因素之间的相互影响关系,为进一步的分析和决策提供参考。

图1 相关系数热力图

2.2.2 互信息

互信息属于特征选择中的一种过滤器方法,它能够用来对变量之间的线性关系进行描述,还能够对非线性关系进行描述。通常既可以用于回归也可以用于分类算法中。互信息的值越大,说明两个变量之间的相关性较强。在特征选择中,可以用互信息度量各个特征与目标变量的依赖程度,从而筛选特征。其计算公式如下:

利用sklearn.feature_selection 中mutual_info_regression 函数可以得到各特征变量与目标量的互信息值,对数据集中的特征运用互信息过滤法筛选。观察可以发现,大多数互信息值大于0.1,因此,选取了互信息值大于0.1 的特征,经过筛选后,最终所选取的特征按互信息值从大到小排序如图2 所示。

图2 经济指标互信息值

由图2 可知,根据互信息分析,固定资产投资与工业增加值之间存在强烈的正相关性,互信息值达到0.879 0,显示其具有较高的预测价值。相反,规模以上工业企业利润总额的互信息值较低,表明其对工业增加值的影响相对较弱。GDP 的互信息值异常高,提示其在工业增加值预测中可能起着关键作用。因此,在选择预测模型的输入特征时,可以优先考虑这些具有较高互信息值的指标,以提高模型的准确性。

3 实证分析

3.1 数据准备与实验环境

本文选取固定资产投资、工业企业发电量、出口总额、社会消费品零售总额和GDP 共5 个指标作为预测模型的输入变量(影响因素),工业增加值作为预测指标。数据分析实验在Python 3.8 环境下完成。

3.2 回归算法选取

本小节主要使用了由Python 程序语言设计的sklearn 框架来构建的GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 算法以及Cat-Boost 的预测模型。进行机器学习回归算法预测模型的构建大致流程为:特征工程、样本集拆分、回归算法选择、模型参数调优、模型验证与评估、模型预测。

详细步骤描述如下:

1)将经过预处理后的数据用作样本集,首先将样本集随机划分成8∶2 的比例,其中80%的样本数据作为训练样本集,20%作为测试样本集,利用pyhton编程语言包sklearn.model_selection 中KFlod 交叉验证法将样本集划分为训练集和测试集,模型的评估指标为MAE、MSE、RMSE 和R2。

2)利用缺失参数构建GBDT 算法、RFR 算法、AdaBoost 算法、XGBoost 算法、LightGBM 和CatBoost算法模型。

3)采用粒子群优化(PSO)算法对各预测模型进行相应的参数寻优,对预测模型进行优化。

4)通过误差分析,对上述优化算法调整的模型的预测能力进行对比分析,得到基于机器学习回归算法的预测效果排名靠前模型。

5)检验模型的稳定性,并进行预测。

根据以上步骤,可以得到最优模型对应的最优参数组合,如表1 所示。

表1 粒子群优化参数设置

3.3 模型的优选

本文建立了GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用搜索优化算法对模型的重要参数进行调整,最终模型的预测效果以MSE、MAE 和可决系数R2三种评价指标来评估。

均方误差(MSE):计算值与真实值之间误差的平方和的平均数,MSE 值越接近于0,表明模型越准确。

平均绝对误差(MAE):计算值与真实值之间误差的绝对平均值,MAE 值越接近0,表明模型越准确。

可决系数(R2):用来衡量回归模型的拟合能力,R2值越接近于1,模型解释因变量的能力越强,即模型拟合效果越好。

对工业增加值进行预测,各预测模型真实值与预测值对比图见图3。

图3 六种预测模型真实值与预测值对比

由图3 可知,经过粒子群优化(PSO)参数优化后的六种模型,PSO-GBDT 模型和PSO-XGBoost 模型相较于其他四种模型预测更准确。而PSO-LightGBM模型预测相对不准确。为更加清楚地看出各模型预测结果,计算各模型MSE、MAR 与可决系数R2,结果如表2 所示。

表2 模型指标对比表

结果显示,对比粒子群优化后的模型指标,依据模型预测性能的优劣情况将其按降序排列:XGBoost>AadBoost>CatBoost>RFR>LightGBM>GBDT,显然,与其他模型相比,XGBoost 模型具有更优的预测性能,MSE、MAE、精度分别为0.000 8、0.019、0.999 2。GBDT 在精度上达到1,但需要注意,这可能是一个异常值或过拟合的迹象。综上所述,基于粒子群优化的XGBoost 模型预测性能显著优于其他模型,对于工业增加值预测具有更好的效果。

4 结论

本研究深入研究了一系列影响工业增加值的指标,时间范围覆盖了2003 年第一季度—2022 年第四季度。本文通过建立GBDT、RFR、LightGBM、Adaboost、XGBoost 和CatBoost 集成模型,并采用粒子群优化算法(PSO)对模型的重要参数进行调整,最后以MSE、MAE、精度作为模型评价指标。实验结果清晰地展示了模型经过粒子群优化后的表现,依据模型预测性能的优劣对其进行排序:XGBoost>Adaboost>Cat-Boost>RFR>LightGBM>GBDT。其中,基于粒子群优化算法的XGBoost 模型在工业增加值预测中呈现出更为卓越的预测效果,为提高工业经济预测的准确性提供了有力支持。

这一研究成果为未来工业经济趋势的预测和决策提供了可靠的工具和方法。深入分析影响工业增加值的关键因素,并结合先进的集成算法及优化技术,为更准确、可靠地预测中国工业经济发展趋势奠定了基础。这对于政府决策、企业战略规划以及投资者的决策过程都具有积极的指导意义。

猜你喜欢

互信息决策树增加值
中国2012年至2021年十年间工业增加值的增长情况
一季度国民经济开局总体平稳
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
今年第一产业增加值占GDP比重或仍下降
基于决策树的出租车乘客出行目的识别
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
改进的互信息最小化非线性盲源分离算法
基于增量式互信息的图像快速匹配方法