APP下载

基于GBDT 算法的游戏销量预测模型研究

2023-02-08徐英卓王六鹏

智能计算机与应用 2023年1期
关键词:决策树残差销量

徐英卓,郭 博,王六鹏

(1 西安石油大学 计算机学院,西安 710000;2 西安石油大学 石油工程学院,西安 710000)

0 引言

游戏的销量是衡量游戏成功与否的重要指标,对游戏的销量做出一个合理、准确的预测,很大程度上能减少投资风险,使投资收益最大化。当前的销量研究中,采用机器学习对销量预测的研究方法有很多,但是在游戏市场还未对游戏的销量进行预测[1]。机器学习中的非线性模型,如随机森林(Random Forest,RF)、极端梯度提升方法(Extreme Gradient Boosting,XGB)和梯度提升决策树(Gradient Boosting Decision Tree,GBDT)等是以决策树为基本模型的集成学习方法,可把单一学习模型有机结合,形成一个统一的模型,从而获得更准确、稳定的预测学习结果。GBDT作为较为成熟的集成学习算法,能有效降低预测值和真实值的偏差。通过不断拟合上一颗树的残差来提升性能,更注重学习模型的精度,具有高效、预测准确、对原始数据不敏感、模型的可解释性强等优点[2]。

本文采用GBDT 算法对游戏销量进行建模预测研究,并综合对比决策树、线性回归、极端随机树3 种经典回归模型的预测性能和结果。

1 数据集描述及处理

1.1 数据集描述

本文研究的目的是对游戏销量做出预测,采用近十年各个游戏平台主流游戏的特征数据,其中包括训练集18 000 条数据,测试集7 000 条数据。游戏特征数据主要包括游戏的名称、发行日期、语言、发行商、支持平台、价格、积极评价数量、消极评价数量等12 种特征数据。其中,特征数据中包含字符型特征和数值型特征,为保持输入模型参数的格式一致,故使用留一法对字符型特征数据进行变量编码,将其转换为数值型数据。

1.2 数据预处理

数据预处理是提高预测结果准确性的先决条件。数据预处理决定了机器学习训练的上限,而算法和模型的预测结果则更大程度的提高机器学习训练的上限[3]。

本次研究收集的数据较为驳杂,存在跨度较大的数据,并且还存在“0”值以及缺失值。所以在使用数据之前,需要对数据中的缺失值和异常值进行处理。此外,由于特征数据具有不同的测量单位,数据之间的数值差距可能会影响模型,因此需要重新进行数据处理,以避免更重要的特征会影响其他特性,同时提高模型的收敛速度[4]。本文采用min-max 标准化,使得结果映射到[0,1]之间,如式(1):

其中xmax为样本数据最大值,xmin为样本数据最小值。

经过上述归一化处理后,原始数据全部转换为无量纲指标的评估值x*,即当评估值处于相同的定量水平,可以进行表征输入[5]。

2 基于GBDT 的游戏销量预测模型的建立

2.1 GBDT 算法描述

梯度提升决策树是一种迭代的决策树算法,由多棵决策树构成的,每个决策树的结果都是通过加法来确定的。GBDT 算法通过每次迭代在降低残差的方向新建一颗决策树,并在此基础上进一步迭代提高预测结果的准确性。GBDT 通过向前分布算法和加法模型来完成学习的优化过程。该算法的主要流程:首先要初始化第一个基学习器,基学习器是一个只有根节点的树;在此基础上,建立M个基学习器,并对其求解损耗函数,将其作为残差的估算值;创建一颗回归树CART 以拟合该残差;通过拟合后的树叶子节点寻找尽量减少损耗的数值;最后,对学习器进行更新[6]。

GBDT 算法步骤:

初始化基学习器f0(x),为式(2)

其中,L(yi,c)为损失函数,用于计算真实值与预测值之间的误差,argmin 为确定损失函数值最小时c取值的函数。

(1)建立一系列CART 回归树,在此基础上利用梯度提升技术拟合残差,GBDT 规定将损失值的负梯度作为残差估计值rmi,为公式(3)

(2)确定残差估计值后,利用CART 回归树进行拟合,得到第m棵树的叶节点区域R,其中(j =1,2,…,J),对于每个叶节点区域,确定使对应损失函数最小化的最佳拟合值Cmj,为公式(4)

(3)更新学习器fm(x),为公式(5)

其中,I为学习率。

本文GBDT 模型采用分位数损失函数,表达式为式(7)

其中,θ为分位数。

本文采用对训练集进行无放回抽样的方法,抽样比例v为(0,1]。

2.2 建立游戏销量预测模型

2.2.1 游戏销量预测模型建立流程

以游戏平台实际数据为基础,通过对影响游戏销量的相关因素进行分析,结合数学模型得出合适的模型参数,从而建立游戏销量预测模型。通过这种方式建立的游戏销量预测模型不需经历复杂的分析过程,模型建立难度较小,实用性好。在实际数据中,通过对实际数据处理建立模型,所得模型的准确率较高。基于GBDT 的游戏销量预测模型建立流程如图1 所示。

图1 基于GBDT 的游戏销量预测模型建立流程Fig.1 Process of establishing game sales prediction model based on GBDT

(1)样本数据进行特征工程和数据预处理之后,将全部的游戏销量数据集划分为训练集和测试集;

(2)通过已有的数据模型进行分析,再调整模型参数,并对其进行训练。本文模型所设置的参数包括最大迭代次数、学习率、最大特征数、树的最大深度以及子采样等;

(3)将测试集输入到模型中,得出预测结果;

(4)对模型进行评估、对比和分析。

2.2.2 模型参数设置

数据预处理后,对数据进行互信息关联分析,游戏特征参数相关性分析热力图如图2 所示。

图2 游戏特征参数相关性分析热力图Fig.2 Thermal diagram of correlation analysis of game feature parameters

其中,销量与发行日期,游戏语言互信息值较低,对模型预测无太多参考价值,故舍弃这两个特征。将其他9 种游戏特征作为游戏销量预测模型的输入变量,建立GBDT 游戏销量预测模型。同时在实验时使用网络搜索(GridSearchCV)法选择模型的最佳参数,采用五折交叉验证的方法对结果进行验证。游戏销量预测模型的最优参数设置见表1。

表1 游戏销量预测模型各参数的含义及取值Tab.1 The meanings and values of each parameter of the game sales prediction model

3 实验结果及分析

为了验证GBDT 算法模型在游戏销量预测的优越性,本文选取决策树、线性回归、极端随机树和GBDT 优化后模型的拟合优度进行对比分析,按照不同比例划分训练集和测试集,并通过五折交叉验证对结果进行验证。

3.1 实验结果

各个模型的预测结果采用拟合优度(R2)进行评价,可以直观的观察到各个模型的预测精度,结果见表2。

表2 各个模型拟合优度Tab.2 Goodness of fit of each model

优化GBDT 算法后游戏销量预测模型测试集预测结果对比图如图3 所示,其中因数据量较大,只截取部分数据,便于观察。

图3 优化后的游戏销量模型测试集预测结果对比Fig.3 Comparison of prediction results of the test set of optimized game sales model

在模型训练中,通过得到各个特征参数的重要性得分,来解释模型的可行性。

计算出每个特征参数的重要性得分,并对其重要程度排序,如图4 所示。

图4 游戏销量预测模型特征参数重要度排序Fig.4 Importance ranking of feature parameters of game sales prediction model

3.2 结果分析

为了分析文中的预测模型的有效性以及预测效果,本文将其与基础预测模型决策树、线性回归和极端随机树进行了对比实验,其中拟合优度R2最大值为1。R2的值越接近于1,说明当前回归方程对预测值的拟合程度越好。因此本文提出的基于GBDT 优化的游戏销量预测模型较决策树、线性回归和极端随机树拥有良好的预测精度,可以很好地预测游戏销量,具有较高的可靠性。

通过预测值与真实值对比曲线,可以更为直观的发现分析预测值与真实值的趋势走向以及拟合程度。预测趋势与实际值的趋势比较吻合,但是在拐点处波动较大。

对游戏销量预测模型的特征参数重要度排序,对模型的贡献度最大的特征是消极评价(negative_ratings),其次是积极评价(opstitive_ratings),游戏人数类别(categories)特征的重要性得分最低。消极评价对于销量的影响最为重要,符合结合实际中下载游戏的情况,说明一款游戏的销量,积极和消极的评价起到了至关重要的作用。

4 结束语

(1)应用数据处理对游戏销量预测进行特征工程和信息关联分析,能够有效地去除干扰预测结果的特征,降低噪声干扰和模型冗余,降低其损失值;

(2)基于GBDT 算法建立的游戏销量预测模型,具有更高的预测精度和准确性,能有效的预测不同特征下的游戏销量、可以为游戏销量提供一定的参考;

(3)本文研究证明了数据驱动模型在游戏销量预测模型应用中的可行性和有效性,为预测游戏销量提供了更为有效的方式和思路。

猜你喜欢

决策树残差销量
基于双向GRU与残差拟合的车辆跟驰建模
同比增长130%!剑指3万吨销量,丰华黄颡料迎来大爆发
基于残差学习的自适应无人机目标跟踪算法
一种针对不均衡数据集的SVM决策树算法
基于递归残差网络的图像超分辨率重建
盘点2018年车企销量
决策树和随机森林方法在管理决策中的应用
2016年度车企销量排名
基于决策树的出租车乘客出行目的识别
上汽通用172万销量下的阴影