融合LSTM 和LightGBM 的用户购买行为预测算法
2024-06-26梅俊涛陈静白静盼
梅俊涛 陈静 白静盼
摘要:近年来,线上购物逐渐成为用户主要的购物手段,为提升用户购物体验,商品推荐系统应运而生。然而,传统的商品推荐系统常依赖简单的协同过滤和基于流行度的算法,难以捕捉用户的个性化偏好。针对此问题,文章基于JData平台提供的真实数据集,提出了融合LSTM和LightGBM的用户购买行为预测算法。首先,针对数据集中正负样本不平衡问题,采用对数据归一化的方法,使各个特征的贡献度更均衡。然后,利用LSTM和LightGBM依次提取商品购买的时间序列特征和非时间序列特征,构建融合LSTM和LightGBM的用户购买行为预测模型。将LSTM和LightGBM作为第一层学习器,并将LightGBM作为次学习器对用户购买行为进行预测。最后,大量实验证明:与单一的LSTM模型、SVM和LightGBM的融合模型以及CNN和LSTM融合模型相比,文章提出的算法在准确率、召回率以及F1值方面性能更优。
关键词:归一化;LSTM;LightGBM;融合模型;购买行为预测
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2024)14-0029-03 开放科学(资源服务)标识码(OSID) :
0 引言
随着互联网和电子商务的快速发展,用户购买行为的数据和信息增长速度越来越快,因而带来了大量且复杂的数据。这些海量的数据包含了用户的购物记录、浏览历史、点击行为等,蕴含了丰富的用户行为和偏好信息。这些信息可以用于商品推荐,从而提高用户的购买体验。然而,在商品推荐过程中,这些数据具有高维稀疏性,有效解释这些数据成为用户购买预测的必要条件。因此,如何利用好这些数据预测用户购买行为成了一个难题。
传统的购买行为预测方法已不再适用于用户行为数据量大以及用户行为特征复杂多样的情况。存在着特征的可解释性和预测准确性的问题。同时,由于用户的购买行为数据正负样本比例较大,存在着样本不平衡问题。因此,本文将对用户购买行为数据集进行清洗并构建特征,以增强特征的可解释性,便于模型对特征的提取和分析。然后,对不平衡的数据集进行归一化处理,将不同特征的尺度统一,消除特征之间的量纲差异,减少其对模型的影响,提高模型的稳定性。最后,采用基于长短期记忆网络(Long Short-Term Memory, LSTM) 算法和轻量级梯度提升(LightGradient Boosting Machine, LightGBM) 算法构建的融合模型来预测用户购买行为。这样做充分利用了LSTM能够有效捕捉并保留长期依赖性以及LightGBM 能够快速高效解析特征的能力。
1 相关工作
Dennis Koehn等人[1]利用点击流数据实时预测在线购物行为并进行目标营销干预。他们采用了循环神经网络(RNNs) 的框架来发掘点击流数据的全部潜力,并通过基于真实的电子商务数据对多个RNN分类器进行系统评估,并将其与SML基准进行比较。
Irfan Ullah等人[2]采用了一种新颖的可解释机器学习(ML) 框架来预测电动汽车的充电站选择行为。他们采用了新开发的SHAP方法来确定各种属性对充电站选择行为的特征重要性和复杂的非线性和交互作用。Daniel K. Maduku等人[3]采用了一个综合模型,在期望-确认模型中结合了分层购物价值(享乐和功利)因素结构,分析了南非购物者在移动购物持续意愿背后的因素。Wenle Wang等人[4]提出了一个用户价值模型(LDTD) ,通过多要素行为融合,根据用户的行为模式生成用户标签特征,并采用XGBoost特征重要性模型来分析多维特征。他们确定具有最显著权重值的模型作为构建模型的关键特征,并将该特征与其他用户特征一起使用XGBoost 模型进行预测。Rebeka-Anna Pop等人[5]基于S-O-R框架,通过快时尚移动应用程序,探讨了移动应用程序的功利、享乐和社交属性对消费者态度和购买意向的直接和间接影响。他们通过在线调查来测试提出的概念模型,使用偏最小二乘(Partial Least Squares,PLS) 建模技术对反射构念进行可靠性和效度评估。
2 数据处理及特征构建
实验数据来自JData算法大赛中提供的京东商城在线交易数据,覆盖了2018年2月1日到2018年4月1日的交易情况。数据集包含用户行为信息、商品评论信息、商品信息和用户个人信息。由于本文未使用店铺信息表,故不在此介绍。
特征工程[6]对于模型的性能和可用性有着显著影响。在原始数据集中,存在着非数值特征以及潜在的信息,这些特征的价值难以被模型捕获。通过巧妙地设计和选择特征,可以减少训练时间,并提高模型的可解释性。以下是本文采用的特征工程方法:
1) 特征编码[7]:对用户性别、年龄等非数值特征字段进行独立编码并转换为数值特征,以便机器学习算法有效提取信息。
2) 特征提取:用户信息表中的用户所在城市等级、用户会员等级等字段对预测用户购买行为有意义,提取这些特征可以减少数据维度、去除冗余信息,并揭示数据背后的潜在结构。
3) 特征组合与交互:将用户-品类特征、用户-商品-品类特征进行交互,创建新的特征,引入更丰富的信息,捕捉特征之间的关联性和互动效应。
4) 特征转换:由于浏览数据样本过多,对预测购买行为有较大影响,因此计算用户行为购买转化率以及商品行为购买转化率有助于使数据更符合机器学习模型的假设或要求。
3 融合模型的构建
对于用户行为数据集,由于用户行为具有一定的历史性,并且数据离散性较强,为了更有效地预测用户购买行为,本文充分利用了LSTM模型对时序数据的提取能力以及LightGBM模型对稀疏数据的处理能力。基于集成学习(Stacking) 方法的原理,将LSTM算法和LightGBM算法作为基模型,将LightGBM算法作为元模型构建融合模型进行用户购买行为预测。其详细步骤如下:
1) 将构建的数据集按照8:2的比例划分为训练集和测试集。
2) 将LSTM和LightGBM作为基模型,在训练集上进行训练。通过五折交叉验证的方式,分别对两个基模型进行训练,并将各自的预测结果整合成特征A1、A2。然后,将LightGBM作为元模型,对新的特征进行训练。
3) 使用测试集对训练好的模型进行预测。使用LSTM和LightGBM模型按照五折交叉验证的方式进行预测,然后将各自的预测结果整合成特征B1、B2。
4) 最后,使用LightGBM对新特征进行测试,得到最终的预测结果。
综合上述研究方法,本文构建了总体的流程图,如图1所示。
4 实验
4.1 实验环境
本实验使用Python语言来搭建模型,程序运行环境及配置条件如表1所示:
4.2 模型评价指标
为了更准确地评估模型的性能,实验中采用了混淆矩阵的方法计算准确率[8]、精确率[9]、召回率[10]和F1 值[11]。其中,TP 表示正确预测的购买用户数,FP 表示错误预测的购买用户数,TN表示正确预测的非购买用户数,FN 表示错误预测的非购买用户数。假设总共有N 个样本,则有N=TP+FP+TN+FN。
准确率(Accuracy)计算方法为:
式中,F1 值是指精确率和召回率的调和平均值,F1值越高,表示模型的整体性能越好,即:
4.3 实验结果分析
本实验使用中构建的数据集作为输入数据,采用LSTM 模型、支持向量机(Support Vector Machine,SVM) 和LightGBM融合模型,以及LSTM和卷积神经网络(Convolutional Neural Network,CNN) 融合模型作为对比算法。
从表2可以观察到,LSTM和LightGBM融合模型的预测效果相较于单独使用LSTM模型有很大的提升。这表明融合模型有效地捕获了序列数据中的长期依赖关系,并充分发挥了梯度提升算法在提高整体模型性能方面的作用。因此,该融合模型提高了用户购买行为预测的准确性,有效地预测了用户的购买行为。
根据图2可观察到,由LSTM和LightGBM构成的融合模型在预测效果中召回率方面明显优于其他模型。这表明该模型具有较低的漏报率,能够更好地捕捉到正例。相比之下,其他模型在面对高维特征时容易出现性能下降的情况,难以准确预测用户的购买行为。例如,将SVM和LightGBM模型进行融合时,难以发挥SVM对噪声的敏感性以及LightGBM快速分析特征的优势。此外,较高的F1值在一定程度上反映了LSTM和LightGBM融合模型的综合性能较高,而其他模型则可能因为对用户购买行为特征数据过度解释特征信息而导致过拟合问题,比如LSTM和CNN模型的融合。
综合上述分析可知,使用基于LSTM算法和Light?GBM算法构建的融合模型能够总体上具有较高的准确性和泛化性能。
5 结束语
提高商品推荐系统的效率一直是研究者们关注的问题。针对这一问题,本文提出了融合LSTM 和LightGBM的用户购买行为预测算法。鉴于数据集中正负样本不平衡的情况,本文采用了对用户行为数据进行归一化的方法。利用LSTM对时间序列数据处理的优势以及LightGBM对特征分析的能力,将LSTM和LightGBM作为第一层学习器,将LightGBM作为次学习器,对用户购买行为进行预测。在未来的工作中,我们将持续优化特征工程的构建,并对模型的各个参数进行优化,以更好地适应融合模型,并提高用户购买行为的预测效果。
参考文献:
[1] KOEHN D,LESSMANN S,SCHAAL M.Predicting online shop?ping behaviour from clickstream data using deep learning[J].Ex?pert Systems with Applications,2020,150:113342.
[2] ULLAH I,LIU K,YAMAMOTO T,et al.Modeling of machine learning with SHAP approach for electric vehicle charging sta?tion choice behavior prediction[J].Travel Behaviour and Society,2023,31:78-92.
[3] MADUKU D K, THUSI P. Understanding consumers' mobile shopping continuance intention: new perspectives from South Africa[J].Journal of Retailing and Consumer Services,2023,70:103185.
[4] WANG W L,XIONG W T,WANG J,et al.A user purchase be?havior prediction method based on XGBoost[J]. Electronics,2023,12(9):2047.
[5] POP R A,HL?DIK E,DABIJA D C.Predicting consumers' pur?chase intention through fast fashion mobile apps:the mediating role of attitude and the moderating role of COVID-19[J].Tech?nological Forecasting and Social Change,2023,186:122111.
[6] PAULSON N H,KUBAL J,WARD L,et al.Feature engineering for machine learning enabled early prediction of battery lifetime[J].Journal of Power Sources,2022,527:231127.
[7] SINGH V K,MAURYA N S,MANI A,et al.Machine learning method using position-specific mutation based classification outperforms one hot coding for disease severity prediction in haemophilia‘ a[J].Genomics,2020,112(6):5122-5128.
[8] GIFANI P,SHALBAF A,VAFAEEZADEH M.Automated detec?tion of COVID-19 using ensemble of transfer learning with deep convolutional neural network based on CT scans[J].Inter?national Journal of Computer Assisted Radiology and Surgery,2021,16(1):115-123.
[9] IWENDI C,IBEKE E,EGGONI H,et al.Pointer-based item-toitem collaborative filtering recommendation system using a ma?chine learning model[J]. International Journal of Information Technology & Decision Making,2022,21(1):463-484.
[10] DEMILIE W B,SALAU A O.Detection of fake news and hate speech for Ethiopian languages:a systematic review of the ap?proaches[J].Journal of Big Data,2022,9(1):66.
[11] GAYATHRI S,GOPI V P,PALANISAMY P.Diabetic retinopa?thy classification based on multipath CNN and machine learn?ing classifiers[J].Physical and Engineering Sciences in Medi?cine,2021,44(3):639-653.
【通联编辑:唐一东】
基金项目: 长江大学校级大学生创新创业训练计划项目(项目编号:Yz2022142、Yz2023141)