LSTM与随机森林购买行为预测模型研究
2018-09-10李旭阳邵峰晶
李旭阳 邵峰晶
摘要: 为预测用户的购买行为,本文提出了一种基于LSTM与随机森林相结合的预测模型。该模型不仅对用户的行为数据进行量化提取特征和商品的属性提取特征,同时结合LSTM对序列数据处理的优势,将用户的行为数据作为先后关联的序列进行动态特征提取,再结合随机森林对用户的购买行为进行预测,最后采用某商城真实的商品月销售数据进行实验验证。研究结果表明,该基于动态特征的组合模型精确率达到了98%以上,比单一的随机森林模型采用静态特征预测有较大提高,同时召回率和正确率也有所提高。该模型为用户购买行为的预测提供了有效方法。
关键词: 静态购买行为特征; 动态购买行为特征; 长短期记忆网络; 随机森林
中图分类号: TP18; F724.6文献标识码: A
随着电子商务的发展,用户逐渐从线下消费转移到线上消费。对用户购买行为准确的预测,对商品的预先投放起到关键性作用。因此,如何利用用户在购买之前一系列的网上操作行为来准确预测用户的购买意图至关重要。目前,用于购买行为预测的方法很多,如决策树方法、贝叶斯分类算法、支持向量机、神经网络方法及时间序列预测方法等。预测的方法和数据不同,产生的效果也不同。预测方法是对数据从不同角度进行分析,而多个模型相互组合能够发挥不同方法的优势。常见的组合模型有两种,一是利用制定一些如离差绝对值和预测误差平方和等来确定每个模型在组合模型中所占的权重[1];二是运用机器学习的方法[2],例如神经网络和支持向量机等,对训练数据进行训练来获得模型参数,在组合模型中进行参数扩展。相关研究表明,结合机器学习方法的组合模型,在总体的预测效果上优于另一种方法[3]。解决用户购买行为的预测,首先是确定用户购买行为的特征,用户购买行为特征分為静态和动态两种。静态购买行为特征是指不包含用户操作行为先后关联特征,只有商品特征和用户操作行为的数量特征;动态购买行为特征是指包含用户操作行为先后关联的特征。用户购买行为的数据,除了提取商品的静态特征,还要挖掘用户操作行为数据的动态特征。长短期记忆网络[45](longshort term memory,LSTM)能够对之前发生的行为特征进行记忆,提取序列特征具有明显的优势;随机森林方法是利用多棵树对样本进行训练并预测的一种分类器,在处理高纬度数据时,不需要对特征进行选择。基于此,本文根据长短期记忆网络和随机森林的特点,选择二者相结合的模型对用户购买行为进行建模预测。相比于单一的随机森林模型,该模型具有更好的稳定性和更高的预测准确率。该研究具有一定的实际应用价值。
1用户购买行为预测模型
1.1长短期记忆网络方法
循环神经网络(recurrent neural networks,RNN)是将t1时刻的输出作为t+1时刻的部分输入,但该网络存在梯度消失的问题,很难处理长期的依赖关系。LSTM是一种特殊的循环神经网络,在循环神经网络的基础上进行改进,使它能学习长期的依赖关系。LSTM的神经元结构如图1所示。图1中,每个神经元的输入都是t-1时刻的输出h t-1、时间记忆量C t-1和t时刻的输入xt;输出是t时刻对应的ht,Ct。输入变量在神经元内部的运算过程(σ是sigmoid函数)为
ft=σ(Wf[ht-1,xt]+bf), it=σ(Wi[ht-1,xt]+bi), Ct=tan h(Wc[ht-1,xt]+bc)
Ct=ftCt-1+itCt~, ot=σ(Wo[ht-1,xt]+bo), ht=ottan h(Ct)
式中,Wf、Wi、Wc、Wo均为权重;bf、bi、bc、bo均为偏置量;xt为t时刻的输入;it为t时刻的输出;ft为t时刻的输出;ot为t时刻的输出。
1.2随机森林方法介绍
随机森林[68]是一种集成学习方法,由美国科学家Leo Breiman在2001年提出的一种机器学习算法,该算法结合Bagging集成学习理论和随机子空间方法,在数据分类和非参数回归方面广泛应用。随机森林中存在多种不同的决策树,如决策树ID3[910]、决策树C45[1112]等算法。建立随机森林阶段,按照一定策略选取部分数据和属性分别建树;在预测阶段,根据森林中各棵树的预测结果进行投票表决,最终表决结果为随机森林预测结果。
1.3LSTM与随机森林相结合的购买行为预测模型
1.3.1预处理
用户购买行为数据由用户在线浏览行为数据和商品数据两部分组成[1315]。用户在线浏览行为是指用户在某一时刻对网页上的某一商品进行点击、浏览、加入购物车等操作,商品数据包含商品的类别、属性等相关信息。
预处理阶段主要完成清理数据中的冗余数据[1618]和提取用户一段时间内对某一商品的行为数据两个工作。由于用户在某一时刻只能进行一次操作,可根据用户商品的编号及操作时间对整个数据集进行冗余数据处理,选取7 d为一个时间窗口,提取用户编号和商品编号对窗口期的数据,形成以时间为顺序的用户对特定商品的购买行为数据。
1.3.2静态特征提取
特征提取阶段是针对预处理之后的购买行为数据和购买行为对应的特定商品。该过程分为如下2个阶段:
1)购买行为的特征提取阶段。用户点击行为特征表示用户一种行为点击次数与用户所有行为的总点击次数之比。用户对特定商品的购买行为数据进行特征提取之后,特定用户对特定商品的多条购买行为数据将转化成特定用户对特定商品的一条购买行为特征数据。
2)商品特征提取阶段。根据购买行为特征数据中的商品编号,从已有商品信息中提取该商品的类别信息、功能分类信息及商品属性信息。商品的特征数据与购买行为特征数据组合,形成用户购买行为的静态特征。
1.3.3动态特征提取
根据对预处理后用户购买行为数据的分析,发现90%以上的用户在时间窗口之内的操作次数介于4~20次之间,因此将LSTM的训练数据取该数量间隔间的数据。用户的操作顺序作为LSTM的输入,LSTM内部采用
一层网络结构,输出由单个神经元构成[19],通过训练数据将模型训练稳定。将用户行为数据输入到已稳定的LSTM模型中,提取模型中间层的输出,作为购买行为的动态特征。
1.3.4购买行为预测
将静态特征和动态特征作为用户购买行为的总特征,采用随机森林方法对用户购买行为进行预测,在模型训练过程中,发现森林中树木的数量对结果有较大影响。对比发现,树木在20棵的时候预测结果最优。因此,该组合模型中取森林树木量为20棵。精确率树数量曲线如图2所示。
1.4组合预测模型
预测模型主要分为五步:一是输入用户数据;二是对输入的数据进行预处理模块;三是对处理完成后的数据分别进行静态和动态特征进行提取,将两类特征输入到随机森林预测模块中;四是根据用户总的行为特征进行分析预测[20];五是输出预测结果。模型流程图如图3所示。
2实验结果与分析
2.1评价标准
预测效果的评价是以召回率、正确率、精确率和错误率为指标进行衡量。分类结果混淆矩阵如表1所示。
1)召回率为A/(A+C),反映系统发错误行为的能力,召回率越高,将错误行为判断成正确行为的概率越少。
2)正确率为A/(A+B),即对正确行为的检对率,正确率越大,将正确行为判为错误行为的可能性越小。
3)精准率为(A+D)/(A+B+C+D),即对所有行为的判对率。
4)错误率为(B+C)/(A+B+C+D),即对所有行为的判错率。
2.2数据获取
本文所采用的数据来自某商城真实的商品月销售数据。该数据由两部分组成,一是用户对商城中商品的操作信息;二是商品本身的属性类别等信息。实验中,分别采用随机森林和文中提出的组合模型两种方式对上述数据进行预测。随机森林的特征只来自用户购买行为的静态特征和商品自身的信息,实验显示,以最优的随机森林模型对数据进行预测,实验结果:召回率为0404 5,正确率为0785 1,精确率为0658 2,错误率为0341 8。组合模型对数据进行预测的实验结果:召回率为0983 3,正确率为0985 1,精确率为0983 3,错误率为0016 7。
对比发现,组合模型的召回率更高,说明组合模型比单一的随机森林模型更容易识别出异常数据;正确率值越大,说明组合模型在将正常行为判为异常的可能比单一随机森林越小。同时,精准率的提升和错误率的下降说明组合模型预测的准确性较单一随机森林具有明显提升。
3结束语
本文提出了一种基于LSTM与随机森林相结合的预测模型。该模型将用户的特征分为静态特征和动态特征,不仅对用户的行为数据进行量化提取特征和商品属性提取特征,同时结合LSTM对序列数据处理的优势,将用户的行为数据作为先后关联的序列进行动态特征提取,再结合随机森林来对用户的购买行为进行预测。实验证明,以动态特征为基础的组合模型较单一的随机森林模型有更好的稳定性和更高的预测准确率。而进一步细化用户的购买行为的动态特征是下一步研究工作的主要内容。
参考文献:
[1]孙李红, 沈继红. 基于相关系数的加权几何平均组合预测模型的性质研究[J]. 系统工程理论与实践, 2009, 29(9): 8491.
[2]李斌, 郗涛, 史明华. 基于支持向量机的交通流组合预测模型[J]. 天津工业大学学报, 2008, 27(2): 7376.
[3]韩冬梅, 朱文清, 杨荣, 等. 线性与非线性最优组合预测方法的比较研究[J]. 情报科学, 2007, 25(11): 16721678.
[4]Hochreiter S, Schmidhuber J. Long ShortTerm Memory[J]. Neural Computation, 1997, 9(8): 17351780.
[5]Gers F A, Schmidhuber J, Cummins F. Learning to Forget:Continual Prediction with LSTM[J]. Neural Computation, 2000, 12(10): 24512471.
[6]尹华, 胡玉平. 基于随机森林的不平衡特征选择算法[J]. 中山大学学报: 自然科学版, 2014, 53 (5): 5965.
[7]杨飚, 尚秀伟. 加权随机森林算法研究[J]. 微型机与应用, 2016, 35(3): 2830.
[8]姚登举, 杨静, 詹晓娟. 基于随机森林的特征选择算法[J]. 吉林大学学报: 工学版, 2014, 44(1): 137141.
[9]梁辰, 陈明浩. 数据挖掘ID3分类算法研究综述[J]. 信息通信, 2015, 149(5): 2628.
[10]朱琳, 楊杨. ID3算法的优化[J]. 软件, 2016, 37(12): 8992.
[11]冯帆, 徐俊刚. C4.5决策树改进算法研究[J]. 电子技术, 2012, 39(6): 710.
[12]徐磊, 方源敏. 基于决策树C4.5改进算法的交通数据挖掘[J]. 微处理机, 2010, 31(6): 5759.
[13]Rassin E, Muris P. Indecisiveness and the Interpretation of Ambiguous Situations [J]. Personality and Individual Differences, 2005, 39(7): 12851291.
[14]Liu Q, Zeng X, Lin C, et al. Mining Indecisiveness in Customer Behaviors[C]∥Proc of the 15th International Conference on Data Mining. NJ, USA: IEEE, 2015: 281290.
[15]Cappellari L, Jenkins SP. Multivariate Probit Regression Using Simulated Maximum Likelihood[J]. The Stata Journal, 2003, 3(3): 278294.
[16]雷华欢, 刘丽兰, 赵改平, 等. 基于BP神经网络的销售预测分析系统[J]. 现代制造工程, 2012(2): 3236.
[17]赵改平, 刘丽兰, 程功勋, 等.销售预测分析系统的研究与应用[J]. 现代制造工程, 2011(3): 2831.
[18]金连文, 钟卓耀, 杨钊, 等. 深度学习在手写汉字识别中的应用综述[J]. 自动化学报, 2016, 42(8): 11251141.
[19]Liu Y H, Liu L L. Sales Forecasting Through Fuzzy Neural Networks[C]∥International Conference on Electronic Computer Technology. Macau, China: IEEE, 2009: 511515.
[20]蒋胜利. 高维数据的特征选择与特征提取研究[D]. 西安: 西安电子科技大学, 2011.