APP下载

基于Lightgbm算法的隐式反馈数据中购买行为识别模型设计及应用

2019-02-07卞天宇张昌兵李琛霖

无线互联科技 2019年22期

卞天宇 张昌兵 李琛霖

摘   要:文章以研究隐式反馈数据中识别用户购买行为为中心,应用特征工程和Lightgbm算法进行消费者购买行为研究,挖掘在线购物行为数据背后的深层次关系,从用户的行为轨迹,分析用户的行为特征、偏好与兴趣,从而了解顾客的购物需求,最终达到提升电商平台的购买预测效果的目的。

关键词:隐式反馈;购买预测;特征工程;Lightgbm算法

1    问题的提出

随着互联网技术的发展,人们步入信息过载时代。为了解决用户搜寻有效信息需求以及提高商家的营销能力,电商平台需要挖掘用户行为以此向客户推送个性化商品提高购买转化率。隐式反馈基于用户使用APP时留下的自然行为,比如点击、加入购物车、购买等行为,从用户行为中“揣摩”喜好。隐式反馈的优势不仅限于数据收集效率,对用户行为的深度挖掘可以提高平台收入,准确定位用户需求,基于用户行为的特征提取以及模型构建可以提高购买预测准确率,减少用户搜索时间,从而减少用户流失。

近年来,一些学者正尝试将机器学习算法和顾客购物行为数据结合起来构建预测模型。相关研究有:胡东波等[1]使用Decision tree算法对电子商务消费者调查问卷进行挖掘。张少帅[2]使用聚类克隆马尔科夫模型对电子商务用户的购买行为进行预测。杨琼等[3]使用朴素贝叶斯对满足特定条件的顾客购买行为进行预测。Silahtaroglu G等[4]使用了神经网络来预测消费者是否会购买购物车里的商品。上述文献在特征构造上没有重视构造基于原始特征的组合和交叉特征,在模型方面仍处于对传统树模型的改进阶段。本文将以消费者购买行为为研究中心,通过特征工程和将Lightgbm算法应用于对隐式反馈数据中购买行为的识别,发现用户的行为特征,了解顾客的需求,实现精准营销,以期提升电商平台的购买预测效果。

2    Lightgbm算法的相关理论

2016年中国学者陈天奇设计Xgboost算法模型在众多机器学习任务和国际重大数据竞赛取得了优异成绩,2017年,Lightgbm作为微软亚洲研究院开源的模型,则是在Xgboost上进一步改进,而这两者都是基于GBDT梯度提升决策树这一经典模型衍变而来的。

GBDT具有训练效果好、不易过拟合等优点,在工业界有着较广泛的应用,常被用于点击率的预测、搜索排序等任务。

Xgboost较传统的GBDT算法的优势在于:传统的GBDT只利用了一阶的导数信息,而Xgboost对损失函数进行了二阶的泰勒展开,求得模型最优解的效率更高。

Lighgbm中的决策树子模型是采用叶子分裂方法分裂节点的,因此,计算代价比较小,也正是因为选择了这种分裂方式,需要控制树的深度和每个叶子节点的最小数据量,从而避免过拟合现象的发生。

由于本文隐式反馈数据具有数据量大、数据稀疏、后期构造的特征维度大且许多特征存在缺失值等诸多劣势,而Lighgbm的数据并行和投票并行恰好可以解决上述问题。

由于样本严重失衡,正负样本比达1∶67,所以本次实验中模型的效果评估采用F1指标,F1指标实际上是预测准确率和召回率的调和平均数。

3    模型检验

3.1  数据来源

本文数据集来源于阿里AI天池社区,包含了2017年11月25日至2017年12月3日,约100万随机用户的所有行为。即数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。

3.2  数据处理

从原始数据1 000 000万用户中随机抽取9 688个用户, 通过数据观察可发现部分用户在2017年11月25日至2017年12月3日只有浏览行为,没有购买行为,这类用户疑似刷单用户。部分用户浏览、收藏、加购物车记录均为0,但是却有购买记录,这类用户疑似刷单用户。剔除这两类用户及这两类用户的所有行为后,还剩下9 076个用户及所产生的956 287条行为。

3.3  数据分析

通过数据可视化探索,可以发现重要规律。图1为购买转化率在距考察日(12月3日)时间上的分布。

基于图1数据探索,将重点关注考察日前3日的用户行为及他们加购购物车的行为,为了加快训练速度,训练集最终只保留3日内有交互信息的用户和商品。所以,实验将12月3日的购买記录作为测试集,12月2日当日的数据作为验证集,将11月29日至12月1日作为训练集并构建特征,然后用12月2日的购买记录来标记训练集并用于调节训练集模型效果,最终训练好模型后,将11月29日至12月2日的数据合并构建特征,然后一起放入模型,并将模型预测结果与测试集进行比对。

3.4  特征工程及数据结构

隐式反馈的原始数据未经过特征提取这一重要步骤,基本学习不到任何信息,更何况用户对商品的喜好信息。所以,本次实验构造了6个特征群,分别是U基础特征群、I基础特征群、C基础特征群、U_I交叉特征群、U_C交叉特征群和I_C交叉特征群,总计为510个特征。

部分特征举例:U_51为用户在据观察日一日内加购物车的购买转化率,该转化率越高,在一定程度上说明该用户的购买能力就越强。

U_I_37为用户在据观察日一日内对该商品的交互次数占该用户当日总交互次数的比例,占比越高,在一定程度上反映了该用户对该商品关注是大于其他商品的。

3.5  模型检验

将处理好的数据送进Lightgbm模型中去,经过参数调节,在最终的测试集上F1得分为6.79,同时选取了跟Lightgbm原理相似的两个经典机器学习模型作为对比,xgboost和GBDT在测试集上F1得分分别为:6.32和5.96,可以看出Lightgbm在3个模型中效果最好,同时训练耗时也可以接受,不失为一个不错的结果。

4    结语

实验在对原始隐式反馈数据做了大量的特征工程的基础上,Lightgbm算法能很好地运用于电商隐式反馈数据的购买预测,并且性能优异。本研究成果可以为电商平台处理隐式反馈数据和进行购买预测提供一定有价值的参考。本课题有待进一步深入研究的领域主要有:(1)特征提取完全依赖人工,除工作量巨大外,尽管构建了大量丰富的特征,但有时难免出错或遗漏,如能引入一些自动化特征提取方法,可以解决这个问题。(2)最终的预测结果仅使用了单一模型,如能使用模型融合的方法,可以克服单一模型的缺陷。

[参考文献]

[1]胡东波,肖璇,周锦.基于数据挖掘的移动电子商务用户群体特征分析[J].科技管理研究,2013(9):222-226.

[2]张少帅,唐莉莉,郑署琳.预测模型在购物网站中的应用[J].现代计算机,2013(6):40-42.

[3]杨琼,唐振平,陈建华,等.基于模糊朴素贝叶斯方法的客户消费行为预测研究[J].湖南科技学院学报,2013(12):122-127.

[4]SILAHTAROGLU G,DONERTASLI H.Analysis and prediction of E-customers behavior by mining clickstream data[C]. Canifornia:International Conference on Big Data. IEEE,2015.