APP下载

基于关键词关联规则的优惠券个性化推荐算法研究

2020-10-13秦晓安

攀枝花学院学报 2020年5期
关键词:点击率优惠券关联

秦晓安,王 睿,舒 升

(安徽商贸职业技术学院,安徽 芜湖 241002)

1 研究背景

随着电子商务平台的蓬勃发展,现在越来越多的交易是在网上完成的。根据最新的数据,2018年,大约28.5%的交易是在线完成的,马云在首届中国国际进口博览会论坛上表示,未来95%的交易会在网上完成。人们可以从数十亿的在线交易中获得前所未有的深刻见解,并开发了许多技术来改善消费者的购物体验。其中一种技术是基于个人客户偏好的个性化交易推荐。目前,大多数零售商在进行市场营销活动时,并不区分顾客,例如,向所有顾客发送所有电子优惠券。这类营销通常以向客户发送垃圾信息而告终,因为大多数客户可能并不感兴趣。即使一些顾客感兴趣,他们关注的信息可能不太容易被发现。个性化推荐是解决这一问题的最佳方式,它只向目标客户推荐相关产品,在帮助零售商获得更多客户的同时,也为零售商节省了成本[1]。个性化的推荐引擎需要考虑个人客户的偏好和购买历史,并找到最相关的产品。

个性化推荐可以被各类零售商使用,并且不同的业务逻辑需要不同类型的推荐算法。在文章中,我们讨论了一种特殊类型的交易,即优惠券交易,它具有一些特定的特征。这种商业模式的一个典型例子是美团,所有的交易都是在短期内有效。因此,我们必须处理所有建议的“冷启动”问题。在文章中,我们讨论了关键词在类交易推荐中的作用,实验表明,我们提出的方法在优惠券个性化投放率上优于现有的基线方法。

2 研究准备工作

针对不同应用推荐系统做了大量的研究,如好友推荐、基于位置的交易推荐、电影推荐、音乐推荐、产品推荐、app推荐[2]。在大多数情况下,评级信息可以用于推荐,如电影,音乐和产品交易[2]。在我们研究的案例中,优惠券交易通常没有任何评分或评级。因此,我们只能将每一个购买行为视为一个“积极”的行为,而没有来自用户的“消极”输入。

在传统的推荐应用中,被推荐的项目总是可用的,例如电影、音乐和产品,但是优惠券交易只在短时间内有效。因此,在推荐优惠券交易时,从其他人的历史数据中引用交易在这种情况下不是很有用。协同过滤是最常用的一般项目推荐算法[3]。它计算项目到项目或用户到项目的相似性,并使用组合相似性值推荐项目。但是我们希望推荐新的优惠券交易,而协同过滤只有在所有交易都已经有一些交易时才有效。根据协同过滤的公式,只推荐有交易的交易,不推荐没有交易的新交易。

3 数据库加工分析

我们研究了一组来自在线优惠券交易市场的真实交易数据。由于这个数据源不是公共的,通过校企合作授权得到,所以只能在文章中列出关于数据集的统计信息。数据集的描述如下:

(1) 交易笔数:15万笔+

(2) 交易数量:2000+

(3) 交易用户数:76000+

(4) 至少有3笔交易的用户数:12000+

交易类别:餐饮、酒店、教育培训、休闲娱乐、旅游。这些类别是手动定义的。表1为这些类别交易的样本,图1为交易中的类别分布。

表1 五类交易样本

图1 各类交易占比

为了便于理解,表1列出了每种类别的一些类似案例样本。案例样本的详细描述可以在交易网站上中找到。在数据集中,我们还对人们是否反复购买类似的商品进行了研究,例如,反复购买美食消费。但当我们试图向用户推荐交易时,总是面临 “冷启动”问题,即我们没有足够的交易历史记录来处理每天的新交易。因此,我们考虑使用关键词将新交易与旧交易链接起来,并基于交易之间的关键词映射来执行推荐,提出了一种新的基于关键词关联规则的推荐算法。

4 算法的解决方案

4.1 关键词间的关联规则

传统的Apriori算法关注交易之间的关联规则,例如啤酒和婴儿尿布一起购买。然而,在我们研究的数据集中,由于交易到期非常快,我们的算法不能推荐基于关联规则的过期交易。因此,我们不是计算交易之间的关系,而是计算交易描述中的关键词之间的关系。我们对交易描述进行预处理,只保留交易网站中描述的名词[4]。

算法1计算关键词关联规则如下:

(4)将所有关键词聚合到矩阵M中,每一行就是一个关键词。所以M是一个R×2矩阵,R> 3 000 000。

(1)

(2)

(9)在160,000多个关键词supp×conf中选择值最高的5%。

表2 最常见的关键词配对组合的例子

表2(续)

我们在表2中选择了一些具有高支持值和置信度值的典型关键词组合,其中可以找出一些有趣的行为模式。我们可以把这些结果解释为人们购买了一笔描述上有“关键词1”的交易时他们也倾向于购买另一种带有“关键词2”的交易。例如,表2中支持度最高的关键词组合是{自助餐, 自助餐}。说明:(1)描述中有“自助餐”的交易较多;(2)以前买过自助餐的人倾向于买另一种不同的自助餐。“自助餐”、“晚餐”、“酒店”、“休闲”等词与“自助餐”一起出现的频率最高,这意味着购买了这些词的人将来更倾向于购买自助餐特惠产品。同样的道理也适用于“医疗”、“全身”、“面部”、“spa”等,例如,买了全身按摩休闲的人以后会买面部医疗,这意味着人们会反复购买美容保健产品。有趣的是,我们发现不仅是服务交易(如餐饮、美容),而且一些产品交易,如小米和华为产品也在人们的购买模式中重复出现。这意味着我们可以向以前购买过同一品牌的顾客推荐优惠。鉴于这些发现,我们提出一种基于关键词关联规则的推荐算法。

4.2 基于关键词关联规则的推荐

我们设计了一个推荐算法,根据客户购买历史中的交易描述和4.1中计算的关键词对关联规则的先前知识,向客户推荐新的交易。

(3)交易权重dn的计算方法如下:

(3)

(4)通过除以DT中的最大值amax,将an值归于[0, 1 ]范围。

4.3 按销售数量列出的推荐

电子商务网站使用的最简单和有效的推荐方法是根据出售的优惠券数量对所有交易进行排序。我们定义为出售的优惠券数量dn∈DT。每笔交易我们除以DT中最大值狻βmax得到正常狻βn值。

我们将关键词关联规则中的权重与销售数量结合起来:

Yn=αn+βn

(4)

并按值向下排序所有交易。从关键词关联度和整体人气来看,排名靠前的交易是与用户最相关的交易。

4.4 实验

我们在4.3节描述的优惠券交易数据库中,用基线算法对我们提出的算法进行了实验测试。对于用户购买的每一笔交易,我们都将其视为未知交易,并根据查询日期之前的购买历史推荐一份交易列表,看看这桩交易是否属于我们推荐的交易[6]。如果交易在推荐名单上,我们称之为成功。在我们的实验中,我们报告所有交易的点击率。由于我们的算法依赖于购买历史,因此我们跳过用户购买的第一次购买,只推荐从第二次购买开始的交易。很明显,命中率越高,推荐效果越好。我们还计算了每次点击的平均排名,rank=1表示用户实际购买的交易位于推荐列表的顶部[7]。所以较低的平均排名意味着更好的推荐。我们还根据以下等式计算平均倒数秩(MRR):

(5)

其中Q是所有热门交易的集合。很容易看出,MRR值越高,推荐就越好。根据研究结果,我们知道,在餐饮、娱乐和旅游交易中,词语的重复频率更高,因为它们大多是服务交易,而对于产品和旅游交易,词语不太可能有关联。我们还观察到,在这个数据库中,人们往往购买同一类别的交易非常频繁。例如,如果一个顾客购买了一份餐饮套餐,那么他的下一次购买很可能也是餐饮套餐。因此,我们的实验步骤如下:

(1)对于每个用户,在查询日期获取购买历史记录。

(2)如果最后购买的类别是餐饮、健康、活动,根据公式4推荐交易,否则按n值推荐交易。

(3)计算点击率、所有点击率的平均排名和MRR。

我们报告前5名、前10名和前20名推荐的点击率、平均排名和平均倒数排名。从图2、3、4实验的结果可以得出,我们提出的关键词关联的算法在所有实验中,无论是命中率、平均排名还是平均倒数排名,都优于数量算法。前5名推荐的点击率由12.9%提高到13.9%,前10名推荐的点击率由21.1%提高到21.6%,前20名推荐的点击率由35.7%提高到36.9%,不同情况的点击率分别为7.8%、2.4%、3.4%。对于每次命中的平均秩,我们的算法总是有较低的秩,这意味着在所有情况下都有更好的性能。最后,我们还实现了在所有情况下比基线更高的平均倒数排名,分别为前5名、前10名和前20名的建议增加14.1%、9.3%和11.9%。

将来,我们希望更深入地研究交易,以确定哪些交易更适合使用关键词关联规则进行推荐。我们还计划将关键词关联规则集成到协同过滤算法中,以获得更好的性能[8]。

5 总结

文章提出了一种基于关键词关联规则的优惠券交易推荐新算法,以解决传统推荐案例中不太明显的“冷启动”问题。基于先前的发现,将该算法应用于“餐饮”、“娱乐”和“旅游”交易是很有意义的。关键词关联规则被计算出来,并用于计算推荐的每个交易的权重,权重以便于为特定用户量身定制发放优惠券。我们对提出的算法进行了实验,并与基线销量算法进行了比较,前5名、前10名和前20名的推荐点击率得到了明显改善,发放优惠券时建议推荐按点击率、平均排名和平均倒数排名。

猜你喜欢

点击率优惠券关联
优惠券套路,多不多
淘宝直播优惠券怎么设置
“一带一路”递进,关联民生更紧
基于特征工程的视频点击率预测算法
奇趣搭配
智趣
喜报!萌宝大赛参赛者660名,投票321657人次,点击率超60万!
试论棋例裁决难点——无关联①
电子时代的新节俭生活
《江南STYLE》为何这么火