电商大数据推荐系统中逻辑回归算法的应用
2021-11-21刘洁
刘洁
(重庆市烟草专卖局(公司)信息中心 重庆市 400023)
基于大数据的推荐系统是一种利用用户地理位置、历史购物习惯、社交圈子等信息对用户进行个性化推荐商品的系统。这种系统的核心在于如何利用算法分析用户对于商品的潜在需求。现阶段,大数据推荐系统已经在音乐、电影、阅读、社交等领域拥有了较为广泛的应用。
1 电商大数据推荐系统当前主要使用的几种算法
1.1 关联规则推荐算法
所谓关联规则推荐算法,主要是指以关联规则为基础的推荐算法,该算法的使用前提是用户已购买某个商品,之后通过参考该用户购买的商品类别和其他商品之间的相关性进行推荐。在建立关联规则时,采用的方式为概率统计,进而对两种或两种以上商品之间的相关性做出精准判断。此类推荐算法能够操作和实现较为简单,且具有较好通用性,能够很好满足零售业潜在消费者推荐等工作需求。但是,由于关联规则推荐算法建立在消费者已购买产品的记录、内容以及时间等要素上,所以,关联规则的建立较为容易受到隐含因素影响,导致最终的相关性计算结果出现偏差,甚至与消费者实际相关需求完全相反,因此,在使用该算法开展电商大数据推荐相关工作时,要使用实际结果对关联规则有效性进行校验,从而保证最终结果的准确性和有效性。从当前现状来看,使用关联规则推荐算法时,主要借助两个指标对产品之间的关联程度进行评价,一是信任度,指标公式为:confident(x,y)=Records containing(x,y)/Records containing x;二是支持度,指标公式为:support(x,y)=Records containing(x,y)/Total number of records。
1.2 协同过滤推荐算法
所谓协同过滤推荐算法,主要以最近邻算法为基础,即利用与目标群体有相似偏好的用户集合进行商品推荐,进而得到目标消费者对商品的喜好程度,并使用协同机制对信息进行过滤,实现针对性推荐。“协同”,主要是指的是与目标群体喜好较为类似的群体,通过记录两位消费者对同个商品的评价,寻找评价相同或类似用户,那么这两位消费者就满足相同喜好这一原则,之后以相似人群为基础生产推荐信息。其中,协同过滤推荐以最近邻算法为基础,该算法主要分为三种,即基于用户、基于物品以及基于模型,相较于其他推荐算法,协同过滤推荐算法在较大数据量下仍能够提供优秀的结果,正因如此,该算法在电商大数据推荐相关中应用较为广泛。但是,该算法同样具有相应的缺点,即若是数据较为稀疏,则算法应用效果相对较低,外加其具有较大性能开销,所以,协同过滤推荐算法更适用于密集数据的处理,例如Item-based 协同过滤或是User-based 协同过滤的实现。User-based 算法是以用户特征为基础,主要用于线上社交投票平台推荐问题的解决,相较于电影等传统推荐项目,社交投票依托于社交连接进行传播,这意味着用户参与投票活动概率较大,通过掌握真实的投票轨迹,能够有效提高投票推荐最终整理结果的准确性。该算法具有两个突出优点,一是不需要开展严格的用户模型和推荐对象模型构建,对物品特征表达的要求较低,有效降低该系统构建难度;二是能够发现目前群体潜在喜好,最终得到的计算推荐结果具有较强新颖性。
1.3 逻辑回归推荐算法
所谓逻辑回归推荐算法,主要是指一种分类模型,属于机械学习,相较于其他推荐算法,该算法更为简单和高效,且具有较高稳定性,结果也容易解释,因此,该算法在回归任务、分类中得到广泛应用。逻辑回归推荐算法的核心思想建立在线性回归上,为有效解决其量纲敏感问题,可以将线性回归Logistic 函数相结合,函数为:g(z)=1/(1+ez)。套用该函数后,该算法的中心思想为:当线性回归结果输出为连续值时,其范围无法限定,为此,将该输出结果映射为(0,1)上的概率值,从而判断最终结果。而为了改善线性回归的鲁棒性,提高回归模型在训练集上的表现,可以引入Sigmoid 函数,从而提高算法使用效果。通过利用二维空间直观的理解逻辑回归,能够让阈值映射为一条判定边界,随着特征复杂程度的提高,平面的判定边界具有多种样貌,但是仍能够分隔开两类样本点,从而实现分类问题的有效解决。但是,即便逻辑回归推荐算法整体较为简单,也支持在线学习,但该算法需要大量人工设计特征,当该算法面对的数据量较大时,其工作量随之提高,其效率难以得到保证。
2 逻辑回归推荐算法在电商推荐当中的主要应用
2.1 逻辑回归算法的判断标准
传统的各类算法一般是通过采用关联规则或过滤等条件作为个性化推荐的依据,而逻辑回归算法则不同。逻辑回归算法在本质上属于一个线性结构,研究者在使用逻辑回归算法的同时,应当利用用户的各类特征对算法进行训练,用户的各类特征组合是逻辑回归算法判断潜在用户和购物欲望的关键。
逻辑回归算法在进行判断的过程当中,能够减少预测值范围,电商大数据推荐在本质上来说属于二分类问题,在这种问题当中,用户只存在是否购买的两种状态。在选定数据样本之后,算法系统会自动采集数据样本当中用户的特征信息并进行分析,通过数据解析出用户的不同行为特征和历史购物意向,并完成用户特征的存储工作,判断用户是否会进行购买[1]。
逻辑回归算法具有判断简单,使用效果好,支持机器学习,可以基于大数据和用户特征进行自我训练等优点,但逻辑回归需要的数据基数过大,人工设计数据筛选条件的工作量也过大,所以在实际操作过程当中也可以使用其他算法予以配合。
2.2 预测电商用户的复购行为
在电子商务领域,每天都有海量的用户进行下单或复购操作,通过逻辑回归算法,可以根据用户过去半年在电商平台上的行为操作,对该用户能否在一个月的时间内实现复购进行预测。由于要获取较高的精确率和召回率,因此不能为每位用户都生成个性化的推荐购买列表,而应当生成该批用户最有可能的购买列表。这与传统的电商推荐算法截然不同。
由于要根据用户过去半年的行为对用户是否能够复购商品做出预测,研究者应当根据用户半年以来对电商平台的操作历史、浏览历史、购买历史等信息通过算法训练来得到推荐目标,再将推荐目标录入到具体的算法当中,这样才能得到最终的精确率与召回率指标。首先,研究人员应当对收集到的用户历史数据进行分析,并将其均匀地分为两份,一份为训练数据,这部分数据能够录入算法进行机器学习,使算法得到推荐模型。而另一部分用来评价算法推荐成果,避免算法出现误差。通过研究人员不断改进用户特征的准确度与筛选规则,算法能够逐渐改善推荐的效率与准确性,逐渐获得进步。
由于在机器学习领域,算法能达到的效果一般取决于数据与特征的准确性与数量,因此有研究人员曾经说过:“数据和特征决定了机器学习的上限,而模型和算法只能逐渐逼近这个上限[2]。”由此可以看出用户数据和用户特征在机器学习当中的重要意义。
2.3 选择用户特征,挑选忠诚用户
在进行机器学习的过程当中,算法应当收集用户在平台上的各类历史信息,其中包括用户历史操作行为、点击、收藏、关注等,还包括商品信息,如商品名称、发布时间、商品价格、商品评价和店铺评价等信息。针对算法数据的信息,系统应主要存储三个类别的信息。
2.3.1 用户属性信息集合
用户属性信息集合当中储存了包括所有用户属性的相关数据信息,其中主要包括:用户信息属性(比如用户年龄、学历、性别、主要居住地等等)、用户使用数据(包括用户的商品收藏、用户的付费购买能力、用户的其他兴趣商品、用户的关注店铺等)、用户的标志属性(包括用户名、昵称等)、最后还包括用户本身的手机型号、电脑型号、运营商、操作系统等信息。其中,用户的使用数据信息依赖于电商网站构建的用户画像系统,该系统可以通过用户平时的使用操作习惯,例如用户对于电商购物软件的使用时间等信息对用户进行绘制画像。
2.3.2 商品属性信息集合
商品属性信息集合当中储存了商品属性的相关数据,其中主要包括:商品的标志属性(如厂商、商品名称等)、商品的固定属性(商品价格、上架时间等)还包括商品的可变属性(如被购买的总次数、评论区顾客的留言与评价、商品的轮换时间等)。
2.3.3 用户-商品交叉属性信息集合
用户-商品交叉属性信息集合当中存储了用户与商品属性具有相关特征的数据信息,最主要的用户-商品交叉特征信息包括:用户性别与商品种类的交叉、用户年龄信息与商品种类的交叉、用户的爱好与商品种类的交叉、用户已经购买或收藏的商品种类与系统所推荐的商品种类的交叉等等。例如:用户A 已将商品一与商品二添加至收藏当中,之后又将商品三添加至收藏,系统就可以记录商品一、商品二、商品三之间具有交叉属性[3]。如果算法系统将用户数据与商品数据进行相对独立的分析与训练,则只会影响商品在每一个用户推荐列表当中的存留,不会影响不同用户的不同个性化推荐。利用用户-商品交叉属性集合实现对忠实用户的普遍挑选,对算法推荐结果进行大幅度优化,使每个用户的商品推荐结果实现差异化,最终使不同的人成为不同商品的忠实用户。
2.4 将备选商品提供给潜在客户
通过逻辑回归算法进行备选商品和潜在客户的挑选需要首先实现基于大数据的模型训练。训练数据由用户特征、该类用户特征的权重、流水号等数据构成,通过数据训练生成备选商品需要经过三个步骤。
2.4.1 模拟曝光步骤
曝光的含义是用户在浏览电商网站时看到了哪些商品信息,也就是系统将哪些商品推荐在潜在客户面前。系统将推荐的商品列表曝光在用户面前,对于这类推荐当中的商品,假如用户进行了收藏操作或点击关注店铺,则这种商品被称为正向样本,与此同时,如果用户继续浏览并没有进行收藏或关注的操作,则这类商品被称为反向样本,由于推荐系统当中往往只能识别正向样本,无法识别反向样本,降低了推荐系统的灵敏度和可靠性,于是研究者应当采用规则完善等方式进行解决,在算法给出的商品推荐列表当中,假如用户收藏了某个商品或关注了某个店铺,则同样对该商品之前的5个商品进行曝光,通过这种方式,算法系统能够有效识别和储存反向样本,对增加算法系统的可靠性和准确度具有积极影响。
2.4.2 统计点击通过率
点击通过率即用户对商品的实际点击次数除以商品的总浏览量,在算法推荐系统当中采用的点击通过率统计法有很多种,使用较多的有以下几种,如:性别统计通过率,不同性别的电商用户对商品的需求有着很大差异,如女性用户收藏美妆产品、护肤产品的比例远高于男性用户,而男性用户收藏电子产品、五金工具的比例也远高于女性用户,这类有着明显差别的特征可以有效用于用户样本的分辨,从而得到准确度更高,敏感度更好的算法模型。不同种类的商品特征差别很大,研究人员需要注意是否因为曝光不足或其他原因导致点击通过率过高或过低产生的推荐系统准确率降低问题,为了解决这一问题,研究人员可以用一级分类的点击通过率替代二级分类的点击通过率,从而增加推荐系统的推荐准确性。此外,通过交叉特征统计点击通过率也是推荐算法经常使用的一种方式,研究人员可以将任何不同的用户特征或商品特征进行交叉,例如用户年龄、性别、商品类型,可以显示出不同年龄性别的用户对不同商品的需求差异[4]。
3 总结
综上所述,逻辑回归算法在电商大数据推荐系统当中的应用越来越广泛,不仅能够根据用户的行为进行分析,有效预测消费者的购物需求,还能向潜在客户实现精准推送。科学利用逻辑回归算法进行商品推荐有效提升了用户粘性,打造个性化的优质推荐服务。