APP下载

基于协同过滤的电视产品营销推荐*

2019-07-26陈娅昵苏岐芳

台州学院学报 2019年3期
关键词:冷启动附件电视节目

陈娅昵,苏岐芳

(台州学院 电子与信息工程学院,浙江 临海 317000)

1 个性化推荐系统概述

一个完整的推荐系统[1]可以分为数据收集,数据处理,生成推荐三个模块。

数据收集主要是收集用户的信息,存放到数据库中。然后通过数据处理对这部分数据进行分析,并建立模型。最后也是推荐系统的核心就是生成给用户的推荐,按照模型计算出来的结果给用户推荐他感兴趣的项目。

主流的几种推荐算法包括:基于内容的推荐算法,基于项目的推荐算法,基于协同过滤的推荐算法,基于混合的推荐算法,基于数据挖掘的推荐算法。

协同过滤(Collaborative filtering)的算法[2]是目前应用最广泛的推荐算法,它的优点在于,可以更好地挖掘出用户的潜在兴趣。

2 基于协同过滤算法的研究

2.1 相似度的改进

为了衡量用户与用户或项目与项目之间的相似程度,我们需要引入相似度来刻画两者的贴合程度。传统的相似度计算有多种方法,但都有一个缺陷,他们认为每个用户对项目评价的贡献程度是一样的,事实上,每个用户对项目的评价就其自身而言都是有很大差距的。举个例子,用户1和用户2对项目A的贡献大小是一样的,用户1对项目B和项目C的贡献程度远小于对项目A的贡献程度,但是用户2则恰恰相反,他对项目B和项目C的贡献程度远大于对项目A的贡献程度。本文就不能把用户1和用户2划分为相似的人群。因此,在这一基础上,本文在相似度的计算中加入了相对偏好和绝对偏好,并给出差方函数来确定相对偏好与绝对偏好之间的权重关系。

以下先给出绝对偏好与相对偏好的定义,再给出相关的公式。

绝对偏好:若一个用户对该类型的项目所作贡献占他总时间的比例越高,可认为该用户越偏好这个类型的项目。

相对偏好:若一个用户对该类型的节目所作贡献占这个节目被所有用户所做贡献的比例越高,可认为在这个人群中,该用户相对于其他用户更倾向于这个项目。

其中:

Pui:用户u对项目i的绝对偏好。

Rui:用户u对项目i的相对偏好。

m:总项目类型数。

n:总用户数。

T:用户对某一项目的贡献大小。

为了中和他们的优点,本文对相对偏好和绝对偏好赋予了权重,给出了差方函数,使得差方和最小,来说明理论偏好与实际偏好相符。

其中x是变量,用以调整差方Q*的取值。本文让x取一系列的值,若Q*在最低点得到,可认为此时的x为最优值。计算每一个用户对各种类型的项目的综合偏好。

上面这个矩阵是n×m阶的,每一行都代表某一用户对1…m个项目的综合评分。而1…n表示共有n个用户参与了对该项目的评分。利用Pearson计算公式(用户)得到最后的结果。

2.2 新项目的冷启动问题

在推荐系统中,针对一个新用户或者新项目,由于他们是第一次进入这个系统,所以本文无法得到关于他的历史的信息记录。由于没有关于新用户或者新项目的兴趣特征记录,所以传统的基于内容的推荐算法,无法很好地解决这个问题。新项目或者新用户没有历史的信息记录,所以协同过滤的推荐算法[3]也无法很好地解决这个问题。由于大多数的算法是基于用户与项目之间的互动,而在这种情况下,就无法生成对新项目、新用户精准的推荐。

冷启动问题[4]严重影响着协同过滤算法的实现,一方面他不能对新用户产生个性化的推荐,使得新用户不信任这个推荐系统;另一方面,他严重影响了新项目的营销。为了解决这个问题,研究人员提出了一些解决方案,主要包括:随机推荐,平均法推荐,众数法推荐等。

但上述列举的解决方案都存在着较大风险,用户对系统产生不信任的概率较大。为了确保缓解冷启动问题同时实现协同过滤算法,本文提出了基于属性信息冷启动问题的一个改进。

本文将冷启动问题分为新项目的冷启动问题和新用户的冷启动问题。针对新项目,虽然他是第一次进入这个数据库,但是本文可以对他的属性信息进行全面综合的考虑,提取出关于新项目的基本特征。通过基于项目的协同过滤算法,将该新项目归纳到与他相似的项目簇中,将相似的节目打包,从而实现新项目的推荐。

针对新用户,也是第一次进入这个数据库,本文可以提出两种方法实现新用户的推荐。(1)推荐热门项目。热门项目一定程度上代表了大众群体的喜爱趋势,并且,本文可以认为他们会培养出用户新的爱好。也就是说,原来新用户并没有尝试过,但是不能代表该新用户一定不喜欢。(2)对他的属性信息进行全面综合的考虑,根据新用户的基本特征,包括年龄、职业,尤其是爱好很大程度上反映了他的属性信息。再通过基于用户的协同过滤算法,将该新用户归纳到与他相似的用户群体中,将相似的用户打包,从而实现新项目的推荐。

3 实验与评估分析

3.1 实验数据

以第六届“泰迪杯”数据挖掘挑战赛——B题电视产品的营销推荐数据为支撑。主要包括三个附件,数据说明如下:

附件1:用户收视信息数据,记录数:561288条

附件2:电视产品信息数据,记录数:41876条

附件3:用户基本信息数据,记录数:1329条

旨在解决:利用附件1所给的用户观看记录信息数据,分析用户的收视偏好,并给出附件2中产品的营销推荐方案。

3.2 数据预处理

首先对附件1中收视、回看、点播、单片点播的数据进行处理,发现附件中共含1329个用户和1329个机顶盒,一个用户只对应一个机顶盒,其中274个用户没有观看记录。

由于用户的收视信息只提供了用户观看每个频道的时长,无法以此来推断用户的偏好。因此,本文需要对2017.6.30—2017.9.30的各个频道的节目进行分类。同时,对回看、点播、单片点播的用户数据也进行分类。针对每一个用户,需要将他的收看时长与节目类型相对应。以下,给出计算用户各类型的收视时长方法。

图1 计算收视时长的流程图

对用户的偏好主要可以分为两类:显式表现和隐式表现。用户对节目的评分可以从不同的角度反映他与这个节目的喜欢程度。

本文采用显式表现与隐式表现相组合,对用户收看、回看、点播、单片点播的行为进行分类,并对不同的行为进行加权。

整理用户偏好的信息,可以得到用户-节目矩阵。设用户集合为U={u1,u2,…um },节目集合为I={ i1,i2,…in。 }m,n分别表示用户的数量与节目的数量。得到m×n的矩阵,矩阵的行代表用户编号、列代表节目编号。

其中的任意元素rij表示第i个用户对第j个节目的偏好程度。若第i个用户并没有观看第j个节目,那么rij=0。一般来说,所得到的矩阵十分稀疏,大部分节目都是未被观看的。

对于用户的收视偏好,本文分为两个方面考虑,分别是相对偏好和绝对偏好,按照2.1的计算方法,最后得到最佳的x=0.12。

图2 差方函数

图3 用户10003的偏好倾向

对于用户来说,本文分别给出了他的8个偏好,第一偏好的倾向最大,依次逐渐减弱。图3给出了用户10003的偏好倾向。

3.3 电视节目的相似度

在3.3.2中已经详细介绍了基于相对偏好和绝对偏好的相似度改进,本节是对3.3.2在电视节目相似度方面的一个应用,以下给出节目(部分)之间的相似度关系矩阵。

表1 节目相似关系

3.4 基于电视节目的推荐指数算法

通过节目之间的相似关系,把相似的电视节目打包,可以实现电视产品的营销推荐。接着我们要继续对电视产品实行更细的推荐。为了更好地达到个性化的推荐,每个用户的推荐列表应该都是不同的。因此我们给出了基于电视节目的推荐指数算法。

式中:

simij:节目i与节目j之间的相似度。

rui:用户u对节目i的时长。

N:推荐列表的节目集合。

3.5 用户的相似度

在2.1中已经详细介绍了基于相对偏好和绝对偏好的相似度改进,本节是对2.1在用户相似度方面的一个应用,以下给出用户(部分)之间的相似度关系矩阵。

表2 用户相似关系

3.6 基于用户的推荐指数算法

与基于电视产品的推荐指数类似,基于用户的推荐也是一种个性化的推荐。首先可以根据用户分类,计算出用户对节目的预测收看时间,并给出推荐指数。

式中:

simuv:用户u与用户v之间的相似度。

rvi:用户v对节目i的时长。

N:最邻近用户集合。

3.7 电视产品的营销推荐方案

本文在2.2中详细介绍了基于属性信息和潜在兴趣对冷启动问题的改进,在这一小节中,主要介绍如何实现新节目的营销推荐。

针对用户已经收看过的节目,求出每个用户之间的相似度,再利用基于用户的协同过滤算法计算推荐指数。若该节目是新节目,通过每个节目给出的不同参数,可以计算出同一个类型节目的相似度,然后基于节目的协同过滤算法,得到推荐指数。

在进行电视节目推荐过程中,我们还考虑到了不同时间点的用户需求不同,因此我们对每一天中的早中晚都进行分类。以一天为周期,给出一天中不同时间的节目推荐方案,使其更符合用户的观看需求。

例如:以10003用户为例,节目推荐结果如表6所示。

表3 用户10003电视节目推荐表

4 结束语

针对产品的精准营销推荐,我们首先采用七、八月份的数据,做出他的收视偏好,给出各节目的推荐指数以及营销推荐方案。计算推荐节目中各类型节目占的比例,再将九月份用户的绝对偏好进行归一,即计算出他看每个类型节目占总时间的比例,选择推荐列表上含有的节目类型进行归一,与推荐指数进行比较,分析误差大小。最后可以看出1015位用户中绝大多数用户的偏差较小,说明我们的推荐节目具有较高的可靠性。

猜你喜欢

冷启动附件电视节目
大型外浮顶储罐安全附件常见问题
轻型汽油车实际行驶排放试验中冷启动排放的评估
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
附件三:拟制定的标准汇总表
基于学习兴趣的冷启动推荐模型
关于TSG 07——2019附件M与TSG Z0004——2007内容的对照
新型武器及附件展呈
周日广播电视
周五广播电视
周三广播电视