基于项目协同过滤的电视产品营销推荐模型
2019-01-30檀亚宁金泽明陈辉
檀亚宁 金泽明 陈辉
摘 要:互联网技术的快速发展和应用拓展使我们迎来了三网融合的时代,为传统广播电视媒介带来了发展机遇。节目数据的剧增一方面丰富了电视节目的内容,另一方面却为用户选择带来了困难,这就要求电视运营商建立合理的个性化推荐模型。该文采用基于物品的协同过滤的个性化推荐算法,通过分析用户观看收视信息数据、电视产品信息数据,同时考虑到目前传统的互联网资源推荐系统大都是针对个体推荐,在对家庭不同成员的推荐时可能会出现适得其反的情况,综合考虑整个家庭成员的点播集合,构成了家庭用户完整的历史观看记录,分析每个家庭成员的偏好,建立电视产品营销推荐模型,做出节目的个性化推荐。同时对不同节目的标签进行组成分析,以数据图的形式更加直观地展示在结果中,用以了解不同时期标签的热度与关注度,从而进一步得出影视作品的热度,对不同时期的推荐偏好做出指导性建议。
关键词:基于物品的协同过滤 个性化推荐 节目标签 数据处理
中图分类号:TP31 文献标识码:A 文章编号:1672-3791(2019)11(b)-0214-03
Abstract: The rapid development and application of Internet technology has ushered in the era of triple play, which has brought opportunities for the development of traditional broadcast and television media. The dramatic increase of program data has on the one hand enriched the content of television programs and on the other hand brought difficulties to user selection. This requires television operators to establish a reasonable personalized recommendation model. This article adopts a personalized recommendation algorithm based on item-based collaborative filtering, and analyzes users' viewing information data and TV product information data, taking into account that the current traditional Internet resource recommendation systems are mostly for individual recommendations, and are recommended for different family members. There may be counterproductive situations in which the on-demand collection of the entire family member is taken into account, constitutes a complete historical viewing record of the family user, analyzes the preferences of each family member, establishes a television product marketing recommendation model, and makes a personalized recommendation of the program.At the same time, the composition of the labels of different programs is analyzed and displayed in the results in the form of data graphs more intuitively to understand the heat and attention of the labels in different periods, thereby further obtaining the popularity of film and television works and recommending preferences for different periods. Make guidelines.
Key Words: Collaborative filtering based on items; Personalized recommendation; Program labels; Data processing
協同过滤推荐系统[1]是个性化信息服务的重要组成部分,可以实现主动精准地为用户推荐感兴趣的信息。随着互联网上信息的增长和用户个性化需求的提高,推荐系统的应用日益广泛,成为电子商务、社会网络、视频和音乐点播等个性化服务的核心技术。
基于此,该文围绕电视产品的营销推荐系统及其若干关键模型与推荐算法实现了基于项目协同过滤的电视产品营销推荐的工作,并且经过一些对比分析实验,证明了基于项目协同过滤算法在推荐系统上具有一定优势,并总结归纳了该文的优缺点,提出了改进方向。
1 相关工作——数据预处理
1.1 用户及节目特征
将所给数据进行处理和分析,分析其中用户特征即观看时长、资源热度以及资源关注度;分析其中节目特征即节目地区、节目语种、节目类型。
1.2 正则表达式
原本数据中存在如:“【】”,“(高清)”,“(10)”等附加信息,对于直接获取到节目原本的名字造成了一定程度的干扰,该文利用Python中的正则表达式来去除存在于原节目名称中的干扰字符串。如寄生兽(高清)经过正则表达式除去干扰后为寄生兽。
2 模型建立
模型建立流程如圖1所示。
2.1 基于项目的协同过滤算法
基于项目的协同过滤通过分析项目之间的相似性进行推荐,算法假设:对于一些资源,如果很多的用户对它的打分比较类似,那么当前用户对它的打分也会比较类似。算法将寻找与当前资源评分最相似的资源作为此资源的最近邻居,通过当前用户对当前资源最近邻居的评分来预测他对此资源的评分。
这里只以皮尔森相关系数为例。
设Uab为对资源a和b都评价过的用户的集合,那么相关相似性的皮尔森系数可表示为:
(1)
上式中,ru,a、ru,b代表用户u对资源a和b的打分,和表示是大量用户对资源a和b的打分的均值[2]。
接下来对用户评分进行预测:
(2)
2.2 协同过滤推荐
将经过上述清洗的数据用作模型的原始数据,按照观看的时间顺序将每个用户的观看数据平均分为2份,其中较早的数据作为模型的训练数据,较晚的数据作为模型的验证数据[3],用来计算推荐结果的准确率及召回率。
首先剔除数据的异常值,剔除异常值的数据按照时间顺序排序,然后将排序后的数据读入到列表中,对每一个用户编号的观看数据进行均分处理。然后获取训练数据,导入到模型中进行训练,输出推荐的节目及推荐指数(见图2)。
3 实验及结果分析
3.1 实验数据与评估指标
3.1.1 实验数据
此次实验所采用的是“泰迪杯”数据挖掘挑战赛平台的数据,共计445278条数据,其中包括了用户收视信息、电视产品信息数据和用户基本信息3个方面。
3.1.2 评估指标
精确率(precision)的公式是,它计算的是所有“正确被检索的item(TP)”占所有“实际被检索到的(TP+FP)”的比例。
召回率(recall)的公式是,它计算的是所有“正确被检索的item(TP)”占所有“应该检索到的item(TP+FN)”的比例。
3.2 实验结果
采用基于项目的协同过滤算法,根据上述分成的前期训练数据以及后期的评判数据,此用户的推荐准确率为20.000%,召回率为16.000%。
4 结论与展望
该文通过对用户观看收视信息数据、电视产品信息数据等进行基于项目协同过滤的算法处理,实现了单个家庭的个性化节目推荐,同时考虑了单个家庭不同用户偏好不同的情况,实现了推荐结果的标签丰富性,同时综合标签的数据图结果,在推荐结果中考虑了热度偏好,较好地实现了个性化推荐。
在实际调查后,我们还发现目前存在着用户不愿过多对接收的资源评分、打标签等致使资源提供者需要花费更多的精力分析用户对资源的使用情况、用户性别年龄、地区等基本属性缺失,且难以从观看节目准确判断等问题。因此,在系统的用户交互上应采取观看后星级打分手段,有偿积分长评短评等策略,进一步完成标签补全,同时在用户进行账号注册时可完成对性别年龄这些基本特征的补全。在分析过程中应意识到电视账号不具有手机号码的普及性,一个家庭可以共用一个电视账号,因此账号注册只能获取家庭成员之一的基本特征,故不应仅局限于此基本特征推荐,而应从此基本特征出发,适时适量地对其家庭成员进行刻画与内容推荐,并根据反馈机制调整推荐系统。
参考文献
[1] 肖洁.面向网络电视的推荐系统框架及算法研究[D].华东师范大学,2012.
[2] 喻玲.面向家庭用户的互联网电视资源推荐模型研究[D].华中师范大学,2015.
[3] 沈建军.面向互动电视的影视节目推荐系统研究与实现[D].复旦大学,2012.