基于Hadoop的电影推荐系统的设计
2021-12-06乔娟
乔娟
摘要:用户在网络平台浏览过程中可能会看到一些与自己想要购买的息息无关的网上商品,影响了用户在网上的购物和体验,会直接导致用户大量流失,降低了购物平台的效率和转化。要想增加用户的消费黏度,就需为用户提供个性化的产品和服务。基于 Hadoop平台的电影推荐系统,是为了解决个性化推荐的问题而设计。以网络电影作为影片推荐的主要研究数据对象,选择基于影片内容的电影推荐方式算法和基于内容协同数据过滤的电影推荐方式算法相关性结合的两种算法,通过两种电影推荐方式算法数据进行综合计算后所得到的两个电影相关性推荐系数值并进行了随机组合,得到最终值的电影推荐相关性矩阵,构建了一个电影推荐关系网。
关键词:电子商务系统,个性化推荐,Hadoop,MapReduce,协同过滤
1.绪论
1.1推荐系统介绍
推荐系统是为了防止信息过载而采用的一种措施,面对海量数据信息,从中迅速地推荐出一些符合用户需求特点的物品,解决了一些人的"选择恐惧症"。
推荐系统通过分析发掘这些用户的消费行为,找到这些用户的各种个性化消费需求,从而将商品准确及时地推荐给需要的用户,帮助用户发现他们感兴趣但很难及时发现的商品。
1.2推荐系统的目的
(1)让用户更快更好的获取到自己需要的内容。
(2)让内容更快更好的推送到喜欢它的用户手中。
(3)让网站更有效的保留用户资源。
1.3推荐系统的基本思想
(1)知你所想,精准推送
利用每个用户和推荐物品的不同特征和相关信息,为用户推荐那些自己喜欢的物品。
(2)物以类聚
利用用户喜欢的物品,给用户推荐与他喜好相似的物品。
(3)人以群分
利用和自己相似的其他用户,推荐和他们的兴趣爱好相似的其他用户最感兴趣的物品。
1.4推荐系统的数据分析
(1)需要向用户提供推荐有关物品或服务内容的相关元数据,例如关键词数字,分类产品标签,基因结构描述等;
(2)系统收集用户的基本资料,例如性别,年龄,兴趣标签等;
(3)用户的动态和行为资料,可以被转化成用户对于物品或信息的喜爱和偏好,根据用户应用本身的差异可能还会包含用户对于物品的评价;用户在网上查看以及购买商品的情况和消费记录,购买用户的偏爱信息大致可以划分为两种类型:
·显式的用户反馈:这类是用户在网站上浏览或者使用网站以后提供的反馈信息,例如用户对物品的评分,或者对物品的评论。
·隐式的个人用户反馈:这类数据是用户在通过网络使用个人网站时所产生的信息和数据,隐式的反应了一个用户对于物品的偏爱,例如一个用户已经购买了某件物品,用户已经查看了某件物品的相关信息等。
2.推荐系统算法
2.1基于人口统计学的推荐算法
基于人口统计学的推荐机制是一种容易设计和实现的推荐方法,它能根据系统用户的基本信息去发现相关程度,然后将相似用户喜欢的物品推荐给当前用户。
对于没有明确含义的用户信息(比如登录时间、地域等上下文信息),可以通过聚类等手段,给用户打上分类标签。
对于特定标签的用户,又可以根据预设的规则(知识)或者模型,推荐出对应的物品
用户信息标签化的过程一般又称为用户画像(User Profiling)
2.2基于人口统计学的推荐和用户画像
Content-based Recommendations (CB) 根據用户过去潜在需要的相关物品或其他内容元素的数据,发现相似度与物品的潜在关联度,再基于用户以前商品的兴趣偏好和使用记录,为需要用户进行推荐相似度的物品。
通过从物品图像中直接分析抽取一个具体物品的内在或者外部图像特征收集数据并用来对其物品进行图像相似性的分析计算。
将一个特定用户(user)的物品个人信息(基于自己的兴趣喜好进行记录或者可能是自己预置了感兴趣的物品标签),和一个特定物品(item)的物品特点信息进行直接匹配,这样可以直接得到一个物品用户对自己喜爱的物品特点有预置兴趣的不同程度
2.3 基于内容的推荐与特征工程
对于物品的特征提取 —— 打标签(tag)
对于文本信息的特征提取 —— 关键词
2.4 基于协同过滤的推荐算法基于近邻的协同过滤
基于用户(User-CF)
基于物品(Item-CF)
基于模型的协同过滤
奇异值分解(SVD)
潜在语义分析(LSA)
支撑向量机(SVM)
3.电影推荐系统设计
3.1 系统模块设计
本系统设计主要分三大模块:基于模型的推荐、系统过滤的推荐和基于内容的推荐。提供用户的服务又细化为:实时推荐服务、离线推荐服务和内容检索服务。最后通过用户的评价,分析用户的喜好,周期性的更新电影。
3.2 统计推荐模块
(1)历史热门电影统计
根据所有历史评分数据,计算历史评分次数最多的电影
(2)近期热门电影统计
根据评分,按月为单位计算最近月份评分最多的电影集合
(3)电影平均评分统计
根据所有的在线用户对每更新一部在线电影平均进行评分,周期性地自动计算每更新一部在线电影的平均用户得分。
(4)各类别Top10评分电影统计
按照网站提供的全部电影类别,分析出各种类型的影片在综合评价中排名为前10的电影。
3.3 离线推荐模块
(1)用ALS算法训练隐语义模型
(2)计算用户推荐矩阵
(3)计算电影相似度矩阵
4. 总结
本文介绍了以电影推荐算法为代表的个性化推荐系统,选择混合算法对所有电影的相关性进行了计算和分析,实现了本文对电影推荐算法的综合算法。
电影推荐系统能够为人们量身定制各种不同的个性化推荐。随着用户体验的要求越来越高,系统的响应速度必须被充分纳入Web应用的用户体验重要指标,传统的电子商务推荐系统扩展性差和计算耗费大量时间让人难以接受。虽然不断有各种高效的推荐算法提出,但是这些算法面对海量数据的表现仍然差强人意。通过不断改进算法的本身来提高计算效率的提升空间越来越小。所以针对目前的个性化推荐系统的改进,需要考虑到平台存储、高性能和扩展性问题。Hadoop平台的分布式文件系统HDFS和分布式批处理框架MapReduce不仅能够存储不断增长的海量数据,也能对数据进行并行化处理,提高算法性能的和系统的响应速度,使个性化推荐系统更能适应海量数据的发展要求.
参考文献
[1]崔天明,刘玮.基于大数据技术的个性化在线教育系统设计[J].现代电子技术,2021,44(05):175-180.
[2]王世杰,高鑫,许舒翔.一种基于深度学习的推荐系统协同双向约束算法分析[J].微型电脑应用,2021,37(02):163-165.
[3]张伟娜,基于深度学习与矩阵分解的推荐算法研究[D].华南理工大学,2020.
[4]王艺航. 基于深度学习的推荐算法研究[D].广东工业大学,2020.
[5]伍倩莹.电商个性化推荐系统在图书购物网站的应用研究[J].现代营销(信息版),2020(03):207-208.
[6]尚立.基于协同过滤的改进课程推荐算法[J].科技传播,2020,12(05):132-134.