APP下载

基于Spark的电影推荐系统设计与实现

2022-07-06周加伟

客联 2022年11期
关键词:推荐系统个性化互联网

周加伟

摘 要:在如今互联网大数据的前提下,大量的网页数据急速增长。这种疯狂式增长无形中增大了物联网信息积压,大大的影响互联网用户的上网体验。为了解决互联网信息过载的普遍现象,设计出基于Spark的电影推荐系统设计与实现,针对个性化推荐系统更新取得极大的改变,使得本文所设计的个性化推荐算法具有重要的意义。

关键词:Spark;推荐系统;互联网;个性化

一、Spark概述

Spark一般通常指Apache Spark ,作为计算机通用计算引擎主要应用于海量的数据处理,与Hadoop相似都是美国加州大学伯克利分校开源的通用并行框架,其与Hadoop MapReduce 相比而言,更多的继承了Hadoop所存在的优点,如优化了HDFS再次之前存在的不足,将离线推荐与Spark数据库想连接,大大减少了离线状态下不必要的数据传输与处理,同时增加了实时推荐与Spark Streaming相互连接,实时根据用户网页浏览兴趣爱好加以实时推送数据信息,是Mlib模型化的产物,大大加快了运行的速率,在数据挖掘的过程中与机器学习相互融合,使得迭代算法更加优化于Hadoop ,这种根本性的改变也让Spark一度过关斩将成为当今数据分析与推荐的主流框架。

二、系统概要设计

结合需求分析和推荐系统的一般功能,我们把推荐系统分为前端子系统、后台管理子系统,推荐系统子系统三个大类。(1)用户交互模块:对于推荐系统来说,用户交互模块需要包括两个最基本的功能,用户相关操作以及展示功能。用户的相关操作包括注册、登录、对电影进行评分等,展示功能包括用户登录后的个人信息展示、历史记录展示、推荐列表展示与电影的详情页展示。对于一个网站来说用户交互模块主要涉及到网站的业务逻辑,与推荐引擎的计算无关。因此本文的用户交互模块作为一-个独立的子系统进行设计。这个模块主要涉及到和数据库的通信和页面的展示,可以采用MVC架构,利用Java语言开发完成。开发框架选择Spring Boot和Spring Data Jpa。(2)数据收集模块:数据收集模块负责系统中相关数据的收集,数据可以分为静态数据和动态数据。其中,静态数据包括产品和用户信息,动态数据包括用户浏览记录、评分等行为信息以及对推荐结果的反馈信息。系统中的信息来源包括互联网和用户交互模块。(3)数据预处理模块:数据的质量往往对推荐系统的准确性有着决定性的作用。系统收集的原始数据混杂着各种各样的脏数据,推荐系统无法直接利用这些数据。因此需要对原始数据进行初步的清洗和整理,过滤掉无效信息,提取出推荐系统可以直接利用的部分。(4)推荐结果处理模块:推荐引擎得到的初步结果,往往不能直接推荐给用户,需要对结果进一步处理。一般来说,原始的推荐结果需要经过过滤、排行才能得到最后的结果。

三、结语

本文概述了Spark目前主要应用的领域和方向,再次基础之上介绍了电影推荐系统的相关工作与网络模型,更改了Spark其中四个方面的方案介绍,优化了传统个性化推荐系统存在的不足,增加了目前互联网大数据时代更加有效的推荐运用。我相信在未来对相关推荐系统的进一步研究后,个性化推荐系统将得到更加全面的设计与数据处理,在每一位幕后程序员的辛勤劳作之下,推荐系统会发生突破性的改变。

参考文献:

[1]唐振坤. 基于Spark的機器学习平台设计与实现[D].厦门大学,2014.

[2]杨志伟. 基于Spark平台推荐系统研究[D].中国科学技术大学,2015.

[3]冯琳. 集群计算引擎Spark中的内存优化研究与实现[D].清华大学,2013.

猜你喜欢

推荐系统个性化互联网
坚持个性化的写作
新闻的个性化写作
基于用户偏好的信任网络随机游走推荐模型
上汽大通:C2B个性化定制未来
基于个性化的协同过滤图书推荐算法研究
个性化推荐系统关键算法探讨
浅谈Mahout在个性化推荐系统中的应用
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
以高品质对农节目助力打赢脱贫攻坚战