基于Spark的电影推荐系统设计与实现

2022-07-06周加伟

客联 2022年11期

周加伟

摘要：在如今互联网大数据的前提下，大量的网页数据急速增长。这种疯狂式增长无形中增大了物联网信息积压，大大的影响互联网用户的上网体验。为了解决互联网信息过载的普遍现象，设计出基于Spark的电影推荐系统设计与实现，针对个性化推荐系统更新取得极大的改变，使得本文所设计的个性化推荐算法具有重要的意义。

关键词：Spark；推荐系统；互联网；个性化

一、Spark概述

Spark一般通常指Apache Spark ，作为计算机通用计算引擎主要应用于海量的数据处理，与Hadoop相似都是美国加州大学伯克利分校开源的通用并行框架，其与Hadoop MapReduce 相比而言，更多的继承了Hadoop所存在的优点，如优化了HDFS再次之前存在的不足，将离线推荐与Spark数据库想连接，大大减少了离线状态下不必要的数据传输与处理，同时增加了实时推荐与Spark Streaming相互连接，实时根据用户网页浏览兴趣爱好加以实时推送数据信息，是Mlib模型化的产物，大大加快了运行的速率，在数据挖掘的过程中与机器学习相互融合，使得迭代算法更加优化于Hadoop ，这种根本性的改变也让Spark一度过关斩将成为当今数据分析与推荐的主流框架。

二、系统概要设计

结合需求分析和推荐系统的一般功能，我们把推荐系统分为前端子系统、后台管理子系统，推荐系统子系统三个大类。（1）用户交互模块：对于推荐系统来说，用户交互模块需要包括两个最基本的功能，用户相关操作以及展示功能。用户的相关操作包括注册、登录、对电影进行评分等，展示功能包括用户登录后的个人信息展示、历史记录展示、推荐列表展示与电影的详情页展示。对于一个网站来说用户交互模块主要涉及到网站的业务逻辑，与推荐引擎的计算无关。因此本文的用户交互模块作为一-个独立的子系统进行设计。这个模块主要涉及到和数据库的通信和页面的展示，可以采用MVC架构，利用Java语言开发完成。开发框架选择Spring Boot和Spring Data Jpa。（2）数据收集模块：数据收集模块负责系统中相关数据的收集，数据可以分为静态数据和动态数据。其中，静态数据包括产品和用户信息，动态数据包括用户浏览记录、评分等行为信息以及对推荐结果的反馈信息。系统中的信息来源包括互联网和用户交互模块。（3）数据预处理模块：数据的质量往往对推荐系统的准确性有着决定性的作用。系统收集的原始数据混杂着各种各样的脏数据，推荐系统无法直接利用这些数据。因此需要对原始数据进行初步的清洗和整理，过滤掉无效信息，提取出推荐系统可以直接利用的部分。（4）推荐结果处理模块：推荐引擎得到的初步结果，往往不能直接推荐给用户，需要对结果进一步处理。一般来说，原始的推荐结果需要经过过滤、排行才能得到最后的结果。

三、结语

本文概述了Spark目前主要应用的领域和方向，再次基础之上介绍了电影推荐系统的相关工作与网络模型，更改了Spark其中四个方面的方案介绍，优化了传统个性化推荐系统存在的不足，增加了目前互联网大数据时代更加有效的推荐运用。我相信在未来对相关推荐系统的进一步研究后，个性化推荐系统将得到更加全面的设计与数据处理，在每一位幕后程序员的辛勤劳作之下，推荐系统会发生突破性的改变。

参考文献：

[1]唐振坤. 基于Spark的機器学习平台设计与实现[D].厦门大学，2014.

[2]杨志伟. 基于Spark平台推荐系统研究[D].中国科学技术大学，2015.

[3]冯琳. 集群计算引擎Spark中的内存优化研究与实现[D].清华大学，2013.