基于Hadoop云网络在用户视频推荐中研究
2016-06-06赵鑫
赵鑫
摘要:随着互联网在日常生活中普及范围越来越广,网络已经成了人们生活中不可或缺的一部分,网络的信息形式可以分为文本、视频、音频和图片这几大类组成,随着网络带宽的不断提速,视频消费成为网络信息消费的中重要组成部分,在用户视频消费时根据用户的兴趣偏好进行个性化推荐,从而提高用户在平台的依赖性,提升用户对平台的体验,促进平台整体的用户活跃度具有非常重要的意义。
关键词:视频推荐;分布式环境;用户活跃度;平台粘性
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)06-0043-02
Research on Video Recom Mendation Based on Hadoop Cloudy Network
ZHAO Xin
(Liaoning Academy of Governance, Shenyang 110161, China)
Abstract: Along with the Internet in daily life in popularity is becoming wider and wider, the Internet has become the people life indispensable part and forms of network information can be divided into these categories to text, video, audio and picture composition, with the speeding up of the network bandwidth, the video consumption become network information consumption of an important part of, in user video consumption according to the user's preferences personalized recommendations. So as to improve the user in the platform dependent, enhance the user experience on the platform, activity has very important significance in promoting the overall platform users.
Key words:video recommendation; distributed environment; user active; platform viscosity
随着国内各种资讯类APP的兴起,人们获取信息的方式已经从传统的纸质信息转变为电子信息获取方式。电子信息也逐步从单一的文字信息变得越来越多样化,随着网络带宽的加速,音频信息、视频信息和动态图片信息等已经成为电子信息的重要组成部分,其中尤以视频信息最为突出,单一国内独立的视频类平台而言,除各大新闻门户网站外,还有包括优酷、爱奇艺和乐视等众多平台,如何在用户进行视频浏览时,根据用户的偏好进行视频推荐,从而提升用户对平台的满意度具有非常重要的经济意义和实用价值。
随着互联网信息指数倍的增长方式,传统的信息处理方式已经很满足当前海量数据对处理性能的要求。数据的量级由最开始的KB、MB、GB、TB到PB级别,而且数据还在非常快的速度增长。面对如此的海量的数据,简单的关系型数据库甚至已经无法满足数据存储的要求。基于分布式架构的云环境无疑是在这种情况下催生的,本文正是基于此展开研究,探究在分布式环境下用户视频推荐。
1 Hadoop概述
随着网络数据越来越快速的增长,传统的信息存储和处理方式已经越来越显露出不足,而且面对海量的数据的存储,传统的关系型数据的查询性能也很难满足需求。分布式系统正是在这样的前提下诞生。
分布式系统主要采用机器互联的方式,将数据按照一定的规则分散到指定的机器上,多台互联的机器构成分布式集群环境,集群环境中多台机器互联过程中一个很重要的点是机器之间的数据通信问题,保证各个集群节点之间能够进行数据通信和数据交换,当集群中部分节点出现宕机或者通信不可达时,能够保证新数据在存储时能够散落到工作正常的机器节点上,保证了数据存储的有效性。
Hadoop是N个开源项目的总称。主要是由HDFS和MapReduce组成。HDFS是Google File System(GFS)的开源实现。MapReduce是Google MapReduce的开源实现。这个分布式框架很有创造性,而且有极大的扩展性,使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版本,支持Fedora、Ubuntu等Linux平台。雅虎和硅谷风险投资公司Benchmark Capital 联合成立一家名为Hortonworks的新公司,接管被广泛应用的数据分析软件Hadoop的开发工作。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。