深度神经网络视频新媒体短视频个性化推荐系统研究
2019-07-11高晨峰
高晨峰
【摘要】随着互联网技术的不断发展,新媒体短视频不断丰富着人们的生活。面对海量的新媒体短视频,传统基于协同过滤算法的视频推荐系统已经不能满足人们的新媒体短视频推荐需求。对此,本文利用深度学习和数据挖掘相关技术,提出了一种基于深度神经网络模型的新媒体短视频个性化推荐系统,该推荐系统主要包括:数据采集处理模块、用户视频建模模块、神经网络训练模块、推荐视频生成模块4个部分。通过对该推荐系统的实验分析发现,通过深度神经网络模型的学习与训练,该推荐系统具备较高的推荐性能,能够充分把握用户对新媒体短视频的兴趣偏好,实用价值较高。
【关键词】新媒体短视频;个性化推荐系统;深度神经网络模型;数据挖掘;特征向量
一、引言
随着互联网通信与多媒体技术的发展,新媒体短视频的播放量持续增长。截止2018年,爱奇艺、腾讯视频、抖音短视频等客户端的视频总量达到了7000万,月度活跃用户更是高达2亿,每天有接近10亿的视频播放量。面对如此海量的新媒体短视频,传统的协同过滤算法难以采取常规的手段来实现新媒体短视频的内容特征提取,也就无法对新媒体短视频内容的进行准确推荐。同时,深度学习在自然语言处理、图像处理和语音处理等领域取得了技术性突破,新媒体短视频推荐技术应运而生。
在此背景下,本文提出了一种基于深度神经网络模型的新媒体短视频个性化推荐系统,进行用户和新媒体短视频建模及深度训练学习,把握用户兴趣偏好与新媒体短视频之间的内在关系,实现新媒体短视频的个性化推荐。
二、新媒体短视频个性化推荐系统设计
(一)总体流程
基于深度神经网络模型的新媒体短视频个性化推荐系统的整体流程示意图如图1所示,从图1可以看到,该系统基本涵盖以下几个模块:
(1)数据采集处理模块。通过Hadoop大数据平台获取用户的新媒体短视频历史操作数据和新媒体短视频的文本描述数据,完成两部分数据的预处理工作;
(2)用户视频建模模块。采用传统的文本挖掘算法对新媒体短视频的文本描述数据进行数据挖掘,获得新媒体短视频内容的关键特征,结合用户对新媒体短视频的播放记录,实现用户和视频建模;
(3)神经网络训练模块。以用户和新媒体短视频建模情况为深度神经网络的训练样本,将新媒体短视频和用户特征向量作为深度神经网络的输入数据,对深度神经网络进行有监督的训练。充分利用深度学习技术的特征提取优势,把握新媒体短视频与用户的语义特征,挖掘用户兴趣偏好与新媒体短视频之间内在关系,构建个性化推荐系统;
(二)数据采集处理模块
基于深度神经网络模型的新媒体短视频个性化推荐系统执行的第一步就是要获取相关数据信息,这里的相关数据信息包括两个方面:
第一是新媒体短视频的文本描述数据。新媒体短视频与其他常规视频一样,其文本描述数据无外乎:视频标题、视频基本内容、视频发布地区、视频策划、编剧和主演、视频发布时间和发布作者等等。这些文本描述数据主要用于新媒体短视频内容的特征提取,为后续新媒体短视频建模奠定基础。
第二是用户对新媒体短视频的历史操作记录。这里的操作可以理解为用户打开新媒体短视频,用户打开视频有两种情况,情况一是用户移动视频播放进度条,粗略浏览新媒体短视频,用户实际观看时长小于视频总时长,可能该用户对此新媒体短视频并不是真正感兴趣;情况二是用户完整地观看了新媒体短视频,没有快进浏览,用户实际观看时长等于视频总时长,可以认为用户对此视频感兴趣。因此,为了区分用户对新媒体短视频的两种操作情况,在判断用户对新媒体短视频操作是否有效时加入了新媒体短视频播放时长比这一指标,新媒体短视频播放时长比具体计算公式如下:
其中,τia为用户a观看新媒体短视频i的时长,Ti为新媒体短视频i的总时长。只有当τia与Ti之比大于某个给定阈值时,才能认为用户对新媒体短视频操作是有效的,并进行记录。一般而言,新媒体短视频实际阈值为0.3左右。至此得到用户对新媒体短视频的历史操作记录,得到用户特征向量,为后续用户建模奠定基础。
另外,在现有的网络情况下,新媒体短视频总是存在各种各样的问题,例如:数据缺失、数据冗余等。为了保证视频数据的完整性和可靠性,在正式建模分析之前,需要对文本描述数据进行预处理,预处理主要包括:视频过滤和视频融合。视频过滤主要是去除部分重要文本信息缺失的新媒体短视频。视频融合主要是合并重要文本信息相似的新媒体短视频。
(三)用户视频建模模块
根据数据采集处理模块对相关数据信息的获取和预处理,利用深度学习和数据挖掘相关技术对视频数据和用户数据分别进行建模。
(1)视频建模
视频建模的方法较多,基于新媒体短视频的播放特点,本文通过提取新媒体短视频重要文本描述性关键词作为视频标签信息,由此进行视频建模。
提取视频关键词的思路是分析一个词语在视频中的重要性。而一个词语在视频中的重要性取决于两个方面:第一在视频中出现的频率,记作TF值。TF值在某种程度上可以直接体现出该词语在该视频中的重要程度,TF值越大,它的重要性越高;第二是这个词语在所有新媒体短视频库中的出现的频率,也叫作逆向视频频率,记作IDF值。TF值反映出这个词语在整个视频库中的重要程度,如果一个词语在整个视频库经常出现,那个用该词语代表某个视频的能力反而会下降,即这个词语所提供的信息量减少。因此,当一個词语在整个视频库出现的频率越高时,对应的IDF值就越小。
当对所有的新媒体短视频文本内容进行提取视频关键词后,就可以量化各个关键词在新媒体短视频的重要程度。去除重要程度较小的关键词,保留那些重要程度较大的关键词,并作为该视频的标签信息,从而描述整个视频特征,完成视频建模。另外,还需要对新媒体短视频进行关键词统计,建立视频关键词库,生成关键词索引。