基于聚类算法的视频推荐系统的算法研究
2020-02-03张婉婷
张婉婷
摘要:针对目前视频推荐系统功能少、推荐数据不全面,以及采集用户数据不全推荐能力弱,用户体验差等问题,提出了一种基于聚类算法的视频推荐系统算法。通过自主开发的聚类算法中的AP-聚类分层分析所获取到的不同的用户信息,以及不同的用户的视频的关注度信息,形成不同的用户视频信息聚类库,结合用户视频信息库中的历史数据,进行标签设置,自主进行计算权重,利用开发的聚类层进行用户对视频信息的喜好进行排序,生成喜好序列表,最后通过聚类分层模型计算出不同用户在聚类信息库中的喜好视频信息,进行标签和推荐。该算法成功的对不同用户的视频信息进行了标签和推荐,且推荐针对性较强,命中率较高,具有一定的学术研究价值和实际推广意义。
Abstract: At present, video recommendation system has few functions, incomplete recommendation data, incomplete recommendation ability of collecting user data and poor user experience, etc., a video recommendation system algorithm based on clustering algorithm is proposed. Through independent development of clustering algorithm to AP - hierarchical clustering analysis of the access to different users of information, and the popularity of video information of different users, it forms different user video information clustering library, based on historical data in the user's video database, tag set, it calculates the weight independently, and it uses development of clustering layer user preferences to sort of video information, generate preference sequence table, finally through hierarchical clustering model calculates the different users in clustering the be fond of video information in the database, labels and recommendations.This algorithm successfully labels and recommends the video information of different users, and the recommendation is highly targeted with high hit rate, which has certain academic research value and practical promotion significance.
关键词:聚类算法;视频推荐;用户;数据库
Key words: clustering algorithm;video recommended;users;the database
中图分类号:TP181 文献标识码:A 文章编号:1006-4311(2020)02-0250-03
0 引言
近年来 “信息过载”指的是由于数据量过多导致的无从下手。因此,如何从大量数据中提取出有实效的数据成为要解決的首要问题[1]。在“个性化需求”日益增强的今天,聚类算法成为“个性化”推荐可使用的算法之一,在各大搜索引擎、社交软件和购物平台上发挥着重要的作用,成为企业高收益的保证,同时减缓了网络公司的压力。其中以分类为基础的聚类算法包括了以K值为均值的聚类算法,而其中又包括了基于K值的中心聚类算法。利用基于K值聚类算法进行数据分析的时候,首先要考虑的是基于K值的中心聚类算法间距值,间距值的大小不一会直接影响数据分析结果的不一,其中最为关键的就是数据簇的分类和划分[2-4]。大数据领域中核心技术就是基于数据的挖掘和分析,在基于数据的挖掘中最常用的就是聚类算法的使用,基于聚类算法的数据分析处理技术不仅可以完成对数据的分类,而且可以完成对数据特征和数据力的分类和分析。
对于数据聚类分析,通常是对系统数据的聚类进行研究和分析,就要根据这些数据的指标进行相似度分析,找出类似的或者同类的数据指标,然后进行分类和聚类分析 [5]。有的时候会根据基于大数据聚类分析得到的不同数据间距的聚类分析结果,会自动的形成一个趋势结果图,根据趋势结果图同样可以进行划分特征的聚类分析[6]。众所周知,视频浏览在人们生活中占据越来越重要的地位,是人们娱乐和放松的方式之一,为了保证用户的点击率,许多平台构建了视频推荐系统,通过在首页、小窗口进行视频的信息或图文推荐,达到增加用户点击率和流量的目的,这套系统确实起到了重要的作用[7-9]。传统视频推荐系统往往只根据用户观看过的视频进行大范围的推荐,有些推荐系统甚至只推荐点击率较高的视频,完全忽略较小众的口味,推荐的视频针对性较弱,命中率不高[10]。然而,通过实际调查发现,不少用户反映:希望推荐系统更加个性化,推荐模式更加新颖。对平台而言,合理有效的推荐保证了资源的利用,提高了企业的利润。无论用户还是平台,都期待更加实际高效、具有个性化的推荐系统。
因此设计了一种基于聚类算法的视频推荐系统。通过AP-聚类分层分析各类用户数据,形成不同的用户视频信息聚类库,结合用户视频信息库中的历史数据,设置标签并计算权重,以对用户对视频的喜好进行排序,最后通过聚类分层模型得出用户在聚类信息库中的喜好视频信息,对不同类型用户进行标签后进行推薦。
1 系统聚类分析
基于大数据的系统聚类算法,第一步要获取到所需要的所有数据信息,然后把所获取到的数据信息进行分类整理,根据不同类别的数据信息进行特征相似度分类,对不同特征的数据信息进行相似度特征标注,标注完全后进行分类训练,根据标注所得的特征相似度进行聚类分析。同理对数据聚类分析后会得到所有数据的处理结果,然后绘制成分类结果图,也就是整个系统的聚类分析结果图。
决策树属于非参数学习算法、可以用于解决分类问题、回归问题。
2 聚类算法视频推荐分析
①根据视频间的相似度进行分类,建立数据库。本实验数据建立过程如下,从综艺、电影、电视剧三类中分别随机抽取5项,用A代表综艺,B代表电影,C代表电视剧,再从情感表达、影视效果等方面进行评分。将所有评分进行属性规约,运用主成分分析法将各项评分在坐标轴中表现出来后,进行点与点间距离的运算,建立相似矩阵。(表1)
②取15位用户的观看记录作为观察材料,运算出各个用户观影爱好的最小距离,将所有用户聚为一个簇。本系统以“簇间距尽量大,簇内距尽量小”为原则,多次对该簇进行切割,最后得出以大于0.7为标准将用户聚为两个簇,依照本实验数据,簇一含有的用户为U1、U3、U5、U7、U9;簇二为U2、U4、U6、U8、U10。
③得到结果簇后,将不同的簇进行分类标签。如簇一的用户所看的视频高频率出现动漫元素,系统将其标为“动漫”;簇二的用户所观看的视频多有文艺情怀,系统将其标为“文艺”。
④根据新用户的观影记录,运用决策树进行类别划分,最后根据划分结果为其推荐分类后所在簇的其他相似度高的视频。
3 结论
所提出的基于聚类算法的视频推荐系统,利用所开发的聚类分析算法,根据不同的用户数据信息进行分层分析,分别从综艺、电影、电视剧这3类中随机的设定5项,并使用A-C进行标签表示,创建数据库,对获取到的用户数据信息进行聚类分层分析,同时对照用户簇数据进行分类标签,进行用户喜爱视频的推荐。通过对照试验可以看出,所提出的方法能够较好且准确的给不同法人用户推荐合适的视频信息,具有较好的推荐效果。
参考文献:
[1]钟海汹.基于聚类算法的推荐系统的设计与实现[TP].软件工程,2017,5(1):3-6.
[2]刘义鹏,李志鹏,蒋哲臣,梁荣华.基于密度峰值搜索的脑纤维快速聚类算法[J].浙江工业大学学报,2019,47(05):567-572.
[3]王燕妮,雒津津,王殿伟.关键帧结合幅值直方图熵的异常行为检测算法[J].计算机与数字工程,2019,47(09):2281-2285.
[4]贾晖,张建刚.基于SDF及K-Means三维模型一致性分割算法[J].计算机与数字工程,2019,47(09):2141-2144.
[5]杨炎,高炜,杨胜强,田建艳,高云松.基于模糊聚类和案例推理的滚抛磨块优选模型[J].表面技术,2019,48(09):315-320,335.
[6]周满满,袁凌云.基于K-means聚类的室内三维定位算法[J].计算机工程与设计,2019,40(09):2530-2536.
[7]张建坤,禹思敏.面向混合型位置大数据的差分隐私聚类算法[J].计算机工程与设计,2019,40(09):2451-2455,2493.
[8]彭金喜,苏远歧,薛笑荣.一种小波域K-Means遥感图像分类标注算法[J].软件导刊,2019,18(09):202-206,225.
[9]秦美华,朱红求,李勇刚,陈俊名,张凤雪,李文婷.基于STA-K均值聚类的电化学废水处理过程离子浓度软测量[J].化工学报,2019,70(09):3458-3464.
[10]王翠,马凤娟,崔海亭.基于区域时变聚类采样机制的物联网大数据传输算法[J].井冈山大学学报(自然科学版),2019,40(05):34-39.
[11]安尼卡尔·艾斯卡尔,祖来克孜·米吉提.系统聚类法及其应用研究[J].价值工程,2019,38(17):254-258.