一种播存网络环境下的UCL协同过滤推荐方法
2018-05-14王钧玉
王钧玉
摘 要: 为了解决网络由于宽带拥堵、内容冗长等引起信息资源的共享水平与共享效率下降的问题,设计了一种基于播存网络环境下的UCL(Uniform Content Locator)协同过滤推荐方法。采用播存网络利用“一点对无限点”物理广播式方法,对共享信息资源进行分发,能够有效地解决这一问题。通过研究结果分析可知,相比于传统的方法,此种推荐方法不但推荐精度比较高,同时还能够为新的UCL赋予较高的推荐优先级,并且为UCL的时效性与热度提供重要保障。因此,更适合应用在播存网络环境下的UCL的推荐。
关键词: 播存网络; 协同过滤; 预测
中图分类号: TP 393 文献标志码: A 文章编号: 1671-2153(2018)03-0089-04
0 引 言
播存网络环境下传统协同过滤推荐方法[1-4]的缺点主要体现在以下几方面:第一,推荐精度不高,尤其是在数据稀疏时。通常情况下,已知数据均较为稀疏,这种情况下,协同过滤时对相似度的计算就会变得不够精准。第二,容易忽视用户的潜在兴趣。传统的协同过滤方法,对用户或者项目之间的相似度过于依赖,进而使得在推荐时,过度依赖已知的用户兴趣,而忽视了用户的潜在兴趣分析。第三,推荐结果的时效性不高。传统的协同推荐方法,在设计时不具有时间特性,随着时间的推移,可能导致推荐信息过期,降低推荐的时效性。本文设计了一种基于播存网络环境下,UCL协同过滤推荐方法。
1 研究方法
本研究借助皮尔森相关系数对用户之间的相似度进行度量[1-2],主要研究以下几个方面的内容:第一,探究线性衰减、指数衰减以及二次函数衰减对UCF-PT推荐精度的影响;第二,探究UCF-PT在協同过滤下的精度;第三,探究阈值对性能的影响;第四,分析该方法与常规方法的差异;第五,分析该方法是否存在推荐UCL的可能。首先根据数据集计算用户和UCL的相似度;然后根据数据集的数据稀疏情况,加权计算预测评分;根据用户个数和UCL个数,表示数据集的数据稀疏程度;调整UCL热度对推荐结果的影响;最后利用指数衰减函数,生成最终推荐结果集。
研究所用数据集为著名电影推荐数据集,包括943个用户的数据以及1682部电影的评分。在评分设计中,采用5分评价原则,每名用户评价电影数量超过20部。选择MovieLens进行数据集分析[2,6],然后修改数据集,保证项目与UCL的对应,同时加入生成时间;数据分析完成后,将80%作为基本数据,通过基本数据的预算,获取评分参数,而剩余20%作为测试数据,展开对数据的评估。
2 衰减函数的选择
分别对线性衰减、二次函数衰减、指数衰减3种衰减函数进行实验[1-2,7],时间在2003-01-01至2017-01-01的范围内,时间戳为2003-01-01。
首先,将UCL条件固定,对上述衰减函数在数据集上做UCF-PT推荐实验,从而得到各衰减函数对时效性的影响,并根据实验结果,绘制出相应的图像,之后利用该图像,进一步分析函数对UCF-PT精度的影响,如图1所示。
图1中,纵坐标MAE(Mean Absolute Error)表示平均绝对误差;曲线1为二次函数衰减对推荐精度的影响;曲线2为线性衰减对推荐精度的影响;曲线3为指数衰减对推荐精度的影响。
通过上述图像观察可知,对UCF-PT推荐性能进行分析时,各衰减函数的影响效果存在一定差异,其中,指数衰减的特征更加显著,得出的推荐结果更新奇,并具有较高的精确度。基于上述理论分析,本文在体现UCL衰减特性时,以指数衰减为主。
3 参数δ1与δ2对UCF-PT方法的影响
在UCF-PT方法中,δ1与δ2是非常关键的两个参数,其中,δ1表示相似UCL的临界值,利用该参数,可以将相似度不高的UCL清除,使得推荐性能更强;而δ2表示筛选后相似度较高UCL的相似度临界值,进一步对UCL进行筛选,从而能够获得UCL的稀疏性。为确保数据的准确性,分别对两个参数进行了假设,其中δ1与δ2=(0.3,0.5,0.7),0.3为UCL较多,但相似度不高;0.7为UCL较少,但相似度较高;0.5处于两者之间。
3.1 不同δ1条件下,δ2对推荐精度的干扰
确定好各参数后,首先将δ1固定,研究δ2对推荐精度的干扰,并绘制出相应的曲线,如图2所示。通过图2的观察可以发现:若δ1=0.3,随着δ2的提升,MAE将会逐渐减小;当δ2在0.45左右时,MAE获得最小值;之后,随着δ2的提升,MAE将会逐渐提升。因此,δ2在0.45左右时,能够通过相似UCL相似度的方式,得到最准确的推荐结果。若δ1=0.5,开始阶段,推荐精度将为稳定,当δ2在0.73左右时,精度逐渐上升,之后呈现出下降的趋势。导致这一现象出现的原因为:在0.73左右时,相似UCL的相似度与数量达到了平衡,当δ2再次增加,相似UCL的数量不断减少,从而干扰了推荐性能。若δ1=0.7,随着若δ2的提升,推荐精度并不会增加,而是稳定一段时间后,突然迅速减小,从而说明可用相似UCL与待比UCL之间相似度较高,将会使相似UCL降低,从而影响推荐精度。
3.2 推荐效果干扰分析
将δ2固定,研究δ1对推荐精度的干扰,并且绘制出相应的图像,如图3所示。通过对图3的观察可以看出,若δ1与δ2均在0.3以下,推荐精度非常低;若δ2=0.7,δ1不是很大时,一定范围内,随着δ1的不断提升,推荐精度将不断增加,并逐渐稳固在一定水平上;若δ2=0.5,则推荐精度会受相似UCL的数目与相似度的影响,并在δ1=0.36处得到最佳的推荐精度。
4 预测评分精确度比较
预测评分精确度比较在不同数据稀疏情况下,采用PBCF,ICF,UCF,UUICF和UCL-PT等方法[1-2],对目标UCL评分精确度进行测试。经过多次试验可以观察到,UCL相似度与用户相似度之间的调节参数可以设定为2,此时,UCL-PT的推荐效果最佳,在与其他方法进行比较之后,其得到结果如图4所示。由图4可以看出,预测评分的平均绝对误差与相似用户呈现负相关关系,当相似UCL与用户减少,其预测评分误差值会逐渐增加,这充分表明了,推荐结果受到数据稀疏性的影响。当数据呈现稀疏状态时,推荐结果的可靠性会降低。而当相似用户高于50时,MAE会逐渐趋于稳定。当UCL数据或相似用户数高于70时,MAE的变化幅度会降低。另外,当任意数据产生稀疏状态下,本研究中的UCL-PT方法在精准度预测方面,其预测效果都将比其他方法要明显,并且,在数据稀疏性不断加剧的情况下,该方法的优点与优势会更加突出。
图4中,曲线1为ICF,ICF是基于项目相似度的协同过滤方法;曲线2为UCF,UCF是基于用户相似度的协同过滤方法;曲线3为PBCF,PBCF是基于热度偏好的协同过滤方法;曲线4为UUICF,UUICF是结合用户相似度与项目相似度的协同过滤方法;曲线5为UCL-PT,UCL-PT是播存网络环境下的协同过滤方法。
5 结束语
综上所述,在播存网络环境下,往往存在很多的UCL协议,这些协议的存在,将会对整个网络的运行造成一定影响。基于此,本文设计了一种UCL协同过滤推荐方法,该方法推荐性较强,易被广泛推广。
参考文献:
[1] 顾梁,杨鹏,董永强. 播存网络环境下UCL推荐多样性优化算法[J]. 计算机研究与发展,2017,54(8):1631-1643.
[2] 黄灿,杨鹏,顾梁. 播存网络中一种融合信任机制的协同过滤推荐算法[J]. 小型微型计算机系统,2016,37(11):2504-2508.
[3] 多杰东主. 关于汉语言文学在网络环境下的传播分析[J]. 中国报业,2013,11(16):115-116.
[4] 郭娟. 网络环境下学术信息开放存取研究[J].软件导刊,2013,12(7):15-17.
[5] 卢云骋,杨鹏,顾梁. 播存环境中基于广播的文件传输机制[J]. 计算机工程 与设计,2014,26(7):2267-2271.
[6] 张阳,付金华. 大数据环境下的传播管理存储安全分析[J]. 网络安全技术与应用,2016,19(5):54-55.
[7] 宋艳辉,罗力,武夷山. 网络环境下新闻传播学文献老化规律研究[J]. 中国出版,2016,17(11):33-36.
Abstract: The development of the Internet, and improve the degree of resource sharing in modern society, under the influence of various objective factors, however, in the process of sharing information resources, there are a lot of problems, serious impact on the level of the sharing of information resources and sharing efficiency. For example, broadband congestion, long content, etc. And the broadcast network USES the “one point to infinite point” physical broadcast method, distributes the Shared information resources, can effectively solve this kind of problem. Due to broadcast memory network is using unified content labels, based on the user's interests, to recommend information resources, and thus for information storage network, how to effectively obtain the UCL can make themselves interested in is the key. Based on this, this paper designs a UCL collaborative filtering recommendation method based on sod network environment. Through the experimental analysis shows that compared with the traditional method, the recommended method not only recommend the precision is higher, at the same time can also recommend for new UCL gives higher priority, and provide important guarantee for the efficiency of the UCL with heat. Therefore, it is more suitable to apply UCL recommendation in the network environment.
Keywords: sowing network; collaborative filtering; predict
(責任编辑:徐兴华)