一种基于用户信任机制的个性化协同过滤推荐算法研究
2018-06-07李明明马萍萍代绍庆
李明明 马萍萍 代绍庆
摘 要:传统的协同过滤推荐算法产生的数据稀疏性和冷启动问题存在潜在安全危机,不利于个性化推荐质量的提高。文章引入基于用户兴趣度和满意度的信任机制,改进传统用户信任度,通过信任度权重因子∞。优化用户综合信任度,以提升预测评分质量。仿真实验分别从算法的推荐准确率和推荐覆盖率展开分析,实验结果表明,当∞:。取值在0.5时,推荐准确率和覆盖率较RTCR算法、Trustlmpact MF算法、A&I-Based;算法明显占优。
关键词:用户信任度;个性化;协同过滤;用户相似度;推荐算法
随着线上社交网络的流行,社交网络平台不仅实现了用户随时随地获取、推送网络信息资源,也给用户在网络信息服务、共享和评论方面提供了支撑。移动资源、信息的过度开发,增加了终端用户在移动信息过载、失真等方面的问题[2]。如何将用户感兴趣且真实有效的信息从海量信息中挖掘出来,以实现用户个性化推荐,是下一代在线社交的个性化服务急需解决的技术难题。
传统的基于用户协同式过滤推荐作为社交网络的个性化服务关键之一,如表l所示,主要以用户相似性、用户项目评分方式展开对目标用户的预测评分,但是这一推荐方法仍然在数据稀疏性、用户潜在攻击上存在不足。以用户相似性为向导,以缓解用户数量剧增导致的协同过滤算法的数据稀疏性和安全攻击为目标,是协同过滤推荐研究的重点。
基于用户的协同过滤的服务推荐算法,在社交网络中被广泛应用于过滤推荐。以用户相似性为起点,旨在有效降低协同推荐产生的数据稀疏性[5-6]。通过个性化的推荐技术,研究用户行为,分析用户的兴趣,建立用户的递归测评分矩阵[3];构造用户行为相区划分的凝集性;通过提升时间确定性、对目标用户的贡献度,并将用户对项目属性的偏好度作为评分推荐值,改进用户行为相似性。为了更高效地处理社交网络中的海量数据,以保证社交网络的可扩展性,以词频一逆文件频率(Term Frequency Inverse DocumentFrequency, TF-IDF)算法为基础,借助Hadoop云平台,提高用户特征的准确率,提升社交网络的可擴展性。
个性化协同过滤的服务推荐中存在的潜在安全攻击:恶意用户借助一般用户相似性(用户属性、特征、相关度等外在相似性)进行服务推荐,导致目标用户获取到错误或者有害网络信息资源。Polom等率先将信任关系应用于服务推荐,其个性化协同过滤推荐的方法是分析目标用户对项目的信任关系,以清除恶意用户。为了计算用户间的直接、间接信任距离,设计了一种基于用户单步距离的信任关系[7]。荣辉桂等为了实现用户信任度的有效提升,将用户推荐满意度作为推荐数据评价指标,提出了基于A&I-Based;的协同过滤推荐算法。为了更好地获取目标用户的信任,将用户信任与评分结合,通过用户评分的信任上下阈值计算用户的信任关系。针对评分的非确定性,将评分作为一种矩阵并展开矩阵因子分解,将信任用户进行分组以分析评分对用户信任的间接关系,提出基于Trustlmpact MF算法。
在已有的研究基础上,引入用户信任机制。针对用户信任关系中存在的目标用户与推荐用户对产品的共同兴趣以及推荐用户对产品的购买满意评价等,设计一种基于用户对商品兴趣和推荐满意度的用户信任一评分(Interest SatisfiedTrust MF, Int-Trust MF)个性化协同推荐方法,并给出算法的相应数学模型,分别采用信任推荐数据集Epinions展开仿真实验。
1 国内外研究现状
协同过滤推荐的核心是用户相似度度,文献[1]将用户属性相似度引入传统的电子商务服务推荐。文献[9]改进了传统的协同过滤推荐方式,构造用户属性相似度和用户推荐满意度函数,侧面体现了用户之间的信任关系,但侧重点在于根据用户的属性相似性展开预测评价。文献[4]为了改进微博用户的数据稀疏性,将用户的评分差值信息熵作为行为相似度加以推荐,以增强推荐力度和社区划分。文献[12]结合了用户特征、时间兴趣度、项目属性,作为新项目的用户相似性推荐基础。文献[13]联合用户的多个属性和对项目的兴趣,以用户属性权重为用户相似性,提出了AICF算法(Attributes andInterests Collabora tive Filtering).
基于个性化的推荐是当前协同过滤技术中流行的推荐系统之一。文献[3]通过研究个性化推荐中的用户行为并分析用户的兴趣度,改进用户相似性的度量方法以提升在推荐准确率方面的占优。文献[15]基于k一近邻均值加权推荐的非准确性,采用启发式聚类分析,引入改进的最大最小距离聚类算法,潜在性分析用户己评分、未评分项目,这一算法一定程度提升了推荐准确率。文献[16]针对当前离散型评分的不合理性展开了用户推荐的模糊聚类分析,将梯形模糊评分模型应用于用户相似度计算,算法在数据稀疏性方面较传统算法明显占优。
大量研究结果表明,传统的个性化协同过滤推荐在有效防御用户的恶意欺骗行为和推荐过程模糊度方面存在不足[17],容易导致用户的推荐盲目性。因此,结合信任机制和个性化推荐,旨在有效缓解恶意欺骗和推荐模糊性问题的发生‘印。文献[2]将信任度作为用户相似度加权值,通过定义用户的直接信任度、间接信任度来计算用户相似性,并且将这一跳范围内的信任度作为信任距离展开相似度计算,一定程度上提升了推荐的准确性,降低了训练时间。为了提升推荐准确性,文献[19]则将无线移动网络中的用户位置移动偏好作为用户信任度量,文献[20]侧重用户的偏好特性,提出了以增强用户信任度为基础的协同过滤推荐算法,在基于邻居的方法基础上改进了信任度的加权因子。文献[21]将用户的认知习惯等纳入成熟的信任机制中,以改进协同过滤推荐。
综合而言,仅通过用户外部相似性、评分结果、单纯的用户信任关系展开服务推荐,难以有效满足推荐的准确率的提升、推荐系统的冷启动和数据稀疏性有效降低、恶意用户安全威胁等。联合用户特征信任度、传统用户相似性,以提升对目标用户的推荐准确率和质量,是个性化协同过滤推荐的研究关键。
2 基于用户信任度的个性化协同过滤推荐算法
以传统的用户相似性作为推荐基础,难以实现社交网络中推荐质量的稳定提高。结合用户信任机制的协同过滤推荐算法,旨在提升推荐质量和缓解数据稀疏性,缓解恶意用户安全威胁。
文献[22]指出信任度分为直接信任和推荐信任,直接信任即实体直接的接触行为和历史记录,在实际应用中也指用102户相似性;推荐信任指通过第三方间接推荐形成的间接式信任度。因此,个性化的协同过滤推荐方法首先需要解决用户的相似性和推荐信任度。
2.1用户相似性
在实际的社交网络中,推荐给用户商品的前提是用户感兴趣,如果用户在一定时间内重复搜索商品关键词,则目标用户对商品的需要量即可作为向目标用户推荐的基础。对于一般用户而言,如果目标用户与一般用户呈现了搜索目标商品相似性,则推荐效果可以从用户集中相似性最高的用户评分展开。
然而,如果目标用户早己将用户集中与其相似性最高的用户纳入黑名单或者直观上认为不信任(这种不信任可能是用户集中该用户曾发布过虚假信息、不安全信息或被举报过等),则用户之间的相似性无法辅助协同过滤推荐,对于这一类问题,增加目标用户与用户集中用户的信任机制,一定程度上提升推荐质量和推荐准确率。
定义用户节点集K其中v,表示第i个用户。所有目标用户存放于协同服务池S中,S=(v1,v2,…,VN),i=l,2,3-N。对目标用户的推荐商品集为目标用户已经浏览或搜索过的C=(Cl,c2,…,Ck),k=l,2,…,Ko结合传统用户相似性概念,将用户v,向目标用户vi推荐商品C时用户之间的属性相似度定义为:
其中,Ri.k表示目标用户v,选购目标商品G的相似度数矩阵,Sim,也指用户直接信任度。
2.2基于用户兴趣与满意度的信任机制
在推荐系统中,用户之间的信任关系在推荐中占有决策性作用,用户的推荐信任度以来推荐用户对商品的满意度和对推荐者在该商品上的共同兴趣作为目标用户的推荐信任度。其中,目标用户对于推荐者的信任源于两者之间存在对该商品共同的兴趣;目标用户对该商品的满意度则依靠于推荐用户对该商品购买后的评价值。
建立目标用户与推荐用户在相同产品上的共同兴趣度和推荐用户对产品的满意度作为推荐的信任度:
其中,Ink表示用户V,已经购买了该产品且目标用户V,已经搜索或浏览过商品G,其计算公式为表示目标用户有浏览或搜索商品额的次数,目标用户对推荐的商品浏览次数越多,说明越有推荐价值和意义。同时,表示推荐用户v,的属性相似比。推荐用户对商品G的满意度Sa为其对商品购买后的评价,一般有3种:不满意、较满意、满意,其值空间为:
式(3)为用户v,购买商品Ck的当前评价与平均评价对比结果,评判其产品满意度。其中如果较当前的评价值较平均评价高,其满意度最好,值为2。
因此,目标用户v,是否信任推荐用户v,的推荐,前提条件为推荐用户已经购买了产品G,并且目标用户有浏览过商品G,商品浏览次数越多,说明目标用户v『推荐用户v,的信任度越高。
2.3推荐过程
综合考虑用户的推荐信任度和属性相似性,对用户的推荐信任度和用户属性相似性作数据优化处理。文献[23]指出用户综合信任度需将直接信任度和间接信任度进行加权平均。为了有效缓解数据稀疏性,给定目标用户v:对用户v,的信任权重因子∞。以平衡用户之间的信任关系,得到用户综合信任度函数如下所示:
根据用户综合信任度计算公式,筛选用户推荐集,选择邻居集合中推荐数量最高的Ⅳ_个用户为当前目标用户集合,利用Top-N方法建立用户推荐服务过程。根据推荐用户的推荐结果,给定v,目标用户v对商品G的与测评分为:
3.1评价指标
目前个性化协同推荐的流行评价指标主要为:准确率和覆盖率。传统的推荐质量度量以平均绝对偏差(MeanAbsolute Error,MAE)、覆盖率(Coverage)为主。其中,用户集合V中的P表示预测评分结果,,。表示实际评分结果,Ⅳ为推荐系统中用户的總数量,T为给用户推荐过的用户数量。
文献[10-11]认为传统的MAE评分数据的分数存在数据不平衡性,难以较好地反应冷启动用户的推荐效果。优化平均绝对用户误差作协同过滤推荐准确率公式为: 用户评分覆盖率结果为
3.2实验结果评价
为了能有效与已有经典的推荐方法作深入对比,实验以Paolo Massa等提供的Epinions数据集为基础,用户数量为:480 189,商品数量为:17 770,用户的预测评分范围选择(1-10分)。
实验(l)为分析用户信任度权重因子对用户推荐的准确率和覆盖率的影响。其中,用户的推荐率和覆盖率根据式(6)、(7)公式计算而来(见图1-2)。
实验(l)仿真结果表明:
(l)在 值不同的情况下,推荐用户数量的增加引起平均绝对偏差变大,网络中推荐的准确率呈现下降趋势。当∞。值从0.2上升到0.5时,准确率逐渐上升,绝对偏差也随即发生变化。当(oi.j值从0.5上升到0.8时,准确率呈现下降趋势。当∞。为0.5时,其绝对偏差值对推荐用户数量的变化影响最小。
(2)在 值不同的情况下,推荐用户数量的增加致使用户的评分覆盖率呈现逐渐下降趋势。当∞:。从0.2上升到0.5时,评分覆盖率逐渐增加,数据的稀疏性明显得到改善。但是当∞。值上升到0.8时,评分覆盖率呈现了下滑趋势。当∞,。值为0.5时,其评分覆盖率对社交网络中用户数量的增加影响程度也是最小。
综合而言,当用户信任度权重因子∞;。在0.5时,算法可以实现多用户个性化推荐,同时对用户的推荐质量和推荐覆盖率影响最小(见图3-4)。
实验(2)为多算法对比验证实验。从RTCR算法、Trustlmpact MF算法、A&I-Based;算法、Int-Tru st算法中展开仿真分析。
实验(2)仿真结果表明:
(1)所有算法在∞,,=0.5时得到的推荐准确率存在不一致。其中,RTCR算法、Trustlmpact MF算法的推荐率呈现先增加后下降继而增加的趋势,即用户数量分别在40和80时出现推荐转折;算法在用户数量为60时出现推荐转折;Int-Trust算法在用户数量分别为50、70时出现微小推荐转折。推荐准确率发生转折说明用户数量在发生变化时对推荐的准确率有影响,但是影响程度较传统的用户相似度(式(1》有明显优化。而受影响程度从小到大的关系为:Int-Trust,A&一based, Trustlmpact MF, RTCR。
(2)在∞0=0.5时用户推荐覆盖率均呈现稳定下降趋势,即用户数量越多,推荐用户的评分占比越小,覆盖率下降越明显(式(7》。其中覆盖率从大到小依次为:Int-Trust, A&_ based, RTCR, Trustlmpact MF。
(3)在∞,=0.5时,通过仿真结果结算发现:Int-Trust推荐方法较A&_ based,Trustlmpact MF,RTCR等同类型的基于用户信任机制的协同过滤推荐算法在推荐准确率和推荐覆盖率方面均明显占优。
4结语
基于传统用户相似性建模方法,建立以用户兴趣一推荐满意度为主要参考度量的用户信任机制,旨在提升用户相似性的平衡性,缓解数据稀疏性和冷启动带来的用户推荐质量下降问题,缓解恶意用户安全威胁。仿真实验发现,当用户信任度权重因子∞,,在0.5时得到的推荐准确率和覆盖率效果较其他数值可靠性更高,对比最新的推荐算法,在准确率和覆盖率方面,Int-Trust算法明显占优。由于现有数据集平台的局限性,下一步研究将深入探索实际社交网络中的数据挖掘和个性化协同推荐工作。
[参考文献]
[1]朱琳.可基于社交网络的个性化推荐服务研究[D].西安:西北大学,2012.
[2]POLO M, BOBBY B.Using trust in recommender system: an experimental analysis[C] .Oxford: Proceeding of Itrust 2004 Intemational Conference. 2004: 221-235
[3]王茜,张卫星.基于分类树相似度加权的协同过滤算法[C].重庆:2008年计算机应用技术交流会,2008.
[4]李聪,梁昌勇,马丽.基于邻域最近邻的协同过滤推荐算法[J]计算机研究与发展,2008 (9):1532-1538
[5]陈志敏,李志强.基于用户和项目属性的协同过滤推荐算法[J].计算机应用,2011(7)1748-1750.
[6]程飞,贾彩燕.一种基于用户相似性的協同过滤推荐算法研究[J].计算机工程与科学,2013 (5):161-165
[7]王兴茂,张兴明,邬江兴.基于一跳信任模型的协同过滤推荐算法[J].通信学报,2015 (6):1301-1308.
[8]蔡浩,贾宇波,黄成伟.结合用户信任模型的协同过滤推荐方法研究[J]计算机工程与应用,2010( 35):148-151.
[9]荣辉桂,火生旭,胡春华,等.基于用户相似度的协同过滤推荐算法[J]通信学报,2014 (2):16-24
[IO]秦继伟,郑庆华,郑德立,等.结合评分和信任的协同推荐算法[J]西安交通大学学报,2013 (4):100-105
[11]叶卫根,宋威.融合信任用户间接影响的个性化推荐算法[J].计算机工程与科学,2016 (12):2579-2586
[12]刘文龙.基于加权信息熵相似度的协同过滤算法研究[D]天津:天津师范大学,2013.
[13]俞琰,邱广华.基于局部随机游走的在线社交网络朋友推荐算法[J]系统工程,2013(2):47-54.
[14]贺银慧.社交网络中用户信任关系的研究及其应用[D].成都:电子科技大学,2011
[16]王兴茂,张兴明,吴毅涛,等基于启发式聚类模型和类别相似度的协同过滤推荐算法[J]电子学报,2016 (7):1708-1713
[17]吴毅涛,张兴明,王兴茂,等基于用户模糊相似度的协同过滤算法[J]通信学报,2016 (1):198-206.
[18]金亚亚,牟援朝基于改进信任度的协同过滤推荐算法[J]现代图书情报技术,2010 (10):49-53
[19]蔡波斯,陈翔基于行为相似度的微博社区发现研究[J]计算机工程,2013 (8):55-59
[20]李玲,任青,付园,等基于Hadoop的社交网络服务推荐算法[J]吉林大学学报(信息科学版),2013 (4):359-364
[21]刘树栋,孟祥武一种基于移动用户位置的网络服务推荐方法[J]软件学报,2014 (11):2556-2574
[22]徐选华,王兵,周艳菊基于信任机制的不完全信息大群体决策方、法[J]控制与决策,2016 (4):577-585.
[23]段昌敏,沈济南,周慧华信任驱动的云联盟博弈算法[J]计算机应用研究,2017 (9):233-240