APP下载

基于社区协同推荐系统的攻击研究

2014-10-28曹秀秀

中国科技纵横 2014年19期
关键词:效果评估协同过滤推荐系统

曹秀秀

【摘 要】 协同过滤推荐系统根据近邻偏好产生相应的推荐,恶意的用户将设法影响推荐系统的行为,使其无法产生有用的推荐结果。讨论了恶意用户攻击协同过滤推荐系统的不同方式,评估了近期研究中不同推荐方法的效果,并讨论了相应的有关对策。

【关键词】 推荐系统 协同过滤 攻击 效果评估

随着互联网的不断发展,海量信息已充满整个网络,从而产生了信息过载问题,推荐系统是解决这一问题的有效工具。推荐系统是根据用户兴趣爱好产生推荐结果的智能化软件,目前已被广泛应用于诸多领域如电子商务、社交网络、音乐、书籍、电影和广告等。其中协同过滤推荐系统是应用最广泛的。实际情况中,推荐系统的建议可以影响用户的购买行为,恶意的用户会设法影响推荐系统的行为使其无法产生有用的推荐结果,这种现象称之为针对推荐系统的攻击。本文介绍了推荐系统攻击的内容,讨论了基于社区协同过滤推荐系统用户恶意攻击的不同方式,分析了不同攻击方式的弱点及相应的对策。

1 引言

协同过滤技术是当前研究推荐系统的一个热点,它并不需要分析推荐对象的特征属性。基于社区协同过滤推荐系统最能涉及到用户的诚实、公平和友善,因为只有它们才会被操纵的用户评分集影响。基于内容和基于知识的系统只会受到与系统配置有关的信息的操控,除非需要从公共数据挖掘知识源。所以本文只对基于社区推荐系统恶意攻击进行了讨论。下面简单的典型例子概述了插入记录攻击的基本思想,其是基于内存协同过滤方法的一个简化版本,使用皮尔逊系数作为相似度度量方法,近邻规模为1。表1为评分矩阵,最后一行为伪造记录,在没有该伪造记录情况下,用户2是最相似的用户,该用户对目标物品的评分2(不喜欢)将被作为针对Alice的预测值。然而,在系统被攻击的情况下,如表1所示,伪造记录成为最相似的用户,这意味着目标物品的较高评分将被作为针对Alice的预测值。

2 攻击类型

各种攻击类型之间最大的不同就是攻击的目的不同,也就是说,目的是要提高目标物品的预测值即推举攻击,还是降低其预测值即打压攻击[1]。能否高效地攻击推荐系统也取决于攻击者对有关评分数据集知识的掌握程度。

2.1 随机攻击

随机攻击由Lam和Riedl(2004)提出[2]。根据这一方式,插入记录的所有物品评分会被赋以随机值,随机值服从数据库中所有评分平均值和标准差决定的正态分布。其直观思想是,生成的记录应该包含“常见”的评分,这样才会被看作许多其他真实记录的近邻。

2.2 均值攻击

均值攻击比随机攻击稍复杂些。在这种方法中,每个物品的平均评分被用来确定插入记录的评分值,根据这种策略生成的记录应该有更多的近邻,因为它考虑了已有评分数据集的更多详细内容。实验证明,这种攻击类型应用在基于内存的用户-用户协同过滤系统上的效果更明显,代价是需要额外的知识来确定评分值[3]。

2.3 造势攻击

造势攻击利用了领域内评分数据库的其他外部知识,目的是提高插入记录拥有更多近邻的机会。其攻击的思想是除了对目标物品的高评分或低评分之外,让插入记录只包含非常热门物品的高评分[4]。这样更有可能找到许多有类似主流选择的近邻。其典型例子是将一条对《哈利·波特》丛书高度评价的记录(2007)插入到图书推荐系统中。这种攻击类型代价较低,可以很容易确定热销物品集合或当前的热门大片。

2.4 局部攻击

局部攻击由Mobasher(2005)提出,只针对单个细分市场的促销活动会更加有效[5]。当设计推举攻击物品A时,主要的问题是识别出对与物品A相似的物品感兴趣的用户群体。局部攻击会被专门设计用来误导基于物品的协同过滤方法,总的来说,这种类型攻击队基于用户的协同过滤方法也有效。

3 效果评估

推举攻击。基于用户的协同推荐系统情况下,通过在MovieLens数据集上评估各种攻击的结果可以看出,均值攻击和造势攻击都能显著误导推荐系统的输出结果[6]。攻击规模也是影响攻击效果的一个因素。均值攻击效果好一些,但它比造势攻击需要更多有关平均物品评分的知识 。基于模型协同的推荐系统情况下,采用相同的操作记录集合攻击标准的算法时,实验证明这类算法远远比基于用户的算法更稳定。采用相同的数据集时,观察到的预测值变化只有0.15分,而且还是在15%的数据项被伪造的情况下。

打压攻击。Mobasher et al.(2007)[7]得出的另一个观察结论是,大多数攻击类型在抬举物品时很有效,但用于打压物品时影响却很小。专门设计的打压攻击方法却很有效。同样,造势攻击在打压物品时比其他方法更有效,但当目标是要抬高物品时效果就不明显。虽然能够观察到某些预测值上的变化,但基于物品的方法抵御攻击的表现还是更为有效。

4 对策

4.1 提高插入成本

让自动插入变得更加困难是一种直接的防御措施。防止自动生成账号的 标准方法包括使用Captcha(Von Ahn et al.2003)。Captcha是“区分计算机还是人类的完全自动的公开图灵测试”的缩写,是一种询问-响应测试,目的是找出系统用户究竟是计算机还是人。

4.2 利用基于模型的技术和额外的信息

选择能够对插入记录攻击更为鲁棒的推荐技术可能是一种防御的方法。此外,要注意尽量采用那种非依赖评分信息的推荐系统,因为评分会在伪造记录的帮助下被操纵。Massa和Avesani(2007)提出推荐系统也可以利用群体中不同参与者之间的信任信息[8]。

4.3 自动探测攻击

自动探测攻击的目标是自动探测出评分数据库中的可疑记录。Su等(2005)提出一种方法能够识别群托攻击,这种攻击指的是系统中的多个用户联合起来抬高或打压某个物品[9]。Zhang等(2006)采用了不同的方法,思想是每种攻击类型都会随着时间推移影响某些物品评分值的分布,建议检测一段时间某些物品的评分值来探测异常并特别构造和分析了以下两个属性的时间序列:样本均值,描述物品随时间变化的可能性;样本熵,表明物品评分值分布的变化[10]。endprint

5 结语

推荐系统可以通过互联网访问,是一种基于私人用户数据的智能化应用软件。因此会成为恶意用户的攻击对象,尤其是在基于社区协同推荐系统的情况下。因为在很多情况下可以从中获得金钱利益,比如操纵推荐系统的推荐结果或者获取有价值客户数据的访问权限。针对不同的攻击类型制定相应的防御办法是值得关注的问题,未来的研究需要业界的广泛合作,对研究成果的合理性进行验证,从而提高推荐系统的可靠性和安全性。

参考文献:

[1]Dietmar Jannach,Markus Zanker,Alexander Felfernig and Gerhard Friedrich.Recommender System [M].2013.

[2]K.Lam and J.Riedl,Shilling recommender systems for fun and profit,Proceedings of the 13th International Conference on World Wide Web,ACM,2004,pp.393-402.

[3]张富国,徐升华.推荐系统安全问题及技术研究综述.计算机应用研究,2008,25:656-659.

[4]伍之昂,王有权,曹杰.推荐系统托攻击模型与检测技术[J].科学通报,2014.551-560.

[5]Mobasher,R.Bhamik,and C.Williams,Effective attack models for shilling item-based collaborative filtering systems,Proceedings of the 2005 WebKDD Workshop,ACM,2005,pp.13-23.

[6]伍之昂,庄毅,王有权,等.基于特征选择的推荐系统托攻击检测算法.电子学报,2012,40:1687-1693.

[7]Mobasher,R.Bhamik,and C.Williams,Toward trustworthy recommender systems:An analysis of attack models and algorithm robustness,ACM Transactions on Internet Techonoldy 7 (2007),no.4,23.

[8]Massa and P.Avesani,Trust-aware recommender systems. Proceedings of the 2007 ACM Conference on Recommender Systems(RecSys07) (Minneapolis,MN),ACM,2007,pp.12-24.

[9]X.F.Su,H.-J.Zeng,and Z.Chen,Finding group shilling in recommendation system,Special Interest Tracks anf Posters of the 14th International Conference on World Wide Web(WWW05)(Chiba,Japan),ACM.2005.pp.960-961.

[10]Zhang,A.Chakrabarti,J.Ford and F.Makedon,Attack detection in time series for recommender systems,Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD06) (Philadelphia),ACM,2006,pp.809-814.endprint

猜你喜欢

效果评估协同过滤推荐系统
基于用户偏好的信任网络随机游走推荐模型