APP下载

针对协同过滤推荐系统的混淆托攻击模型

2018-08-29卫星君顾清华

计算机与数字工程 2018年8期
关键词:命中率交叉评分

卫星君 顾清华

(1.陕西能源职业技术学院 咸阳 712000)(2.西安建筑科技大学管理学院 西安 710055)

1 引言

攻击者通过向推荐系统[1~2]注入伪造用户概貌来影响推荐物品的频率,实现对某个物品的热宠或者打压,进而实现获利,称为托攻击(Shilling at⁃tack)[3]。

托攻击是由注入推荐系统的攻击概貌构成,攻击者确定攻击项,给予部分评分项,构成一条攻击记录。基本托攻击模型如表1所示,IS选择项是为了能成为更多用户的近邻,IF填充项使得攻击记录更像普通用户,IФ未评分项,It目标项则是攻击者推举或者打压的对象。对于目标项,依据系统中的最高评分smax设定值,称为推攻击。反之,依据系统中的最低评分smin设定值,称为核攻击[4~5]。

表1 基本托攻击模型

常见基本托攻击模型有随机、均值、流行攻击[6~7]。随机攻击的选择项为空集,填充项随机选取除目标项之外的项集,填充项的评分服从系统评分分布。均值攻击的选择项为空集,填充项随机选取除目标项之外的项集,填充项评分服从系统中对项目评分分布。流行攻击会挑选几款流行的物品,赋予系统中最大值评分(smax),填充项随机选取除选择项和目标项之外的项集,填充项的评分服从系统中评分分布。

目前托攻击检测方法对基本托攻击模型效果明显,文献[8]提出基于决策树的基本托攻击检测方法;文献[9]分析托攻击对推荐系统危害,提出依赖特征指标的托攻击检测方法;文献[10]提出特征指标兴趣峰度系数,进一步提高了检测精度。然而,为了躲避托攻击的检测,文献[11]提出了AOP(Average-over-Popular)攻击,在最流行项中添加平均项构造混淆攻击概貌,实现有效攻击。为了在有限的知识成本下提高攻击效果,本文以推攻击为例,给定混淆技术,提出混淆流行交叉托攻击模型(BOP),对比AOP攻击,表明该模型的危害性更大。

2 相关定义

定义1 变化评分项集,它是托攻击模型中赋予评分项的集合。依据托攻击概貌定义,不同攻击模型有四部分组成(填充项IF、选择项IS、未评分项IФ、目标项It),则变化评分项集表示成:

定义2 偏移函数,托攻击模型中的评分大多是正太分布下的随机值,满足smin≤si≤smax。偏移函数作用是产生一个量来修改用户概貌u中对项目i的评分值 si,修改后的值为,任然满足

其中 Δθ∈[smin。smax)。

定义3 流行交叉项,对项集进行属性划分(fc1fc2…fcn),属性的含义为该项属于何种类型物品。属于属性fci中的流行项集合I(Topfci-x%),属于属性fcj中的流行项集合I(Topfcj-x%)。由于一个物品可能具有多种属性,则流行交叉项表示成:

定义4 混淆托攻击模型,不同于基本托攻击模型,混淆托攻击模型定义为三部分,混淆变化项BIC,未评分项BIФ,混淆攻击目标项BIt。如表2所示。

表2 混淆托攻击模型

3 混淆托攻击技术

攻击概貌和普通概貌之间存在着区别,比如对于攻击目标项赋予系统中的最大评分,填充项评分服从一定规律,所以可以计算他们的共有的特征指标,从而识别出攻击概貌。然而,攻击者为了降低攻击概貌和普通概貌之间的区别会使用混淆技术[4],使得攻击概貌更加接近真实用户,尽可能消除同真实用户的差异,最终逃避托攻击的检测来影响用户的评分预测。文献[12~13]提出了三种混淆技术,但并没有具体给出如何使用这些技术。本文在描述这三种混淆技术的同时将给出具体的使用方法。

1)噪音注入。

依据混淆托攻击概貌定义,BIC混淆变化项BIt。设常数因子α,用α来控制BIC项集中评分噪音的大小(对随机产生的评分修改),这个噪音可以减少攻击概貌和普通用户概貌之间的差异。攻击概貌评分可以表示成:

其中α∈(0,1]。

2)用户评分偏移。

基本托攻击模型中,对流行项的评分为系统中的最大评分smax。通过修改流行项评分值,降低攻击概貌和普通用户概貌之间的差异,躲避托攻击检测,评分偏移表示成:

其中si是基本托攻击模型中对物品i的评分。

3)目标项评分偏移。

攻击概貌定义中,目标项It评分值为smax或smin,为了躲避检测,可以修改目标项It评分值,躲避托攻击检测,目标项评分偏移表示成:

其中Δs为评分等级差。

4 混淆流行交叉项托攻击模型

现有的大部分托攻击模型检测中,基于无监督、有监督、半监督模型都依赖于特征指标。不论是攻击概貌或者普通概貌它们内部具有相似性,而它们之间又存在着差异性。混淆技术的引入使得攻击概貌同普通概貌之间的差异性降低,从而躲避托攻击检测。

4.1 混淆流行交叉项托攻击模型的构成

在基本托攻击模型中我们将攻击概貌分为了4个部分,其本质在于尽可能接近真实的用户概貌,为了降低攻击概貌和普通概貌的区别,采用上文提出的混淆技术。

由定义4,混淆托攻击模型分为三部分。各部分采用混淆技术后表示为

1)混淆变化项

其中ABias(IinterTopi)u为用户u对流行交叉项i的评分偏移函数。

2)混淆目标项,BIt为攻击者要推举或者打压的对象,在基本托攻击模型中它赋予系统中的极值,而使用目标项评分偏移后评分值为

其中Δs为评分等级差。

4.2 混淆流行交叉项托攻击概貌

我们发现,现有的攻击检测模型中,由于攻击模型对流行项的评分为系统中最高评分,致使对于流行攻击的检测识别率较高。因此流行交叉项应在攻击概貌中保持一定的比率,比率太小成为用户的近邻太少达不到攻击效果,比率太大很容易被托攻击检测模型发现。文献[7~8,14]中可知,从依赖特征指标托攻击检测模型中流行攻击的平均检测准确率随着填充率的增加而提高。如图1所示。

图1 流行攻击检测准确率

实际上对MovieLens数据[15]集分析,大部分流行项的评分都是次优,即用户并不会为项目赋予系统中的最大值。如图2所示,用户对前50个流行项次优评分率(次优评分个数与全部评分个数比值),可以得到前50个流行项中有70%的项次优评分率高于0.6。

因此对流行项使用混淆技术,修改评分使得攻击概貌更接近真实用户概貌,进而躲避攻击检测。

1)计算流行交叉项评分偏移。依据属性对物品分类,使用定义3选择流行交叉项。

图2 前50个流行项次优评分率

因此,用户u的第i个混淆流行交叉项评分偏移函数表示为

用户u的第i个混淆流行交叉项评分值表示为

其中i∈IinterTopset。

2)IF的评分值为基本托攻击模型下的评分取值,使用式(4)给出。

3)目标项偏移,使用式(6)给出评分值。

混淆流行交叉项托攻击概貌如表3所示。

表3 混淆流行交叉项托攻击概貌

5 危害评价总体框架及模块实现

5.1 评价总框架

攻击危害评价总体框架如图3所示。

图3 危害评价总体框架

5.2 评价模块实现

攻击模块设计包括了混淆流行交叉项攻击概貌的自动产生器和攻击危害性指标输出。

(1)混淆流行交叉项托攻击概貌自动产生器。

Step1收集系统数据库信息,获得流行项集Itopset,对Itopset按照属性进行分类。

Step2对分类的Itopset选择流行交叉项目集合

Step4选择基本攻击模型,使用表达式4随机产生填充项评分值。

Step5确定攻击的目标项BIt,使用表达式6计算目标项BIt的评分值。

Step6由Step2、Step3和Step4得到混淆填充项

Step7由Step5、Step6得到混淆流行交叉项托攻击概貌。

Step8攻击概貌注入系统数据库,对n个攻击目标项BIt预测评分值。

2)计算混淆流行交叉托攻击模型危害指标。

6 实验分析

实验采用MovieLens100K数据集[15]。该数据集包含了943位用户,对1682部电影进行了1~5的评分数据,同时每位用户至少对20部电影进行了打分。原有的用户评分数据视为标记用户,他们对电影的评分真实可信,然后向系统分别注入混淆流行交叉项攻击和AOP攻击。推荐系统注入攻击用户太少不能影响推荐评分,太多容易被检测发现。本文攻击强度采用3%,实验填充率分别为3%、5%、10%、15%、20%情形下对混淆流行交叉项攻击的危害行进行评估。实验参数设定为:噪音系数α=0.8,评分等级差Δs=1,用户近邻个数N=20,Δθ由smax与项目i的评分均值差决定,流行交叉项个数取填充率20%和50%,攻击目标项It随机选择10个。

托攻击的目的是能够成为更多普通用户的邻近,从而通过攻击目标项的评分去影响推荐物品的评分,使得用户推荐列表出现或者不存在该物品。因此衡量托攻击概貌的危害性可以从目标项平分偏移和命中率来描述[16]。

目标项评分偏移描述推荐系统预测评分值同真实评分值的接近程度,即在无攻击状态下推荐系统对目标项的评分和有攻击状态下推荐系统对目标项的评分偏移。命中率描述在对推荐系统有攻击和无攻击状态下目标项是否出现在了用户推荐列表中。目标项平均评分偏移和命中率表示如下。

1)目标项平均评分偏移:对目标项it进行预测评分的用户个数 |U |,无攻击状态下用户u对目标项预测评分值psuit,psuit攻击状态下用户u对目标项预测评分值为apsuit,目标项平均评分偏移表示成:

2)命中率:对目标项it进行预测评分的用户个数 ||U ,用户u的目标项it出现在推荐列表中,否则hitsuit=0,目标项it命中率表示成:

通过目标项平均评分偏移和目标项平均命中率可以定量的描述混淆流行交叉项托攻击模型对推荐系统的危害程度。如图4、图5是对目标项BOP(混淆流行交叉项填充率为20%、20%)和AOP攻击(流行项填充率为50%、50%)的平均评分偏移,表明混淆流行交叉项托攻击对评分预测影响更大。

图4 BOP与AOP填充率20%的平均评分偏移

图5 BOP与AOP填充率50%的平均评分偏移

图6 、图7对目标项BOP攻击(混淆流行交叉项填充率为20%、20%)和AOP攻击(流行项填充率为50%、50%)的平均命中率,表明混淆流行交叉托攻击对评分预测影响更大。

图6 混淆流行交叉项攻击平均命中率

图7 AOP攻击平均命中率

7 结语

混淆技术变换攻击概貌,对流行项按照物品属性进行分类,并选择流行交叉项设计出新的攻击模型——混淆流行交叉项托攻击模型。该模型降低了攻击概貌同真实用户概貌之间的差异,使得更容易成为用户的近邻。注入攻击概貌,分析攻击危害指标,表明该攻击模型对推荐系统的影响更大。下一步的重点工作是分析混淆托攻击的特征,设计合适的分类器,对混淆托攻击进行有效检测,保证推荐系统的安全性。

猜你喜欢

命中率交叉评分
基于文献回顾的罚球命中率与躯干稳定性影响因素研究
VI-RADS评分对膀胱癌精准治疗的价值
“互联网+医疗健康系统”对脑卒中患者HAMA、HAMD、SCHFI评分及SF-36评分的影响分析
菌类蔬菜交叉种植一地双收
我给爸爸评分
“六法”巧解分式方程
Castleman disease in the hepatic-gastric space: A case report
2015男篮亚锦赛四强队三分球进攻特点的比较研究
投篮的力量休斯敦火箭
连数