基于传播时空特性的社交网络灰帽用户检测
2021-12-20李春平
何 欢,朱 焱,李春平
(1.西南交通大学 信息科学及技术学院,成都 611756;2.清华大学 软件学院,北京 100091)
0 概述
Twitter、Facebook、YouTube、新浪微博等在线社交网络(Online Social Network,OSN)的扩散模式为“去中心化”,该模式能使用户生成内容(User Generated Content,UGC)在用户间建立的“关注-被关注”社交网络上广泛传播,并呈现出传播速度快、覆盖范围广、社会影响力大等特点[1]。但由于其自带的开放性、普适性、低成本、便捷性等优势,容易成为攻击目标。
常见灰帽用户(非正常用户)有僵尸粉、营销号、垃圾用户等,与白帽用户(正常用户)通过OSN 实时分享生活、交友聊天、获取信息等不同,灰帽用户利用OSN平台不断扩大自身影响力以提高可信度,而后进行推广营销、引导舆论导向、散步谣言、盗取泄露他人信息、散布非法链接、钓鱼攻击等不友好甚至非法活动,严重威胁平台安全性及性能。因此,检测OSN 中的灰帽用户至关重要,有利于OSN 管理、广告、新闻媒体与读者等之间的交互优化。
为检测OSN 中的灰帽用户,ERŞAHIN 等[2]通过分析用户名、个人资料、背景图片、朋友和关注者数量、推文内容、用户描述、推文的数量等用户属性信息进行分类检测。根据UGC 的静态属性信息,RAYMOND 等[3]基于自然语言处理的文本分类,通过分析评论文本与正常用户评论的差异发现网络用户发布的虚假评论。ZHANG 等[4]使用基于链接相似性的方法关联用户活动,并采用基于机器学习的方法对可能的用户活动进行检测。以上方法简单有效,但需要UGC 中的垃圾信息(如广告、非法字段等)含有明显关键字或是恶意链接,因此灰帽用户容易通过修改相关信息躲避检测。此外,上述方法只能针对特定数据而无法应对新的威胁,因此不具有普适性。
针对上述问题,有研究人员从“用户-关注-用户”社会关系网络入手提出有限攻击边缘假设,该假设认为白帽用户很少与灰帽交朋友,即白帽用户与灰帽用户之间的友谊链接数量有限。基于该假设,研究人员提出大量检测算法[5-7]。然而,有研究人员发现灰帽用户能产生更多的攻击边缘[8-10],即有限攻击边缘假设在现实世界的OSN 中不成立。这导致基于该假设基础提出的监测方法存在缺陷,检测精度有待提高[11-12]。因此,研究人员尝试通过分析用户关注、转发、回复、提及、共享话题等更具可靠性的用户交互行为的方法进行检测。ZHANG 等[13]开发了社交活动网络(Social Activity Network,SAN),通过2 层超图统一用户的关注和行为,充分利用用户的行为模式以描述灰帽用户活动到达其受众的方式,并揭示主导信息传播功能的因素。CRESCI 等[14]受生物学遗传信息DNA 的启发,通过对垃圾收集器的集体行为进行深入分析,提高了灰帽用户检测的有效性。理论上,与用户关注谁相比,用户在选择与谁互动上更具选择权和可信度。但实际上,该类方法仍只适用于检测具有明显异常行为的灰帽用户。
与单一视图检测方法局限于检测特定种类灰帽用户不同,多视图融混合模型能在海量信息中综合使用各类特征或算法,从而保证了低漏检率。MATEENETAL 等[15]提出一种基于用户、内容和图这3 类特征的混合检测技术,通过整合特征区分用户,获得更高的效率和精确度。与MATEENETAL 类似,LI 等[16]和LIU 等[17]分别针对融合多视图特征提出了检测机制。LI 提出一种半监督混合模型,基于用户、用户社交信任网络、UGC 和用户评论转发结构这4 类特征检测用户,通过阶梯网络融合过滤各类特征区分用户,并获得更高的效率和精确度。结果表明,融合多类特征的混合模型检测精度更高,其针对不同种类灰帽的检测效果更具有鲁棒性和稳定性。然而,混合方法需要考虑多种视图,检测复杂且时空耗费巨大,且当出现新的种类时仍需重新考量评估参数,不具有普适性。
用户交互是OSN 中信息传播的根本途径,灰帽用户虽然种类多样、善于伪装并极易衍生出新种类,但因其最终目的均是通过OSN 散布信息扩大自身影响力,故在交互行为上具有共同特性。此外,因为灰帽用户与正常用户的交互行为有明显差异,所以从传播交互角度出发进行检测将更简单有效且通用性更高。本文提出一种基于时空传播的灰帽用户检测机制,从用户UGC 传播交互角度出发,在时序、空间2 个维度挖掘正常用户与灰帽用户的本质区别。同时在静态属性、社交网络基础上,进一步利用传播网络信息寻找潜在灰帽用户,使灰帽用户识别算法更具普适性。
1 社交网络灰帽用户检测机制
现阶段社交网络灰帽用户检测机制因检测对象极易隐藏且类型多样,目前存在2 个问题:1)单一且普适性低,只能针对某一特定数据;2)适配性低,当灰帽用户出现新种类时,需重新评估并改变检测模型。然而,灰帽用户虽然种类多样且善于伪装,但因最终目的均是扩大自身影响力,故在交互行为上具有共同特性,即在其UGC 或参与他人UGC 传播过程中与白帽用户相比有明显差异。具体来讲,灰帽用户可通过伪装诸如性别、年龄、爱好等属性使自身与白帽用户差异性减小,也能通过发布正常UGC 使之不包含垃圾关键字躲避平台检测。但研究数据表明,所有灰帽用户的目的都是为了扩大自身在整个社交网络中的比重,以便达成自己营销、宣传、发布广告等最终目的,因此可以从用户UGC 传播角度考虑。一方面,社交网络用户影响力主要取决于用户UGC 的传播能力;另一方面,灰帽用户经常活跃在其他用户UGC 传播链中以便达到宣传目的。此外,用户UGC 在发布后越短时间内(时序特性)影响的用户人群(空间特性)越多,传播能力就越强,所以传播特性可以从传播时序和传播空间两方面体现。
本文提出一种基于传播时空特性(Diffusion Spatio Temporal Characteristics,DSTC)的社交网络灰帽用户检测机制,融合传播时序和传播空间2 类特性进行最终检测,其具体过程如图1 所示。
图1 时空特性传播过程Fig.1 Process of diffusion spatio temporal characteristics
由图1 可知,对社交网络用户源数据集进行扩展并预处理,可得到用户UGC 及UGC 传播过程源数据。基于DSTC 对预处理后社交网络用户UGC 传播数据进行的检测具体可分为2 部分:1)对预处理后的源数据进行时空特征提取工作并得到两类传播特征,包括时序特征和空间特征,时序特征即传播过程在时序上的特性,空间特征即UGC 形成的传播网络图所体现的特性;2)融合传播时空两类特征,并分别采用判别式模型代表(SVM)、生成式模型代表(Naive Bayes)、集成学习代表(AdaBoost)这3 类分类算法检测灰帽用户,得到最终检测结果。
2 传播特征提取
为更好定义传播特征提取过程,现给出相关重要符号定义:用UUGC(u)表示用户u的用户生成内容,u∈U,U⊆V。其中U表示评论过用户u该条UGC的所有用户,V表示整个网络中的的所有用户。假设用户u的一条UGC 被发布后收到n-1 条UGC 评论,设三元组集合UUGC(u)={
2.1 传播时序特征的提取
白帽用户发布的UGC 能达到的传播范围与自身在社交网络中重要程度、UGC 内容包含的模态、UGC 文本情感倾向等诸多因素有关。因此,白帽用户UUGC(u)中体现的传播时间与传播范围没有具体的界限,随机性较强。而灰帽用户一般在在特定时间有目的性地发布UGC,过了特定时间段不再传播,传播时间上相似性更强。综上所述,鉴别灰帽用户可以从UUGC(u)的传播时间角度考虑。
平均传播AADT代表UUGC(u)传播开始至结束收到每个用户评论所用的时间间隔。灰帽用户AADT较白帽而言更加稳定,数值相差小。平均传播时间的计算公式如式(1)所示:
首次传播时间FFDT代表UUGC(u)从传播开始至收到第1 个用户评论的时间间隔。灰帽用户评论其他用户UGC 的通道较单一,通常是经过给定的链接直接进入,且灰帽用户UGC 一般只会收到灰帽用户评论。所以,白帽用户发布UGC 后,关注该白帽的其他用户在接收推送后对其进行评论互动具有实时特性,灰帽则没有。因此,灰帽用户的FFDT一般要比白帽用户更长。首次传播时间的计算公式如式(2)所示:
传播启动时间的计算公式如式(3)所示:
其中:m为传播启动的阈值,即当UUGC(u)中n>m时(UGC 至少收到m条评论),认为该条UGC 达到传播认定条件。本文设m=100(OSN 中UGC 评论数量中位数),即当转发量达到100 后UGC 被认为是启动传播,可以对整个OSN 存在影响。SSDT越小,影响范围越大。过滤用户发布的不重要UGC,只考虑传播范围较大能对OSN 产生影响的UGC。此外,m所花费的时间大小表明UGC 的受欢迎程度,能侧面体现用户u在社交网络中的重要性。灰帽用户由于经常发送重复相似垃圾UGC,不被大多数用户认可,被关注的可能性小,影响力一般较小。
平均传播间隔如式(4)所示:
传播间隔方差如式(5)所示:
其中:平均传播间隔AADI和传播间隔方差VVDI分别代表元组
2.2 传播空间特征的提取
以用户ui为节点,UUGC(u)={
基于图结构的检测方法通常比其他检测方法效率高,因为灰帽用户虽然能伪造信息躲避检测,但是其行为模式却不能轻易改变。本文从传播空间上提取以下几类特征。
2.2.1 传播网络结构统计特征
直接由图结构统计计算获取,诸如PageRank、clustering、betweenness 等常见图节点结构信息。
2.2.2 传播网络图嵌入特征
图嵌入技术能对网络中的用户节点进行低维向量表示,且该低维特征向量能较好地保留原有网络的拓扑结构。Node2vec 模型[18]认为网络结构上相似节点具有相似的嵌入表示,属于同一社区的节点在低维空间的距离更相近。本文采用Node2vec 模型对传播网络图进行图嵌入特征提取,得到用户节点特征向量。
2.2.3 用户传播能力特征
用户传播特征由以下指标表征:
1)一阶自我中心网络环路路径数量,用以评估用户传播的量级程度。用户一阶传播网络如图2所示。
图2 用户一阶传播网络Fig.2 First order diffusion network of user
在图2 中,白色为白帽用户,黑色为灰帽用户。可以看到,图2(a)中有3 条环路,图2(b)只有1 条环路,证明2 类用户在自我一阶传播网络之间确实存在差异。
一阶自我中心网络环路路径数量是指由当前用户出发经过一阶邻居后最终能回到用户并构成回路的数量。构成环路的用户集实际是社交网络中的一个社区,代表了因同一兴趣形成的社交圈。白帽用户的自我中心网络通常呈现局部分散而整体聚集的状态,这是因为白帽用户兴趣多元交叉,扩散开后又形成多个社区;而灰帽用户由于不关心其他用户,其社交圈也并非由兴趣促使形成,因此其传播网络呈现整体、局部都分散的状态。所以,灰帽用户自我中心网络所形成的回路路径数量一般比白帽用户少。
2)用户传播指数,用以评估用户在网络中的传播能力的指标。借鉴微博传播指数BCI(Blog Communication Index),通过微博的活跃度和传播度反映用户传播能力和传播效果,利用用户传播指数UUCI(u)评估用户u的传播能力,其计算公式如式(6)所示:
其中:W1代表用户活跃度;W2代表用户在传播网络中能达到的传播度;计算公式如式(7)和式(8)所示:其中:X1为UGC(总数UGC 代表用户传播能力);X2为原创UGC数;X3为转发UGC数;X4为评论UGC数;X5为原创UGC转发数;X6为原创UGC评论数;X7为原创UGC 点赞数。式(8)中每个X特征代表一类评价指标,对每个X特征进行X=ln(X+1)的标准化处理后分配权重。
3)用户传播信任度,用以评估传播用户在网络中传播信任的能力。通过用户传播网络中其一阶邻居用户给予的信任度可大致判断其种类。通常来说,白帽用户更倾向与白帽交互,故传播网络中节点的一阶出度邻居为白帽的越多,该用户为白帽的可能性就越大,即他人给予的信任度越高。反之,当入度节点的灰帽节点越多,代表越信任灰帽用户,自身为灰帽用户的可能性越大,他人给予的不信任度越高。
借鉴PageRank 算法的思想,定义节点u的信任度ttrust(u)与不信任度ddistrust(u)的计算公式分别如式(9)和式(10)所示:
其中:p代表用户u的出度节点,即用户u评论用户p的UGC;ttrust(u)代表节点p拥有的信任值;iindegree(p)为p的所有入边数量,代表u信任p;两者相除代表p分配给u的信任值,求和得到u从自身一阶邻居所得到的信任值;s(u)代表用户u的初始信任值,通过参数α调节自身信任值与从一阶邻居获取分配的信任值,更新信任用户u为白帽的信任值。不信任值计算原理与信任值一样,不同的是不信任值从用户u的出度节点q获取,且q的不信任值分配通过q的出度数量ooutdegree(q)计算。
4)用户传播率,用以评估用户传播占整个OSN的比重。传播率是指信息接受人群占传播对象的百分比,即UGC 自身网络节点数与整个研究对象网络的比率。
其中:AAll为所有UGC 传播网络中的节点数;为用户u的UGC 参与传播的用户数量。
2.3 传播特征融合
将传播时序和空间两类特征结合后更能反映用户特性,故借鉴早期先融合多层特征再训练预测的思想,选择并行策略将时序、空间两类特征向量组合成复向量。对于输入的时序特征x和空间特征y,通过超参数β调节权重得到社交网络用户特征向量z=β×x+(1-β)×y。最终选取判别式模型代表SVM、生成式模型代表Naive Bayes 及集成学习分类算法代表AdaBoost 检测社交网络灰帽用户,并对检测结果进行比较分析。
3 实验结果与分析
3.1 数据集
为分析验证DSTC 的适用性和有效性,本文实验共用了4 个数据集,各数据集统计信息如表1所示。
表1 DSTC 数据集数据分布Table 1 Distribution of DSTC dataset
在表1中,UGC 和diffusion分别表示数据集中是否包含用户发布的UGC 及对应传播信息,√代表包含,×代表不包含。当源数据不包含UGC 或UGC传播信息时,通过网络爬虫对社交网络源数据进行数据扩展,根据源数据中的用户信息匹配查找并确定用户,爬取用户最新的信息和最近50 条UGC 及其传播过程,保证源数据最新且数量足够用来分析UGC 及UGC 传播过程信息。如果出现用户已注销或源UGC 已删除等错误,则忽略该用户或该UGC。
Caverlee 数据集由RYUMINL 等[19]提供,包含从2009 年12 月30 日 至2010 年8 月2 日 在Twitter 上 收集的社交蜜罐数据集。该数据集包含用户基本属性信息,用户粉丝数随时间的变化及这段时间内用户发布的推文。
根据2018 年美国中期选举期间收集的政治推文,美国印第安纳大学复杂网络与系统研究中心的YANG 等[20]筛选收集了相关用户及数据,并手动确定了一些真正参与了有关选举和在线讨论的真实人类用户及发现的机器人帐户。在选举后,大多数机器人程序帐户都已被Twitter 暂停,证实了作者标注标签的正确性。
CRESCI-17[14]和CRESCI-15[21]均 由CRESCI 团队提供。CRESCI-15 包含手动标注的真实和虚假Twitter 帐户。CRESCI-17 数据集中的僵尸用户包含更细粒度的分类:传统的垃圾用户、社交垃圾用户和假粉丝。传统的垃圾用户监听程序是简单的漫游器,会反复发布相同的内容;社交垃圾用户模仿普通用户的个人资料和行为,可以躲避某些检测方法;假粉丝是某用户为了扩大影响力而购买的用户。本文将3 类不同类标的灰帽用户统一为灰帽用户(不区分灰帽类型,类标一致)。
3.2 实验设计及结果分析
3.2.1 传播特征有效性验证
为了验证所提传播时空特征是否有效,另提取传统方法所用的用户属性特征和UGC 文本特征。用户属性特征包括粉丝数量、关注数量、UGC 总数、F-F 比率、性别、年龄、是否为认证用户等特征;UGC 文本特征包括最近一周发布UGC 的数量、包含超链接的UGC 占UGC 总数的比率、评论他人的UGC 占UGC 总数的比率、转发他人的UGC 占UGC 总数的比率、@他人的UGC 占UGC 总数的比率、参与话题的UGC 占UGC总数的比率、UGC 之间的相似性等特征。针对3 类特征分别采用SVM、Naïve Bayes、Adaboost分类算法进行检测,实验结果如表2 所示。评价指标采用准确率(Accuracy)、F1-score 和AUC(Area Under Curve)。其中F1-score 代表precision(正确预测的正样本数占所有预测为正样本的数量的比值)和recall(正确预测的正样本数占真实正样本总数的比值)的调和平均,F1-score 越高说明试验方法越有效;AUC代表ROC 曲线(以假正率(FP_rate)和真正率(TP_rate)为轴的曲线)的面积,AUC 越高,分类性能越好。
表2 不同分类器在不同数据集下特征分类性能对比Table 2 Comparison of feature classification performance of different classifiers on different datasets
表2 中加粗数据表示不同分类方法针对同一分类器下在同一数据上分类指标最优的数据。由表2 可知,本文提出的DSTC 方法所提取的传播时空特征在各个数据集上的分类效果均优于传统方法所用的用户属性和UGC 文本特征,证明了DSTC 所提传播时空特征的有效性。以研究应用最广且分类效果差别不大的Caverlee 数据集为例,选用集成学习AdaBoost 方法时,通过对比用户特征和文本特征,发现传播特征在AUC值上也能分别提高0.000 8 和0.064 6。用户特征性能优于文本特征是因为相比用户特征单一选项更改性不强,灰帽用户更容易通过发布正常UGC 文本来隐藏自身,而传播特征直接反映用户行为特性,可以更好地揭示用户之间的差异,故分类效果更好。
以差异最明显的CRESCI-17 数据集为例,选用集成学习AdaBoost 方法对比用户特征和文本特征,发现传播特征在AUC 值上分别提高0.103 2和0.112 6。此外,虽然同样是传播特征且在不同数据集不同分类器中传播特征分类表现有差异,但整体分类性能表现良好。而用户属性、文本特征的分类性能虽然在某个数据集上优于DSTC 传播特征,但在其他数据集的分类效果并不理想,证明传统方法并不适合所有数据集,其鲁棒性不高。本文DSTC 方法提出的传播特征适用性更高。
3.2.2 DSTC 方法有效性验证
为验证本文DSTC 检测方法的有效性,与其他同类检测方法进行对比,包括与传统检测方法和当前较为流行或新颖的灰帽用户检测算法进行对比,如CRESCI 提出关于用户UGC 传播相似性的社交指纹数字DNA 检测方法(DDNA)、通过常用混合模型方法检测的SSDMV 方法和最近提出的集成用户社交网络和活动图网络的SAN 方法,AUC 值对比如图3 所示,实验对比结果如表3 所示。
表3 不同方法在不同数据集下分类性能对比Table 3 Comparison of Classification performance of different methods on different datasets
图3 不同方法在不同数据集下AUC 的对比Fig.3 Comparison of Area Under Curve of different methods on different datasets
由图3 和表3 可以看出,DDNA 方法在其他数据集上的效果并不理想,这是因为DDNA 通过作者自定义设计的数字DNA 转换方法将用户UGC 转为DDNA 序列,并通过计算序列之间的相似性学习两类用户之间的差异。DDNA 方法虽简单高效,但因为设计主观性太强,普适性并不高,只在针对表现差异明显的CRESCI 数据集时有较好表现。
SAN 方法通过统一用户社交网络与UGC 传播活动网络,并耦合3 种基于随机游动的算法检测灰帽用户,该方法在各个数据集上表现良好。但因SAN 所采取的半监督信任传播策略本身存在实验效果稳定但精度不够的问题,虽然已解决普适性和适配性问题,但该方法在各个数据集上的表现也并非最优。
SSDMV 方法效果与DSTC 差异不大甚至在有些数据集上优于DSTC,能解决普适性和适配性问题,但SSDMV 方法需提取用户、文本、社交网络关注图结构、用户回复图结构等4 类特征后将各个视图特征通过阶梯网络设计过滤门组件融合训练,方法复杂且难于计算,时空耗费太高。
基于DSTC 的用户检测性能在多个数据集上优于其他方法,例如准确率最高提升26.08%,AUC 值最高提升30.54%。这是因为DSTC 提取的基于传播时序和空间特性能更好地反映各类灰帽与白帽用户之间的差异,简化检测算法的同时增强了检测算法的鲁棒性和普适性。
综上所述,本文所提DSTC 方法能有效检测社交网络灰帽用户,不仅解决了灰帽用户检测算法只能针对特定种类的问题,而且更加简单,检测精度和适用性更高。
4 结束语
本文针对社交网络灰帽用户检测算法适用性较差的问题,提出一种基于传播时空特性的检测算法。根据社交网络UGC 传播中的时空特性定义提取相关特征,从UGC 传播角度区分灰帽白帽之间的差异性,并融合传播时序和传播空间特征进行分类检测。实验结果表明,该算法在CAVERLEE、CRESCI-15、CRESCI-17 等多个数据集上效果较好,在保证检测精度的前提下,简化了检测算法,提高了算法适用性。下一步将研究传播序列的上下文关系特性,同时结合特征融合算法实现更好的分类性能。