基于自适应差异化图卷积的社交网络新增恶意用户检测
2023-10-18吴正昊曾国荪
吴正昊 曾国荪
摘 要:社交网络新增恶意用户检测作为一项分类任务,一直面临着数据样本不足、恶意用户标注稀少的问题。在数据有限的情况下,为了能够精确地检测出恶意用户,提出一种基于自适应差异化图卷积网络的检测方法。该方法通过提取社交网络中的用户特征和社交关系构建社交网络图。构建社交网络图后,计算节点与邻居的相似度,并对邻居进行优先级排序,利用優先级顺序采样关键邻居。关键邻居的特征通过自适应权重的加权平均方式聚合到节点自身,以此更新节点特征。特征更新后的节点通过特征降维和归一化计算得到恶意值,利用恶意值判断用户的恶意性。实验表明该方法和其他方法相比,具有更高的恶意用户查全率和整体查准率,并且能够快速地完成对新增用户的检测,证明了自适应差异化图卷积网络能够有效捕捉到少量样本的关键特征。
关键词:社交网络;用户分类;机器学习;图神经网络;恶意用户
中图分类号:TP183 文献标志码:A
文章编号:1001-3695(2023)09-041-2820-06
doi:10.19734/j.issn.1001-3695.2022.12.0835
Detection of new malicious users in social networks based on adaptive differential graph convolution
Wu Zhenghao1,2,Zeng Guosun1
(1.Dept. of Computer Science & Technology,Tongji University,Shanghai 201804,China;2.Embedded System & Service Computing Key Laboratory of Ministry of Education,Shanghai 201804,China)
Abstract:As a classification task,the detection of new malicious users in social networks has been facing the lack of datasets and labels of malicious users.With limited data,this paper proposed a method based on adaptive differential graph convolution to detect malicious users accurately.By extracting user features and social relationships in the social network,the method constructed the social network graph.After this,it calculated the similarities between node and its neighbors to prioritize the neighbors,and used the priority order to sample key neighbors.The node used adaptive weighted average to aggregate the features of key neighbors to itself,to update its features.After feature updating,by feature dimension reduction and normalization,the node got its malicious value,for malicious detection.The experiment results show that,compared to other methods,the proposed method achieves higher precision and overall accuracy on detection of new malicious users,with a satisfactory speed.Results also demonstrate that adaptive differential graph convolutional networks can effectively capture the key features of a small number of data samples.
Key words:social network;user classification;machine learning;graph neural network;malicious user
0 引言
社交网络是当今互联网重要的组成部分,也是众多互联网用户生活中不可或缺的一部分。随着社交网络规模的不断扩大,海量用户中也出现了一些抱有恶意目的的用户。有研究统计,热门社交网络平台Twitter的活跃用户中有9%~15%是机器账号[1],其中大多数是发布广告、色情内容、欺诈链接等有害信息的恶意账号。Twitter平均每天会新增百万条以上的垃圾信息,大部分来源于恶意用户控制的机器账号[2]。除了散布垃圾信息,恶意用户还会利用社交网络实施信息攻击。2013年,黑客组织叙利亚电子军攻击了美联社的社交网络账号并发布白宫受到恐怖袭击的虚假消息,一度让美股市场崩盘[3]。2016年美国总统选举期间,Twitter平台的恶意账号散布了约31%的不可靠政治信息[4]。据研究分析,这些账号发布的政治信息在协助特朗普选举的过程中起到了重要作用[5]。除此之外,社交网络恶意用户还从其他方面威胁着社会稳定。例如,利用虚假信息制造网络舆论,对社交网络的个人或群体实施网络霸凌[6];在社交网络实施消费欺诈,用假装交易退款、低价促销等手段欺骗用户财产[7];在社交网络传播虚假新闻,潜移默化地影响大众对政治、娱乐、社会政策等事物的认知[8]。恶意用户的存在严重增加了正常用户在使用社交网络中被欺诈、骚扰、误导的风险,为了应对恶意用户对网络安全、社会稳定、政治渗透等方面带来的现实威胁,恶意用户检测技术的发展变得尤为迫切。
当前主流的恶意用户检测方法可大致分为基于人工、基于社交网络关系图和基于机器学习三类。基于人工的方法检测准确度高,但耗时耗力、效率低下[9]。基于社交网络关系图的方法检测效率高,但需要事先了解恶意用户在社交网络中的分布特征。由于获取这方面的信息并不容易,所以此类检测方法大多对社交网络的用户分布进行了人为假设。最简单的假设之一是Gong等人[10]提出的同质偏好假设,即两个相连的用户更可能具有相似的属性和类别。基于这一假设提出的检测方法多数采用随机游走技术,如文献[11]。另一种常见的假设是由Leskovec等人[12]研究提出的小型社群假设,即整个在线社交网络由若干个小型社群构成。基于这种假设,一些研究人员将马尔可夫网络和置信度传播等方法应用于恶意用户检测,如BOTection[13]。
然而,无论是同质偏好假设还是小型社群假设,其衍生出的检测方法的准确性都严重依赖于对网络结构理论假设的正确性,这也是基于社交网络关系图方法的通病[14]。为了摆脱先验知识和理论假设的束缚、提高检测技术的智能程度和泛化能力,越来越多的研究开始将图神经网络应用到恶意用户检测中。图神经网络作为一种基于图结构数据的机器学习方法,能够在缺少先验知识的条件下,有效地利用社交网络关系图的结构特征和用户节点特征,完成用户节点分类等任务。
GCN[15]是最早被提出用于节点半监督分类的图神经网络之一,它基于图的拉普拉斯矩阵分解定义图卷积操作,利用图卷积更新节点特征并对节点进行分类。GraphSAGE[16]从另一个角度定义图卷积,它将图节点的信息卷积分为采样和聚合两阶段,使节点特征更新方式更加灵活。文献[17]首先将图卷积神经网络引入恶意用户检测,提出了基于GCNN的Twitter恶意用户检测框架,为图神经网络检测恶意用户提供了性能参考基准。GAT[18]将注意力机制融入图卷积过程,以区分不同节点的重要性。文献[19]将GAT提出的图注意力机制融入了恶意用户检测中,检测性能相较传统方法有显著提升。近两年也有研究将异质图神经网络引入恶意用户检测中,如文献[20]提出的Bot-MGAT。
可见,研究人员已经开始将经典的和改进的图神经网络应用于恶意用户检测,但仍然面临一些问题。第一,在社交网络中,恶意用户的数量远小于正常用户,而被明确标注为恶意用户的样本数量更加稀少。在大量正常样本特征的影响下,经典的图神经网络很难学习到恶意用户的典型特征,导致检测效果不尽如意。第二,当前的主流方法大多通過增加模型层数、改变网络架构以及融合多视角信息对经典图神经网络进行改进,这些改进能够在一定程度上提升检测准确率,但也会导致模型对训练数据的依赖和复杂度的增加。在训练数据较少的情况下,模型会因为多视角信息的缺失而性能退化。除此之外,随着新增用户加入社交网络,高复杂度模型的训练开销和检测开销也会越来越大。面对以上问题,本文旨在针对恶意用户检测这一应用场景,构建一种简洁且能够尽可能捕捉有限学习数据中重要信息的图卷积神经网络,并在此基础上提出一种新增恶意用户的检测方法。
4 实验与分析
4.1 实验数据集和运行环境
实验采用Twitter 1KS-10KN dataset[21]作为数据集对模型进行训练和验证。该数据集是本研究领域常用的基准数据集,基本信息如表1所示。
为了更直观地了解恶意用户和正常用户在社交网络图中的分布情况,本文将数据集进行了可视化,如图3所示。
图中红色代表恶意用户,蓝色代表正常用户(见电子版)。在中心聚集的是度数较高的节点,也就是社交网络中关注者和粉丝数较多的用户。绝大多数恶意用户都集中在这一区域,他们广泛地关注其他用户,以便将恶意信息传播给更多人。一部分正常用户也在这一区域,他们通常是社交网络中具有一定影响力的意见领袖或现实中的知名人物,因而有较多追随者。在网络边缘聚集并形成圆环节点群的是度数较低、但仍拥有一定的邻居和粉丝的用户,他们代表着绝大部分使用社交网络的普通人:用户有自己的小范围社交圈,部分追随中心区域的高影响力用户。分布在这一区域的用户绝大部分是正常用户,但仍有少量恶意用户混杂在正常用户群中,只是影响范围更小。在中心区域和圆环之间,散布着极少量的孤立用户,他们在网络中不存在社交关系,没有关注的价值。
对实验数据集的分析进一步说明了恶意用户检测中的正负样本数量不平衡问题:恶意用户远少于正常用户,需要从有限的样本中尽可能学习到恶意用户的典型特征。此外,可视化图显示出恶意用户存在多种分布特征,既有聚集性恶意群体,也有分散的恶意个体,要求检测方法具有更强的鲁棒性。
在网络结构分析后,进一步对用户资料的属性特征进行了分析和筛选,忽略了与用户恶意性明显不相关的属性项,选择了如表2所示的七项用户属性作为特征进行实验。由于各个特征的值数量级差异较大,为了避免量级较小的特征作用被掩盖,实验对数据进行了L2标准化处理。
实验运行于Windows平台,使用Python语言编程,基于PyTorch和Deep Graph Library平台搭建检测模型。实验平台主要硬件配置为:CPU i7-10750H、GPU RTX 3060 12 GB。
4.2 评价指标
检测模型性能对比采用的指标包括准确率、召回率、精确率和F1值。
准确率即模型预测标签正确的样本数与总测试样本数的比例,是最直观的模型评价指标。但在正样本远少于负样本的情况下,准确率并不能很好地反映模型检测恶意用户的能力,因此还需要结合召回率和准确率判断模型性能。
召回率是指模型检测出的正确的正样本数与全部正样本数的比例,而精确率是指模型检测正确的正样本数和所有预测为正的样本数的比例。召回率反映了模型发现恶意用户的能力,精确率则反映了模型预测恶意用户的准确程度。如果召回率高而精确率低,说明模型的误报率很高;反之说明模型在检测中过于谨慎,导致检测能力下降。
F1值是根据召回率和精确率计算出的反映模型综合性能的指标,F1值越高,说明模型的召回率和精确率都较高,没有出现指标值两极分化的情况。因此,在所有评价指标中,F1值的重要性是最高的。
4.3 实验结果与分析
为了检验本文提出的自适应差异化图卷积模型的性能和效果,选取了多层感知机MLP模型、三种经典图神经网络模型,以及2022年最新提出的Bot-MGAT模型[20]作为基准模型对比。将Twitter 1KS-10KN数据集按照节点数6:2:2的比例分为训练集、验证集和测试集,分别包含6 600、2 200、2 200个节点。在设置相同训练参数和训练批次的情况下,分别训练各基准模型和本文提出的自适应差异化图卷积模型,并在测试数据集上验证对比各模型检测恶意用户的效果。
具体的实验参数为:所有的线性变换W维度均为256,权重组或注意力头数为4(如果有),LeakyReLU函数的负轴斜率为0.2,特征向量和权重向量的丢弃率均为0.5,初始学习率为0.01,一阶邻居和二阶邻居采样数均为10,交叉熵损失函数中的超参数γ0=1和γ1=2。在自适应差异化图卷积网络中,一阶优先采样邻居数为7,随机采样邻居数为2,二阶优先采样邻居和随机采样邻居数均为5,结构紧密度εlow=1,εhigh=2。
实验结果如表3、4所示。表3展示了不同方法在测试数据集上检测恶意用户的各项指标。可见,自适应差异化图卷积网络在检测准确率、召回率和F1值都高于其他方法,综合表现最优。MLP是基于传统人工神经网络的机器学习分类方法,它只利用节点的属性数据进行训练学习,忽略了网络中的社交关系。因此,在恶意样本数较少的情况下,MLP很难学习到恶意用户的典型特征,从而导致检测恶意用户的召回率很低。GCN考虑了网络的结构特征,由于恶意节点和与恶意节点相关的边在网络中占比都很低,单层GCN无法完全提取到恶意用户的深层次特征,所以检测效果恶意用户的能力较差。在增加一层网络后,GCN检测恶意用户的能力有显著提升,但由于GCN存在固有的结构限制,只能进行直推式学习,无法解决检测新增节点恶意性的问题。GAT和GraphSAGE都是归纳式模型,能够利用已有的模型检测新增节点,但在实验测试中,两种方法的召回率都很低,层数的叠加对性能的提升也并不显著。从两者网络结构分析推测,GAT虽然在聚合邻居信息时考虑了邻居的重要性,但没有对邻居采样,可能聚合到噪声信息;GraphSAGE对邻居进行了采样,但忽略了不同邻居的重要性,因此很难学习到惡意用户的关键特征。最新的Bot-MGAT基于社交网络的多视角信息,在构建检测模型框架时为不同类型的社交关系分别设置了多层图注意力网络,但在只有单类型关系的数据集下,其性能因数据缺失而退化为近似于一般的多层GAT模型。
为了验证二阶段采样和自适应聚合函数模块在网络中起到的作用,实验在相同的条件下分别去掉这些模块,用随机采样和平均聚合代替,以对比分析各模块在自适应差异化图卷积网络中的作用。
表4分别展示了用随机采样替换二阶段采样、用平均聚合替换自适应聚合的自适应差异化图卷积网络在测试数据集上检测恶意用户的各项指标。显然,替换网络的任一模块后,模型检测恶意用户的能力都有所下降。根据性能下降的幅度可以看出,自适应聚合模块在网络中起到的作用比二阶段采样模块更大,因为二阶段采样只是对节点邻居的初步筛选,只有在自适应聚合模块的协助下才能更好地帮助发现重要邻居信息。
在测试模型检测性能指标过程中,实验记录了在本测试环境下的节点平均检测时间。结果显示,本文的检测方法每秒可检测约100名新增用户,能基本满足实时性要求。
5 结束语
社交网络恶意用户检测是网络安全领域中的重要课题之一。在恶意用户检测中,社交网络用户不断新增和恶意用户样本标注稀少是要面对的两个主要难题。在已知学习数据有限的情况下,现有的检测方法大多趋于两个极端:过于简单而无法学习到恶意用户特征,或过于复杂而无法满足不断新增的检测需求。基于这一背景,本文提出了自适应差异化图卷积神经网络,在图卷积的采样和聚合过程中都从不同角度强化了对恶意用户特征的学习,利用有限的数据最大程度强化模型对恶意用户的检测能力。为了能够迅速检测不断新增的社交网络用户,本文在自适应差异化图卷积网络的基础上提出了一种检测新增用户恶意性的方法。实验在数据集Twitter 1KS-10KN dataset上对方法的有效性进行了测试和验证,结果显示本文方法相较其他基准检测方法有着更高的准确度和较快的新增用户检测速度。
本文构建的自适应差异化图卷积网络模型在检测社交网络新增节点的恶意性上取得了较好的效果,但仍存在一些局限性和可以改进的地方。例如,在模型构建方面,忽略了用户的社交文本信息,只处理了单类型社交关系;在模型训练方面,为了尽可能检测出更多的恶意用户而降低了正常样本的权重,导致了一部分检测精确率的下降。这些内容将在未来的研究中进一步深入和改进,以便得到效果更好的新增恶意用户检测模型。
参考文献:
[1]Varol O,Ferrara E,Davis C,et al.Online human-bot interactions:detection,estimation,and characterization[C]//Proc of International AAAI Conference on Web and Social Media.Palo Alto,CA:AAAI Press,2017:280-289.
[2]Chu Zi,Gianvecchio S,Wang Haining,et al.Who is tweeting on Twitter:human,bot,or cyborg?[C]//Proc of the 26th Annual Computer Security Applications Conference.New York:ACM Press,2010:21-30.
[3]Foster P.′Bogus′AP Tweet about explosion at the White House wipes billions off US markets[EB/OL].(2013-04-23)[2022-12-18].https://www.telegraph.co.uk/finance/markets/10013768/Bogus-AP-tweet-about-explosion-at-the-White-House-wipes-billions-off-US-markets.html.
[4]Fryling K.Study:Twitter bots played disproportionate role spreading misinformation during 2016 election[EB/OL].(2018-11-20)[2022-12-18].https://news.iu.edu/stories/2018/11/iub/releases/20-twitter-bots-election-misinformation.html.
[5]Bovet A,Makse H A.Influence of fake news in Twitter during the 2016 US presidential election[J].Nature communications,2019,10(1):7.
[6]Balakrishnan V,Khan S,Fernandez T,et al.Cyberbullying detection on Twitter using big five and dark triad features[J].Personality and Individual Differences,2019,141:252-257.
[7]Liu Zhiwei,Dou Yingtong,Yu P S,et al.Alleviating the inconsistency problem of applying graph neural network to fraud detection[C]//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2020:1569-1572.
[8]Pérez E A,Pedrero E L M,Rubio R J,et al.Fake news reaching young people on social networks:distrust challenging media literacy[J].Publications,2021,9(2):24.
[9]劉蓉,陈波,于泠,等.恶意社交机器人检测技术研究[J].通信学报,2017,38(S2):197-210.(Liu Rong,Chen Bo,Yu Ling,et al.Overview of detection techniques for malicious social bots[J].Journal on Communications,2017,38(S2):197-210.)
[10]Gong N Z,Frank M,Mittal P.Sybilbelief:a semi-supervised learning approach for structure-based sybil detection[J].IEEE Trans on Information Forensics and Security,2014,9(6):976-987.
[11]Karpov I,Glazkova E.Detecting automatically managed accounts in online social networks:graph embeddings approach[M]//van der Aalst W M P,Batagelj V,Buzmakov A,et al.Recent Trends in Analysis of Images,Social Networks and Texts.Cham:Springer International Publishing,2021:11-21.
[12]Leskovec J,Lang K J,Dasgupta A,et al.Community structure in large networks:natural cluster sizes and the absence of large well-defined clusters[J].Internet Mathematics,2009,6(1):29-123.
[13]Alahmadi B A,Mariconti E,Spolaor R,et al.BOTection:bot detection by building Markov chain models of bots network behavior[C]//Proc of the 15th ACM Asia Conference on Computer and Communications Security.New York:ACM Press,2020:652-664.
[14]仲丽君,杨文忠,袁婷婷,等.社交网络异常用户识别技术综述[J].计算机工程与应用,2018,54(16):13-23.(Zhong Lijun,Yang Wenzhong,Yuan Tingting,et al.Survey of abnormal user identification technology in social network[J].Computer Engineering and Applications,2018,54(16):13-23.)
[15]Kipf T N,Welling M.Semi-supervised classification with graph convolutional networks[C]//Proc of International Conference on Learning Representations.2017.
[16]Hamilton W L,Ying Z,Leskovec J.Inductive representation learning on large graphs[C]//Proc of the 31st Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:1025-1035.
[17]Alhosseini S A,Tareaf R B,Najafi P,et al.Detect me if you can:spam bot detection using inductive representation learning[C]//Proc of World Wide Web Conference.New York:ACM Press,2019:148-153.
[18]Velicˇkovic' P,Cucurull G,Casanova A,et al.Graph attention networks[C]//Proc of International Conference on Learning Representations.2018.
[19]Zhao Chensu,Xin Yang,Li Xuefeng,et al.An attention-based graph neural network for spam bot detection in social networks[J].Applied Sciences,2020,10(22):8160.
[20]Alothali E,Salih M,Hayawi K,et al.Bot-MGAT:a transfer learning model based on a multi-view graph attention network to detect social bots[J].Applied Sciences,2022,12(16):8117.
[21]Yang Chao,Harkreader R,Zhang Jialong,et al.Analyzing spammers social networks for fun and profit:a case study of cyber criminal ecosystem on Twitter[C]//Proc of the 21st International Conference on World Wide Web.New York:ACM Press,2012:71-80.
收稿日期:2022-12-20;修回日期:2023-02-13 基金項目:国家自然科学基金资助项目(62072337);国家重点研发计划资助项目(2019YFB1704100)
作者简介:吴正昊(1999-),男,四川德阳人,硕士研究生,主要研究方向为图神经网络、信息安全(zhenghaowu1999@foxmail.com);曾国荪(1964-),男,江西吉安人,教授,博导,博士,主要研究方向为信息安全、大数据处理和并行分布计算等.