APP下载

基于随机森林的微博僵尸账号检测研究

2020-12-07徐华露汤娟刘嘉勇

现代计算机 2020年30期
关键词:用户名僵尸账号

徐华露,汤娟,刘嘉勇

(四川大学网络空间安全学院,成都610225)

0 引言

僵尸账号[1]通常指由程序操控,模仿人类在社交网络上的行为,对正常的社交行为产生影响的特殊账号。僵尸账号作为社交机器人[4]的一种,活跃在各大社交平台。它常常被用来扩散虚假信息、操纵舆论、窃取个人信息等[6],对社交网络造成了负面影响[1]。

在过去的研究中,通常关注于对僵尸账号的检测问题[1,11]。文献[3,12]将用户粉丝数、关注数、微博数等行为特征和机器学习方法相结合来检测僵尸账号。方明等人[8]对用户名进行分类来检测僵尸账号。文献[7,13]则着重于分析用户粉丝结构等网络特征。文献[12]从urls、@数等文本特征入手检测僵尸账号。研究者通过发现僵尸账号与正常账号间的特征差异性,如文本特征[12]、行为特征[13]或网络结构特征[9],结合机器学习的方法来检测僵尸账号。

虽然已经有许多研究者通过各种方法分析并检测僵尸账号,但僵尸账号不断发展,其检测仍然是社交网络安全研究的重难点。同时,目前针对僵尸账号的研究并未针对不同类别的僵尸账号,无法适应不同僵尸账号的多样性。本文从不同类别的僵尸账号的差异性入手,基于基础特征和内容特征,分析五类的僵尸账号之间的差异性与其和正常账号的差异性,结合随机森林算法检测僵尸账号。实验结果表明,各类僵尸账号与正常账号相似度各不相同,其中初级僵尸账号与正常账号差距最为明显,检测准确率最高,而仿真僵尸账号最接近正常账号,准确率最低。

1 微博账号收集及特征分析

1.1 基于蜜罐的僵尸粉丝数据收集

在泛娱乐化和商业化利益的驱动下,对虚假粉丝的买卖不断增多,逐渐形成僵尸账号买卖市场[5]。在目前的市场上,主要有以下五类僵尸账号:

初级僵尸账号:注册时间较短,仅在注册后几天发布微博,无粉丝及关注,购买后粉丝列表留存率为0,极易被微博系统识别为僵尸账号。

高级僵尸账号:注册时间较长,仅在注册后几年更新微博,且与其他僵尸账号存在互动行为,购买后粉丝列表留存率为0,不易被系统识别。

仿真僵尸账号:小部分账号部分定期更新微博,与其他僵尸账号存在极少互动行为,购买后粉丝列表留存率几乎为0,易于被系统识别。

排名僵尸账号:注册时间长,用户等级较高,部分账号部分定期更新微博,与其他账号存在更多的互动行为,粉丝列表留存低,部分难以被系统识别。

达人僵尸账号:注册时间长,有大量粉丝,定期更新微博,购买后粉丝列表留存率较高,难以被系统识别。

蜜罐是收集僵尸账号的一种常用手段。本文注册5 个微博账号作为蜜罐页面,并从一家提供僵尸账号服务的公司购买了上述五类僵尸账号,分别注入相应蜜罐页面,并使用爬虫采集其个人信息等相关信息。表1提供了收集的五类僵尸账号的信息。

表1 蜜罐账户的汇总统计

1.2 基础特征分析

本文从正常账号中随机抽取出500 个账号,与五类僵尸账号一同进行了基础特征值分析,做出了相应的CDF 比对图。其中包括用户名复杂度,用户的粉丝数,用户的关注数,注册时间五方面的比对,并绘制了五类僵尸账号的均值线。比对结果如下:

用户名复杂度:本文使用Jieba 算法对六组账户中的用户名进行了分词。设n为词的数量,K为数词的个数,leni为第i个词的长度。则有用户名复杂度僵尸账号的用户名复杂度低于正常账号。初级僵尸账号的用户名结构为文字+随机数字的形式,可读性较差。达人僵尸账号的用户名中含有较少的符号,可读性较强。

注册时间:正常僵尸账号的注册天数分布均匀,而五类僵尸账号的注册天数CDF 图呈阶梯型上升,绝大部分用户的注册时间具有一致性。其中初级僵尸账号的注册时间均在购买粉丝日期的前4 天,CDF 分布图集中,达人僵尸账号多于早期统一注册。

用户的粉丝数:达人僵尸账号的粉丝数量分布远远高出正常账号数倍,正常账号的粉丝数量分布较为均衡,初级僵尸账号几乎没有粉丝,其他几类僵尸账号粉丝分布较为集中。

用户的关注数:正常用户的关注数量多数小于500,且与僵尸账号有明显的差别。其中初级僵尸账号几乎没有关注任何用户,高级僵尸账号长期进行粉丝买卖服务,因此具有较大的关注量,关注数绝大部分高于2000。达人僵尸账号的关注数集中于1000-2000之间。

综上所述,较为常见的初级僵尸账号与正常账号之间存在较大差异性。绝大多数达人僵尸账号具有更多的粉丝数量、较为均衡的关注数,更集中的注册时间,更具可读性的用户名,普通用户更难从海量账号中区分出达人僵尸账号。

图1 基础特征CDF图

1.3 传播特征分析

为了了解五类僵尸账号之间,五类僵尸账号与正常账号之间的传播特性差异。本文比较分析了僵尸账号与正常账号的微博传播特征和内容特征。

表2 比对了僵尸账号与正常账号的微博传播特性。从表中可以看出,仿真僵尸账号、初级僵尸账号和达人僵尸账号的微博被转发概率、点赞概率以及微博的评论概率99%以上都为0,并且几乎没有数据在10以上,与正常账号相比有明显差异。排名僵尸账号则被转发率、点赞率,和评论率则更接近正常账号。高级僵尸账号其次。

表2 微博传播特征汇总

表3 比对了僵尸账号与正常账号的微博传播内容特性。从表中可以看出,初级僵尸账号与其他四类僵尸账号之间具有明显的传播性差异,它们发布的微博数量较少,几乎不存在URL,@或是#标签,且微博也较短。达人僵尸账号的行为与初级僵尸账号的行为类似,但其发布的微博较长,接近平均水平。超级僵尸账号与排名僵尸账号发布了大量的微博,且存在较多的URL、@和#标签。其中超级僵尸账号的URL 的比例远高于正常账号,甚至一条微博中带有多个URL 连接。仿真僵尸账号虽然微博较多,但其中含有的URL、@和#话题标签比率都较少,和达人僵尸账号的传播特征较为类似。

表3 微博传播内容特征汇总

综上所述,在传播特性方面,五类僵尸账号之间具有较大的差异性。初级僵尸账号、仿真僵尸账号以及达人僵尸账号的传播行为较少,远低于正常值。而高级僵尸账号以及排名僵尸账号的各项传播特征远高于正常值。五类僵尸账号从事的业务不同,导致其产生差异性。

2 基于随机森林的僵尸账号检测方法

2.1 检测模型框架

基于随机森林的僵尸账号检测模型如图2 所示,该模型主要包括两部分:数据特征提取模块以及随机森林检测模块。本文使用Python 爬虫获取到原始数据集,对原始数据集进行清洗以及预处理后,进行基础特征分析和传播特征分析,转化为特征集向量。最后,本文将数据集随机分为80%的训练数据集和20%的测试数据集,根据特征集向量对数据进行训练和检测。

图2 检测模型框架

2.2 随机森林算法概述

随机森林是一个包含多个决策树的分类器,随机森林可以处理大量的输入变数,并且可以平衡误差,产生高准确度的分类器。本文提取出每个用户的特征组,其中随机选择80%的样本作为训练集N_train,余下部分为测试集N_test。要建立m 棵树的随机森林的具体步骤大致如下:

(1)构建训练集与测试集:通过Bogging 方法从N_train 中通过重采样的方式产生n 个样本。

(2)构建标准特征集:对特征样本集F 进行标准化处理,将数据按比例缩放,使之落入(0,1)的特定区间内,得到标准特征集F_standard。

(3)选取特征并构建决策树:F_standard 特征数目为11,用基尼指数选择其中5 个最优特征,若基尼值为则属性a 的基尼指数为:根据使基尼指数最小的属性进行选择,决定最优二值切分点进行分裂。

(4)构建随机森林:重复步骤(3)m 次,产生m 棵决策树。

(5)测试数据:每一棵决策树都对N_test 中的每一条数据进行分类,统计m 个分类结果,票数最多的类别,即为该样本的最终类别。

3 僵尸账号检测试验

3.1 实验数据

本文通过Python 爬虫,获取了2,496 个僵尸账号的数据,10,000 个正常用户的数据,以及共12,496 条用户相关数据。提取出的每个用户的特征组如表4 所示,包括用户名复杂度、用户的粉丝数、用户的关注数、用户注册时间、用户发布微博数、用户微博原创率、用户微博转发率、微博中所包含的url、话题和@比率、微博平均长度。

表4 特征分类描述

3.2 评估指标

本文在计算每类账号评估指标时,将该类作为正类,其他类别统一视为负类,将多分类问题转换为二分类问题。实验的采用的评估指标如下:

3.3 实验结果及分析

本文将数据集随机分为80%的训练数据集和20%的测试数据集,根据上述特征使用随机森林对僵尸账号进行了检测。在检测过程中,将被检测的一类僵尸账号作为正类,其余类别的僵尸账号和正常账号一起作为负类,得到实验结果如表5 所示。结果表明,初级僵尸账号检测准确率最高,其精确率、召回率及F1 值也较高。说明初级僵尸账号的特征较为明显,更易于识别。而仿真僵尸账号拥有最低的准确率和精确率,说明其特征近似于正常账号,因此较难检测。

表5 各类僵尸账号检测的性能指标对比

4 结语

本文专注于研究五类微博僵尸账号的特征与检测。通过基于蜜罐的比较分析法,描绘出目前五类僵尸账号的特征:僵尸账号产业的控制者在不断生产并培养僵尸账号,根据业务需求提升僵尸账号的仿真程度,因此导致不同种类的僵尸账号具有不同的特征。最终,本文随机森林对僵尸账号进行检测,其中初级僵尸账号与正常账号差异较为明显,得到的准确率最优,而仿真僵尸账号则最接近于正常账号,其准确率最低。

猜你喜欢

用户名僵尸账号
《现代临床护理》杂志投稿程序
《护士进修杂志》投稿程序
玩游戏没账号租一个就行
施诈计骗走游戏账号
笔记本电脑“僵尸”
机智的快递员
Google Play游戏取消账号绑定没有Google账号也能玩
在舌尖上筑牢抵御“僵尸肉”的防火墙
巧用凭据管理 自动登录网络
僵尸来袭