基于新浪微博的社交网络垃圾用户分析与检测
2014-09-26孟祥飞徐路王思雨
孟祥飞+徐路+王思雨
摘 要:随着信息技术和互联网的飞速发展,社交网络在人们生活中扮演着不可替代的角色。但同时,社交网络中也充斥着各种各样的广告信息,严重影响了用户的体验。一些营销团队恶意注册的大量垃圾账号也让正常用户不胜其烦。针对这些问题,首先阐述了社交网络垃圾用户产生的原因,进而分析了垃圾用户的特征,最后基于新浪微博的数据,使用C4.5决策树分类算法对用户进行分类。实验结果显示,该方法检测用户的准确率为92%.
关键词:社交网络;新浪微博;垃圾用户;分类
中图分类号:TP393 文献标识码:A 文章编号:2095-6835(2014)15-0125-03
社交网络是在线社交网络(Online Social Network,“OSN”)的简称。社交网络服务是基于六度分隔理论,以互动交友,用户之间共同的兴趣、爱好、活动或者用户间真实的人际关系为基础,以实名或者非实名的方式在网络平台上构建的一种社会关系网络服务。Facebook被认为是第一个真正意义上的社交网站。当今热门的Twitter、新浪微博、腾讯微博、人人网等都属于社交网络。截至2012-08,世界上最大的社交网站Facebook拥有注册用户约10亿人,其网络流量曾一度超过网络巨头Google;新浪微博的最新注册用户已达到了3亿;人人网用户量在2亿左右。其中,新浪微博是最活跃、最有影响力的微博平台之一。微博的单向关注和即时推送机制使得信息在该平台上传播极为迅速,形成了“围观改变中国”的架势。
1 微博垃圾用户产生的背景
随着社交网络的快速发展,其传媒价值受到了社会各界的关注。在微博中,拥有众多粉丝的明星用户在社会舆论中有着非常重要的作用。如今,微博作为举足轻重的宣传平台,受到了广告商的青睐,他们通过发起话题、借助明星微博等方法来宣传产品。很多营销团队为了推销,注册了大量账号,专门发布广告,宣传网店、产品等信息。这些广告信息在没有监管的情况下,充斥着整个社交网络,不仅真实性无法保证,而且对用户体验产生了极大影响。另外,在新浪微博中,拥有极高粉丝数量的意见领袖的出现也给了投机者们一种营销的渠道。他们注册了大量账号,并在网上出售粉丝。当有用户向其购买时,他们就用大量的账号去关注该用户,提高该用户的关注度和影响力得分,借此吸引普通用户的注意。一些炒作团队也会使用批量注册的账号去对某一话题进行炒作,使其变成热门话题,借此达到影响舆论的目的。这些批量注册的账号不仅给服务器增加了许多负担,而且扰乱了微博的生态秩序。由其制造的层出不穷的谣言也降低了微博作为信息来源的可靠性,影响普通用户的生活。笔者通过抽取用户的关注粉丝比、链接比、互粉数、平均评论数等特征,提出一种用户行为特征的垃圾用户分类检测方法,实现了对“用户是否为垃圾用户”的检测。
2 相关研究
2.1 关于垃圾用户检测的相关研究
在新浪微博兴起之前,Twitter与Facebook已经拥有众多的用户。由于Twitter与新浪微博的结构非常相似,对新浪微博垃圾用户的检测工作可以参考Twitter垃圾用户的检测工作。Kurt Thomas等学者在研究中指明,现在的垃圾用户不参与正常的社交生活,但是他们通过主动关注别人和在热门话题下发表垃圾评论来吸引正常用户点击。以往的许多研究工作是基于已有用户的数据来进行的,Zhi Yang等人用了一种基于蜜罐的方法来检测垃圾用户,通过在社交社区中放置蜜罐,吸引垃圾用户关注,然后通过链接搜集垃圾用户的图谱(Profile),搜集文本内容、社交网络和发布模式方面的特征。在对社交网络垃圾用户的研究中,垃圾用户的定义并不是学者进行研究工作的重点,Gianluca Stringhini等学者在其研究中将垃圾用户分为四类,针对其中的两类提取了相关特征,并用随机森林法进行分类。Alex Hai Wang在其关于Twitter的研究中对各种分类算法进行了比较。他使用了决策树、神经网络、支持向量机、K-近邻、和贝叶斯分类器提取了互粉数、粉丝比和追随比,然后又根据基于内容的分析和回复数来进行分类。通过实验,得到了贝叶斯分类最精确的结果。除了新浪微博之外,中国的人人网社交平台也拥有众多的用户。Yin Zhu在其关于人人网的研究之中,创新性地提出了利用矩阵分解的方法来进行垃圾用户的检测,定义了精确度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM进行用户分类工作,并对结果进行比较。
2.2 决策树算法的产生与改进
决策树算法最早是20世纪50年代由亨特在“CLS”(Concept Learning System)中提出,后经发展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奥卡姆剃刀的基础上,以信息熵和信息增益为衡量标准,从而实现对数据的归纳分类,其主要是针对离散型属性数据。C4.5决策树算法继承了ID3算法的优点,并对ID3算法进行了改进。C4.5决策树算法在树构造过程中进行剪枝,并且用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。C4.5决策树算法不仅能对离散型数据、连续属性的离散化进行处理,还能够对不完整数据进行处理。
参考以上学者的研究工作,我们决定提取用户的关注粉丝比、链接比、互粉数、平均评论数等特征,使用C4.5决策树算法来对用户进行分类。
摘 要:随着信息技术和互联网的飞速发展,社交网络在人们生活中扮演着不可替代的角色。但同时,社交网络中也充斥着各种各样的广告信息,严重影响了用户的体验。一些营销团队恶意注册的大量垃圾账号也让正常用户不胜其烦。针对这些问题,首先阐述了社交网络垃圾用户产生的原因,进而分析了垃圾用户的特征,最后基于新浪微博的数据,使用C4.5决策树分类算法对用户进行分类。实验结果显示,该方法检测用户的准确率为92%.
关键词:社交网络;新浪微博;垃圾用户;分类
中图分类号:TP393 文献标识码:A 文章编号:2095-6835(2014)15-0125-03
社交网络是在线社交网络(Online Social Network,“OSN”)的简称。社交网络服务是基于六度分隔理论,以互动交友,用户之间共同的兴趣、爱好、活动或者用户间真实的人际关系为基础,以实名或者非实名的方式在网络平台上构建的一种社会关系网络服务。Facebook被认为是第一个真正意义上的社交网站。当今热门的Twitter、新浪微博、腾讯微博、人人网等都属于社交网络。截至2012-08,世界上最大的社交网站Facebook拥有注册用户约10亿人,其网络流量曾一度超过网络巨头Google;新浪微博的最新注册用户已达到了3亿;人人网用户量在2亿左右。其中,新浪微博是最活跃、最有影响力的微博平台之一。微博的单向关注和即时推送机制使得信息在该平台上传播极为迅速,形成了“围观改变中国”的架势。
1 微博垃圾用户产生的背景
随着社交网络的快速发展,其传媒价值受到了社会各界的关注。在微博中,拥有众多粉丝的明星用户在社会舆论中有着非常重要的作用。如今,微博作为举足轻重的宣传平台,受到了广告商的青睐,他们通过发起话题、借助明星微博等方法来宣传产品。很多营销团队为了推销,注册了大量账号,专门发布广告,宣传网店、产品等信息。这些广告信息在没有监管的情况下,充斥着整个社交网络,不仅真实性无法保证,而且对用户体验产生了极大影响。另外,在新浪微博中,拥有极高粉丝数量的意见领袖的出现也给了投机者们一种营销的渠道。他们注册了大量账号,并在网上出售粉丝。当有用户向其购买时,他们就用大量的账号去关注该用户,提高该用户的关注度和影响力得分,借此吸引普通用户的注意。一些炒作团队也会使用批量注册的账号去对某一话题进行炒作,使其变成热门话题,借此达到影响舆论的目的。这些批量注册的账号不仅给服务器增加了许多负担,而且扰乱了微博的生态秩序。由其制造的层出不穷的谣言也降低了微博作为信息来源的可靠性,影响普通用户的生活。笔者通过抽取用户的关注粉丝比、链接比、互粉数、平均评论数等特征,提出一种用户行为特征的垃圾用户分类检测方法,实现了对“用户是否为垃圾用户”的检测。
2 相关研究
2.1 关于垃圾用户检测的相关研究
在新浪微博兴起之前,Twitter与Facebook已经拥有众多的用户。由于Twitter与新浪微博的结构非常相似,对新浪微博垃圾用户的检测工作可以参考Twitter垃圾用户的检测工作。Kurt Thomas等学者在研究中指明,现在的垃圾用户不参与正常的社交生活,但是他们通过主动关注别人和在热门话题下发表垃圾评论来吸引正常用户点击。以往的许多研究工作是基于已有用户的数据来进行的,Zhi Yang等人用了一种基于蜜罐的方法来检测垃圾用户,通过在社交社区中放置蜜罐,吸引垃圾用户关注,然后通过链接搜集垃圾用户的图谱(Profile),搜集文本内容、社交网络和发布模式方面的特征。在对社交网络垃圾用户的研究中,垃圾用户的定义并不是学者进行研究工作的重点,Gianluca Stringhini等学者在其研究中将垃圾用户分为四类,针对其中的两类提取了相关特征,并用随机森林法进行分类。Alex Hai Wang在其关于Twitter的研究中对各种分类算法进行了比较。他使用了决策树、神经网络、支持向量机、K-近邻、和贝叶斯分类器提取了互粉数、粉丝比和追随比,然后又根据基于内容的分析和回复数来进行分类。通过实验,得到了贝叶斯分类最精确的结果。除了新浪微博之外,中国的人人网社交平台也拥有众多的用户。Yin Zhu在其关于人人网的研究之中,创新性地提出了利用矩阵分解的方法来进行垃圾用户的检测,定义了精确度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM进行用户分类工作,并对结果进行比较。
2.2 决策树算法的产生与改进
决策树算法最早是20世纪50年代由亨特在“CLS”(Concept Learning System)中提出,后经发展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奥卡姆剃刀的基础上,以信息熵和信息增益为衡量标准,从而实现对数据的归纳分类,其主要是针对离散型属性数据。C4.5决策树算法继承了ID3算法的优点,并对ID3算法进行了改进。C4.5决策树算法在树构造过程中进行剪枝,并且用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。C4.5决策树算法不仅能对离散型数据、连续属性的离散化进行处理,还能够对不完整数据进行处理。
参考以上学者的研究工作,我们决定提取用户的关注粉丝比、链接比、互粉数、平均评论数等特征,使用C4.5决策树算法来对用户进行分类。
摘 要:随着信息技术和互联网的飞速发展,社交网络在人们生活中扮演着不可替代的角色。但同时,社交网络中也充斥着各种各样的广告信息,严重影响了用户的体验。一些营销团队恶意注册的大量垃圾账号也让正常用户不胜其烦。针对这些问题,首先阐述了社交网络垃圾用户产生的原因,进而分析了垃圾用户的特征,最后基于新浪微博的数据,使用C4.5决策树分类算法对用户进行分类。实验结果显示,该方法检测用户的准确率为92%.
关键词:社交网络;新浪微博;垃圾用户;分类
中图分类号:TP393 文献标识码:A 文章编号:2095-6835(2014)15-0125-03
社交网络是在线社交网络(Online Social Network,“OSN”)的简称。社交网络服务是基于六度分隔理论,以互动交友,用户之间共同的兴趣、爱好、活动或者用户间真实的人际关系为基础,以实名或者非实名的方式在网络平台上构建的一种社会关系网络服务。Facebook被认为是第一个真正意义上的社交网站。当今热门的Twitter、新浪微博、腾讯微博、人人网等都属于社交网络。截至2012-08,世界上最大的社交网站Facebook拥有注册用户约10亿人,其网络流量曾一度超过网络巨头Google;新浪微博的最新注册用户已达到了3亿;人人网用户量在2亿左右。其中,新浪微博是最活跃、最有影响力的微博平台之一。微博的单向关注和即时推送机制使得信息在该平台上传播极为迅速,形成了“围观改变中国”的架势。
1 微博垃圾用户产生的背景
随着社交网络的快速发展,其传媒价值受到了社会各界的关注。在微博中,拥有众多粉丝的明星用户在社会舆论中有着非常重要的作用。如今,微博作为举足轻重的宣传平台,受到了广告商的青睐,他们通过发起话题、借助明星微博等方法来宣传产品。很多营销团队为了推销,注册了大量账号,专门发布广告,宣传网店、产品等信息。这些广告信息在没有监管的情况下,充斥着整个社交网络,不仅真实性无法保证,而且对用户体验产生了极大影响。另外,在新浪微博中,拥有极高粉丝数量的意见领袖的出现也给了投机者们一种营销的渠道。他们注册了大量账号,并在网上出售粉丝。当有用户向其购买时,他们就用大量的账号去关注该用户,提高该用户的关注度和影响力得分,借此吸引普通用户的注意。一些炒作团队也会使用批量注册的账号去对某一话题进行炒作,使其变成热门话题,借此达到影响舆论的目的。这些批量注册的账号不仅给服务器增加了许多负担,而且扰乱了微博的生态秩序。由其制造的层出不穷的谣言也降低了微博作为信息来源的可靠性,影响普通用户的生活。笔者通过抽取用户的关注粉丝比、链接比、互粉数、平均评论数等特征,提出一种用户行为特征的垃圾用户分类检测方法,实现了对“用户是否为垃圾用户”的检测。
2 相关研究
2.1 关于垃圾用户检测的相关研究
在新浪微博兴起之前,Twitter与Facebook已经拥有众多的用户。由于Twitter与新浪微博的结构非常相似,对新浪微博垃圾用户的检测工作可以参考Twitter垃圾用户的检测工作。Kurt Thomas等学者在研究中指明,现在的垃圾用户不参与正常的社交生活,但是他们通过主动关注别人和在热门话题下发表垃圾评论来吸引正常用户点击。以往的许多研究工作是基于已有用户的数据来进行的,Zhi Yang等人用了一种基于蜜罐的方法来检测垃圾用户,通过在社交社区中放置蜜罐,吸引垃圾用户关注,然后通过链接搜集垃圾用户的图谱(Profile),搜集文本内容、社交网络和发布模式方面的特征。在对社交网络垃圾用户的研究中,垃圾用户的定义并不是学者进行研究工作的重点,Gianluca Stringhini等学者在其研究中将垃圾用户分为四类,针对其中的两类提取了相关特征,并用随机森林法进行分类。Alex Hai Wang在其关于Twitter的研究中对各种分类算法进行了比较。他使用了决策树、神经网络、支持向量机、K-近邻、和贝叶斯分类器提取了互粉数、粉丝比和追随比,然后又根据基于内容的分析和回复数来进行分类。通过实验,得到了贝叶斯分类最精确的结果。除了新浪微博之外,中国的人人网社交平台也拥有众多的用户。Yin Zhu在其关于人人网的研究之中,创新性地提出了利用矩阵分解的方法来进行垃圾用户的检测,定义了精确度和召回率,使用了SVM、SF+SVM、MF+SVM、MFSR+SVM进行用户分类工作,并对结果进行比较。
2.2 决策树算法的产生与改进
决策树算法最早是20世纪50年代由亨特在“CLS”(Concept Learning System)中提出,后经发展由J.R.Quinlan在1979年提出了著名的ID3算法。ID3算法是建立在奥卡姆剃刀的基础上,以信息熵和信息增益为衡量标准,从而实现对数据的归纳分类,其主要是针对离散型属性数据。C4.5决策树算法继承了ID3算法的优点,并对ID3算法进行了改进。C4.5决策树算法在树构造过程中进行剪枝,并且用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足。C4.5决策树算法不仅能对离散型数据、连续属性的离散化进行处理,还能够对不完整数据进行处理。
参考以上学者的研究工作,我们决定提取用户的关注粉丝比、链接比、互粉数、平均评论数等特征,使用C4.5决策树算法来对用户进行分类。