一种网络论坛水军账号快速检测算法*
2015-03-09陈桂茸蔡皖东张凤琴
陈桂茸,蔡皖东,王 蓉,张凤琴,蒋 华
(1.西北工业大学 计算机学院, 陕西 西安 710029;2.空军工程大学 信息与导航学院,陕西 西安 710077)
一种网络论坛水军账号快速检测算法*
陈桂茸1†,蔡皖东1,王 蓉2,张凤琴2,蒋 华2
(1.西北工业大学 计算机学院, 陕西 西安 710029;2.空军工程大学 信息与导航学院,陕西 西安 710077)
在分析网络水军灌水行为的基础上,提出一种网络论坛水军账号快速检测算法.该算法包含3步:首先通过统计分析网络论坛单日回帖情况,确定可疑区间;然后根据用户单日回复行为构建用户协作网络,并依据删减后的用户协作网络的聚类情况确定高可疑时段;最后通过高可疑用户的回帖时间特征分析判定其是否为网络水军.该算法采用“层层逼近”的策略,分3次排除正常用户和数据,不断缩小计算范围,具有计算量小、计算速度快的特点.利用该算法对“新浪网-娱乐论坛-影视世界版块-影行天下子版块”2010年全年的数据进行分析,实验结果表明,该算法不仅能有效发现网络论坛的单个水军账号,还能发现网络水军军团账号并确定炒作内容,准确率高.
社交网络;用户行为分析;网络论坛;网络水军
截止2013年12月,我国网民规模已达6.18亿[1].尤其是随着Web2.0技术的成熟和普及,网络不仅成为人们获取信息、共享资源、交流观点的重要平台,也成为人们了解社情民意、揭露社会弊端、开展社会监督的窗口.
然而网络固有的自由性、开放性、隐匿性等特点又为不法分子提供了可乘之机,出现了以网络炒作为营生的网络公关公司、网络推手和网络水军等不良互联网组织和个人.网络公关公司为了在网上炒作某个话题或人物来达到宣传、推销或者诋毁他人或产品的目的,雇佣大量网络水军,在网络推手的组织下以各种手法和名目,在互联网的各种平台大量发帖、回帖,炮制网络热点事件,捧红各色人物,形成虚假网络舆情,严重影响了网络舆论的发展方向.研究网络水军检测机制,对加强网络水军监管和治理,维护社会稳定与和谐、确保国家网络空间安全具有重大现实意义.
1 相关研究
网络水军研究尚处于探索阶段.尚未发现国外公开发表的网络水军检测方面的文献,与之相关的研究主要集中在垃圾评论和垃圾评论发布者检测方面[2-17].Jindal等首次提出垃圾评论的概念并对其进行分类,在此基础上采用机器学习方法实现了电子商务网站中的垃圾评论检测[2-5].Benevenuto等采用分类技术通过分析用户发布的内容和用户行为特征实现了对垃圾评论发布者的检测[6-7].Mukherjee等认为和单个垃圾评论发布者相比,群体垃圾评论发布者具有更大危害,并提出了一种同时考虑用户行为频率和同谋行为特征的有监督学习模型,通过在人工标注的数据集上进行学习,实现了对垃圾评论发布者群组的识别[13].
和国外相比,国内关于网络水军的研究更为活跃,但目前主要是一些传媒和管理专业的研究人员从传播学、管理学的角度,对网络水军的运行机制和治理对策进行了研究.近年来从技术层面对网络水军检测的研究也取得了一定进展.李纲等根据网络水军发布的信息具有很强的目的性和感情倾向性等特征,提出一种基于情感分类的网络推手识别方法,通过分析用户的情感倾向,统计正面感情信息和负面感情信息的比重来识别网络推手[18].范纯龙等采用人工方式分析了论坛中网络水军账号、水军帖的分布情况,发现在网络论坛中网络水军普遍存在,且具有较强的组织结构[19].Chen等对网络水军发帖回帖行为进行实证统计分析,发现网络水军具有和普通用户不同的行为模式,并提出一种语义分析和非语义分析相结合的网络水军检测机制[20].
与之相关的研究还包括“网络马甲”检测,国内学者对该问题也进行了有益探索.Bu等利用复杂网络技术和语义分析技术,通过作者写作风格分析和链接分析实现了马甲账号的检测[21].Zheng等根据网络马甲通常成对出现、在发帖和回帖时互相呼应的特点,提出两种计算模型用以检测单个论坛内的网络马甲对账号和跨论坛的网络马甲对账号[22].
垃圾评论和垃圾评论发布者检测方面的研究对网络水军检测有一定指导意义,但不能直接用于网络论坛水军账号检测,主要原因如下:1)垃圾评论和垃圾评论发布者检测算法主要针对的是以亚马逊为代表的商业网站,在这些商业网站中用户在对商品进行评论时除了提交文本信息外,还会对商品进行评分,当前的算法几乎都是通过分析用户的评分结果来识别垃圾评论和垃圾评论发布者的;而在网络论坛中,没有这种评分机制,无法利用现有算法检测网络论坛中的异常用户.2)现有的垃圾评论和垃圾评论发布者检测算法大都采用的是有监督学习方法,需要大量人工标注的数据集,而采用人工标注方式构造包含网络水军信息的数据集是不科学的.因为网络水军在执行任务时会最大程度抹杀操作痕迹,导致很难通过人工阅读方式判定某个发帖或回帖是正常用户还是网络水军发布的.
国内学者虽然已经在网络水军和网络马甲检测方面进行了有益探索,能检测出某些网络水军,但存在以下问题:1)文献[19]采用人工标注方式构造包含网络水军的数据集,缺乏科学性,同时由于不同网络论坛具有不同的特征空间,使得这种方法很难扩展;2)文献[18-21]都是基于文本分析技术的,需要进行分词、聚类、计算感情倾向性和判定写作风格等操作,当处理面向网络论坛的海量数据时,存在计算量大、计算效率低的问题.同时由于网络论坛的语言和常规的新闻语料相比具有随意性强、口语化严重等特点,一般的语义分析技术很难满足检测精度的要求;3)文献[22]所提的计算模型过于简单,只适合于检测个人或个体商家用于自我吹捧注册的、以成对形式出现的网络马甲账号,无法用于检测网络水军.
本文在分析网络水军炒作行为的基础上提出一种网络论坛水军账号快速检测算法.该算法的主要创新点有三个:一是提出一种衡量用户回复行为协作程度的新指标,协作性;二是给出了一种新的网络模型,在回复过同一主帖的用户之间建立连边,边的权值为用户的协作性,并通过该网络的聚类特性确定高可疑用户;三是该算法采用了“逐步求精”的策略,分3次排除正常用户和数据,不断缩小计算范围,具有计算量小、计算速度快的特点.此外该算法不仅能发现单个网络水军账号和水军军团账号,还能确定炒作内容,为网络监管部门进行网络取证提供了技术支持,对网络空间安全监控具有重要意义.
2 网络论坛和网络水军分析
2.1 网络论坛特点分析
网络论坛是一种重要的信息共享和交流平台,和博客、微博等实名制社交网络相比具有更大的开放性、自由性和隐匿性:1)网民可以随意注册多个不同的用户名而不用泄露其真实身份;2)用户只要登录网络论坛,就可以随意发布或回复信息;3)用户在登录的情况下可以浏览网络论坛中的全部信息,而不受好友关系限制,甚至在不登录的情况下也可以浏览网站大量内容.网络论坛的这些特性使其成为我国网络舆论突发事件的主要集中地,也成为网络水军人为制造虚假舆论,扰乱公众视听,进而引发重大舆情危机的主要平台.
2.2 网络水军工作机制分析
网络水军,指受雇于网络公关公司,通过为他人发帖、回帖、造势来获得报酬的网络人员,他们利用大众惯用的沟通方法在论坛、社交网站等平台以聊天方式为个人或公司作宣传或攻击,通过文章和评论来试图达到影响、引导和制造网络舆论的目的.
网络水军活动中通常包括三类主体:客户、网络公关公司和网络水军.网络公关公司是客户与网络水军之间的中介,负责联系客户,得到任务,收取酬金,同时也负责招募、管理网络水军,发放任务和酬金等.其业务流程为:网络公关公司收到客户委托后,进行任务筹划和分工,将任务下发给网络推手(也称为水军头目),网络推手组织网络水军完成任务,并负责任务审核和酬金发放等.
网络水军赚钱的模式为:领取新任务、完成任务、汇报任务、等待审核、审核通过、结算报酬.根据客户目标的不同,网络水军的任务一般分为两类:一是广告宣传,二是网络炒作.第一类任务是通过增加指定内容的可见率达到广告宣传的目的.第二类任务则是通过炮制网络热点,吸引广大网民围观和讨论,达到网络炒作的目的.为了完成第一类任务,网络水军需要以最快速度在各种尚没有出现该信息的网络论坛以主帖的形式发表指定内容,使其在最短时间内扩散.为了完成第二类任务,网络水军则需要短时间内在各大网络论坛大量发帖、回帖,使炒作对象在网络论坛长时间处于显眼位置,吸引网民关注,引发讨论,形成网络热点.为了高效完成炒作任务,网络水军会在全国各大论坛注册多个账号(有时也称为网络马甲),以不同身份登录论坛,完成任务.本文研究网络论坛中执行第二类任务的网络水军账号的快速检测问题.
3 网络水军账号检测
3.1 算法基本思想
本算法采用“层层逼近,逐步求精”的策略,利用人类行为统计分析、社会网络结构分析、时间特征分析技术分3次排除正常用户和数据,不断缩小计算范围,最终确定网络水军账号.首先统计论坛单日回帖数、日人均回帖数和日帖均回复数,将不可能发生网络炒作的时段排除;然后对可疑区间构建单日用户协作网络,排除没有发生大规模用户协作现象的时段,进一步缩小计算范围;最后对高可疑数据,通过用户回复行为的时间特性分析,判定其是否为网络水军,如图1所示.
图1 算法流程
3.2 论坛单日回复数统计分析
我们前期的研究结果[23]发现,论坛单日回帖数服从幂律分布,即大部分时间论坛单日回帖数很小,而少数日子论坛单日回帖数很大.
为了制造轰动效应,达到网络炒作的目的,网络水军必定会使用多个账号针对论坛上若干主帖在短时间内大量回帖,导致论坛当天的回帖数、平均每个用户的回帖数和平均每个主帖的回复数明显增大.本文将这3个指标都大于均值的时段确定为可疑时段.
定义1 论坛单日回帖数:论坛t日提交的回帖数之和,记作RNt,则有
(1)
(2)
定义2 论坛日人均回帖数:论坛t日回帖数与当天提交过回复帖的用户数之比,记作ARNUt,则有
(3)
将日人均回帖数大于等于均值的时段记作S2,则有
(4)
定义3 论坛日帖均回复数:论坛t日回复数与当天被回复过的主帖数之比,记作ARNPt,则有
(5)
其中Pt指当天被回复过的不同主帖的集合.将日帖均回复数大于等于均值的时段记作S3,则有
(6)
定义4 论坛可疑时段:单日回帖数、日人均回帖数、日帖均回复数均大于均值的时段,记作S,则有
S=S1∩S2∩S3.
(7)
3.3 用户单日回复模式分析
排除不可能发生网络炒作的时段后,采用下述方法对可疑时段的用户单日回复模式进行分析.
3.3.1 用户协作性定义
为达到网络炒作的目的,网络水军必定会使用多个账号短时间内针对同一个或几个主帖大量回帖,导致这些用户在行为上表现出很高的协作性.
为了便于描述用户的这种协作性,本文提出一种新的网络模型:用户-主帖网络.该网络包含两种类型的节点:用户和主帖,这里用户表示论坛中的一个账号,主帖表示用户为了发起新的话题而发表的帖子,有时也称为根帖.为了和主帖加以区分,本文将用户针对主帖发表的回复帖称为回帖.图2(a)是1个包含6个用户、8个主帖的用户协作网络,图中圆圈表示用户,正方形表示主帖,用户和主帖之间的连边表示回复关系,如:用户a和主帖2之间的连边表示用户a回复过主帖2.
定义5 邻节点集合:用户a的邻节点集合定义为与节点a相邻的主帖节点集合,即用户a回复过的主帖集合,记作Γa.
定义6 协作性:用户a和用户b的协作性定义为用户a和用户b的邻节点集合的杰出卡德相似性,即
(8)
其中Γa和Γb分别表示用户a和用户b的邻节点集合.很明显,对于任意a和b,都有Sa,b=Sb,a,且0≤Sa,b≤1.
3.3.2 构建用户协作网络
论坛用户回复行为随机性大,具有很高的异质性[24].如果两个或多个用户表现出很高的协作性,则有理由怀疑其为网络水军账号.本节通过构建单日用户协作网络,分析该网络的聚类特性确定高可疑时段.构建网络的方法为:将用户抽象为节点,如果两个用户的协作性大于0,即他们均回复过至少同一个主帖,则在这两个用户之间建立连边,边的权值为两个用户的协作性.图2(b)是根据图2(a)构建的用户协作网络.可以看出,用户a,d和c之间的协作性为1,即他们的回复对象完全相同,高度可疑.
为了更清楚地观察节点间的协作性,快速确定高可疑用户,按照边的权值对用户协作网络进行删减,仅保留协作性大于一定阈值的边.如图2所示,若仅保留图2(b)中权值大于1/3的边,则得到图2(c).协作性高的用户会表现出明显的社团特性,本文将此类用户看作高可疑用户.
3.4 高可疑用户回复行为分析
Jiang等前期研究发现[25],人类打电话行为在时间上具有一定的规律性,工作时段活跃性高,休息时段活跃性低,网民回帖行为也具有类似特性[24].本文通过用户回帖行为时间特征分析,判定某天是否发生了网络炒作.对于确定发生了网络炒作的时段,根据网络水军相互协同这一特征推断以“簇”形式出现的论坛用户即为网络水军账号.实施同一网络炒作的水军账号形成了水军军团.同一簇内用户共同回复的话题即为网络炒作的内容.
图2 用户-主帖网络、用户协作网络示例
4 实验结果及讨论
4.1 数据集
本文的数据集是采用自研的信息采集系统[26]抓取的“新浪网-娱乐论坛-影视世界版块-影行天下子版块”2010全年的发帖、回帖和用户信息.用post,reply和user3个表存储采集到的数据,其中post表存储主帖信息,包括:主帖ID、发帖时间、发帖用户ID、标题、内容;reply表存储回帖信息,包括:回帖用户ID、回帖时间、回帖内容、对应主帖ID.user表存储相关用户信息,包括:用户ID、用户名、用户级别、在线时间、注册时间.
数据集共包含4 407个主帖、80 990个回帖和13 099个用户,其中发表过主帖的用户1 911个,发表过回帖的用户12 929个.2010年全年没有发帖或回帖的用户排除在外.
4.2 实验结果及分析
4.2.1 可疑时段
按照式(1)到式(7)对数据集进行统计分析,并计算3个指标的最小值、最大值及均值,如表1所示.
表1 3种统计指标的基本统计量
注:>A表示统计指标大于其均值的天数
由表1可知,3个统计指标的异质性均非常强,大多数日子取值都比较小.统计发现单日回帖数不小于均值的共69天,单日人均回帖数不小于均值的共103天,单日帖均回复数不小于均值的共58天,同时满足3个条件的共45天,即为可疑时段S.
4.2.2 高可疑时段
采用3.3节描述的方法逐天分析可疑时段的用户回复模式,发现有29天的用户协作网络发生了明显聚类现象,将其确定为高可疑时段.
图3是其中4天的用户协作网络.由图3可知,这4天用户回复行为均表现出极高的协作性.图3(b) 是12月3日仅保留权值大于0.9的边后的用户协作网络,观察发现除零星用户处于离散状态外,其它用户聚集成为8个簇,同一簇内的用户协作性高达0.9,即回复对象非常接近,高度可疑.
4.2.3 确定网络水军账号
为了确认高度可疑的29天中形成簇的用户是否为网络水军,采用3.4节描述的方法逐天分析这些用户的回帖时间分布.统计分析结果发现,其中7天的用户回帖时间分布严重偏离正常用户的回帖时间分布,由此断定这7天论坛发生了网络炒作,它们是12月2日、12月3日、12月5日、12月6日、12月10日、12月12日和12月13日.
图4展示了2010年全年及12月3日、12月6日和12月10日的回帖时间在一天中的分布,其中横坐标为时间,纵坐标为该段时间的回帖数.为了便于显示,将12月3日、12月6日和12月10日的统计数据分别扩大2倍、10倍、10倍.
如图4所示,从2010年全年看,零点回帖数较低,之后逐渐下降,并在7点达到谷底,这段时间正好对应人们的休息时间.之后回帖数快速上升,9点至23点之间回帖数都保持在3 500以上,其中9点到18点的回帖数略高于18点之后.统计结果与人们的作息规律非常吻合,也与Jiang[25]等关于人类打电话时间模式的研究一致.
图3 高可疑时段用户协作网络示例
时间/h
观察12月3日的回帖模式,发现零点回帖数很大,且之后5个小时持续攀升,并在4点和5点达到最高峰;之后快速下降,9点至12点回帖数均低于当天零点;13点至20点,回帖数稳定在500左右,不到零点时的一半,之后继续下降,直到23点回帖量达到最低值.可以看出,12月3日的用户回帖时间分布与人类作息时间完全违背.12月6日的回帖时间分布与12月3日几乎相同.12月10日的回帖模式与12月3日、12月6日虽然不同,但表现出异乎寻常的稳定性,也不符合人类作息规律.采用同样方式,分析另外4天的用户回帖时间模式,发现其也明显偏离正常用户行为特征.
统计分析发生网络炒作的7天的用户协作网络,发现簇内共包含不同账号556个,其构成了1个网络水军军团,炒作内容为当时即将上映的电影《赵氏孤儿》.
采用手动分析方式,对算法检测出的网络水军账号逐个进行分析,发现均为网络水军账号,算法的正确率达100%.对2010年全年回帖数据进行手动分析,除算法发现的水军账号外,没有发现其它可疑账号,因此该算法的漏报率为零.
5 结 论
在线交流平台在给人们带来便利的同时,也带来一定的社会问题,以网络水军为代表的不法分子,利用网络平台大量发布虚假和负面信息,企图通过网络炒作行为操纵社会舆论方向,甚至有人被金钱和利益诱惑,受雇于境外敌对分子,发布有损国家和民族利益的虚假消息.网络不良用户行为检测和挖掘研究具有重大现实意义.
本文以网络论坛水军账号快速检测为目标,提出一种基于人类行为统计分析、社会网络分析和时间特征分析的新算法.和传统舆情监控系统相比,本文所提算法大大减少了语义分析、感情分析的范围,具有计算量小、计算速度快的特点.
本文研究成果对网络空间安全监控具有重要意义,也为安管部门进行网络取证提供了技术支撑.但网络水军隐匿在合法用户之中,且其行为变化多端,下一步考虑将统计分析、行为分析技术和文本分析、情感分析等技术结合,进一步提高检测算法的性能.此外,随着微博、微信等网络社交平台的快速兴起,网络水军也已将矛头对准这些新兴媒体.下一步将考虑研究微博平台网络水军检测问题.
[1] 中国互联网络信息中心.第33次中国互联网络发展状况统计报告[EB/OL]. http://www.eajcd.edu.cn/pub/wml.txt/980810-2.html, 2014-03-05/2014-05-06.
Internet Network Information Center of China. The 33rd statistical report on Internet development of China[EB/OL]. http://www.eajcd.edu.cn/pub/wml.txt/980810-2.html, 2014-03-05/2014-05-06. (In Chinese)
[2] JINDAL N, LIU Bing. Review spam detection[C]//Proc of the 16th international conference on World Wide Web. 2007: 1189-1190.
[3] JINDAL N, LIU Bing. Analyzing and detecting review spam[C]//Seventh IEEE International Conference on Data Mining.2007: 547-552.
[4] JINDAL N, LIU Bing. Opinion spam and analysis[C]//Proceedings of the 2008 International Conference on Web Search and Data Mining.2008: 219-230.
[5] JINDAL N, LIU Bing, LIM E P. Finding unusual review patterns using unexpected rules[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.2010: 1549-1552.
[6] BENEVENUTO F, RODRIGUES T, ALMEIDA V,etal. Identifying video spammers in online social networks[C]// Proceedings of the 4th International Workshop on Adversarial Information Retrieval on the Web. 2008: 45-52.
[7] BENEVENUTO F, MAGNO G, RODRIGUES T,etal. Detecting spammers on twitter[C]//Seventh Annual Collaboration, Electronic Messaging, Anti-Abuse and Spam Conference(CEAS2010),2010.
[8] BHATTARAI A, RUS V, DASGUPTA D. Characterizing comment spam in the blogosphere through content analysis[J]. International Journal of Information Security and Privacy, 2009, 5(1):37-44.
[9] GUERRA PHC, GUEDES D, MEIRA JR W,etal. Spamming chains: A new way of understanding spammer behavior[C]// Sixth Conference on Email and Anti-Spam(CEAS2009), 2009.
[10]LAPPAS T. Fake reviews: The malicious perspective [J].Natural Language Processing and Information Systems, Lecture Notes in Computer Science, 2012, 7337:23-34.
[11]LI F, HUANG M, YANG Y,etal. Learning to identify review spam[C]//Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. 2011: 2488-2493.
[12]LIM E P,NGUYEN V A, JINDAL N,etal. Detecting product review spammers using rating behaviors[C]//Proc of the 19th ACM International Conference on Information and Knowledge Management. 2010:939-948.
[13]MUKHERJEE A, LIU Bing, GLANCE N. Spotting fake reviewer groups in consumer reviews[C]//Proc of the 21st International Conference on World Wide Web. 2012:191-200.
[14]OTT M, CHOI Y, CARDIE C,etal. Finding deceptive opinion spam by any stretch of the imagination [C]//Proc of the 49th Annual Meeting of the Association for Computational Linguistics.2011: 309-319.
[15]SHIN Y, GUPTA M, MYERS S. Prevalence and mitigation of forum spamming[C]// IEEE INFOCOM 2011.2011: 2309-2317.
[16]SUREKA A. Mining user comment activity for detecting forum spammers in youtube[C]//USEWOD '11, 2011.
[17]WANG Guan, XIE Si-hong, LIU Bing,etal. Review graph based online store review spammer detection[C]// IEEE 11th International Conference on Data Mining(ICDM 2011). 2011: 1242-1247.
[18]李纲,甘停,寇广增.基于文本情感分类的网络推手识别[J]. 图书情报工作, 2010, 54(8): 77-80.
LI Gang, GAN Ting, KOU Guang-zeng. Recognition of net-cheaters based on text sentiment analysis[J]. Library and Information , 2010, 54(8): 77-80. (In Chinese)
[19]范纯龙,肖昕,余玲,等. 基于论坛信息的水军组织行为分析[J]. 沈阳航空航天大学学报, 2010, 29(5): 64-67.
FAN Chun-long, XIAO Xin, YU Ling,etal. Behavior analysis of network navy organization based on web forums[J]. Journal of Shenyang Aerospace University, 2010, 29(5): 64-67. (In Chinese)
[20]CHEN Cheng, WU Kui,VENKATESH S,etal. Battling the internet water army: detection of hidden paid posters, arXiv:1111.4297v1 [cs.SI] 18 Nov 2011.
[21]BU Zhan, XIA Zheng-you, WANG Jian-dong. A sock puppet detection algorithm on virtual spaces[J]. Knowledge-Based Systems,2013, 37: 366-377.
[22]ZHENG Xue-ling, LAI Yiu-ming, CHOW K P,etal. Sockpuppet detection in online discussion forums[C]//The Seventh International Conference on Intelligent Information Hiding and Multimedia Signal Processing. 2011: 374-377.
[23]陈桂茸,蔡皖东,徐会杰,等.网络论坛人类行为动力学实证分析[J].湖南大学学报:自然科学版,2013,40(11):153-160.
CHEN Gui-rong, CAI Wan-dong, XU Hui-jie,etal. Empirical analysis on human behavior dynamics in online forum[J]. Journal of Hunan University: Natural Science, 2013, 40(11):153-160. (In Chinese)
[24]司夏萌,刘云.虚拟社区中人际交互行为的统计分析研究[J].物理学报,2011,44(7): 859-866.
SI Xia-meng, LIU Yun. Empirical analysis of interpersonal interacting behavior in virtual community[J]. Acta Phys Sin, 2011, 44(7): 859-866. (In Chinese)
[25]JIANG Zhi-qiang, XIE Wen-jie, LI Ming-xia,etal. Calling patterns in human communication dynamics[J]. Proceedings of the National Academy of Sciences, 2013, 110(5): 1600-1605.
[26]彭冬,蔡皖东.面向 Web 论坛的网络信息获取技术及系统实现[J].计算机工程与科学, 2011,44(1):157-160.
PENG Dong, CAI Wan-dong. The web forum crawling technology and system implementation[J]. Computer Engineering &Science, 2011,44(1):157-160. (In Chinese)
A Fast Water-army Account Detection Algorithm on BBS
CHEN Gui-rong1†,CAI Wan-dong1,WANG Rong2,ZHANG Feng-qin2,JIANG Hua
(1. School of Computer Science, Northwestern Polytechnical Univ, Xi’an,Shanxi 710029, China;2. The Information and Navigation Institute, Air Force Engineering Univ, Xi’an,Shanxi 710077, China)
This paper proposed a new water army accounts detection algorithm by analyzing the water army posting behaviors on online forums. The algorithm has three steps. The first one is to locate the suspicious periods by analyzing the daily reply behaviors of forum users, the second one is to build user collaborative networks based on user reply behaviors, and to locate the most suspicious periods by analyzing the pruned user collaborative networks, the last step is to detect the real water army accounts by analyzing the users' reply times. This algorithm excluding normal users and shrinking calculation ranges for 3 times has a small amount of calculation and high speed. We used this algorithm to analyze the dataset of Sina forum on 2010, and the results show that this algorithm can not only detect single water army account but also detect water army corps, and can determine the content of water army speculation.
social networks; user behavior analysis; online forums; water army
1674-2974(2015)04-0114-07
2014-05-10
陕西省科学技术研究发展项目(2013k06-19)
陈桂茸(1980-),女,陕西合阳人,西北工业大学讲师
†通讯联系人,E-mail:guirongchen315@163.com
TP393
A