基于账户信用评价的恶意发帖检测系统研究
2016-05-14阳小兰刘克刚钱程朱福喜
阳小兰 刘克刚 钱程 朱福喜
摘 要: 恶意发帖检测系统处理的主体是帖子,往往忽略发帖是用户的主观行为。针对这一现象,从研究用户的主观行为出发,建立账户信用模型,设计基于账户信用评价的恶意发帖检测系统。分析账户信用模型的主要影响因素,将其离散化,量化账户的信用。通过建立账户信用模型,对账户进行信用评价和分类,有效发现恶意账户,预测发帖行为,对恶意账号进行严格监控,并根据账户信用影响反馈,动态调整恶意发帖检测系统。通过实验,验证了恶意发帖检测系统的有效性。
关键词: 账户信用; 信用评价; 恶意发帖; 发帖检测
中图分类号: TN711?34 文献标识码: A 文章编号: 1004?373X(2016)06?0053?05
Research of malicious post detection system based on account credit evaluation
YANG Xiaolan1, LIU Kegang2, QIAN Cheng1, ZHU Fuxi1, 2
(1. School of Information and Engineering, Wuchang University of Technology, Wuhan 430223, China;
2. School of Computer, Wuhan University, Wuhan 430072, China)
Abstract: At present, the malicious posting detection system deals with the post itself, but ignores that the post is the user′s subjective behavior. Proceeding from the research of the user′s subjective behavior, an account credit model was established and a malicious post detection system based on account credit evaluation was designed to eliminate the phenomenon. The main influencing factors of account credit model are analyzed and discretized for account credit quantification. By establishing the model account credit, the accounts' credit standing is evaluated and classified to effectively discover malicious accounts, predict posting behavior, and realize strict monitoring of malicious accounts. The malicious posting detection system is dynamically adjusted according to the credit feedback of the account. The validity of the malicious post detection system was verified through the experiment.
Keywords: account credit; credit evaluation; malicious posting; post detection
中国互联网发展迅速,据中国互联网络信息中心(CNNIC)2015年7月发布的第36次《中国互联网络发展状况统计报告》,截止2015年6月,中国网民规模达6.68亿,互联网普及率达48.8%。目前,虚假信息、造谣诽谤、网络水军等现象影响着互联网的健康发展[1?3],恶意发帖检测系统旨在为网络社区发现、剔除恶意发帖,构建优质网络社区环境,营造健康和谐的网络社会环境。
目前网络舆情系统多采用自然语言处理、机器学习、数据分析等手段分析用户发布的信息内容是否健康,是否符合社区的中心思想。与针对发帖内容的检测技术相比,基于行为的恶意检测技术,不再在帖子的汪洋大海中无针对性的寻找恶意帖子,改为有针对性地寻找恶意帖子部落,恶意帖子部落的中心是恶意账户。综合考虑账户发帖频率、发帖时间、账户信息维护等多个维度的行为特征,可以有效发现恶意账户,对该账户的所有发帖进行监控,撤回该账户所发的恶意帖子。
账户行为挖掘的思想避开了监测恶意文本信息作为主体,转向检测发帖的主体行为。其不仅可以有效地检测恶意文本信息,还可以发现恶意账户。对风险度较高的账户可以采用严格控制技术,降低网络社区的风险,对优质账户给予更多权限,改善网络社区服务,培养更多优质客户。本文在账户行为挖掘的基础上,通过构建账户信用模型,对账户信用进行评价,检测并发现恶意账户和恶意信息。
1 账户信用模型
信用模型的建立需要经过如图1所示的几个流程,完成分类特征属性的确定,将不能分类的属性进行离散化处理,结合网络社区数据建立分类预测模型。
1.1 信用特征属性
收集影响账户信用的相关属性,构建账户的信用特征向量V={x1,x2,…,xn},xi表示账户某一特征属性离散化值。结合从事网络社区开发的工作经验以及查阅相关资料,列出一些基本属性[4?6]。
(1) 账户名:从登录社区的账户中可以预见账户的优劣,对于普通或者优质用户会在意自己的账户名称,一般采用某些有意义的词或者姓名的变形等。目前,腾讯等互联网巨头提供账户授权服务,用于解决用户注册大量账户,使用单一密码危险,多种密码困难的问题。
(2) 账户详细信息:一般社区账户会要求账户提供除登录用的账户名和密码之外的其他信息。作为社会人一般具有许多社会标签,某些标签可以预示用户的真实信息。例如性别、籍贯、喜好、座右铭、学历、生活经历等。对于恶意账户在账户详细信息补充完整方面没有优质账户做得好,更多的是隐藏或者伪造。
(3) 认证等级:对于一些安全性要求比较高的社区账户,特别是涉及到金钱、隐私,都要求比较严格的实名制验证,验证账户的银行卡、身份证、手机号等。一般社区账户会要求邮箱验证或者手机号验证。经过较高等级验证的账户,通常是优质账户。
(4) 最近登录行为:用户登录社区的时间段、频率、IP地址一般情况下是有规律可循。关注登录行为属于行为分析领域,对于了解账户是否被盗、还是本身是恶意账户具有帮助。
(5) 最近发帖行为:分析账户发帖行为,可以提取许多有用的价值,是恶意检测系统主要的关注行为。对于普通用户使用网络社区具有一些通用模式。即使是高产的作家,每天发表的博文、日志数量会稳定在一个阈值内,对于同一个问题发表的评论同样满足上述观点。
(6) 社区关系网:网络社区是社会关系向线上发展的产物。社会关系网预示物以类聚的思想,具有众多粉丝的账户并且粉丝中包含优质粉丝的账户应该是比较优秀的账户。
账户信用模型的主要影响因素如图2所示,各种因素对于用户信用特征向量的影响,根据具体情况可以自定义设置。用户的信用特征向量,根据用户参与网络社区的情况,相应地动态调整。经过实名制认证的用户应该比匿名用户具有更高的信用度。如果用户登录异常,或者用户发布违规的信息,应该适当的降低用户的信用度。有些网络社区允许用户之间可以建立好友关系,同时会影响用户的信用度。
1.2 离散化特征属性
本文选取账户社区关系作为研究主要因素,对社区关系进行离散化处理,采用非监督学习算法进行账户分类过程,采用PageRank算法对社区关系进行离散化处理。PageRank算法可根据网页之间的超链接,计算网页排名。PageRank算法也可作为评估网页优化的结果重要参考因素[7?9]。
PageRank算法为了解决部分“没有出链的页面”带来的陷阱问题,增加随机跳出浏览的策略,即随机地打开某一页面,随机地点击其中某一链接。页面的PageRank值决定了页面被随机访问的可能性大小。假设持续点击网页上的链接,最后抵达一个没有出链的页面,此时随机选择一个页面开始新的浏览。e=0.85表示在任意时刻,用户浏览某页面后会继续浏览的概率。[1-e=0.15]表示在任意时刻,用户停止继续向前浏览,改为随机选择所有页面中的某一页面开始浏览的概率。完整的PageRank算法如下式所示:
[PageRank(pi)=1-eN+epj∈M(pi)PageRank(pj)L(pj)]
式中:p1,p2,…,pn是待计算页面;M(pi)是链入pi页面的集合;L(pj)是链出pj的集合;N是所有页面总量。
主要特征属性中登录行为特征属性的离散化采用单位时间段的频次来表示:[vi=sid],其中si表示在时间段d内的行为频次,例如账户i在一个月内的登录的次数为n,该账户的登录行为属性离散化为[vi=n30]。
发帖行为特征属性的离散值与账户在一段时间d内的发帖情况有关。假设账户的每一个发帖最终检测结果有一个恶意程度wi,则账户的发帖行为的特征属性离散值[W=wi]。在构建恶意检测系统后,账户的发帖行为通过影响发帖行为特征属性来更新信用模型,保持恶意检测系统的自适应。
并非所有的特征属性都需要离散化处理,由于认证等级一般包含有限状态集,可以直接作为分类符号。本文未给出的离散化操作,可以根据前面给出的方法进行简单的仿效,离散化科学合理即可。完成所有的属性离散化处理后,将进入下一阶段完成账户的分类。
1.3 账户分类
账户信用特征属性的采集,对于部分不能分类的属性进行离散化,最后需要的工作就是构建账户分类模型。账户信用特征向量V={x1,x2,…,xn},具有n个特征属性,用于构建账户信用模型。账户的信用特征向量,反映了账户某一时刻的信用状态。本文在实验部分采用K?means算法[10?12]对账户进行分类建模。
2 恶意发帖检测模型
在基于账户信用模型中,对于账户信用度的影响因素中登录行为和用户发帖行为是一个基于时间状态的影响因子。每一个账户可能在任何时间违反网络社区核心价值观,即使是当前网络社区中具有最高信用度的账户。所以构建的恶意发帖检测模块是基于对于所有账户的不信任,建立在概率模型之上。所以采用的基本策略是对于信用度高的账户采用比较简单、约束条件比较宽泛的检测,允许部分系统疏漏。对于信用度低的账户,首先鼓励其提高信用度;其次对于其发帖增加发帖成本(要求严格的发帖验证,发帖频次、数量限制等);最后发帖内容经过严格的审核。
如果信用模型采用静态模型,即首次构建模型后保持不变,只能体现网络社区在某个时刻的账户信用状态,模型只能具有纪念意义而没有实际价值。如果信用模型中信用属性值是单调非递减的,如同QQ等级一样,恶意账户可能增加一个潜伏阶段。恶意发帖检测模型中账户的信用特征向量根据特征属性动态调整,其中主要发帖行为特征属性,会对账户的信用特征向量起到重要影响,长期未登录账户或恶意发帖,账户信用受到负极影响;账户存在恶意行为,根据恶意的严重性不同程度影响账户的信用度。
本文设计的基于用户信用度的检测模型,该检测模型带有反馈链,根据用户发帖是否属于恶意发帖,以及信息的恶意程度,动态调整用户的信用特征向量,同时账户信用模型也决定了恶意发帖的检测流程,如图3所示。系统的初始化模块主要完成的工作是账户信用模型建立,首先完成系统的一个账户信用快照。在之后的账户行为中动态调整信用模型的某一特征属性值,图3中主要是根据账户的发帖行为进行分析。账户在完成发帖的过程中,首先获取自己的账户信用标记,确定发帖检测的具体流程,即每一个信用标记映射一个发帖检测流程。恶意特征库同样满足基于信用标记映射不同的库大小、内容等。完成发帖检测之后,通过检测模型中的反馈链,更新信用模型中的发帖行为属性的值。
3 恶意发帖检测系统
经典的恶意检测系统的设计,主要是针对某一发帖文本进行统一路径的恶意性检测,如图4所示。没有区分不同账户的特性,采用一致的处理模式,没有实现计算资源优化配置。
恶意发帖的源头是用户行为,而不是永无止境的帖子。本文构建的恶意发帖检测系统模型如图5所示,系统构建在以账户信用模型为核心的恶意发帖检测系统,鼓励用户文明发帖,打击恶意发帖,维护网络社区的健康可持续发展。用户发帖的检测流程为:
(1) 查询当前账户的信用特征属性向量;
(2) 根据账户的信用标记设置发帖前置控制条件。前置控制条件决定了账户不一样的发帖交互情景,如账户当日的发帖额度、发帖频率、确认发帖的验证码等。
(3) 发帖检测过程,后置控制条件的设定,根据当前账户信用标记映射的检测流程,进行恶意检测。
(4) 反馈检测结果,更新账户信用度。一份帖子会对账户的信用度产生影响,影响大小和正负有区别。应根据帖子的检测结果进行反馈,更新账户的特征属性向量。
(5) 如果是恶意发帖,提取恶意帖特征,加入恶意发帖库,为恶意发帖的深入学习采集样本。账户信用标记的不是实时更新,采取间隔时间段重建方式。
本系统模型在用户发帖的流程中把用户发帖行为分为发帖前置控制、发帖、发帖后置控制、发帖结果4个阶段。账户的信用模型是根据数据分析理论创建,充分利用了网络社区在发展中积累的历史数据。根据模型预测当前发帖行为的恶意程度,调控发帖的前置控制条件,减少网络社区面临的风险。模型的自身成长是和网络社区的成长必然紧密相联,根据账户在社区的每一次操作行为去更新模型,保证模型的自适应性。
4 实验分析
本实验采用网络爬虫[13?15]抓取网络社区的账户、发帖等数据信息,对账户信用特征属性进行离散化处理,采用分类算法对账户分类。抽取不同簇账户的发帖信息,采用恶意检测算法检测,分析不同簇账户发帖的恶意发帖量和发帖恶意复杂度,验证分类有效性。
4.1 实验说明
本实验基于Python语言设计网络爬虫,抓取国内知名网络社区博客园的账户、发帖等信息,爬虫抓取的主要数据字段为账户名、账户简介、关注者、粉丝、发帖信息和账户在社区的最近发帖活动记录。目前博客园用户超过了17万,以本人账户主页为爬虫种子,最终爬到的账户信息为13万左右,还剩4万多的用户没有爬取到,分析这部分账户是既没有粉丝也不关注其他用户的孤岛,整个数据集不采用数据库存储,采用文本文件保存,每一行采用账户作为关键字,之后为具体采集属性的数据,主要原因是账户数据量在可控范围内,文本可以直观查阅、验证数据。实验部分采用PageRank算法离散化的社区关系,采用K?means分类算法进行账户信用分类。
4.2 信用计算
本实验主要通过账户信用主要影响因子——账户信息、社区关系、最近发帖行为,实现对账户信用模型的建立,其他没能考虑的因子是因为实验数据的不完整(不能获取账户的登录行为以及认证等级)以及当前社区的条件下不是特征属性(例如博客园不支持其他社区号登录)。
本实验将根据PageRank算法进行实验。提取数据集中每个账户的关注者,对于爬取的账户网络社区关系数据采用PageRank算法进行计算,直到转移矩阵的收敛,得到如表1所示的排名前50的账户信用度值。
采用网络社区关系构建的账户信用模型,对其计算的结果进行分析,可以发现信用度比较高的账户,其信用度影响因素比信用度比较低的账户具有突出表现。如图6所示为最佳账户的账户信息,可以看出其账户简介信息十分饱满,而且信息的真实度比较高,其对社区贡献和忠诚度比较高。
如图7所示为非高信用度账户的账户信息,账户信息非常匮乏,只包含系统提供的默认信息,并且网络社区的参与不活跃。如图8所示为高信用用户的最近发帖行为,一般高信用账户会持续性地活跃在网络社区中,并且对自己的发帖负责而且具有比较好的发帖质量。在基于网络社区关系的信用模型中没有考虑到账户的最近发帖行为方式,可能信用低的账户在社区同样比较活跃,很可能是最近加入社区的潜在优质账户。所以对于低信用度账户的正常发帖采用鼓励手段,出现恶意发帖采取重罚手段。
4.3 账户分类
完成对账户的信用度采取非递增排序,然后对信用度取10的对数,绘制如图9所示的账户信用度的分布曲线。分析图9可知社区处于成长期,大部分的账户信用度较低,信用度高的用户较少。
采用K?means算法对账户进行聚类分析,结果如表2所示,本实验将账户分为3类,映射为优、良、差。根据对重心观察,可见划分结果满足要求。表2展示了不同簇中的账户在整个社区的规模程度,为恶意发帖检测提供了决策意见。
5 结 语
本文提出并实现了基于账户信用模型的恶意发帖检测系统,该系统建立在以账户信用为核心模型基础上,量化每个账户的信用,对账户进行分级,识别恶意账户,并将每一个恶意发帖都反馈至账户信用模型中,实现恶意发帖检测系统自动调整。本文建立的信用模型,在选取信用的影响因素方面,主要依靠实践经验,需要在后续研究中建立数学模型加以改进。本文的实验部分未能完成所有属性特征的离散化处理,选取了代表性的属性,后续研究中需要完成不能分类的属性离散化处理。
表2 分类结果
参考文献
[1] 莫倩,杨珂.网络水军识别研究[J].软件学报,2014(7):1505?1526.
[2] 王永刚,蔡飞志,LUA E K,等.一种社交网络虚假信息传播控制方法[J].计算机研究与发展,2012(z2):131?137.
[3] 杨长春,徐小松,叶施仁,等.基于文本相似度的微博网络水军发现算法[J].微电子学与计算机,2014,31(3):82?85.
[4] 杨清龙.基于网络日志的互联网用户行为分析[D].武汉:华中科技大学,2013.
[5] 李向华,杜鹃.社交网络用户信用评价指标体系研究[J].标准科学,2015(1):76?78.
[6] 徐昕虹,张保稳,孔凌宇,等.一种论坛的网络用户信用评价体系[J].信息安全与通信保密,2013(1):60?62.
[7] 舒琰,向阳,张骐,等.基于PageRank的微博排名MapReduce算法研究[J].计算机技术与发展,2013(2):73?76.
[8] 李稚楹,杨武,谢治军.PageRank算法研究综述[J].计算机科学,2011,38(10A):185?188.
[9] 王德广,周志刚,梁旭.PageRank算法的分析及其改进[J].计算机工程,2010,36(22):291?292.
[10] 吴夙慧,成颖,郑彦宁,等.K?means算法研究综述[J].现代图书情报技术,2011(5):28?35.
[11] 冯超.K?means聚类算法的研究[D].大连:大连理工大学,2007.
[12] 黄韬,刘胜辉,谭艳娜.基于K?means聚类算法的研究[J].计算机技术与发展,2011,21(7):54?57.
[13] 乔峰.基于模板化网络爬虫技术的Web网页信息抽取[D].成都:电子科技大学,2012.
[14] 李俊丽.基于Linux的python多线程爬虫程序设计[J].计算机与数字工程,2015,43(5):861?863.
[15] 段兵营.搜索引擎中网络爬虫的研究与实现[D].西安:西安电子科技大学,2014.