突发事件前Twitter用户言语行为研究:基于机器学习的方法
2020-04-14曹若凡
摘要:针对现代恐怖组织利用社交媒体,进行在线恐怖宣传来策动突发事件的情况,本研究使用机器学习的方法,对Twit-ter中的相关文本内容进行了分析。首先对推文进行了多种预处理,测试了三种特征提取的优劣,并加入了有言语行为相关特征的词典,其次比较了四种分类器在识别Twitter中用户言语行为效果上的优劣,并进行了参数优化。最后将训练好的模型对某爆炸事件前48小时的相关推文进行了分析,为今后找到相关突发事件发生前的言语行为变化规律提供了依据。
关键词:社交媒体;突发事件;文本分类;言语行为;特征提取
中图分类号:TP393
文献标识码:A
文章编号:1009-3044(2020)04-0188-04
收稿日期:2019-10-15
作者简介:曹若凡(1995—),男,上海人,研究生在读,管理学硕士,主要研究方向为自然语言处理,情感分歧。
Research on Speech Acts of users in Twitter before the emergency:Based on Machine Learning Methods
CAO Ruo-fan
(School of Economics and Management,Tongji University,Shanghai 200092,China)
Abstract:In response to the modern terrorist organizations which combine the online terrorist attack with offline violent attacks,this pa-per focus on the text content in social media Twitter which related to violent terror,use the speech act theory and the method of machine learning,explore the changes of speech acts of users in Twitter.First,this paper pre-process the text data in Twitter,and use several methods of feature extraction and add the speech acts dictionary to vectorize the tweets for training classifier.Then this paper test Sup-port Vector Machine,Decision Tree,Naive Bayes and Random Forest these four kinds of classifier which can best identify the user' s speech acts in Twitter,this paper adopt precision,recall and F-score these three kinds of measure to evaluate the model and optimize its parameters.At last,this paper use the trained model to analyze the tweet which contained “ISIS" within 48 hours before the Brussels terrorist attacks to automatically recognize the user ' s speech acts.This provide a basis to find the pattern about changes of speech acts be-fore the violent terrorist incidents in the future.
Key words:social media;violent terrorist incidents;text classification;speech act;feature extraction
1 概述
近年来各类突发事件呈多发趋势,尤其是一些绑架、屠杀、袭击等暴力恐怖事件。这些事件不仅会严重威胁人们的生命财产安全、阻碍着社会和经济的发展,还会引起公众的大范围恐慌情绪,进一步影响着社会秩序的维护[1]。现代的恐怖组织利用社交媒体,在网络上宣传极端主义、蛊惑民众、招募成员,通过在线的方式来传递恐怖信息、实施恐怖行为[2]。基于此,本.文针对这一类的突发事件进行了研究,以社交媒体Twitter中的相关文本为研究对象,分析了某爆炸事件前用户的言语行为的变化,以期在未来可以找到其中的规律,使得预测暴恐事件成为可能,这也许在未来可以成为新的反恐预警方式。
2 文献综述
现代的恐怖组织把社交媒体作为了策划和发动袭击的指挥部,将网络变成了相互沟通联系的桥梁,这进一步地增大了传统反恐的难度,也意味著要引入新的反恐思维和理念来进行应对[3]。但反恐情报机构同样可以依托于社交媒体来获取更多的相关信息,从而更有准备的应对恐怖主义的威胁[4]。一旦及时捕捉到了相关信息并且进行了应对和防范,那么就完全可以降低恐怖主义的负面效果,从而成功地阻止恐怖组织的活动。然而,现如今反恐情报机构针对涉恐信息和相关账号的处理方法,往往还是单一的删除或是封号处理,大多数时候并没有对其中蕴含的内容信息进行挖掘,这也使得相关部门并没有获得太多的预警性的情报[5]。利用机器学习的技术对于社交媒体中的涉恐信息进行收集和分析是未来研究恐怖活动的趋势,也为反恐预警提供了技术支持[6]。这既有助于实现对威胁人民生命财产安全的暴力恐怖事件的预警,也有助于完善国家的反恐情报分析,使得情报机构更加成熟[7],从而更有效的预防和打击恐怖主义。
5 模型应用
本文采用Twitter官方的流API爬取到的某爆炸事件前48小时的包含恐怖组织信息的相关推文,共1697条,以12小時为一段共分为4段。对其进行六种预处理后推文数量为1209条,各阶段数据如表3所示。使用前面训练好的分类器模型来自动识别这些推文的用户言语行为,并将言语行为分类的结果运用于暴力恐怖事件前的分析中。
5.1 分类结果
由于其他这一类别是很多不同言语行为类型的组合,即是一个不同成分的合集,且有言语行为特征的提示词词典也是针对其他四类所组成的词典,并不包括其他这一类,于是在预测暴力恐怖事件时不考虑这一类别,只考虑陈述、疑问、建议、评论这四类。表4为各个时间段这四个类别的分布,图2-图5展示了四类数据的分布变化趋势:
5.2 言语行为分析
对暴力恐怖事件发生前的整段分析中发现,Twitter中用户的言语行为分布发生了明显的变化,这可能是有恐怖分子在Twitter上正在谋划或组织着这一次的暴力恐怖事件。若今后Twitter上再出现类似的言语行为分布,这也许就是又有恐怖分子在谋划暴力恐怖事件的信号,这为今后发现其中的规律提供了依据,在未来一旦发现了变化规律就足以使得相关部门引起警惕和警觉,注意预防类似事件的发生,从而避免出现人员伤亡和财产损失。
如4.1中的图表中所示的那样,疑问和建议这两类的推文在事件前12到24小时明显增多,达到了自己这一类在这四个时间段中所占百分比的最大值。相应的,评论和陈述这两类的推文明显减少,达到了自己这一类在这四个时间段中所占百分比的最小值。这也许是因为恐怖分子在和他们的支持者进行沟通,让他们的支持者对他们要进行的暴力恐怖袭击提出疑问或者建议。
而在事件前12个小时内,疑问和建议这两类的推文所占比重有所下降,而评论和陈述这两类的推文所占比重有所上升。这也许是因为恐怖分子已经确定如果去行动,并已经进行最后的准备,在陈述告知支持者具体的行动,或向恐怖主义的支持者申请筹款,并且使这些支持者们对这次的行动进行评论。
本文通过机器学习的方法,为分析暴力恐怖事件提供了新的思路,也为发现暴力恐怖事件前的用户言语行为变化提供了理论依据。
6 结束语
对于Twitter中用户的言语行为的识别既有理论价值也有实际意义。它也引入了一个新的层面来研究社交媒体内容,以及提供真实生活的数据来验证言语行为理论。而言语行为理论也为研究Twitter用户提供了一个好的窗口,将言语行为理论和数据挖掘的方法相结合,可以更好地识别出社交媒体中用户行为的变化。
而近年来恐怖组织不仅在线下发动着各类惨绝人寰的爆:炸和屠杀,线上还会通过社交媒体宣传蛊惑和进行招募,这严重威胁了人民的生命安全和社会的稳定发展。所以在未来,自动识别出社交媒体中相关言语行为的变化规律,从而预测出将要发生的暴力恐怖事件,来进行控制和预防有着极大的实际意义,这也是本文所希望看到的。
参考文献:
[1]瞿志凯,兰月新,夏一雪,等.大数据背景下突发事件情报分析模型构建研究[J].现代情报,2017,37(1):45-50.
[2]李华伟.社交媒体在“伊斯兰国”恐怖活动中的作用及监管困境[J].宗教社会学,2017(0):224-242.
[3]李本先,张薇.反恐情报2.0:互联网时代的反恐情报体系[J].情报杂志,2017,36(10):17-21.
[4]Amble J C.Combating terrorism in the new media environment[J].Studies in Conflict & Terrorism,2012,35(5):339-353.
[5]杨增光.社交媒体在反恐情报工作中的应用研究[D].北京:中国人民公安大学,2017.
[6]倪叶舟,张鹏,扈翔,等.大数据背景下涉恐信息挖掘方法综述[J].中国公共安全:学术版,2018(4):91-95.
[7]梅建明.论反恐数据挖掘[J].中国人民公安大学学报,2007,23(2):24-29.
[8]Contractor D,Chawda B,Mehta S,et al.Tracking political elections on social media:Applications and experience[C]/Proceedings of the Twenty-Fourth International Joint Conference on Artificial Intelligence,IJCAI.2015:25-31.
[9]胡婧.基于社交媒体信息的中国股票交易预测研究[D].武汉:武汉理工大学,2017.
[10]Austin J L.How to do things with words[M].Cambridge:Ox-ford University Press,1975.
[11]Zhang R,Gao D,Li W.What Are Tweeters Doing:Recognizing Speech Acts in Twitter[C]/In Proceedings of AAAI-11W orkshop on Analyzing Microtext.2011:86-91.
[12]Searle J R.Indirect speech Acts[M]/Speech Acts.New York::BRILL,,1975:.
[13]Kaufmann M,Kalita J.Syntactic Normalization of Twitter Messages[C//In Proceedings of International conference on natural on Natural Language Processing,Kharagpur,India.2010.
[14]Han J W,Kamber M,Pei J.Data cube technology[M]/DataMining.Amsterdam:Elsevier,2012:187-242.
[15]Sokolova M,Szpakowicz S.Machine learning in natural language processing[M]/Handbook of Research on MachineLearning Applications and Trends,ICI Global,2010:302-324.
[通联编辑:唐一东]