基于主题模型的新疆暴恐舆情分析
2018-06-14张绍武林鸿飞
张绍武,邵 华,林鸿飞,杨 亮
(1. 大连理工大学 计算机科学与技术学院,辽宁 大连 116024; 2. 新疆财经大学 计算机科学与工程学院,新疆 乌鲁木齐 830013)
0 引言
近几年,随着互联网的飞速发展,新闻在网络平台上得到广泛的传播。由于网络新闻是网络舆情传播的主要途径之一,随之而来的由网络舆情引发的问题也日益突出。尤其是近年来发生的新疆暴恐事件,引起了公众的热议和关注,并形成了强大的舆论动向。随着时间的推移不断演化发展,网络舆论会给人们的现实生活带来一些影响,同时也会给社会管理工作提出一些要求,带来一些困难。所以,准确把握舆论动向,有助于政府对新疆暴恐问题采取及时有效的监管和处理措施。
主题演化是网络舆情分析的重要部分。主题模型作为新的一种统计方法,用来发现文本中蕴含的主题,已被广泛地运用在文本挖掘和信息检索等领域中,并且在主题演化方面也得到了广泛的发展。本文以层级式狄利克雷过程(Hierarchical Dirichlet Processing, HDP)模型作为对比实验,运用动态主题模型(Dynamic Topic Model,DTM),通过分析和比较,总结出新疆暴恐主题在演化中存在的某些规律。
本文的主要贡献是: 针对新疆暴恐网络舆情问题,结合数据集涵盖暴恐这一特点,对基于NMF的DTM主题演化模型进行了改进,在主题一致上取得了更好的效果,并通过比较和分析给出了新疆暴恐主题演化中存在的某些规律。
本文组织如下: 第一节将对相关工作进行介绍;第二节介绍实验用到的方法及实验过程;第三节进行实验结果分析;第四节总结并规划未来工作。
1 相关工作
主题模型旨在从海量文本数据中挖掘出有价值的主题,然后对主题进行检测、跟踪和预测。主题演化就是从主题的产生、发展、再到成熟,最后到消失的一系列过程。当前主题演化模型主要分为两大类: 基于LDA概率模型和基于矩阵分解模型。此外,本节也在1.3中对新疆暴恐舆情分析相关研究进行了介绍。
1.1 基于概率模型的主题演化方法
TOT(Topic Over Time)模型[1]最早被提出,它是在LDA模型中引入时间因素构建而成, 实现简单。TOT将时间也作为可观测变量, 然后与文档和单词一起生成主题。DTM(Dynamic Topic Model)[2]先根据时间窗分割文本集合, 并假设每个时间窗口的文本都由K个话题的LDA模型生成。上述模型都是在LDA 基础上,扩展改进后得到的。其思路及方法都较为简单,而且在主题个数方面都缺少灵活性。
2008年, Ahmed等[3]人提出TDPM (Temporal Dirichlet Process Mixture Model), 通过Dirichlet Process确定演化过程中每个时间窗中的主题个数。2010年, Ahmed 等[4]人又提出iDTM(infinite Dynamic Topic Models), 引入HDP[5-7]方法, 解决了单纯使用LDA过程中各时间窗内主题数固定的问题。
(1)
当顾客选择一张新桌子的时候,还需要给新桌子供应一道菜,选菜的过程服从分布(2)。
(2)
1.2 基于矩阵分解的主题演化方法
非负矩阵分解(Non-negative Matrix Factorization,NMF)[8]是一种新的矩阵分解方法。一般的矩阵分解,如SVD(奇异值分解),PCA(主成分分析)等都会出现分解结果中出现负值的情况。而负值在某些环境下是没有意义的,比如文本中单词的统计,数字图像中的像素等。
NMF是另一种有效的提取主题的方法[9-11]。处理大规模数据更快更便捷,且实现简便、占用存储空间少。Saha & Sindhwani[12]提出了在社交媒体上运用NMF做主题演化的方法。Derek Greene[13]在NMF的基础上对欧洲政治议程做了主题演化分析。
针对本实验数据类型是网络新闻这一特点,本文借鉴了Derek Greene提出的基于NMF的主题演化方法。由于本实验的数据集是结合新疆暴恐的,所以本实验在进行NMF分解时,对单词的权重进行了改进,可以看到改进后实验效果有一定的提升。最后为了验证该模型的有效性,和HDP模型进行了对比分析。
1.3 新疆暴恐舆情分析相关研究
近年来对新疆暴恐舆情研究的论文也有很多。如戴继诚[14]对当前新疆暴恐活动新变化的探析,发现受国内外各种因素影响,当前新疆的暴恐活动出现一些新的变化。如活动主体的年轻化、活动范围的扩大化、活动方式的小团体化、暴恐手段的激烈化等。王定等[15]对当前全球化背景下新疆暴恐活动呈现特点进行了研究。研究指出自2008 年“七五事件”以来,一些极端的外来宗教渗透到新疆各地。西方敌对势力与反华势力对新疆分裂势力的支持,使中国境内的暴恐活动呈现高发状态。全球化时代的恐怖活动给我国的社会发展带来了严峻挑战。
然而,这些作者都是在传统的统计方法上,从政治,社会学的角度出发看待和研究问题。本文尝试通过机器学习的方法,即通过主题演化模型来描述和分析数据,从而发现规律并给予验证。
2 基于NMF的DTM主题模型
本节主要介绍基于NMF的DTM方法。该方法基于新疆暴恐数据采用NMF两次分解,进行主题演化和舆情分析。目的是通过舆情分析,发现规律从而对舆情的把握提供一定的借鉴意义。实验首先从互联网中爬取新疆暴恐相关的新闻,然后对数据进行预处理,接着两次运用NMF生成窗口和动态主题,最后对实验结果进行可视化和分析。具体如框架图1。
首先,本文对含有n个文档的语料集,建立一个矩阵A∈IRn×m,其中m是语料集中不同单词数目。运用NMF方法,就是把A近似成两个非负矩阵乘积的形式A≈WH,并且最小化A与WH间的误差。其中的H∈IRk×m,每一行代表一个topic,行上的元素代表了不同单词在该topic下的相对权重。W∈IRn×k的每一列,表示了文档对该topic的贡献情况。
图1 实验框架图
本文通过设定主题个数区间来增加主题个数的灵活性,然后选取主题连贯性取值最大的个数作为最终的主题个数。这里的topic coherence,计算公式如式(3)、式(4)所示。
对每个主题,文中采用TC-W2V[8]方法来计算主题连贯性。即用主题的关键词集合在word2vec词向量空间上的相似度,来表征该主题关键词间的相关程度。实验中基于权重较大的前t个单词两两之间的余弦相似度均值来表示。最后该模型的主题连贯性用所有topic的coherence均值来表示。
由于主题动态演化的特性,某些主题可能分布在多个时间窗口下,所以还需要生成动态主题。整体计算过程如下:
1) 计算窗口主题(window topics)
① 删除窗口下出现文档数小于5的单词。
② 构造文本和单词输入矩阵,计算单词的TF-IDF权重,计算式如式(5)所示。
(5)
C是归一化系数,w(d,r)对应文本d中单词r的权重,s(r)对应单词r与暴恐的相关程度,实验中用该单词与暴恐词集合的相似程度来表示,即在word2vec词向量空间上的余弦相似度均值。
③ 选取要生成的主题个数k的区间,本实验选取4~25。
④ 对每个k运用NMF生成主题,计算该k个主题下的主题连贯性,然后选取取值最大的k作为窗口最终的主题个数。
该算法伪代码如算法一所示。
算法 1: generating window topics: Input:A : a matrix of document-word weightsk_min,k_max : interval of topic numbersw2v-bin : word2vec for the wordsOutput:H : a matrix of topic-word weights1 for every time window T:2 mx=0,best_k=-13 for K in the range(k_min,k_max):4 do NMF using the inputs above and outputs H5 sum=06 for topic k in the range(1,K):7 compute topic coherence coh using H8 sum+=coh
续表
2) 计算动态主题(dynamic topics)
① 构造一个空矩阵B,对于每个时间窗口计算出的H,在每一行选取前t个权重较大的单词,其余单词权重设为0,然后把该行添加到B里。最后去掉B中只包含0元素的列。
② 采用NMF对B进行分解。B分解后的H,其每一行的前t个单词,描述了本行的动态主题。B分解后的W,其每一列表示了各个时间窗口和该动态主题的相关程度。
该算法的伪代码如算法2所示。
算法2: generating dynamic topics: Input:B : a matrix of window-topic-word weightsk_min,k_max : interval of topic numbersw2v-bin : word2vec for the wordsOutput:H : a matrix of dynamic-topic-word weights1 B=[]2 for every time window T:3 select top t words in H,and add the row in B4 remove the empty columns in B5 mx=0,best_k=-16 for K in the range(k_min,k_max):7 do NMF using B and outputs H8 sum=09 for topic k in the range(1,K):10 compute topic coherence coh using H11 sum+=coh 12 sum/=K13 if best_k==-1 or mx 本文的数据集依赖一个谷歌的全球新闻关系数据库(Gdelt)。数据集来源于数据库中从2013年开始至今全球每天发生的重大新闻事件。它有两种存储方式,一种是按天划分以csv的格式保存在硬盘里,另一种是保存在谷歌的BigQuery数据库里。两种形式都记录了事件发生的时间、地点,事件的类别,事件的发起者和承受者,事件新闻所在的网址以及谷歌标注的情感分数等。而不足之处在于数据库没有提供新闻的文本内容。 实验首先对数据进行了清洗工作。先进行了去停用词、词干化处理,并删去了长度小于4的单词。本文以季度为单元划分时间窗口,每个时间窗口下的数据集是对应季度的新闻集合。最终划分后的数据集如图2所示,横坐标代表时间窗,纵坐标代表时间窗内文本数。 从图中可以看出2014年1~3月及7~9月以及2015年下半年的新闻量较大。在这些时间段内发生过一些影响比较大的事件,分别为2014年3月发生的昆明火车站暴力恐怖袭击事件, 7月发生的莎车县爆恐袭击案,2015年阿克苏地区拜城县爆恐袭击案以及最近的泰国移民事件。这些事件不仅在新闻上迅速传播,在微博等社交媒体上也迅速蔓延开来,形成强烈的网络舆论。 图2 各时间窗口下文档数分布 本文共做了3组实验,第一组是不同时间窗下的主题一致性分析,通过改进后的NMF和原始NMF及HDP作对比,验证了改进后的DTM模型的效果。见表1。第二组实验和第三组实验是对整个时间序列下动态主题的分析,其中第二组实验分析了动态主题的演化,见表2。第三组实验分析了主题关键词的演化,见表3。 3.2.1 不同时间窗下主题一致性分析 本节实验通过主题分析,来验证改进后的DTM方法其在主题连贯性值上的提升,同时与HDP[5]方法作对比,验证了针对本实验数据,该方法比HDP更加适用。 表1 DTM与HDP每个时间窗下的主题连贯性 表1是3个方法在各个时间窗下生成最优主题数后的主题连贯性值,表1里的DTM1表示NMF的输入单词权重矩阵是原始的TF-IDF,DTM表示本实验改进后的模型。通过对比可以发现,结合新疆暴恐的特点,对主题的连贯性有一定的提升。 表2 DTM与HDP在每个时间窗最优主题数 表2是DTM与HDP在各个时间窗下生成的最优主题数。从表1和表2可以看出,DTM产生的最优主题数相对HDP较少,但主题连贯性是相对较高的。而HDP的优点是其生成的主题较多,覆盖范围广,生成能力较强。 表3和表4分别是HDP和DTM在2013-01~03时间窗下生成的主题,这组实验是为了验证DTM模型在本实验数据集下的主题一致性比HDP更强。表中每行代表一个主题,每列是该主题相关的关键词。 表3 HDP在2013-01~03时间段下生成的主题 续表 从对比中可以看出HDP生成的主题不仅包含了DTM生成的主题,还涉及了一些与暴恐不太相关的主题。如表3中第14行对festival和sport的描述,第18行对game的描述等。并且相比DTM模型,其主题关键词描述的主题语义并不是很明显,主题连贯性大部分较低。所以,DTM模型更适用于本实验数据。 3.2.2 所有时间窗下的动态主题分析 下面是关于DTM模型生成的动态主题的实验结果分析,主要对动态主题在时间上的演化,及话题热度的变化和其关键词云做了分析。首先给出了DTM模型生成的主题连贯性较大的前10个主题,如表5所示。表5中每行代表一个动态主题,以及该主题的简短描述和前10个关键词。从中可见新疆暴恐语料在整个时间序列上生成的主要主题。 表4 DTM在2013-01~03时间段下生成的主题 DTM模型生成的最优动态主题数是10,该主题数下主题连贯性最大。从表5中可见主题涉及了种族、恐怖活动、移民、斋月、偷渡等。例如,表5中第二行主要描述恐怖活动,其关键词主要包括attack、police、killed、terrorist等。表5中第四行是描述难民的,尤其指最近的泰国移民事件,其关键词主要包括thailand、turkey、refugee、immigration等。 表5 动态主题对应的前10个单词 续表 图3是前4个动态主题在整个时间序列上的演化,图4是描述这4个动态主题的关键词。结合图3和图4,在下文进行了详细的分析。 图3 前4个动态主题的演化发展 图4 前4个动态主题的关键词云 主题1主要跟政府、人权和种族相关。这也说明“疆独”势力是影响中国及新疆社会稳定和安全的重要因素。从图2中可以看出它在各个时间段内占的比例都比较大,也说明该主题一直是公众舆论的焦点。尤其是15年以来,随着政府加大了对恐怖分子的打击力度,该话题热度也呈现上升的趋势。 主题2主要跟暴力事件相关。从图中可以看出它的热度和事件发生的时期基本吻合。例如,2013年6月新疆吐鲁番地区鄯善县袭警事件,2014年3月昆明火车站严重暴恐事件及5月份在乌鲁木齐发生的2起爆炸案,2015年9月新疆莎车县爆炸案等。发生的时间大部分集中在一年里的正月、5月及9月,也就是穆斯林的斋月期间。这说明斋月期是个敏感时期,政府需在此期间加强社会的保卫工作。 主题3主要跟印度、巴基斯坦和阿富汗有关。主题4主要跟泰国、土耳其和叙利亚有关。主题3和4在演化的分布以及关键词云的描述上都十分相似,都反映的是国际势力因素。尤其在2015年7月发生的泰国向中国遣返非法移民事件表现最为突出。这说明近年来新疆暴恐事件的发生与国外恐怖势力有一定的联系。而且从叙利亚事件上也说明,中国籍极端分子也参与其中,表明境内的暴恐分子与国际恐怖势力已经合流。所以,打击暴恐犯罪活动就需要切断“疆独”势力与国际恐怖主义之间的联系。 3.2.3 动态主题关键词的演变分析 这组实验是对动态主题随时间推移其关键词的分布变化进行分析。表6和表7是上述动态主题1和2在各个时间窗口下,其关键词分布的变化。表中第一列代表时间,随着序号递增而推移,第二列代表不同时间下描述该主题的关键词。 表6 动态主题1的关键词变化 表7 动态主题2的关键词变化 从表6和表7可以看出,主题关键词围绕着事件而变化。例如,表6是关于种族人权主题的描述,从国内的西藏、新疆宗教问题,衍生到巴基斯坦、伊拉克等国际问题上。也说明了国内暴恐活动与国际恐怖势力存在着一定的联系。表7是关于暴恐主题的描述,从北京天安门袭击事件(表中第3行)到昆明火车站袭击事件(表中第5行),以及最近的加油站袭击事件(表中第10行)等。其关键词的变化,也反映了暴恐分子的行动特征。例如,暴恐手段以传统的刀砍、车碾、纵火为主。但最近的枪击爆炸说明暴恐分子对“热兵器”使用频率的上升,对抗性和危害性也随着在增加。所以,政府也应加强对枪支、火药等的管理。 本文针对新疆暴恐事件的舆情进行分析,结合数据自身跟暴恐相关的这一特点,对基于NMF的DTM主题模型进行了改进,实现对新疆暴恐舆情展开了详细的分析,从多个角度分析主题演变的现象和规律;通过与HDP实验方法的比较,可以看出该模型适用于本文所涉及的数据集。再通过可视化分析,总结了关于暴恐事件的一些现象和规律,对把握舆论动向提供了一定的借鉴意义。在未来研究工作中,会尝试一些复杂的模型,从而发现更多的现象和规律;对于可视化方面,也会尝试更为丰富的可视化数据分析手段。 [1] Wang X, McCallum A. Topics Over Time: A Non-Markov Continuous-Time Model of Topical Trends [C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2006: 424-433. [2] Ding W, Chen C. Dynamic Topic Detection and Tracking: A Comparison of HDP, C-word, and Cocitation Methods [J].Journal of the Association for Information Science and Technology, 2014, DOI: 10.1002/asi.23134. [3] Ahmed A, Xing E P. Dynamic Non-Parametric Mixture Models and the Recurrent Chinese Restaurant Process: With Applications to Evolutionary Clustering [C]//Proceedings of the SIAM International Conference on Data Mining,Atlanta, Georgia, USA, 2008: 219-230. [4] Ahmed A, Xing E P. Timeline: A Dynamic Hierarchical Dirichlet Process Model for Recovering Birth/Death and Evolution of Topics in Text Stream [C]//Proceedings of the 26th Conference on Uncertainty in Artificial Intelligence.AUAI Press, 2010. [5] Teh Y W, Jordan M I, Beal M J, et al. Hierarchical Dirichlet Processes [J]. Journal of the American Statistical Association,2004, 101(476): 1566-1581. [6] 方莹, 黄河燕, 辛欣,等. 面向动态主题数的话题演化分析[J]. 中文信息学报, 2014, 28(3):142-149. [7] Wang C, Paisley J W, Blei D M. Online Variational Inference for the Hierarchical Dirichlet Process [C]//Proceedings of the 14th International Conference on Artificial Intelligence and Statistics,2011: 752-760. [8] Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999,401: 91-788. [9] O’Callaghan D, Greene D, Carthy J, et al. An analysis of the coherence of descriptors in topic modeling[J]. Expert Systems with Applications An International Journal, 2015, 42(13):5645-5657. [10] Wang Q, Cao Z, Xu J, Li H. Group matrix factorization for scalable topic modeling[C]//Proceedings of the 35th SIGIR Conf. on Research and Development in Information Retrieval, ACM, 2012: 375-384. [11] 肖永磊, 刘盛华, 刘悦,等. 社会媒体短文本内容的语义概念关联和扩展[J]. 中文信息学报, 2014, 28(4):21-28. [12] Saha A and Sindhwani V. Learning evolving and emerging topics in social media: A dynamic NMF approach with temporal regularization[C]//Proceedings of the 5th ACM Int. Conf. Web search and data mining, 2012: 693-702 . [13] Greene, Derek, and James P. Cross. Unveiling the Political Agenda of the European Parliament Plenary: A Topical Analysis[C]//Proceedings of the ACM Web Science Conference. ACM, 2015. [14] 戴继诚.当前新疆暴恐活动新变化探析[J]. 科学与无神论, 2016(1):29-34. [15] 王定, 吴绍忠. 去“极端化”背景下的新疆反暴恐情报体系研究[J]. 情报杂志, 2016, 35(4):21-26.3 实验与分析
3.1 数据集与预处理
3.2 结果分析
4 结束语