基于时序主题的网络舆情热点话题演化分析方法
2016-11-29王雪怡陈福集
陈 婷, 王雪怡, 曲 霏,陈福集
(1.南开大学 商学院,天津 300071; 2.天津大学 仁爱学院,天津 301636; 3.福州大学 经济与管理学院, 福州 350108)
基于时序主题的网络舆情热点话题演化分析方法
陈 婷1*, 王雪怡2, 曲 霏2,陈福集3
(1.南开大学 商学院,天津 300071; 2.天津大学 仁爱学院,天津 301636; 3.福州大学 经济与管理学院, 福州 350108)
针对舆情话题演化中的话题漂移和衍生效应,提出基于时序主题信息的舆情话题演化分析方法并通过加入时序标签,对舆情热点话题内容和强度的演化过程进行了可视化.实例证明,该文提出的话题追踪算法能够有效探测出各阶段的舆情热点话题、分析舆情演化趋势,为突发事件发展态势的预测提供理论借鉴.
网络舆情; 话题追踪; 时序主题; 话题演化
近十年来,由于自然灾害肆虐、资源争夺困境等诸多困扰,影响国家主权稳定、社会和谐发展的突发事件日益频发,已成为各国政府需要重点应对的关键问题.突发事件爆发后,由于网民、媒体的主动行为和随机行为,一时间网络上各种消息报道铺天盖地,引起公众的不断跟进与讨论,逐渐产生具有影响力的公众情感倾向和政治态度倾向,并形成一股强大的社会舆论力量—网络舆情[1].突发事件网络舆情的发展和演化规律,能在很大程度上反映突发事件自身的内在发展机理.关注突发事件网络舆情的发展演化,实现对网络中舆情话题的有效发现与监控,有助于突发事件应急管理相关部门跟踪事态发展,从容不迫地应对各种问题,从根本上提升决策环节的效率和效果.因此,舆情话题追踪与演化分析具有重要的现实意义.
对舆情话题的追踪和演化分析可从舆情话题追踪算法的设计和实现[2-4]、热点话题演化分析两部分进行研究[5-8].文献[2-4]以话题追踪算法中的话题相关度的计算和基于时序信息的话题发现为着眼点,引入隐含语义分析的方法对语料信息进行建模,通过两阶段的聚类策略发现网络上较受关注的话题[2],或把时间离散化为时间点,然后利用其极限情况来处理连续时间的动态主题跟踪问题[3-4].文献[5-8]关注点是话题演化分析,话题演化分析是指挖掘话题随时间发展在属性上的变化,主要表现在话题强度和话题内容发生的变化.
综上,大部分的学者将关注点放在话题追踪算法的改进和实现上,集中精力研究话题的识别与演化方法,鲜有学者将话题的识别和追踪同话题的演化分析结合起来,缺乏对舆情话题演变规律和话题发现的整体研究.由于互联网舆情所具有的衍生性和动态性,舆情话题会呈现出更复杂的演化特性.本文在舆情话题追踪方法的设计和实现上为克服话题漂移和衍生现象造成的追踪效率不高的问题,在话题相关度分析中对以往算法中仅仅基于内容相似度的方法进行了改进,并在话题识别出来之后,根据时序信息加入时序标签,对话题随时间演化过程进行可视化展示,分析突发事件的话题内容侧重点的迁移规律和发展趋势,从而了解和预测突发事件本身的演化机制.
1 基于动态话题模型的舆情话题追踪方法
1.1 话题相关度调整策略
话题追踪的关键是根据话题相关度探测新话题,以往话题追踪方法大多基于内容相似度考量话题相关性.舆情话题传播演化过程极易发生话题漂移和话题衍生现象,新话题往往是在对前一个话题或种子话题的回顾性描述或评论中产生的,通过这种方式产生的新话题往往与原网页有链接关系,但是两者的内容相似度较小,因此,针对围绕突发事件的舆情话题的相关报道的语料信息,话题模型中话题信息层中的节点与舆情话题的相关度计算需要综合考虑节点网页之间的链接关系和内容相似度.因此,本文提出网页间话题相关度的计算公式为
R=RL⊕RC,
(1)
式中,RC是根据网页的内容计算得到的相关度,具体做法是计算互联网新闻报道语料的内容空间向量与舆情话题的内容空间向量二者之间的相似度.因此(1)中的RL是根据网页间的链接关系,在区分链接性质的前提下计算出的网页主题之间的相关度.新入网页Pa与原舆情话题相关度RL(Pa)的具体计算公式为
RL(Pa)=(RC(P1)+RC(P2)+…+
RC(Pn))/N(a).
(2)
公式(2)是新入报道的话题与原话题之间相似度的计算公式,由于原话题可能涉及多个网页,而新入的舆情报道网页若与多个原有报道的网页之间均有链接关系,则新入网页的话题与原话题的相似度须取与原有网页报道的相关度总和的平均值,RC(Pi)为网页Pa与原有报道的网页Pi的内容相似度,N(a)是新入网页Pa发出的链接总数.
⊕表示对RL和RC之间的运算是广义加法运算即网页间的话题相关度R满足max(RL,RC)≤R≤min(1,RL+δRC),δ是根据RL和RC的相对重要性设置的调节系数.
1.2 基于动态话题模型的舆情话题追踪方法
互联网舆情报道随着时间的演进不断更新,新话题产生与否是未知的,因此话题的识别是一种增量式的聚类过程,并且话题挖掘过程是无监督的.首先,对于一系列的舆情报道,按照发布的时间信息将其划归到对应的时间片,在一个特定的时间片内对报道进行特征抽取,关于某特定时间的舆情报道中可能涉及多个话题,因此通过特征抽取形成多个话题向量,在此过程中将该报道转换为对应的话题向量矩阵.
本文的话题追踪方法从两个方面捕捉舆情报道的动态变化:一方面,在模型的话题信息层中保存当前时刻的话题信息,主要是通过话题挖掘已经得到的聚类结果;另一方面,根据话题相关度调整策略计算新入报道的话题相关度,将新话题及其相关度的信息加入原有话题模型.这种增量式的话题聚类过程相当于是对整个报道集的聚类算法,算法按照时间片的顺序,对报道集进行增量聚类,依次处理舆情报道信息流中的报道网页,属于当前神经网络学习使用较多的批处理学习算法[9].具体算法实现如下.
2) for each Ri {//Ri为后续的舆情报道网页;
4) R=R.add(Ri)//若Ri为相关报道,则将加入话题模型,并更新话题模型;
5) to extract effective link from Ri//区分Ri发出的网页链接类型,去除友情链接和广告链接;
6) for each link Lj {
7) if (Pj∉Ti) then {//链接Lj指向网页Pj,且Pj不在已有的话题集中;
8) num(Ti)++;//将网页Pj加入话题模型;
update(Tj);
9) T=T.addLink(Ri,Pj)//更新话题模型的网页信息层,添加Ri指向Pj的链接信息;
10) T=T.computeRL(Ri)//基于链接关系分析报道Ri的相似度;
11) for each link Lj {
12) T=T.updateR(Ri,Pj)};//根据公式(4)调整与报道Ri有链接关系的所有网页Pj的相关度;
13) };
16) num(Ti)++;
update(Tj);//报道Ri的相关度超过了预设的阈值,认为舆情报道Ri出现了新话题,更新话题集;
18) End.
在上述算法中,步骤1)是确定种子报道和种子话题的模型初始化过程,步骤2)~步骤4)是判断新入报道是否与种子报道相关的过程,如果相关则将该报道加入话题模型,并更新报道集.步骤5)~步骤13)是基于链接关系计算报道的相关度和链接所指网页的相关度,并根据计算结果更新话题模型.步骤14)~步骤15)是判断报道中是否有新话题产生的过程,最后返回某个时间片内的话题集.算法中的话题聚类方法采取研究成果[10],该方法自动挖掘热点关键词闭关聚类,可及时发觉热点话题并对突发事件实时追踪监测.
1.3 话题演化分析方法
综合上述内容,基于时序主题的话题演化分析方法包括3个部分,即热点话题的获取、主题识别、对识别的主题添加时序标签.通过话题相关度计算和话题聚类算法获取热点话题后,对热点话题进行人工分析判断实现主题识别,根据话题讨论的具体内容和方向创建不同的主题,然后将识别出的主题添加时序标签,发现主题的发展演化情况,如甄别哪些主题的讨论随时间变化越来越强烈,哪些主题随时间变化逐渐变冷,对主题演化的判断可帮助有关部门把握网络热点话题的发展方向,从而采取相关措施.
2 实验分析
选择“马航MH370失联”事件为案例,利用“网络神采”数据采集器,以定向采集方式从腾讯和新浪两大新闻门户网站获得相关的新闻报道5826条,作为实验的数据源.实验中对算法的实现方面选择的编程语言采用Java语言,并通过开源的CRF中文分词工具对文集进行分词、停用词过滤等预处理.经过预处理后相关语料就作为本实验室的测试报道流,模拟互联网舆情报道.
依照表1的话题追踪算法,对算法的实现方面选择的编程语言采用Java语言,对上述测试报道流进行实验.通过话题追踪结果进行人工分析和判断,得到8个热点主题:
Topic 00: MH370去向;Topic 01: 乘客家属的安抚工作;Topic 02: 失联航班的搜救;Topic 03: 飞机黑匣子打捞工作进展;Topic 04: 飞机失事原因调查;Topic 05: 各国搜救力量对比;Topic 06: 悼念MH370遇难者;Topic 07: 马来西亚官方报道.
2.1 舆情话题内容演化分析
对上述8个热点话题建立时间轴,添加时序标签,见图3~图6.据此可分析“MH370失联事件”发生后舆情话题随时间发展的迁移路径和公众关注的侧重点.
图1 Topic 00与Topic 01随时间演化情况Fig.1 Evolution of Topic 00 and Topic 01
图2 Topic 02与Topic 03随时间演化情况Fig.2 Evolution of Topic 02 and Topic 03
图3 Topic 04与Topic 05随时间演化情况Fig.3 Evolution of Topic 04 and Topic 05
图4 Topic 06与Topic 07随时间演化情况Fig.4 Evolution of Topic 06 and Topic 07
依图1~图4所示,各话题热度的时间分布差异较大,各话题随时间的变化趋势不尽相同,说明事件发生后,由于事件发展,各舆情话题存在明显的话题迁移.从整体分布而言,事件的主要聚焦对象为“马航370坠毁”的真相、搜救工作、事件的处理和善后等方面.主题00“MH370去向”在3月10日形成一个小高峰,随后迅速降低,这是由于越南海军在越南南部海域发现油污带,而在马方确认油污带与MH370航油不符后话题热度迅速走低,在3月25日马来西亚总理宣布MH370 终结于南印度洋后达到顶峰,随后在4月24日再次形成一个小高峰,这符合当时澳大利亚宣布已打捞出疑似马航370残骸的实际情况.主题02“失联航班的搜救”,从3月8日事件发生当天开始,在初期一直持续高强度报道,说明该阶段对失联航班的搜救工作一直在持续,然而在后期报道的重心由“搜救”转向“黑匣子搜寻”.主题03“飞机黑匣子打捞工作”在事件刚发生的一段时间内一直处于低潮,在3月15日话题热度不断高涨,特别是在3月25日之后逐步达到白热化,在3月29日左右出现整个情势的峰值.而现实情况与此规律吻合:在3月25日马来西亚总理宣布飞机坠毁之前,并无明确消息指向飞机的坠亡,所以之前的搜救工作重心是寻找客机,调查其失联原因,“机长有最大嫌疑”、“恐怖分子劫机”等相关的热点话题正是在该时间段内正式形成.而在马来西亚总理公布飞机终结于印度洋后,国际相关突发事件应急组织的工作重点由搜救转向寻找飞机黑匣子,所以该主题一直在高涨,并在黑匣子失效前期随着搜寻力度的加大,包括澳大利亚、美国、中国等多涉事主体的加入,该主题的舆情影响力达到了空前高度.从图中可看出,主题04“飞机失事原因调查”从3月15日后开始频繁报道,究其原因是由3月14日后马航确认有持假护照登机者引起的,由此产生的“恐怖分子袭击”等热点话题开始形成,在3月26日,由于各国媒体直指机长为最大嫌疑人,关于机长个人成长背景、家庭背景、马方政府调查的相关报道短时间内激增,在28日该主题的热度达到峰值.随后由于马方政府及时公布调查结果而热度逐渐衰退.必须指出的是主题06“悼念MH370遇难者”,该主题下的话题“澳政府拟建马航MH370纪念碑”属于衍生话题,而且发生在事件后期,而该时期的工作重点仍是寻找飞机黑匣子,与此类似由04主题“飞机失事原因调查”衍生出的“马航未能呼救之谜”、“副机长与澳大利亚旅客合照”等话题也出现在事件后期,说明在舆情衰退期,由于公众视线转移,原始舆情已失去生命力,这时极易产生与原事件相关度不大的新话题,同时也验证了本文话题追踪方法的有效性,能够在报道语料中发现舆情发展后期的衍生话题.
通过图1~图4的话题演化情况还可以刻画“马航370失联”事件的网络舆情的走势,大概可以分为四个阶段,笔者已在图1中标示.
2.2 舆情话题强度变化
话题强度描述了话题的关注度,讨论某话题的文章数越多,说明该话题的强度越高,可以被认为是热门话题[11].
通过对各时间段内形成的舆情话题的媒体关注度进行展示可以分析舆情话题强度的变化,笔者针对国内主流网媒如新华网、凤凰网等26家网媒对上述舆情热点话题的报道频率,展示了话题强度的变化,限于篇幅,以前四个话题为例,见图5和图6.
为保证图形美观,国内主要网媒:人民网、新华网、人民日报、光明日报、新民周刊、 凤凰网、重庆晚报、华龙网、新京报、浙江在线、齐鲁网、中国河南网、兰州晚报、北京商报、城市晚报、解放网—解放日报、东方早报、兰州晨报、第一财经日报、法制网、大河网、中证网、北京商报、广东—南方网、西安日报、金羊网—羊城晚报,分别用A~Z字母表示.
图5 Topic00和Topic01的网媒报道情况Fig.5 Reports of Topic 00 and Topic 01
图6 Topic02和Topic03的网媒报道情况Fig.6 Reports of Topic 02 and Topic 03
每个时段内的最热门的话题并不固定,网媒报道的侧重点差异度较大,主要集中在:主题00,03,04和07.从整体分布情况看,人民网和凤凰网对“马航MH370失联事件”的关注度最高,且各网媒关注的侧重点有较大差异.例如新华网关注的侧重点为主题01,02和07,重庆晚报对主题00,02和07的报道频率较高,人民日报对主题00,02,05和07展开了重点报道,人民网对主题02,05,和06表现了较高关注度.由此可见主题05和07是各网媒争相报道的重点,两个主题受到了主流网媒的共同关注,说明“失联航班的搜救”和“马来西亚官方报道”受到了高度关注,中国和国际组织的救援工作一直是公众关注的焦点问题,同时也是解决问题的关键.由此可看出马航事件背后的未来国际多边合作的新端倪和新趋势.
综合舆情热点话题的内容和强度的演化,可以实现“马航MH370失联事件”舆情情况的全面展现,从而得到事件的发展趋势,笔者将其整理为表格,见表1.
有效合理地研究突发事件的网络舆情,通过对舆情话题演化路径的分析,有助于全面认识事件的变化情况,直观展现事件整体发展过程,这对于热点事件的研究至关重要.
表1 “马航MH370事件”发展过程各阶段情况
3 结语
突发事件网络舆情的发展和演化情况,在很大程度上反映了突发事件自身的内在规律,本文的核心工作在于将话题追踪和话题演化分析结合起来,将互联网舆情报道离散到时间序列上的时间片,探测每个时间片上的热点话题,提出了一种综合考虑内容和链接度的话题追踪方法,并在此基础上提出了基于时序主题的话题演化分析方法.以“马航MH370失联事件”为例,根据时间序列上的话题热度变化,从话题内容和话题强度两方面,展示热点舆情主题的分布情况.通过分析舆情话题的演化情况,可为政府突发事件后的应急处理中,及时了解舆情动态,预测事件发展态势,进而提高决策环节的效率和效果,提供有益借鉴.
限于篇幅,综合考虑链接度和内容的话题追踪方法与以往话题追踪方法的对比分析,以及对衍生话题的探测效果的考察,笔者并未撰文分析.另外,如何进一步挖掘衍生话题特点,更好探索话题之间的关联,将是未来的研究重点.
[1] 陈福集, 郑小雪. 面向网络舆情的政府知识模型研究[J].图书情报工作, 2012, 56(8):123-127,122.
[2] 马雯雯, 魏文晗, 邓一贵. 基于隐含语义分析的微博话题发现方法[J].计算机工程与应用,2014, 50(1):96-100.
[3] BLEI D M, LAFFERTY J D. Dynamic topic models[C]//Proceedings of the 23rd International Conference on Machine Learning, 2006:113-120.
[4] 赵 华, 赵铁军, 赵 霞. 时间信息在话题检测中的应用研究[J].计算机科学, 2008, 35(1):221-223.
[5] GRIFFITHS A T, STEYVERS M. Finding scientific topics[J]. Proceeding of the National Academy of Science, 2004, 101(S1):5228-5235.
[6] HALL D, JURAFSKY D, MANNING C D. Studying the History of Ideas Using Topic Models[C]//Proceedings of the 2008 Conference on Empirical Methods in National Language Processing, 2008:363-371.
[7] 高 田, 杜军平. 基于领域知识本体的突发事件演化[J].中南大学学报(自然科学版), 2011, 42(S1):847-852.
[8] 朱恒民, 刘 凯, 卢子芳. 媒体作用下互联网舆情话题传播模型研究[J].现代图书情报术, 2013(3):45-50.
[9] 许 彪, 李明楚. 基于终身学习RBF神经网络的网络安全态势预测[EB/OL].http://www. paper.edu.cn/html/releasepaper/2008/09/690/.
[10] 张寿华, 刘振鹏. 网络舆情热点话题聚类方法研究[J].小型微型计算机系统, 2013, 34(3):471-474.
[11] 贺 亮, 李 芳. 科技文献话题演化研究[J].现代图书情报技术,2012(4):61-67.
Research on method of public opinion topic evolution analysis based on time sliced topic
CHEN Ting1, WANG Xueyi2, QU Fei2, CHEN Fuji3
(1.School of Business, Nankai University, Tianjin 300071; 2.School of Renai,Tianjin University, Tianjin 310363;3.School of Economics and Management, Fuzhou University, Fuzhou 350108)
For the topic drift and derivative effect in the evolution of internet public opinion, in this paper a topic tracking method is proposed based on link degree and content similarity. Experiments showed that, the method effectively detects the hot topics in various stages and analyze the evolution trends of public opinion, suggesting its function on providing theoretical reference for the governments’ forecasting work in emergencies.
internet public opinion; topic tracking; time sliced topic; topic evolution
2016-01-23.
国家自然科学基金项目(71271056).
1000-1190(2016)05-0672-05
G206.3
A
*E-mail: 215003771@qq.com.