APP下载

基于中文微博的突发事件舆情监测研究

2014-07-13陈国兰

电脑知识与技术 2014年5期
关键词:情感分析微博突发事件

摘要:微博作为异军突起的新媒体,已经成为传统媒体跟踪突发消息的重要来源。文章对突发事件舆情传播的特征与趋势、微博短文本预处理、微博突发事件情感分析3个微博突发事件监测的关键问题进行了阐释和探讨,并基于已有的研究,给出可能地解决方案。最后提出了一个高效的微博突发事件舆情监测的设计框架,通过发现突发事件情感特征及突发期,再对处于突发期的博文进行主题聚类抽取突发事件。

关键词:微博;突发事件;短文本;情感分析;舆情监测

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)05-0905-03

Research on Chinese Micro-blog Bursty Topics Detection

CHEN Guo-lan1,2

(1.Library of Nanjing University of Posts and Telecommunications, Nanjing 210003,China;2. Libraries Information Institute of Nanjing University of Posts and Telecommunications, Nanjing 210003,China)

Abstract: As a new media, microblog has become an important source to track a breaking news for traditional media. In this paper, Characteristics and trend of emergency public opinion transmission, the pretreatment, microblog essay emergency sentiment analysis, three key problems about blog bursty topics detection are explained and discussed. And based on the existing research, possible solutions are presented. Finally put forward an efficient design framework of emergency microblogging public opinion monitoring, emotional characteristics by finding emergencies and sudden period, then to post at the emergency period subject cluster extraction emergency.

Key words: microblog; bursty topics; short texts; emotion analysis; Public opinion monitoring

根据第32次《中国互联网络发展状况统计报告》[1],截至2013年6月底,我国微博网民规模为3.31亿,较2012年底增长了2216万,增长7.2%。网民中微博使用率达到了56.0%,较上年底增加了1.3个百分点。目前微博已经成为网民获取信息的重要途径之一,微博从满足人们弱关系的社交需求上逐渐演变成为大众化的舆论平台,越来越多机构及公众人物都通过微博来发布或传播信息。

在微博影响力呈几何式倍增升态势下,微博成为突发事件网络舆情转移扩散的重要源头。

微博作为一种异军突起的新媒体,正在对传统主流媒体的影响力产生重大冲击。历数近几年年国内外发生的大事几乎都会在微博传播,并通过微博平台扩大传播形成舆论中心,特别是一些突发事件,微博由于其发布的便捷性,成为很多突发消息的首发平台。因此如果舆情监督部门或者决策者通过对微博中的话题进行监测及时的发现突发事件,在合适的时机介入,就能够争取化危机为转机,尽可能的避免突发事件转化成恶性群体性事件。

1 突发事件监测的关键问题

1.1微博突发事件舆情传播的特征与趋势

作为一种新型的媒体,微博信息具有自身的传播特点:首先发布和接收信息简便,很多重大突发事件都是由现场的用户在第一时间发出的,具有很强的即时性和现场性;其次微博的转发功能激发民众进行全民参与,使信息呈现“核裂变”式的几何级数扩散态势;另外拥有众多粉丝数的意见领袖具有强大话语权,在突发事件的产生、发酵、传播等环节中起主要推动作用,潜意识里影响着数以万计的围观群众。

突发事件舆情在微博里面的传播主要经历潜伏期、酝酿期、爆发期、衰退期四个阶段。潜伏期时, 舆情危机的起因往往是爆料人的发帖具有很强的新闻性,能引起网民的关注;酝酿期时,信息经过傳播者(特别是拥有众多粉丝数的微博名人)的传播得到更多网民的关注,其特有的新闻话题能迅速引起广大网民的转发和讨论; 爆发期时, 事件经过媒体、意见领袖进一步放大,迅速升级为一个热门事件,通常网民的情绪激化,负面情感爆发;若相关部门在爆发期时能积极的应对危机事件提出合理的解决方案, 便能疏导民众的情绪, 使事件进入衰退期。

突发事件一个很重要的特点是引发突然性和瞬间聚众性,微博的转发功能能够使得处于潜伏期的一个事件跳过酝酿期迅速扩散进入爆发状态。一个事件演变成为突发事件,通常具备几要素:一、传播过程中通常有微博名人的参与,微博的名人效应有助于微博信息的迅速传播,信息经过他们的转载,即可产生多米诺骨牌效应,放大网络舆论,加速主流舆论形成;二、单位时间内发文和回帖数剧增,微博里面的转发和评论数也剧增;三、评论人数多,能引起众多的心里共鸣,评论中情感倾向严重偏向负极。

为了提高监测环节的计算速度和准确性,可以根据突发事件的传播特点,在采集微博数据时可对不可能是突发事件话题的噪音微博进行过滤:1)过滤噪声用户的微博。噪声用户主要指一些僵尸粉,这些用户会发布大量重复的内容用于一些商业目的,会对话题检测造成不少的影响,会对聚类算法产生干扰。僵尸粉通常关注人数多,粉丝数量少(接近于零),可以对它们的比值设定一定的阀值,如果小于一定阀值,就判定为僵尸用户,就可以过滤其所发的微博。2)过滤转发数量和评论数量小于一定阈值的微博消息,一个热门事件必定有较大量的转发数,同时引起网民的广泛评论或跟帖。3)过滤单纯用户之间对话性微博,通常带有“@用户”格式的消息,多数是用户之间对话式的互动。而我们的检测目标是突发事件,通常受众面较广,很少只是用户之间的交流,所以对带有@格式的指向性消息进行过滤,可以大大提高事件检测的精度。4)过滤微博平台给出的热门话题,这种消息以“#话题名#”为格式,这通常是微博平台针对热门事件之后给定的一些热门话题,这其中多数是对热门事件的讨论,再次成为突发事件的概率较小。

1.2微博短文本处理

由于微博平台有发表字数限制,多数用户使用微博通长只是以日志形式记录自己的生活事宜,因此微博文本与传统的新闻、博客相比,有其自身的特点:1)文本内容短,可使用的文本特征词少且稀疏;2)文本口语化,谐音词、变异词多,给文本理解带来困难。3)文本数量大,存在较大比重的噪声数据。微博短文本是微博内容挖掘的基础,在微博话题检测、情感倾向性分析等研究中均需要使用到短文本挖掘技术。

为了较好的实现对微博短文本的挖掘,国内外学者做了很多尝试。杨震等将每个短文本文档看成一个由文字、数字和标点构成的字符串,并基于字符串自身的特性直接计算其相似性,在此基础上进行短文本层次化聚类,进而发现网络舆情热点. 由于这种方法免去特征提取和文本表示过程,在一定程度上避免了传统方法在短文本表示时特征向量稀疏的不足,有效解决了短文本内容聚类问题[2]。金瓯提出长文本辅助短文本的知识迁移聚类方法,此方法通过与主题相关的长文本利用二元隐含狄利克雷分配模型 (DLDA)来辅助数据稀疏的短文本聚类。该方法通过对大规模的广告和微博数据进行实验,获得了较好的短文本聚类效果[3]。因此针对微博文本特征稀疏的问题,常用的解决方法是利用知网、维基百科等一些常用的知识库作为辅助数据集来对短文本进行拓展,丰富短文本的特征。

上述研究均基于假定微博文本信息都是相互独立的前提下的,并没有考虑到微博文本所具有的话题线索性,通常微博文本包括大量对主题贴的回复,微博文本的这种“对话性”特性,使其拥有丰富的上下文,如果加以语境线索可以增加对微博短文本的理解。赵文清等[4]就充分利用了这种话题线索性,提出基于词共现图的识别中文微博新闻话题的方法。它首先通过综合相对词频和词频增加率2 个因素抽取微博数据中的主题词,然后利用词共现图原理构建微博话题簇来识别微博新闻话题,实验验证了该方法的有效性。

针对微博文本口语化,谐音词、变异词多的特点,该文提出变体词表归一化的思想。微博文本的不规则形式变化多端,包括使用拼音或者谐音字来代替非法词或敏感词其中的某些单字,或者在非法词或敏感词中间插入特殊符号等。首先选取民众普遍关注,容易演变成热点话题的社会事项,如:医疗卫生、公共安全、司法公正、公共教育、社会就业、权力腐败等主题,提取短文本敏感关键词,然后根据已知所有的词变体制作一个变形词表,然后滤掉待过滤文本中的特殊符号,,最后将文本中的词到词典中查询,如果存在则判定为变体词。 最终将所有原文中出现的变体词都归一化到最具代表性的一个词上。例如,"GCD"和"共*党"都代表“共产党”,那么当归一化完成,所有的"GCD"或"共*党"都会被映射为“共产党”。这个过程的难点是变形词表的制作是一个很大的工作量,而且是一个动态增长的过程,需要后期持续的进行补充和维护。

针对微博文本样本数量大,少部分短文本占整体比重大的特点,有学者将“长尾理论”应用到大规模短文本聚类中。“长尾”实际上是统计学中幂律(Power Laws)和帕累托分布(Pareto distributions)特征的一个口语化表达。应用在文本领域,举例来说,我们常用的汉字实际上不多,但为数不多的汉字因出現频次高占据了很大比例,而绝大部分的汉字难得一用,它们就属于长尾。俞晓明等[5]发现“长尾理论”也适合在微博的主题聚类中,在微博的海量文本中,少部分占很大比例的短文本不太具有主题聚类的效果和意义,属于孤立点。因此他们提出不完全聚类思想来实现微博的大规模短文本聚类,在聚类过程中集中资源处理重要的大类别短文本,减少资源在孤立点聚类上的浪费, 尽量减少小类别短文本的聚类时间,增加大类别短文本聚类的机会。

1.3突发事件微博情感分析

突发事件的发生容易引发网络社会情绪危机。当突发事件发生时,用户的情感和情绪也会呈现出一个爆发现象,像恐惧、害怕、愤恨等一些负面情感会迅速蔓延。因此可以通过监测微博中的用户情感变化,特别是大规模的负面情绪的爆发来检测突发事件。刘志明等[6]以Aging theory主题生命周期模型为基础,设计了面向突发事件的微博民众负面情绪生命周期模型,并结合主题检测与跟踪技术来检测突发事件主题数据流,构建基于微博的民众负面情绪实时监控预警框架。文中最后以25 起突发事件为实验对象,验证了提出模型的有效性。但是由于此模型需要突发事件作为训练样本,训练模型的好坏跟训练样本数量多少相关,因此需要持续的收集各类突发事件样本数据。另外没有考虑到突发事件的演化模式不同导致的模型差别。

微博情感倾向性分析的关键在于提取微博短文本中的情感词作为特征属性,并对信息进行正确分类。情感词又称为极性词,是指带有情感倾向性的词语,通常分为正极、负极和中性。情感词的抽取和判别主要可基于大规模语料库的统计方法和基于情感词典的判别方法。基于语料库的情感词语抽取和判别主要是利用大规模语料中挖掘出的语言学规则特征,以机器学习模型对词汇的情感极性进行判别。这种方法的最大优点在于简单易行, 缺点则在于可以利用的情感语料库有限,同时情感词语在大语料库中的分布等现象并不容易归纳[7]。因此如果能将语料库按照专业领域建设,并和微博的主题结合,则可以进一步提升机器学习判断的正确率。

基于情感词典的判别方法主要是使用词典中词语之间的词义联系来挖掘情感词,其判别难度在于情感词典的构建。中文里有较多的一词多义现象,且在不同的语境下表达的意义可能相反。现有的中文情感词典资源有《知网》、《常用褒贬义词语详解词典》、《学生褒贬义词典》、NT-USD、《褒义词词典》和《贬义词词典》等,基于微博五花八门的网络用语不断涌现,需要建立相应的网络语言情感词库,来提高情感判别的准确性。

近年来,国内外学者关于情感倾向性分析的研究也较多,主要集中于情感倾向分类和情感词抽取。段建勇[8]等提出一个基于句法语义的情感倾向性评测算法,通过构建特定领域的舆情知识库,然后结合人工分析给出高频词汇的情感倾向知识库,为后续情感分析提供必要的基本数据。算法以句子为基本单位进行处理,运用基于扩展句法树的语言处理模型,从单句到篇章计算文本情感倾向。王振宇等[9]针对HowNet和PMI两种方法的局限性,提出了一种知网与PMI 相融合的词语情感极性计算方法,该方法首先利用知网进行同义词扩展来降低情感词在语料库中出现频率低所带来的问题,同时根据知网相似度计算的特性,将知网相似度与PMI 计算方法相融合。并通过实验验证了该方法的有效性。

另外在对情感词判别其情感倾向时,还要结合其词语所在的语境,在不同的领域甚至在相同的领域,同样的单词在不同的语境下可以表达出不同的观点。例如,“你的建议很高明!”这里面“高明”是褒义词,代表正面情感。反之在“我们都被他高明的伎俩给骗了”里,“高明”就是贬义词,代表负面情感。因此情感词识别需要结合其上下文语境,不仅要提取情感词,还要提取其评价的对象,根据其评价对象来判别情感词的极性。

2 监测系统框架

探讨完微博突发事件监测的几个关键问题后,设计微博突发事件的监测流程图如下:

图1

大体思路如下: 首先通过网络爬虫对具有影响力的微博网站采集微博页面信息,然后经过页面分析,根据我们前面提到的过滤规则消除掉不太可能引起突发事件的噪声数据,提取微博短文本集;再对微博短文本进行短文本预处理(包括变体词识别、短文本扩展、不完全聚类裁剪)变成易于识别和处理的传统文本;然后再对其文本数据进行预处理( 包括特征选择、中文分词处理、停用词过滤、情感标注等)得到文本向量,之后再用分类器对数据进行情感极性分类, 通过情感评估,将情感极性大于一定阀值的热门博文库进行主题聚类,最后抽取出突发事件。

3 总结

在基于前人研究的基础上,对微博突发事件监测涉及的几个关键问题,进行了探讨。首先根据微博突发事件舆情传播的特征与趋势,对微博的文本采集提出了合理的过滤规则,对不可能引发突发事件的微博文本进行过滤,可以大大提高监测的效率;之后又根据微博短文本的3个特点,结合前人的研究,给出相应可能的解决方案;文章最后提出了一个微博突发事件监测框架,其主要思想是基于情感分析的微博突发事件监测,通过监测情感爆发词提取突发期,再用主题聚类方法对突发期内的话题进行聚類,识别出突发事件。该文的主要工作主要是基于理论的探讨,将此理论付诸实践,开发出一个微博突发事件监测系统,是后续研究的重点。

参考文献:

[1] 第32次《中国互联网络发展状况统计报告》.

[2] 杨震, 段立娟, 赖英旭.基于字符串相似性聚类的网络短文本舆情热点发现技术[J].北京工业大学学报,2010(5):669-673.

[3] 金瓯.长文本辅助短文本的知识迁移聚类方法[D]. 上海:上海交通大学,2012.

[4] 赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012(10):444-449.

[5] 彭泽映,俞晓明,许洪波,等.大规模短文本的不完全聚类[J].中文信息学报,2011(1):54-59.

[6] 刘志明,刘鲁.面向突发事件的民众负面情绪生命周期模型[J].管理工程学报,2013(1):15-20.

[7] 周胜臣,瞿文婷,石英子等.中文微博情感分析研究综述[J].计算机应用与2013(3):161-164

[8] 段建勇,谢宇超,张梅基.基于句法语义的网络舆论情感倾向性评价技术研究[J].情报杂志,2012(1):147-150.

[9] 王振宇,吴泽衡,胡方涛.基于HowNet 和PMI的词语情感极性计算[J].计算机工程,2012(8):187-193.

猜你喜欢

情感分析微博突发事件
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
事实与流言的博弈
重大突发事件中微博之力不微
突发事件的舆论引导
文本观点挖掘和情感分析的研究
清朝三起突发事件的处置
突发事件
微博时代大学生隐性思想政治教育的功能解析