特定事件微博与新闻报道话题对比研究
2014-02-27周振宇
周振宇,李 芳
(上海交通大学 计算机科学与工程系 中德语言技术联合实验室,上海 200240)
1 引言
现代社会科技发达,传播媒体在人们获取信息的过程中扮演着非常重要的角色。新闻、报刊这样的传统媒体具有信息量大、客观性内容多、不够及时等特点,是过去人们获取信息的唯一途径。随着科技进步以及Web 2.0时代的到来,博客、论坛、微博客等新型媒体已成为人们青睐的途径,与传统媒体相比,它单篇信息量小,更多地表达了网友自己的观点,互动性强,即时性强。对比新型媒体与传统媒体的研究工作基本上处于新闻工作者的感性认识阶段。因此,利用话题模型对两种媒体的内容进行自动分析,研究同一事件两种媒体的话题对比,审视两种媒体的差异具有重要的现实意义。
本文主要研究以下三个主要问题:
1) 关于特定事件,微博话题与新闻报道话题有什么不同?关注点有哪些不同?
2) 相同话题在两种媒体上词汇有哪些差异?
3) 相同话题在微博与新闻媒体上随时间的变化有何不同?
为了解决以上三个问题,本文提出了衡量话题的三个指标: 关注度、差异度和演化度。根据量化的数据研究两种媒体对同一事件的内容差异。
本文的主要工作包括三个方面。首先,利用话题模型LDA对特定事件的语料建模,挖掘出该事件在两种媒体下被讨论的热点话题;然后定义话题的关注度、差异度和演化度,并分别给出它们的计算方法;最后,选取四个特定事件,给出两种媒体对同一事件不同的关注度,话题内容上的差异度,以及单个话题的内容演化。
本文的组织结构如下: 第2节介绍相关的工作,第3节是研究方法的描述,第4节是实验结果和分析,第5节为结论及展望。
2 相关工作
目前,基于微博与新闻报道话题的抽取主要采用LDA模型[1]及其扩展[2-3]。LDA是无监督学习方法,不需要训练数据,已在新闻报道的话题抽取中有广泛应用。Hong[4]采用了LDA模型对Twitter上的话题进行抽取[4],证明LDA方法在微博话题抽取中也是可行的。Zhao[5]使用了Twitter-LDA模型,考虑到每篇微博的字数较少,这一模型融入了作者信息,将同一作者的微博合并为一篇文档,同时模型也融入了背景词信息,并设置了变量控制一个词是来源于背景词还是话题词。也有研究者利用了微博中tag、表情作为标签,使用半监督的Labeled-LDA[6-7],很好地利用了微博的特点。
最近,有不少研究者提出了各种特征,对微博与新闻报道上的话题进行研究。Zhao[5]比较了Twitter和New York Times上话题的类别与类型,将话题分为事件型、实体型、持续型三个类型,从分布、内容、覆盖程度、转发程度等方面比较话题在两种媒体上的区别。Ramage[6]将话题分为物质类、状态类、风格类、社交类4种加以阐述,从整体上分析了4种类型话题的强度差异,还对比了两个用户(w3c和Oprah)的微博上4种类型话题的强度与内容差异。还有不少研究者针对特定事件分析微博话题[8-9]。Qu[8]分析了玉树地震后的微博内容,力图找出灾难后人们主要谈论什么话题,不同类型的话题的发送与转发行为是否不同,以及它们是如何传播的。研究发现灾难后人们关注的重点是发表观点、描述事件、捐赠默哀等话题。不同类型的话题的发送与转发行为也不同,事件刚发生时往往是描述事件居多,随着时间的推移,人们更多关注灾后重建,并在哀悼日发送表达感情的内容。研究还发现人们更乐意转发介绍救灾行动和事件情况的内容,从转发的平均深度来看,也是行动类内容最多。
本文涉及了微博与新闻报道话题的对比,所以如何将不同的话题关联起来至关重要。Zhao[5]使用了传统的JS距离的方法;Chu[10]提出,直接利用JS距离有时候会忽略了话题侧重点的区别,故在传统的计算方法上融合了特征词的概念。将LDA话题结果中概率值较大的词作为特征词,通过计算特征词的余弦相似度,来修正分布的距离。
本文和文献[5]的研究目的相同,区别是选取了特定事件的话题进行两种媒体的分析对比,提出了话题的关注度、差异度和演化度计算方法。本文与文献[8]的不同之处使用了话题模型进行话题的抽取,以及分析了特定事件在微博和新闻报道上的话题,主要对两种媒体在话题层次上进行对比。
3 研究方法
本文从话题层面对微博与新闻媒体进行对比研究。首先针对特定事件,挖掘两种媒体上的语料;然后对两种语料应用LDA建模,挖掘潜在话题;接下来对两种媒体上的话题进行关注度计算,对比两种媒体不同的话题关注。然后研究两种媒体相同话题在词汇与语义上的差异度。最后通过演化度来观察两种媒体上的话题随时间的变化趋势。
在本文中,我们主要讨论两种不同话题。
1) 评论性话题: 人们对某一现象或实体的评论,如呼吁停止冷漠,对道德现状的鞭笞,用俚语调侃独裁者等。
2) 事实性话题: 对客观事实的描述,如对目击者的采访,对病情的进展报道,对各界悼念的报道等。
3.1 话题建模
LDA模型是一个生成概率模型,是三层的变参数层次贝叶斯模型。首先假设词由话题的概率分布混合产生,而每个话题是在词汇表上的一个多项式分布;其次假设文档是潜在话题的概率分布的混合;最后针对每个文档从Dirichlet分布中抽样产生该文档包含的话题比例,结合话题和词的概率分布生成该文档中的每一个词汇。本文对两个事件在两种媒体上的语料集按时间先离散建模,得到事件在两种媒体下,各时间段的多个话题结果。表1是文中使用到的符号。
表1 文中使用到的符号
3.2 话题关注度计算
话题的关注度是衡量该话题被谈论的程度,即在新闻报道或微博中该话题所占的比例。LDA建模后可以得到话题在各文档中的概率分布。我们可以计算话题在所有文档上的平均概率作为关注程度的衡量。但是一篇只有几个字或几十个字的微博,经过分词、去除停用词等处理之后,剩下的有效词数很少。实验中我们发现有的微博的有效词语可能只有一个,当这个词语被分给某话题后,该话题的概率为1。故而对不同的文档字数,赋予不同的权值,从而使计算上更具科学性。我们定义话题z在某天的覆盖程度为式(1)。
其中D为当日的文档(新闻报道、微博)全集,θ是话题在文档上的分布,φ根据文档字数多少而确定的权值。这个强度的指标衡量了一个话题在某日在所有文档中的关注度。在不同媒体间进行比较时,我们定义话题z的关注度AF(attention factor)的计算公式为强度归一化的值,如式(2)所示。
其中T是当日的话题全集。
3.3 话题差异度计算
话题的差异度是衡量新闻媒体与微博上相同话题的差异度,用话题词汇分布的距离来计算。话题距离通常采用JS距离来计算,但对于本文的研究语料,如果直接使用JS距离,其效果较差。这是由于两种媒体本身用词的差异。如微博上人们可能会使用一些较为口语化的词汇,而新闻报道上可能更多地使用较为正式和官方的词汇。事实上,LDA建模后,每个话题表示为具有相同语义的词汇集合。定义话题的词汇表示:
考察词在话题z上的分布pz,若对于某词w,有pz(w)>ξ,ξ为阈值,则认为w是话题z的词汇,记作w D(z)={w|w 其中V是词汇表。 假设话题z在两种媒体上分别表现为话题z1和z2。定义它们词汇的交集与并集: 交集z1∩z2=D(z1)∩D(z2) 并集z1∪z2=D(z1)∪D(z2) 其中JSdiv(pz1||pz2)是话题z1与z2的JS距离。 话题演化度是衡量同一媒体相同话题随时间的变化。由于LDA的结果表征了话题在文档上的分布,以及词汇在话题上的分布。在讨论话题演化度的时候,通过计算话题间的语义相似度来表征,采用常用的JS距离(Jensen-Shannon divergence)来判断话题之间是否存在演化关系。之所以不像上一节中对JS距离进行修正,是因为对于同一种媒体形式来说,它的词汇使用的差异并不大。假设微博(新闻报道)上的某话题z,它在某时间段t表示为zt,词汇表Vt的分布是pzt;在时间段t+1上表示为zt+1,词汇表Vt+1的分布是pzt+1。由于词汇表Vt与Vt+1是取自两个不同的时间段,维度并不相同。故欲计算两个分布的距离之前须先统一维度,扩充词汇表。扩充方法参照Chu[10]的方法: 将两个词汇表合并,并置话题中未出现的词的分配次数为0。则定义话题的演化度EF(evolution factor)计算公式为两个分布的JS距离: EF(z) =JSdiv(pzt‖pzt+1) +KLdiv(pzt+1‖m) (4) 本文主要针对微博与新闻报道上特定事件的话题进行多方面对比研究。有的事件由微博引发,有的事件则是由新闻报道引起。针对不同类型的事件进行对比,可以更好地研究出两种媒体形式的差异。我们选取了2011年4个比较有影响力的事件作为语料集。 1. 小悦悦事件: 2岁女童小悦悦被车碾压,18个路人过路不闻,最终女童死亡。 2. 金正日事件: 朝鲜最高领导人金正日在去视察的火车上因过度疲劳而去世。 3. 华尔街事件: 示威者试图占领华尔街,声称反对美国的权钱交易及严重的金融危机。 4. 天宫一号事件: 中国自主研制的首个空间目标飞行器天宫一号发射升空,并与神舟八号对接。 之所以选取这4个事件,是因为这4个事件分别为民生类事件、人物类事件、政治类事件、科技类事件,且1、4两个事件为国内事件,2、3两个事件为国外事件。且这4个事件在其所在的时间段内均为热点事件,网络上讨论较多。故选取这4个事件进行本文的研究具有一定的代表性。 其中新闻报道部分均采用了新浪新闻下关于这两个事件的新闻报道全文的集合;微博部分采用新浪微博提供的API进行实时收集,直接使用“金正日”、“小悦悦”、“华尔街”、“天宫一号”作为关键词进行检索得到的微博、去除重复出现超过20次的微博、以及微博中所有的hashtag。 实验包括3个方面,一是在同一时间点上,研究两种媒体的话题关注度;二是通过式(3)计算话题差异度,研究相同话题在两种媒体上的词汇差异性;三是通过演化度的计算确定话题的演化路径,研究话题随时间的变化,以及这种变化在两种媒体上有什么不同。 实验数据分为四组: 如表2所示。语料均为全文,并过滤停用词、hashtag。实验使用了开源的Gibbs Sampling工具,话题个数K设为6,模型参数α,β分别设置为50/K和0.01。关注度计算中的权值φ的取值为: 文档字数少于2时为0.2,文档字数在3到5之间为0.45,文档字数在6到9之间为0.6,文档字数大于10为0.8。话题差异度计算中,话题词汇表示的阈值ξ设为0.4,距离式中的词汇差异度权值λ设为0.3。标准JS距离的阈值ηJS为0.8,话题差异度的阈值ηDF为0.64。 表2 四个事件的语料条数、持续时段 根据式(2)分别计算4个事件微博和新闻话题的关注度。表3~6分别列出4个事件前5天的关注度最高的三个话题的top3话题词与关注度值。 从结果可以看出,微博上的话题,人们谈论的较多的是评论性话题。如小悦悦事件中,人们纷纷呼吁要停止冷漠,以及强烈谴责路人的这种见死不救的行为;金正日事件中,人们纷纷表示悼念,以及表示他是中国人民的朋友;华尔街事件中,人们表示对占领行为的声援;天宫一号中,人们对成功发射而欢呼。而对事实性话题,如小悦悦事件中政府援助问题,金正日事件中外国的表态和事件造成的经济影响,华尔街事件中各方面抗议活动,天宫一号各种背景知识这样的话题的关注度则相对较小。而对于新闻报道上的话题,可以看到,基本上都是事实性话题,如小悦悦事件中对小悦悦病情的介绍,政府出台保障政策,金正日去世事件中外国的悼念与表态,发布讣文信息,华尔街事件中对事件进程的报道,天宫一号事件中对工程各方面的详细介绍等。诸如小悦悦事件中对道德的反思,金正日去世事件中对金正日独裁事实的批判,华尔街事件中对资本家的揶揄,天宫一号事件中骄傲的心情等话题没有出现在新闻报道中,小悦悦事件中的保护见义勇为和金正日去世事件中的与中国关系都排在靠后的位置。 表3 金正日事件两种媒体上每日关注度最高的三个话题(top3话题词与关注度,前5日) 表4 小悦悦事件两种媒体上每日关注度最高的三个话题(top3话题词与关注度,前5日) 表5 华尔街事件两种媒体上每日关注度最高的三个话题(top3话题词与关注度,前5日) 表6 天宫一号事件两种媒体上每日关注度最高的三个话题(top3话题词与关注度,前5日) 两者各有一些独有话题,金正日事件中微博独有的话题是关于金正日的俚语,新闻报道是对平壤实况的介绍。这样的独有话题也反映了两种媒体各自的特点,即微博人们可以随意戏谑,新闻报道更乐于展现事件的实况。 从以上结果可以看出,微博主要谈论的内容是对现象或人的评论,而新闻报道更侧重于客观事实,基本上处于大体上相反的局面。这也正说明了微博作为一种新兴媒体,它可以使广大网民直抒胸臆,参与度远远高过新闻报道。网民从新闻报道中被动接受客观信息,而在微博中表达自己的主观倾向。 从两者的关注度值来看,微博上的话题关注度差异远不及新闻报道上的差异。即使将话题数定在6,新闻报道上强度较大的话题的关注度都超过了1/5,最少的仅有1/8左右。而且对于相类似的话题,在不同时间上的关注度波动很大。反观微博上,6个话题的相对强度均在1/6上下。说明微博上的话题本身的区别没有新闻报道上那么明显。 首先通过对比实验验证本文提出式(3)的有效性。我们对4个事件每天抽出的话题进行人工比对,用式(3)分别计算两种媒体上每天的任两个话题之间的差异度,通过阈值确定相同话题,人工评判其准确性。以JS距离为baseline,表7是4个事件的计算结果。 表7 应用JS距离与式(3)计算结果 可以看出,本文提出的式(3)相比于直接使用JS距离,除天宫一号事件外,精度与召回率均有所提升。其中金正日事件的提升较为明显。 通过图1实验,式(3)定义的差异度的阈值设为0.64时F值较高。将低于这一阈值的话题定为相同话题,以便于后续对相同话题进行差异度分析。 图1 差异度计算式(3)的阈值-F值曲线 差异度分析将主要侧重于对相同话题在不同媒体上的词汇差异进行分析。我们选取金正日事件第2日、小悦悦事件第4日和天宫一号第1日的各3组相同话题,观察它们的差异度,如表8所示。 由式(3)知,差异度越接近于阈值,则语义的差异越明显。从表3~6中可以看出事实性话题,如外国悼念情况、经济影响情况、政府保障老人这样的话题,两种媒体的差异度相对较小,故词汇上的相似度较大。 比如两种媒体在外国悼念这一话题在语义上高度相似,基本都表达了韩国、美国、日本3个国家的表态,略有不同的是微博上谈到的表态以韩国方面的哀悼为主,而新闻报道上更强调美日基本保持半岛稳定。 表8 两种媒体上6组相同话题的话题词对比 在独裁这一话题上,两种媒体都谈到了金正恩,但是从词语上看,差异较大,微博上主要讲的是独裁问题,是对金家三代领导人世袭的一种讽刺性的评价,而新闻报道上则主要谈到了金正恩接班的问题。 从以上的结果可以看出,从内容上看,越是事实性话题,两种媒体的差异度就越小,而越是评论性话题,两种媒体的差异度越大。 差异度着重研究同一时间点上两种媒体间的用词差异,而演化度则着重于研究话题在整个时间段的趋势变化在两种媒体上有什么不同。 我们通过计算相邻时间各话题间的演化度,得到话题的演化路径。在小悦悦事件中,我们选取“道德”这一评论性话题,观察这一话题在两种媒体上随时间的变化,如图2所示。 从上图可以看出,在整个时间段内,在微博上人们讨论的道德话题基本都围绕着对中国现今社会的道德问题各抒己见,着重谴责现在的中国社会缺少道德与良知。主要的谈论核心点在整个时间段上的变化不大。反观新闻报道上的道德话题,从高频词不断变化就可以看出,话题的着重点随着时间呈现一定的变化。如19日政府开会讨论见死不救的问题,18日和22日均是对网友热议道德问题的报道,而23日则提到了政府提倡的道德文化建设,27日又提到了对老百姓行为的讨论。整个时间段上关于道德的内容变化较大。 图2 小悦悦事件中“道德”话题在两种媒体上随时间的变化(前4个话题词) 对于金正日去世事件,我们考察“悼念”这一事实性话题,如图3所示。由表8可知,在事件的初期,“悼念”话题在微博和新闻报道上的差异度是较小的,但是随着时间的变化,这一话题在两种媒体上的着重点也在发生着变化。 图3 金正日去世事件中“悼念”话题在两种媒体上随时间的变化(前4个话题词) 从演化图上可以看出,“悼念”话题在30日左右便趋于消亡。在22日前和28日后,微博和新闻报道上讨论“悼念”的内容差别并不大。这主要是基于“悼念”是一个事实性话题。但是在23~27日这一时间段内,微博上讨论了安理会拒绝为金正日默哀,和平壤的喜鹊也为金正日“哀悼”,同期的新闻报道上未见相关内容。从讨论内容可以看出,微博上人们更乐于讨论一些较随意的内容,特别是新闻报道为了宣传需要而不方便报道的内容。这也体现了微博话题的随意性。比较而言,新闻报道则更侧重于客观事实。同时为了宣传需要,也会刻意隐去一些相关报道。 本文首先使用LDA话题建模,发现两种媒体中隐含的话题。接着,使用三个指标——关注度、差异度和演化度去研究评论性话题与事实性话题在两种媒体上的受关注程度、用词的差异和演化趋势。根据两个特定事件的实验结果可以得到以下结论: 1) 关于特定事件,两种媒体上的话题不完全相同。微博上评论性话题较多,且关注度较高,新闻报道则是事实性话题较多,关注度较高。带有调侃性的话题(如金正日去世事件中的俚语调侃)是微博上的特有话题,而纯粹描述事件进程的话题(如采访事发、病情恶化)是新闻报道上的特有话题。同时,微博上的话题之间的关注度差异不大,但新闻报道上的话题的关注度差异很大,即使是类似的话题,在不同时间的关注度波动也很大。 2) 评论性话题在两种媒体中的用词差异较大,这也反映了网友在评论或发表看法时的用词与新闻报道正规措词存在很大差异。而事实性话题在两种媒体中的词汇差异较小。如“独裁”这样的评论性话题,微博上的重点词汇有“独裁者”、“国度”、“金日成”等,而新闻报道上使用的词汇是“接班人”“委员长”等。而“哀悼”这样的事实性话题,两种媒体中的主要词汇都集中在“逝世”、“哀悼”、“韩国”、“美国”、“表示”等,差异较小。 3) 微博上评论性话题持续时间较长,话题内容随时间变化较小,事实性话题反之;新闻报道事实性话题的持续时间较长,内容随时间变化较小,评论性话题反之。如“道德”这样的评论性话题在微博上一直持续,且内容基本都是对道德沦丧的斥责,新闻报道上该话题内容随时间一直有所变化;而“悼念”这样的事实性话题,在新闻报道上一直持续且内容变化不大,但在微博上,内容随时间不断变化。 今后的工作将考虑如何进一步更严谨地探索话题间的关联,从更多的角度去分析两种媒体间话题的差异性。特别是针对更多种不同类型的话题,如自然灾害类话题、社会民生类话题、政治事件类等。这些话题有的起源于微博,有的起源于新闻报道,这些特点也可能在话题的差异分析中体现。 [1] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022. [2] Blei D M, Lafferty J D. A Correlated Topic Model of Science[J]. The Annals of Applied Statistics 2007,1(1):17-35. [3] Blei D M, Lafferty J D. Dynamic Topic Model[C]//Proceedings of International conference on Machine Learning, 2006: 113-120. [4] Liangjie Hong, Davison B D. Empirical study of topic modeling in Twitter[C]//Proceedings of the SIGKDD Workshop on SMA,2008. [5] Xin Zhao, Jing Jiang, JianshuWeng, et al. Comparing Twitter and traditional media using topic models[C]//Proceedings of the European Conference on Information Retrieval, 2011. [6] Ramage D, Dumais S, Liebling D. Characterizing Microblogs with Topic Models[C]//Proceedings of AAAI on Weblogs and Social Media, 2010. [7] Ramage D, Hall D, Nallapati R, et al. Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2009. [8] Yan Qu, Chen Huang, Pengyi Zhang, et al. Microblogging after a Major Disaster in China: A Case Study of the 2010 Yushu Earthquake[C]//Proceedings of the ACM 2011 conference on Computer supported cooperative work, 2011: 25-34. [9] Vieweg S, Hughes A L, Starbird K, et al. MicrobloggingDuring Two Natural Hazards Events: What Twitter May Contribute to Situational Awareness[C]//Proceedings of the 28th International Conference on Human factors in computing systems, 2010: 1079-1088. [10] 楚克明,李芳. 基于LDA话题关联的话题演化[J], 上海交通大学学报,2010,44(11): 1501-1506.3.4 话题演化度计算
4 实验结果与分析
4.1 实验数据
4.2 话题关注度分析
4.3 话题差异度分析
4.4 话题演化度分析
5 结论与展望