APP下载

层次化在线话题热度算法

2019-10-21潘夏晖虞欣平邹军

名城绘 2019年4期
关键词:话题聚类

潘夏晖 虞欣平 邹军

摘要:由于网络数据覆盖领域广、信息量大的特征,通过在线话题聚类得到的话题数量仍然繁多,并且话题重要程度也不同,其中大多数话题都无关紧要。那些涉及敏感问题,具有爆发力的话题往往决定了整个网络舆情的发展趋势,才是需要研究的重点。通过对话题热度的计算可以有效地发现网络舆情的热点话题。

关键词:话题;聚类;热度

就目前对话题热度计算的研究,主要都是从话题的媒体关注度和用户关注度这两方面考虑的。话题的媒体关注度是从舆情数据的发送方来考察话题的热度,其主要包括话题的报道频率和分布率等信息。而话题的用户关注度则是从舆情数据的接收方来考察话题的热度,其主要包括浏览报道的次数、评论的次数等一些用户的行为信息。一般来说,网络应用上的信息发送方对热点话题的形成起到了主导作用,因为只有网络上出现了一个新的报道,才会有用户去浏览、评论,引发该报道的关注,从而形成有大规模报道的话题,使该话题成为热点话题。而对于论坛、微博一些应用,信息的接收方在网络传播中占到主导地位,用户的转发、评论使得话题传播越来越迅速,因此用户关注度对话题的热度影响将更大。本文根据层次化在线话题聚类的方法,从媒体关注度来评估新闻话题热度,从媒体关注度和用户关注度来评估论坛和微博话题热度。

1话题热度特征

通过对一般热点话题的考察与分析,并结合网络舆情传播模式的特点,一个话题在成为热点的过程中一般都具备如下特征:

(1)在话题发生的初期,话题受关注程度并不高,相关的报道数量较少,用户浏览数回复数也少,有的甚至不被人注意。

(2)在某个时间段内,该话题被广泛关注,网络上出现大量的相关报道,报道的数量迅速上升,用户的关注度也迅速上升,網络用户大量浏览回复转发相关内容。

(3)在引起广泛关注后,有关该话题的报道会大量转载,甚至与话题相关的人、事件都会一一被报道,相关网站或媒体也会持续跟进的进行大量的报道,话题在此时是整个话题生命周期最热的时候。

(4)热度在达到一定高度之后,由于媒和网民的官方关注,热度会持续一段时间的高峰值,然随着关注的减少,热度开始下降,话题逐渐消失在关注视野中,最后开始消亡。

这整个过程就是一个热点话题的生命周期,从生长到发展,从巅峰到最后的消亡,而话题的热度也会伴随着这些过程进行演化。

2话题热度量化

基于热点话题的上述特征分别用下面几个不同的参数进行刻画[1][2][3],其中话题的持续时间是指该话题有报道的天数:

1、报道数rn(report number):表示话题在持续时间内的报道数;2、持续天数rd(report days):话题持续时间的天数;3、点击数hn(hitting number):表示论坛话题的点击数;4、回帖数an(answer number):表示论坛话题的回帖数;5、转发数fn(forwarding number):表示微博话题的转发数;6、评论数cn(comment number):表示微博话题的回复数;

报道数和持续天数都属于媒体关注度范畴,而点击数、回帖数、转发数和评论数属于网民关注度范畴。

因为报道数和持续天数都和话题的关注度成正比,并且话题的关注度还和话题的分布率成正比,所以一定时间内站点上话题的媒体关注度用下述公式来定量描述:

式(3.10)

其中,rn是该话题在持续时间内的报道的文档的数量,RN是在这段时间里所有话题报道的文档的总数,N是这段时间里出现还在活跃的话题的数目,前一个分式的比值反映的正是相对的话题的文档频率。rd是该话题持续被关注的天数,而RD是所有话题被关注的天数的和,后一个分式衡量的是话题持续的天数和每个话题平均持续天数的相对比值。

另外,对于论坛来说网民的一次点击浏览和一次回帖评论所表现的关注程度是不同的,网民进行回复帖子比网民只是点击浏览更加值得关注。定义论坛网民关注度衡量公式为:

式(3.11)

由于论坛中网民对话题的回帖比只浏览更表现网民对其的关心,因此对进行了倍加权,取对数是为了使其值在(0,1)之间。

而对于微博来说,微博独特的用户浏览模式不能将用户的浏览行为记录下来,能够记录下来的用户行为只有转发或者回复。对于一个用户来说,转发一条微博所能表现的关注程度远远没有回复此条微博来的强烈。所以定义微博网民关注度衡量公式为:

式(3.12)

由于微博中网民对微博的评论比转发更表现网民对其的关心,因此的值小于0.5,式子前面乘了0.5是因为使关注度的其值在(0,1)之间。

对于所有的网民关注度,通过调节参数使网民关注度和媒体关注度在同一个数量级并具有不同的权重。因而,综合所有网络应用,本文定义话题的热度计算公式为:

式(3.13)

在实际情况下,对于新闻数据而言,话题的热度只有媒体关注度,而对于论坛和微博数据,则既有媒体关注度,又有网民关注度,而且网民关注度更具有参考价值。

3 结束语

层次化的话题聚类在每一批的文本话题聚类完成,话题得到调整后,将从新对每一个话题进行热度计算,并根据其热度值进行排名,将热度值排名靠前的话题作为热点话题。不难看出,随着时间的往前推移,文档数多的话题一直可以保持较高的热度,话题报道天数多的时间也可以一直保持较高的热度。但是此公式考察话题的热度演化有缺陷,而且较难发现话题生命周期初期文档数量相对较少的突发热点话题,未来可考虑基于衰减因子的热度演化来分析热点话题进行研究。

参考文献:

[1] 殷风景,肖卫东,葛斌,李芳芳.一种面向网络话题发现的增量文本聚类算法[J].计算机应用研究,2011.1:54-57

[2] 何婷婷,朱惹,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,6(06):38-45.

[3] Tingting He,Guozhong Qu,Xinhui Tu,Yong Zhang,Han Ren.Semi-automatic Hot Event Detection.AMDA 2006:1008-1016.

(作者单位:中国华艺广播公司)

猜你喜欢

话题聚类
K-means算法概述
基于模糊聚类和支持向量回归的成绩预测
基于流形学习的自适应反馈聚类中心确定方法
基于密度的自适应搜索增量聚类法
数据挖掘的主要技术
话题与主语研究
再论汉语话题与主语
浅谈品德课堂探究学习话题的设计
口语交际需多点支撑