基于泊松分布和伽马分布的网络舆情热点发现
2017-02-27罗泰晔
罗泰晔
〔摘要〕本文提出了一种基于泊松分布和伽马分布的网络舆情热点实时识别方法。该方法使用话题的人气和时间间隔特征两方面来识别舆情热点,发现单位时间内(如1小时)参与话题讨论的人数成泊松分布,回帖的时间间隔服从伽马分布。本研究用历史数据证明了该方法具有良好的识别效果。
〔关键词〕网络热点;网络舆情;伽马分布;泊松分布;热点发现;话题热度
DOI:10.3969/j.issn.1008-0821.2017.01.014
〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2017)01-0077-04
〔Abstract〕A method was proposed in the paper to identify online hot topics based on Poisson distribution and Gamma distribution,which combined the popularity and time interval characteristics of hot topics.It was found that the number of people participating in a topic discussion per unit time(e.g.one hour)follows a Poisson distribution,and the time interval between two replies follows a Gamma distribution.Historical data was used to test the effectiveness of the method.
〔Key words〕online hot topics;online public opinion;gamma distribution;Poisson distribution;hot topic identification;topic hotness
中國互联网信息中心第38次《中国互联网络发展状况统计报告》显示,截至2016年6月,中国网民规模达7.10亿[1]。互联网已成为民众接收和发布消息的主要渠道,网络舆情已具备较大规模。网络舆情传播由于具有传播速度快、覆盖范围广、互动性强等特点,已引起政府管理的高度重视,也成为学术界研究的流行内容。其中,对于网络舆情的实时监测和分析是舆情研究的重点内容之一。
当前国内关于网络舆情的监测主要可以分为两大技术路线。一种是基于内容的分析,即对网络信息文本进行关键内容的提取,再通过关键词识别、支持向量机、K均值等分类或聚类的方法发现舆情热点[2]。这方面的研究已经较多。另一种是基于舆情发展模式的分析,这条路线主要是从数量关系和时间特征上发现舆情热点与普通网络话题的区别[3-5],从而进行热点的发现。目前这条路线的研究还相对较少。已有的研究主要存在两种思路:一种是将单位时间内的回帖量与回帖人数是作为识别网络舆情热点的主要指标。另一种是利用回帖的时间间隔特征来反映话题帖的活跃度。从已有的文献看,两种思路都存在需要进一步解决的问题。对于第一种思路,以单位时间进行统计(比如1小时统计1次)可能出现遗漏潜在舆情热点的情况,即在统计时段中后期才启动的舆情话题,由于在数量上可能还达不到设定的阈值而在统计时未被识别出来。而舆情热点的识别越早越好,能越早识别出潜在的热点,就能够进行很好的控制和引导。因此,需要对话题的发展趋势做一个概率的判断。此外,回帖量和回帖人数可能不在同一个数量级,如果简单地将两者结合起来使用,可能会弱化数量级相对较低的回帖人数的作用。为避免出现这种情况,需要对回帖量或者回帖人数进行一定的数学转换,使二者处于同一数量级。对于第二种思路,回帖的时间间隔到底具备什么样的特征,已有的研究也只是提出了一个抽象的函数f(t),而对于f(t)的具体内容没有进一步分析。针对以上问题,本文提出一种将回帖人数和回帖时间间隔结合起来的网络舆情热点发现的方法。该方法基于两个重要的统计分布:泊松分布和伽马分布。
1网络舆情热点特征
网络舆情热点与普通网络话题的区别主要体现在两个方面。一是单位时间内参与热点话题讨论的人数众多;二是回帖的时间间隔短。讨论人数多,回帖的时间间隔短,则使得单位时间内回帖的数量大,从而形成舆情热点。因此,人气(回帖人数)和时间间隔这两个变量可以用作发现网络舆情热点的指标。笔者以一个高校网络论坛2008年4月和5月的历史数据为例,探索运用这两个指标实时发现网络舆情热点的方法。首先从2008年4月的数据中找出30个热点话题帖作为素材,分析热点话题在人气和时间间隔上的特征。
1.1舆情热点的人气特征
其中A表示由每小时讨论人数组成的向量,alpha为置信率。如果运行结果H=0,则表示A服从泊松分布。对热点话题样本运行的结果显示H=0,因此每小时参与讨论的人数服从泊松分布。
1.2舆情热点的时间间隔特征
在单位时间内,舆情热点的热度与回帖的时间间隔是紧密相关的,回帖的时间间隔短,则回帖数量多,相应的舆情规模就大。伽马分布是一种重要的统计分布,经常用于描述时间间隔的特征[8]。如果连续型随机变量X的概率密度函数如公式(2)所示,则称X服从伽玛分布。
回帖时间间隔指的是相邻的两个回帖之间的时间间隔,用秒作为单位。计算公式为:ΔTi=Ti-Ti-1,i≥1。其中T0表示话题帖,Ti表示第i个回帖的发表时间。为检验回帖时间间隔是否服从伽马分布,笔者计算出每个样本帖的所有回帖之间的时间间隔,并使用matlab软件进行K-S检验。经过运行检测程序,发现H值为0,所以回帖时间间隔服从伽马分布。
2舆情热点识别方法设计
2.1舆情热点人气值
从上一节的分析得到每小时的回帖人数服从泊松分布。从公式(1)中可以看出,λ是一个重要参数,它决定了泊松分布的图像形状。热点话题和普通话题在每小时参与讨论的人数是不一样的。热点话题的回复人数要远大于普通话题帖,这造成了每小时回帖人数的平均值的不同。而这一区别可以通过λ反映出来。因此,可以利用λ来计算一个话题帖的人气值。
λ的值一般是通过历史数据获得的。对于每一个热点样本帖计算出其每小时讨论人数的平均值,由此可以获得30个平均值。再对这30个平均值求平均数,进而获得λ的值。通过计算,λ约为25.36,取整数,将λ的初始值λ(0)设定为25,即对于热点帖来讲,平均每小时约有25个人参与讨论。而对该论坛4月的所有话题帖平均每小时参与讨论人数进行计算得到的值约为4.42,即不超过5个人,远小于热点帖。
对于一个待识别的新话题帖,以小时为单位进行统计,计算出该小时内参与讨论的人数n(t),t=1,2,3…,并用n(t)对λ(t)进行修正:λ(t)=(n(t)+λ(t-1))/2,t=1,2,3…。进行修正的过程也就是判断话题发展趋势的过程。如图1和图2所示,图1和图2分别是一个热点帖和一个普通帖前4个小时的泊松分布的图像。两个图中“+”显示的图像是初始时刻(即λ=25)时的图像。可以从图1中看出,一个热点帖每小时讨论人数的泊松分布图像始终在初始图像的附近移动,说明在一个小时内出现回帖人数超过25人的概率仍然很大;而一个普通帖的图像(图2)则是完全往左移动,在1个小时内出现回帖人数超过25人的概率变得越来越小。因此,可以用这个帖在1小时内获得大于25人回帖的概率来衡量这个帖的人气值。
2.2舆情热点规模
在单位时间内(如1小时),回帖的时间间隔分布的情况决定了舆情的规模。图3是2个热点帖和1个普通帖回帖时间间隔伽马分布的图像。从图3中可以看到,两个热点帖(a=0.42和a=0.37)的图像大致相同,而普通帖(a=1.71)的图像在形态上与另两个图像有明显区别。这种区别主要是由形状参数a和尺度参数b决定的,所以可以利用这两个参数来代表舆情规模。
以30个热点帖第1小时的数据为例,首先计算出第一小时内所有回帖的时间间隔。利用最大似然估计法(MLE)对伽马分布的两个参数a和b进行估计,从而得到a和b的一个样本数据。这样总共可以获得30个样本数据。随后,用这30个样本数据与第1小时的回帖量(n)进行相关分析,结果如表1所示。
从表1中可以看出,第1小時的回帖量与伽马分布两个的两个参数a和b呈显著的负相关关系,即a和b的值越小,n越大。因此,可以用a和b来代表回帖的规模。
2.3舆情话题热度计算
这种方法对于在统计时段中后期才启动的话题也能起到识别作用。一个话题帖即便是在中后期启动,在获得回帖人数或回帖量上还达不到设定的阈值。一方面,由于回帖的时间间隔短,使得用最大似然法估计得到的a或b的值比较小,从而使其倒数的值比较大;另一方面,话题讨论虽未形成较大规模,但已有一定数量的人参加,对λ(t)没有进行过度的负修正(即没有使λ(t)变得很小),从而使得R的值不至于过低,甚至可能存在正修正的情况,从而获得一个较大的R值。根据公式(4),两部分求和之后得到的H值也可能较大,从而识别出可能在下一个小时爆发的舆情热点。
3热点识别方法的效果检验
从表2中可以看出,热点帖的实时热度都在1以上,而普通帖的热度除第1小时外,基本都小于1。这说明热点帖被持续讨论的时间和热度都强于普通帖。普通帖一般只有在第1小时可能引起较多的关注和讨论,随着时间的推移,讨论热度逐渐减弱,整个讨论持续的时间不超过5小时。因此,公式(4)能够有效地实时识别热点帖和普通帖。
4结语
本文发现单位时间内的回帖人数服从泊松分布,回帖时间间隔服从伽马分布,并在此基础上提出了一种网络舆情热点实时识别的方法,并用历史数据证明了该方法的有效性。在实际使用时,可首先进行初步筛选,去除无回帖或只有几个回帖的话题帖,对剩余的话题帖再使用本方法进行识别,从而提高效率。
本文使用的数据是一个高校网络论坛2008年的历史数据。鉴于当时的通信技术条件(如尚无移动互联网),加之高校网络论坛具有封闭性,即便是版面中最热门的话题的规模从现在看来在绝对数量上仍显得不是很大。但从相对值来看,文中所选的话题帖的规模已是普通话题的几十倍,已经具备了舆情热点的特征。未来的研究可以利用开放的网络论坛或者微博中的素材来进一步检验文中所提方法的健壮性。
参考文献
[1]中国互联网信息中心.第38次《中国互联网络发展状况统计报告》[EB/OL].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/,2016.8.
[2]王玉珍.网络舆情热点发现综述[J].内蒙古科技与经济,2015,(8):66-67.
[3]王丽英.高校BBS教育舆情的时空特征模型构建和热点发现[J].现代情报,2016,(1):84-89.
[4]李文杰,化存才,何伟全.网络舆情热点事件的可控性和筛选数学模型分析[J].情报科学,2016,(6):37-42.
[5]曹树金,郑凌,陈忆金.网络舆情突发异常识别及关键算法研究[J].图书情报知识,2012,(1):43-51.
[6]徐国祥.统计学[M].上海:上海人民出版社,2007.
[7]刘超.Matlab基础与实践教程[M].北京:机械工业出版社,2011.
[8]Walid F.Nasrallah,M.ASCE and Rana Bou-Matar.Exponential,Gamma,and Power Law Distributions in Information Flow on a Construction Site[J].Journal of construction engineering and management,2008,(6):442-450.
(本文责任编辑:马卓)