基于Bayesian信息度量方法
2019-11-16贾盼斗尹春华
文/贾盼斗 尹春华
微博作为当今具有重要影响力的主流社交网络平台,不仅所涵盖的领域广泛,而且用户基数大,活跃用户众多,微博热点事件所引发的讨论也受到了社会各界人士的密切关注。微博网络的舆情监管问题变得愈发重要。针对微博热点事件的信息度量研究将为微博舆情问题的研究工作提供参考依据。因此,如何对微博信息文本进行度量成为重要研究内容。本文以香农信息理论为基础,基于Bayesian方法对热点微博事件信息进行度量工作。
目前,针对信息度量的研究工作处在不断发展的阶段,相关应用领域也变得更加广泛。信息论之父Shannon排除语义等主观因素的思想提出客观信息量统计模型,从概率角度对信息进行量化[1]。Ben-Arie[2]提出运用bayesian树模型,来辅助进行文本信息测量研究。Maria[3]探讨了购买任务中消费者的认知反应如何受到网站内信息量的影响。袁梓皓[4]基于信息熵和互信息量测量两个空间个体间任意非线性的相关性,进行非对称相依程度的度量研究。何俊[5]用信息熵对网络数据演化涌现性进行度量,并对演化行为和系统层次可能引入的误差进行校正。
信息量是随机变量不确定度的度量,Bayesian相关理论方法是处理不确定性信息的重要工具。本文针对微博热点网络事件,以香农信息理论为基础,基于Bayesian方法对相关信息文本进行信息度量分析,在一定程度上对主观性文本信息进行度量,为社交网络舆情问题的研究提供参考依据。
1 基于Bayesian信息度量模型构建
熵,它是随机变量不确定度的度量。对于离散型随机变量,Shannon继承和发展了Hartley关于排除语义等主观因素的思想提出客观信息量统计模型,从概率角度对信息进行量化[1]。信息熵公式为:
式中:H(X)为信息熵;X为文本信息可能出现的事件集合,即P为事件X的概率分布。
Bayesian网络是以bayesian理论为基础的一种概率网络,同时它又是基于概率推理的图形化网络。Bayesian网络最早由Judea·Pearl于1988年提出,用来表示变量集合连接概率的图形模型。它提供了一种表示因果信息的方法。Bayesian网络是由始于根节点,而后经由有向边连接诸多级子节点构成的网状结构树。节点代表随机变量,节点间的有向边代表了节点间存在的关系。
考虑到短评文本信息本身带有的主观性、离散型特性,Bayesian作为能够进行分类的方法之一,可以在一定程度上解决关联性问题。在Shannon信息论的基础之上,引入bayesian网络进行微博热点事件文本信息度量工作。Bayesian节点网络是由始于根节点,而后经由有向边连接诸多级子节点,从而构成的网状结构树。Bayesian网络中的节点按级进行属性分类。首先需要进行节点的分类,每一级的节点都代表了一种状态,由上一级的节点到下一级节点,涉及到了节点的选取问题,也就是节点状态的选取问题。从一级节点经有向边到二级节点是一个条件概率,它表示在一级节点发生的情况下,从一级节点经由有向边到二级节点发生的概率。
文本信息度量将通过联合概率信息熵来实现,对于微博短信息的文本内容,可以被看做是由离散型随机变量构成的文本状态空间,信息文本通过Bayesian网络的形式进行表示。在此,我们假设随机变量x构成的状态空间具有完整性,所有变量是相互排斥并且具有概率分布。给出如下信息量度量公式[2]:
2 基于Bayesian信息度量模型应用
2.1 对象选取
当随机变量不是相互独立时,求解一组随机变量的联合概率将是一件非常困难的事情。为了解决这一问题,引入bayesian网络,将使得随机变量是独立或者至少可以认为是条件独立的。这就使得求解联合概率得到了简化,从而为解决文本信息度量提供了解决方法。下面将就微博的热点事件进行具体信息度量分析。针对发生在2019年3月11日“中国停飞波音737-Max8”引发热议,就这一热点事件中的相关消息,进行相关文本信息量度量分析。
在进行信息量度量时,避免关联性随机变量对度量造成的困扰,引用bayesian网络通过假设随机变量是独立的或者至少条件独立。为了使得度量更具条理性,将节点进行层级分类,目前确定前三级的级的节点,并结合相关统计数据的分析,确定节点的条件概率。在此确定的根节点为“信息”,明确其概率为“1”,第二级的节点分别为邮件(0.35)、新闻(0.2)、语音(0.05)、会议(0.1)、书信(0.1)、其他(0.2)。第三级的节点分别为科技(0.1)、政治(0.2)、健康(0.1)、旅游(0.1)、体育(0.2)、娱乐(0.1)、商业(0.2)。之后级节点将依据具体的文本信息内容进行关键词选取。每一个节点代表了一种状态,由根节点顺次连接各个级的节点直至终节点结束,从而将所选信息文本进行表示,继而进行信息度量分析。这将为微博信息文本的主观性分析提供一定的参考。
民航局发布了题为“民航局要求国内运输航空公司暂停波音737-8飞机商业运行”的公告。具体节选主要内容为“3月10日,埃塞俄比亚航空一架波音737-8飞机发生坠机空难,这是继去年10月29日印尼狮航空难事故之后,波音737-8飞机发生的第2起空难。鉴于两起空难均为新交付不久的波音737-8飞机,3月11日9时,民航局发出通知,要求国内运输航空公司于2019年3月11日18时前暂停波音737-8飞机的商业运行。”
2.2 微博的Bayesian网络构建
在上一节中对前三级节点进行了相关规定,接下来是针对民航局发布的文本进行bayesian网络构建。具体包括对文本信息的关键词进行提取并将其作为节点,每一级节点共同组成这一级的状态空间。从第四级节点开始,下一级节点要依据本级节点以及结合上一级节点的状态进行本级节点状态的扩充。在上述民航局发布的文本信息中提取到的关键词有民航局、暂停、B737-800、运行。针对关键词所处的不同状态,其相关概率也会有所不同。以暂停为例,与其同级的节点分别为:开始(0.2)、中断(0.2)、恢复(0.3)、结束(0.1)。具体如图1给出了Bayesian节点网络每一级的状态以及相应状态概率分布情况。
在此,为了进一步对Bayesian节点网络方法进行应用说明。又选取了针对这一热点事件的文本信息。由人民日报发表的题为“特朗普宣布:美国将禁飞波音737MAX所有机型”的微博评论文本信息。节选内容为:“美国总统特朗普在电视直播中宣布,他将下令停飞波音737 Max 8和Max 9机型。特朗普表示,美国联邦航空管理局(FAA)将发布一项“紧急通知”,停飞上述两款波音机型。”上述段落第四级节点为美国、英国、俄罗斯、中国、日本,下一级为宣布、通知、警告、提醒;波音737,波音747,波音738,波音757,波音733,波音787,波音777;禁飞、通航、延误、变更。确定其相应概率。具体如图2给出了Bayesian节点网络每一级的状态以及相应状态概率分布情况。
通过上述对微博文本信息的Bayesian节点网络表示之后,下面将用Bayesian网络度量方法对上述两段微博文本信息进行度量。由公式(2),可以得到图1文本信息的信息量I1为:
同理,可以得出图2文本信息的信息量I2为:
图1:Bayesian节点网络文本信息示意图
图2:Bayesian节点网络文本信息示意图
3 结束语
微博网络舆情事关社会稳定,本文以信息论为基础并应用Bayesian方法,通过对微博网络中的热点事件相关信息文本进行信息量度量分析,从信息量化角度对热点事件文本信息进行度量,区别于传统客观信息量度量,定量对微博网络热点事件主观性信息进行研究。鉴于信息量是随机变量不确定度的度量,在此证明了采用基于信息论的Bayesian网络方法的合理性。通过bayesian网络结构,微博热点事件的文本信息以节点状态的形式进行呈现,完成了对于微博网络的相关文本信息进行了度量分析。