APP下载

基于网络结构与内容分布的新媒体事件聚类研究

2021-02-04马昊马晓悦

现代情报 2021年2期
关键词:网络结构度量聚类

马昊 马晓悦

摘 要:[目的/意义]现有新媒体事件的聚类研究聚焦于事件的单一维度属性,并未考虑事件传播的网络结构特征和文本分布特征。[方法/过程]本研究基于信息熵的相关概念,提出基于网络结构熵与内容分布熵的事件聚类模型。模型在表征事件网络结构特征、内容分布特征的基础上完成跨内容事件相似度对比,并使用图表示学习算法与k-means聚类算法对事件进行分析与聚类。本文选取113例微博事件作为实验对象,并使用事件基本属性(点赞、评论、转发等)作为聚类对照实验组。[结论/发现]实验结果分析表明,本研究提出的模型能够捕捉到新媒体事件更深层次的传播、分布特征,能够对现有相似度计算指标进行完善与补充。[创新/价值]本研究不仅能够从多维度层次提取事件的传播特征,即事件网络结构特征和内容分布特征,还能够为舆情预测、管控提供支持,通过熵维度的信息变化监测不同事件之间的传播共性,辅助后续舆情事件的预测与监管。

关键词:网络结构;内容分布;新媒体事件;微博传播;网络结构熵;信息分布熵;事件聚类;图表示学习

DOI:10.3969/j.issn.1008-0821.2021.02.004

〔中图分类号〕G206 〔文献标识码〕A 〔文章编号〕1008-0821(2021)02-0030-12

Abstract:[Purpose/Significance]The existing clustering research of new media events focuses on the single-dimensional attributes of events,and does not consider the network structure characteristics and text distribution characteristics of event propagation.[Method/Process]This research was inspired by the concept of information entropy,and proposed an event clustering model based on network structure entropy and content distribution entropy.The model completed cross-content event similarity comparison on the basis of characterizing event network structure characteristics and content distribution characteristics,then Network Representation Learning algorithm and k-means clustering algorithm cluster the events.This paper selected 113 microblog events as the experimental objects,and used the basic attributes of the events(likes,comments,reposts,etc.)as the cluster control experimental group.[Results/Conclusion]The analysis of the experimental results showed that the model proposed in this study could capture the deeper communication and distribution characteristics of new media events.At the same time,it could improve and supplement existing similarity calculation indicators.[Originality/Value]This research can not only extract the propagation characteristics of the event from multi-dimensional levels,that is,the characteristics of the event network structure and the distribution of event content.Also it can provide support for public opinion prediction and control.The model can also monitor the communication commonality between different events through the entropy dimension of information changes to assist subsequent reflection on public opinion events.

Key words:network structure entropy;information distribution entropy;event clustering;network representation learning;network structure;content distribution;new media events;microblog;communication

信息技術和自媒体行业的飞速发展使得互联网行业中用户创造内容的数量呈现指数级增长[1]。在海量用户生产数据的背景下,信息的自动聚类与分类成为研究焦点[2-3]。具体到新媒体环境中,由用户生成信息所构成的新媒体事件聚类与分类是新媒体舆情管理与检测的一项重点研究[4-5]。如何精确地度量事件之间的相似度、对事件进行聚类分析和分类成为组织和使用舆情信息的先决条件与研究热点。

现有聚类研究局限于新媒体事件的文本内容,导致相关计算指标存在一定的局限性。学术界目前对于事件聚类亦或表征事件的文本聚类多关注于信息的特征提取,如早期的词袋模型[6]及后续对词语进行加权的TF-IDF模型[7-8],并针对研究内容展开了多个领域的探索,如网络短文本聚类[9]、新闻文本聚类[10]等。而新媒体事件是以新媒体为载体的网络热点事件,具有两大特征:双向传递与用户创造内容。双向传递即意味着用户既可作为信息的接收者亦可成为信息的生产者;用户创造内容则指事件中传递的信息大多由用户创造[11]。而这种传播特点的深层逻辑是用户对于某一话题的支持与关注。之前的研究也表明,用户在新媒体事件传播中形成的传播网络及网络中的文本代表着用户的喜好、影响力[12]、事件观点等属性[13]。这使得用户创造内容与用户在事件之间形成的传播网络成为新媒体事件传播的重要构成部分[14]。且现有方法并未将事件的网络结构与事件的内容分布结合考虑,现存指标也并未对跨领域、跨内容事件的相似度进行计算。

基于此,本文提出综合考虑网络结构与内容分布的信息熵相似度度量模型,用于新媒体事件的类别计算。模型能够从事件传播的网络结构和内容分布对事件特征进行提取,同时基于熵的概念构建相似度计算指标以完成跨事件对比。最后本文使用基于NRL(Network Representation Learning,图表示学习)和k-means的聚类方法将传统指标与本文构建指标在事件聚类层面的差异进行对比,结果证明,本文指标能够考虑事件在传播过程中网络结构和文本分布等深层特征,完善和补充传统指标对相似度的计算和聚类的划分。

1 相关研究

本研究模型旨在对新媒体事件的网络结构特征及文本分布特征进行量化表征。基于本文模型结构,目前国内外关于新媒体事件相似度计算、事件聚类的相关研究可分为两大类别:一是基于图论或者复杂网络的网络结构相似度研究;二是基于新媒体短文本内容的内容特征相似度研究。

1.1 新媒体环境中事件网络特征相似度研究

新媒体环境中网络结构相似度研究根据其最终的研究对象分为两类。首先是网络中节点的相似性研究,其次是网络整体结构相似性研究。

网络节点相似性研究主要将用户等研究对象作为社交网络节点,研究其在网络中的相似度。Celik M等在其研究中提出了一种根据用户在新媒体社交中访问站点的社交重要性来对用户间相似性进行量化的方法。该方法使用用户经常访问具有重要社交价值的站点对用户进行网络特征表示,使用编辑距离(Levenshtein距离)实现用户之间相似度的量化[15]。Zhou X等提出了FRUI-P模型以识别跨平台匿名用户。将社交网络中各用户的朋友特征提取至朋友特征向量中。最后,开发了一对一的映射方案,以基于相似性来识别用户[16]。

网络整体相似性研究是将新媒体事件传播网络看作整体,度量网络整体相似性以达成相应的研究目标。Jiang L等构造了一种将医疗保健社交媒体数据表示为异构医疗保健信息网络的方法。该方法从局部(直接连接)和全局(间接连接)结构出发度量网络相似性,以此实现相似医疗保健用户发现和推荐。其研究结果表明,基于结构的相似性方法相较于基于内容的方法在准确度与效率方面具有更好的性能[17]。此外,Li Y等基于不同社交网络中友谊网络的相似性,提出了跨网络的用户识别与发现方法[18]。田世海等使用事件间共现作为新媒体事件之间的关系链接构建舆情事件复杂网络,以此计算事件相似度并完成舆情事件的聚类分析[19]。

1.2 新媒体环境中事件内容特征相似度研究

新媒体环境中内容相似度研究主要针对短文本内容的相似度,根据研究方法可分为两类,首先是基于单词的短文本相似度计算方法,其次是基于语义的短文本相似度计算方法。

基于单词的短文本相似度计算将单词作为最小分析单位,对应的将短文本视为单词的组合。因此在这类方法中,短文本的相似度即为组成该短文本的单词对相似度。此类方法又可分为基于知识的相似度计算和基于语料的相似度计算。基于知识的相似度计算依赖于人工认知对词组间关系的标记。其中典型案例为WordNet[20],一种基于认知语言学组成的语义网络。Lee J C等将单词在WordNet中的最短路径长度作为相似度计算指标[21]。也有学者将词嵌入模型与WordNet模型相结合以构建新的相似度计算方法[22]。基于预料的相似度则将单词嵌入具体的预料之中,根据单词在当前预料中的分布特征对单词间相似度进行计算。其中最具代表性的方法是词移动距离[23]。即在当前语料组成的空间中,一个单词从其位置移动到另一个单词所在位置之间的距离作为其词移动距离,以对单词间相似度进行表征。

基于语义的短文本相似度计算将文本中词语分布的真实含义考虑在内。其中最为经典的方法为LSA系列模型[24]。模型假设单词语义及其理解可从其在语料中的分布得出,即具有相似上下文的词语具有相同的语义。在此基础上,Hofmann T提出了基于LSA的概率潜在语义分析模型(PLSA),从概率视角对文本建模[25]。Blei D M等则提出了潜在的狄利克雷分布(LDA),为PLSA添加了贝叶斯框架,并使用单词和文本之间的概率分布来表达文本含义[26]。也有研究人员试图将短文本编码为机器与用户易为理解的形式,并在此基础上进行相似度计算。ESA(Explicit Semantic Analysis)模型是其中的经典模型。Gabrilovich E等将维基百科作为文本的概念空间,将短文本表示为带有权重的维基百科空间向量,后续的相似度计算则回归為空间向量相似度计算[27]。

1.3 现存问题及研究目标

新媒体事件的相关聚类研究较少,且研究内容多局限于特定的指标与属性,并未从新媒体事件的传播内容特征及其传播网络特征视角出发进行综合探究。传统的事件相似度度量手段无法准确地表征新媒体事件的多维度特征,且缺少跨内容领域的相似度指标。

本研究创新点如下:首先,从网络结构维度与内容分布维度出发捕捉新媒体事件特征。具体来说,本研究从复杂网络角度出发,根据网络结构熵的概念构建了新媒体事件在传播网络的特征属性。从新媒体事件内容相似度出发,基于传播网络对新媒体事件文本内容分布网络进行重构,并延续网络结构熵的概念构建了内容分布熵以表征新媒体事件内容特征属性。

其次,本研究从熵的角度出发,将事件相似度对比映射至熵维度,在保留事件内容分布属性的基础上,实现了跨内容领域的不同事件相似度对比。研究将事件特征分为网络结构与文本分布两大维度,二者从局部细粒度和整体粗粒度表征事件特征。具体而言,局部细粒度将网络结构与文本分布视为概率分布,求取局部属性对全局属性的代表性,以此来表征事件内容的混乱程度,即熵;全局粗粒度则是对局部细粒度的补充,将事件规模属性纳入研究范围。由于熵自身特征及其对文本分布的网络重构,本研究能够将不同领域事件映射至熵维度进行对比。

最后,根据本研究提出的相似度计算方法,使用NRL(Network Representation Learning,图表示学习)和k-means算法对事件进行聚类分析,并使用事件基础属性设置对照组进行对比。

2 基于网络与内容结构熵的事件相似度度量模型

本模型旨在将新媒体环境中内容数据与联系数据抽象为多维度复杂网络,并使用基于复杂网络结构熵、基于内容分布结构熵的模型对其进行相似度计算,模型组成与流程示意如图1所示。

从事件内容数据与联系数据的特征维度出发,模型可分为两部分:基于网络结构熵的相似度度量和基于内容分布熵的相似度度量。前者度量新媒体环境下事件传播形成的网络拓扑结构相似度,后者度量新媒体环境下事件传播中内容变化(即内容熵)的相似度。

基于网络结构熵的相似度可从网络结构自身的复杂度(NND,Network Node Dispersion,网络节点离散度)及两个网络之间的结构相似度(EMD,Earth Mover's Distance,陆地移动距离,也叫第一Wasserstein距离)对网络拓扑结构相似性进行量化表征;基于内容分布的结构熵与之类似,本文使用Bert模型基于内容相似度对事件传播网络进行重构——生成“内容分布网络”,并在该网络上度量NND与EMD指标。

本文提出的模型能够从网络结构与内容分布结构两个维度,研究对象自身复杂度与对象之间相似度两个指标对于新媒体网络事件进行相似度计算。

在实例验证阶段,本文对采集的微博事件进行相似度度量后形成事件距离矩阵,其次对其进行基于图表示学习聚类分析,使用事件原有属性作为聚类对照组。结果表明,本模型能够从内容数据与网络联系两个层面对事件的特征进行捕捉,能够对传统事件相似度度量方法指标进行补充与完善。

2.1 基于熵的相似度度量

新媒体网络事件在传播过程中体现出“多个重要传播节点引导,大量普通节点依附参与讨论,其随时间节点的讨论规模递减”的状态,如图2所示。

图2 新媒体事件的传播演变

以新浪微博为例,特定事件相关微博通常以“#事件关键词#”形式的超链接为索引。在事件传播过程中,少数节点引导着多数普通用户节点进行讨论与交互,且随着时间演变讨论与交互的规模逐渐减小。

模型旨在度量此类网络结构分布的内在复杂度及网络与其他网络间分布的相似度,从而在保留网络拓扑结构的前提下完成事件间的距离计算;同理,借助自然语言处理模型对事件传播网络进行重构得到内容分布网络后,模型能够计算事件内容分布的内在复杂度、内容与其他事件内容分布之间的相似度,从而保证了跨事件内容相似度计算的可能性,并保留了网络的拓扑结构。

2.1.1 基于网络结构熵的相似度

模型的基础理念事件传播网络理解为基于节点度的概率分布。为清晰地介绍本文模型,引入基本概念KL散度,如式(1)所示:

其中,p和q表示两种维度为N的概率分布。

KL散度又称为相对熵,是一种度量两种分布相似度的方法。以该理论为基础,学者Schieber T等提出了网络相似度模型,其中NND(Network Node Dispersion,网络节点离散度)子模块将网络中节点的度看作概率分布以表征其结构熵,其研究证明该方法能够很好地在拓扑结构层面度量网络相似度且具有较低的计算要求[28]。

本文受该模型启发,综合考虑网络规模与网络拓扑结构相似性,定义基于结构熵的网络相似度,如式(2)所示:

其中,g1和g2为待计算相似度的网络,EMD为陆地移动距离也称Wasserstein距离[29],NND为网络节点离散度指标,w1与w2为权重系数默认取值0.5,μg1={μ1,μ1,…,μN}w。

NND指标的详细定义如式(3)所示:

其中,J(P1,P2,…,PN)表示JS距离,详细定义如式(4)。节点Pi的节点度概率分布可表示为Pi={Pi(j)},Pi(j)表示对于节点i来说与其距离为j的节点的比例。d为当前网络直径,目的是对计算结果进行标准化。

其中,N表示当前网络中节点的总数量,μj定义如式(5)所示:

其中,Pi(j)定义与上式相同,N表示当前网络中节点的总数量。

因此,NND模块能够很好地捕捉网络的拓扑结构的熵值,即网络平均局部节点度分布的概率对总体网络节点分布概率的表征度。但其对于k-regular网络不能进行区分[28],对于k-regular网络而言,局部节点度分布概率完全等同于全局节点分布概率,Schieber T在其研究中对该方法进行详实的改进和说明。

在网络事件中,仅使用NND指标,模型可能对过度传播的熱门事件和传播结构单一的冷门事件缺乏区分度,因为这些事件的局部节点均能够很好地表征全体节点的度分布概率。因此,本文对NND模型进行改进,使用EMD距离作为NND的补充,如式(2)。EMD距离能够度量将两个分布移动为相同分布所花费的最小距离。μg1={μ1,μ1,…,μN}作为EMD的输入能够将网络结构的规模纳入度量中,弥补了NND的缺陷。

本文旨在构建跨领域、跨事件类型的相似度度量方法,这种将网络特征抽象为熵的方法能够有效实现跨类型计算。

2.1.2 基于内容分布熵的相似度

基于结构熵的相似度度量从事件网络拓扑结构度量了事件的相似性,即单个节点的度概率分布在多大程度上可表征网络整体,同时加以事件规模参数(EMD)对其进行修正。

内容分布熵的相似度计算与基于网络结构熵的相似度计算所使用的基本方法相同,但前者的相似度计算基于重构后的内容相似网络,后者的相似度计算基于事件传播过程中的真实联系网络。

重构内容相似度网络的方法如下:①使用BERT模型作为短文本相似度计算指标;②根据事件传播网络结构,计算节点之间文本相似度;③使用相似度均值作为判断不同节点之间是否存在新连接的阈值;④根据阈值重构文本分布网络。

最终,基于熵的网络相似度模型如式(6):

其中,Dt(g1,g2)、Dn(g1,g2)分别表示基于内容分布熵的相似度与基于网络结构熵的相似度,w1与w2为权重系数默认取值0.5。

2.2 基于NRL和k-means的事件聚类模型

本文相似度计算模型可直接得出事件之间的距离或多个事件间的距离矩阵。为进一步论证本文模型的有效性和本文模型与传统事件相似性计算方法的不同之处,本文选择对事件距离矩阵进行基于NRL(图表示学习)和k-means的聚类分析,并将事件基本属性特征组作为聚类对照组进行分析。选择的事件基本属性如式(8)。

其中,Ei表示网络事件i,Mi、Ii分别表示其对应的媒介数量向量,即包含图片与视频数量;事件影响力向量,其中包括评论用户数量、转发用户数量、点赞用户数量。上述向量均进行标准化。

NRL是一种将图类型数据进行降维并保留其图形结构特征属性的有效方法,本文选择Node2Vec算法[30]对事件距离举证进行向量化,使用k-means算法对事件向量进行聚类。对照组基于事件基本属性特征直接进行k-means聚类分析。

3 模型实例分析

本文随机选择了113例微博网络事件。事件由“#”加事件关键词的超链接进行索引,所有包含该链接的事件被微博平台定义为话题,并提供单独页面供用户浏览。所收集事件的微博讨论量均在10w左右,事件涉及领域及其规模各不相同。

3.1 事件概述

根据模型对数据的需求,采集数据属性包括事件名称、事件分布内容、发布内容点赞数、发表内容评论数、发布内容转发数(三者即式(8)中的事件影响力向量,表1中的数据为三者均值和)。

计算事件内各个博文的平均媒介数量、平均影响力、平均原创内容量并对其进行描述性统计,结果如表1、表2所示。

事件平均可视化媒介数量稳定在1.09/条微博左右,标准差为0.08;事件平均影响力则因为事件的领域和关注人群不同呈现出较大差异,标准差为55 680.71;事件平均原创内容量是对原创博文长度的度量。受微博平台博文数量限制,事件平均原创量均值为102.58,标准差为3.47。

3.2 基于熵的相似度度量结果

数据集中各个事件的网络结构熵与事件内容熵(即NND指标)如图3所示。

图中横坐标为事件编号,纵坐标为标准化后的NND值。在不同事件中,相比于事件網络结构重构后的事件内容分布网络普遍具有更高的NND值。重构后的事件分布网络具有更高混乱度,即局部信息分布难以表征全体信息分布情况。

EMD弥补了NND对网络规模不敏感的缺点,从网络总体基于度的概率分布对两个网络进行距离计算。图4为部分事件EMD距离热力图,横纵坐标为事件编号,图中颜色的填充变化对应横纵坐标下的具体数值即事件之间的EMD距离。距离数值高说明事件之间相似度小,事件网络的度分布差异度较大,对应填充颜色为蓝色;距离数值低说明事件之间相似度大,事件网络的度分布差异度较小,对应填充颜色为红色(红色与蓝色的深浅变化由绘图算法基于当前数据的分布给出,即规定极小值为红色、极大值为蓝色,其余颜色深浅变化由其具体数值与极值之间的差值决定,差值越高颜色越浅),详细标度见图右侧图例。由图可知网络结构EMD与文本分布(内容分布)EMD总体具有一致性,但在个别事件中存在较大差异。

不同维度EMD与NND值加权求和后形成最终事件距离指标,图5为部分事件距离热力图,其中横纵坐标为事件编号。图中颜色的填充变化对应横纵坐标下的具体数值即事件之间的相异度,相异度数值高说明事件之间相似度小,对应填充颜色为蓝色;相异度数值低说明事件之间相似度大,对应填充颜色为红色(红色与蓝色的深浅变化由绘图算法基于当前数据的分布给出,即规定极小值为红色、极大值为蓝色,其余颜色深浅变化由其具体数值与极值之间的差值决定,差值越高颜色越浅),详细标度见图右侧图例。左侧子图为最终事件距离矩阵,中间子图为基于网络结构的事件距离矩阵,右侧子图为基于重构文本分布网络的事件距离矩阵。由图可知,基于网络结构和基于文本分布网络均能捕捉到事件的相似特征,且二者总体具有一致性。体现在图中为二者热度图矩阵色块分布整体较为一致,局部存在不同。二者加权融合为最终的事件距离矩阵——事件相异度矩阵。

3.3 事件聚类结果

使用Grover A等提供的Node2Vec方法对事件距离矩阵进行向量化[30]。最终将事件的聚类分析分为实验组与对照组。实验组使用事件相异度矩阵作为输入,通过Node2vec表示为事件特征向量,最终通过k-means进行聚类分析;对照组使用事件基本特征作为输入向量,其定义见式(8),最终使用k-means进行聚类分析。

1)实验组聚类结果

使用SSE(Sum of the Squared Errors,误差平方和)绘制聚类“肘部图”获得的最佳聚类类别数如图6所示。

在k=4时,SSE指标迅速减小,此时k对应较为真实的聚类类别数。对于聚类数据进行降维绘图[31],得到其最终类别分布结果如图7所示。

由图7可知,类别-2具有最多的样本数(N=66),类别-4次之(N=35),类别-1样本数N=10,类别-3样本数量最小(N=2)。通过观察原始数据,最终聚类结果中各个类别典型事件与特征如表3所示。

表中NND值为该类中NND均值标准化后的数值。由表可知,类别-1中事件传播结构均匀,即局部节点能够很好地表征整体节点,但其文本分布复杂,即局部文本不能较好地表征全体;类别-2中事件数量最多,其传播结构均匀、文本分布复杂,但程度均低于类别-1;类别-3中事件网络结构NND和文本分布NND较小,说明局部信息能够很好地表征整体,具体到实际数据中为突发危机事件;类别-4中不论是网络结构还是文本分布,局部信息都不能很好地表征全体,事件引发较多争议和讨论,传播网络结构不规则。

2)对照组聚类结果

对于对照组同样使用SSE指标寻找最优聚类类别数,结果如图8所示。

在k=4时,SSE指标迅速减小,此时k对应较为真实的聚类类别数。同样,对于聚类数据进行降维绘图,得到对照组最终类别分布结果如图9所示。

对照组聚类结果中:类别-1事件在讨论人规模与图片视频等媒介数量最多;类别-2中事件参与讨论人数较多,但图片视频等媒介数量较少;类别-3中事件参与讨论人数较多,图片视频等媒介数量较多;类别-4事件参与人数较少,图片媒介数量较多。

实验组(熵聚类)与对照组(特征聚类)事件分类的关系如图10所示。

图中熵聚类,即本实验提出的方法能够对传统的类别划分进行补充。传统的数据基础特征仅针对事件浅层数据特征的变化将事件进行分组,且组间数据差异大(86∶21∶4∶2),不能很好地区分事件;依据本文提出的模型熵聚类考虑了事件规模、网络结构、文本分布等特征,能够对事件特征进行精细捕捉,从而完成跨领域但不舍弃内容的相似度度量与聚类分析。

4 讨 论

4.1 模型可捕捉新媒体事件传播中的“结构簇”与“内容簇”的分布特征

新媒体事件相似度计算、聚类与分类的研究实质是对新媒体环境中同质性内容与异质性内容进行分化,即同类事件间相似度最大且非同类事件间相似度最小。熵在信息中的本质是度量系统的“内在的混乱程度”,因此新媒体事件聚类是寻求事件分类后熵的最小化。本研究将新媒体事件中相似的网络结构与相似的内容分布作为局部的“结构簇”与“内容簇”,“结构簇”基于用户评论行为形成的局部网络,“内容簇”是基于用户分布文本相似度形成的重构网络。本研究提出NND指标对“簇”的分布特征进行量化,即量化新媒体事件的熵。在本次实验中,基于熵的相似度度量模型能够从网络事件网络结构维度和事件内容分布维度出发,考虑事件内部分布不一致性和事件规模两个因素,最终形成了事件相似度度量的综合指标。体现在以下3个方面。

首先,模型能够提取事件传播中“网络结构簇”的分布特征。受Schieber T等提出的NND概念的启发[28],本文将网络结构看作基于度的概率分布,NND能够度量在网络中单个节点对于整体数据的表征程度,如式(2)。在新媒体事件中,基于用户评论等信息行为,事件的传播网络自发形成“结构簇”。“结构簇”的数量及其大小因不同事件而相异,但其分布是否一致具有可量化性。若事件“结构簇”分布较为均匀则NND数值较小,若事件“结构簇”分布具有较大差异,即事件“结构簇”分布对于事件整体传播网络的表征性较弱,事件“结构簇”分布较为不均匀,NND数值較高。

其次,模型能够提取事件传播中“内容分布簇”的分布特征。与网络结构相异,网络事件中并不存在明确的文本网络结构且各事件描述对象与内容均不相同,文本间不存在明确的上下文关系,因此导致文本分布网络不能直接对比,文本网络不能直接沿用传播的网络结构。本文使用基于Bert的短文本相似度度量方法对文本网络进行重构。重构后的网络根据用户发布文本之间的相似度对内容分布进行“簇”划分,每个文本都有其归属的“内容分布簇”,因此重构后的文本分布能够直接使用NND作为度量其一致性的手段。

最后,模型能够提取事件网络结构规模和文本分布规模作为补充。由于NND本质上是对目标内部一致性的度量,即“簇”与整体网络之间的表征程度,因此在网络结构相似或者文本分布相似但规模差距巨大的事件无法被区分,而事件规模是网络事件进行区分的一项不可忽视的指标,因此研究选取EMD距离作为NND指标的补充,使模型在跨事件的同时兼顾事件规模。

4.2 模型揭示了异质新媒体事件传播的普遍规律

本研究从“熵”的角度出发,以不同维度事件“簇”分布对于事件总体的表征性对事件之间的相似度进行度量并完成了聚类。由于是局部“簇”与总体网络间的对比,即熵的对比,因此本研究模型天然具有跨事件性,即可将异质性新媒体事件映射到熵维度直接进行对比,而忽略其文本、网络的具体差异,从而发现异质性新媒体事件间的普遍规律。

首先,相较于内容分布,事件网络结构更容易形成稳定均匀的“结构簇”,即相较于内容分布维度中局部与全局的表征性关系,新媒体事件局部网络结构更能够表征全局网络结构,如图2所示。相较于内容分布,新媒体事件在网络结构维度具有更低的NND数值。数据角度,事件传播的网络局部特征能够更好地表征整体网络,网络结构较为均匀,网络中“结构簇”的规模较为相近。事件与用户交互角度,用户在新媒体事件的评论过程中形成“结构簇”与“内容簇”,“结构簇”分布较之“内容簇”分布规模更为均匀。说明在新媒体事件中,用户讨论内容难以形成规模一致的“内容簇”,即难以达成普遍的意见统一。

其次,“结构簇”对于新媒体事件具有更好的区分度。如表3内容所示,本研究将新媒体事件聚为4类,其中类别1特征为:“结构簇”相对均匀,“内容簇”差异较大;类别2特征为:“结构簇”差异较大,“内容簇”差异较大;类别3特征为:“结构簇”均匀,“内容簇”差异较小;类别4特征为:“结构簇”差异较大,“内容簇”差异较大。结合不同类别中对应的具体事件可得出如下结论,当事件为极富争议性时,“结构簇”差异巨大,如类别4;当事件易在新媒体环境中达成一致、缺少争议时,“结构簇”分布均匀差异较小,如类别3突发危机事件。

4.3 基于熵的相似度度量模型是对传统模型的补充和扩展

本文提出的相似度度量模型并非是对现有相似度度量指标的否定和取代,而是对现有指标、方法的补充与完善。具体体现在以下两个方面:

一方面,模型从熵的角度——目标局部特征从全局的表征性来对事件传播的网络结构进行相似度计算。这种方法天然具有可比性,即目标对象局部与全局的表征关系无量纲,模型可以对于不同领域事件、不同规模事件进行相似度对比。这是对传统方法局限于特定领域无法进行跨事件对比的补充。同时,网络结构NND度量了事件网络结构的变化。事件传播网络结构的变化暗示着事件传播处于激化点或事件沉寂点。在网络结构层面,新媒体环境中事件的影响可被传播广度与传播深度界定,NND指标以概率分布视角对传播广度深度进行了量化,使得不同类型不同结构网络可进行网络结构特征比较。连续计算NND指标并找出其突变点,即能够揭示并定位事件传播网络中的关键节点与转折节点,可在舆情检测中准确地预测舆情爆发点,从而精准地制定并实施舆情疏控措施。

另一方面,模型重构了文本分布网络。传统的事件网络结构基于具体的用户信息行为,网络中的文本关系不明确。本文对事件文本进行重构,在真实网络结构的基础上完成了文本分布网络。同时针对该网络的相似度計算同样基于熵的概念,故具有跨事件可比性。模型保留了事件文本特征忽略了文本的具体内容,因此可发现事件更加隐性的特征,对传统方法进行补充,如图8所示。同时,内容分布NND基于事件传播结构的内容相似度重构网络,暗示了事件内部舆情讨论的激烈程度。在内容分布层面,新媒体环境中事件的舆情冲突、复杂性由用户发表内容之间观点的认同与否共同决定。内容分布的NND指标在重构内容分布网络的基础上,量化了事件内部的舆情复杂性,可揭示事件讨论观点冲突的关键点。连续计算内容分布NND指标即可揭示事件舆情变化。通过识别挖掘新媒体传播事件中的隐性内容,对提升舆情把控与识别能力、通过量化事件内部舆情复杂性对新媒体事件研判等具有实践意义。整体而言对政府、企业等部门的形象公关、重大突发事件有效的防控把握、宣传工作开展、政务新媒体工作部署等也具有应用价值。

5 总 结

传统网络事件相似度计算模型或聚类模型局限于事件表层特征且难以构建跨事件的统一相似度度量指标。本文从网络结构、文本分布两个维度出发,结合事件规模、文本一致性、网络结构一致性等特征构建了基于熵的跨事件网络事件相似度度量模型。使用聚类方法对本模型提出的相似度方法与传统方法进行比较,结果表明本模型能够补充和发现目前指标的缺点和劣势。

理论方面,模型对现有网络事件相似度大量的指标方法进行补充和完善。模型基于事件网络结构熵与事件内容分布熵捕捉事件更深层次的信息,同时模型对于熵的度量具有天然可比性,使得模型能够完成跨事件相似度对比。模型在文本分布层面进行文本分布网络构建,使得微博类网络事件能够在传统网络结构基础之上重构出基于内容相似的文本分布网络,重构文本上下文性关系。

实践方面,模型提出的方法可以对日后舆情事件分析、预测、分类等领域提供事件特征的基本指标,这种基于熵的指标可以对现有指标进行补充和修正。同时,模型对于文本分布网络的重构可以进行进一步的扩展和完善,使得舆情平台或者舆情处理方法能够更加多元化和合理化。

参考文献

[1]傅湘玲,齐佳音,高威.基于微博用户创作内容的新闻线索自动发现研究[J].情报学报,2016,35(10):1038-1047.

[2]王彦慈.基于云计算的微博舆情流式快速自聚类方法研究[J].情报科学,2017,35(8):23-27.

[3]高慧颖,魏甜,刘嘉唯.基于用户聚类与动态交互信任关系的好友推荐方法研究[J].数据分析与知识发现,2019,3(10):66-77.

[4]吴恒,陈燕翎.基于UGC文本挖掘的游客目的地选择信息研究——以携程蜜月游记为例[J].情报科学,2017,35(1):101-105.

[5]张海涛,唐诗曼,魏明珠,等.多维度属性加权分析的微博用户聚类研究[J].图书情报工作,2018,62(24):124-133.

[6]Wu L,Hoi S C,Yu N.Semantics-preserving Bag-of-Words Models and Applications[J].IEEE Transactions on Image Processing,2010,19(7):1908-1920.

[7]Zhang W,Yoshida T,Tang X.A Comparative Study of TF*IDF,LSI and Multi-words for Text Classification[J].Expert Systems with Applications,2011,38(3):2758-2765.

[8]路永和,李焰锋.改进TF-IDF算法的文本特征项权值计算方法[J].图书情报工作,2013,57(3):90-95.

[9]安璐,周亦文.恐怖事件情境下微博信息与评论用户的画像及比较[J].情报科学,2020,38(4):9-16.

[10]官赛萍,靳小龙,徐学可,等.基于WMD距离与近邻传播的新闻评论聚类[J].中文信息学报,2017,31(5):203-214.

[11]翟姗姗,潘英增,胡畔,等.UGC挖掘中的在线医疗社区分面体系构建与实现[J].图书情报工作,2020,64(9):114-121.

[12]Cha M,Haddadi H,Benevenuto F,et al.Measuring User Influence in Twitter:The Million Follower Fallacy[J].Icwsm,2010,10(10-17):30.

[13]Suh B,Hong L,Pirolli P,et al.Want to Be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//2010 IEEE Second International Conference on Social Computing,2010:177-184.

[14]林云,曾振华,曾林浩.微博社区网络结构特征对舆情信息传播的影响研究[J].情报科学,2019,37(3):55-59.

[15]Celik M,Dokuz A S.Discovering Socially Similar Users in Social Media Datasets Based on Their Socially Important Locations[J].Information Processing & Management,2018,54(6):1154-1168.

[16]Zhou X,Liang X,Du X,et al.Structure Based User Identification Across Social Networks[J].IEEE Transactions on Knowledge and Data Engineering,2018,30(6):1178-1191.

[17]Jiang L,Yang C C.User Recommendation in Healthcare Social Media By Assessing User Similarity in Heterogeneous Network[J].Artificial Intelligence in Medicine,2017,81:63-77.

[18]Li Y,Su Z,Yang J,et al.Exploiting Similarities of User Friendship Networks Across Social Networks for User Identification[J].Information Sciences,2020,506:78-98.

[19]田世海,董月文,王健.基于NRL和k-means的輿情事件聚类研究[J].情报科学,2020:1-7.

[20]Miller G A.WordNet:A Lexical Database for English[J].Communications of the ACM,1995,38(11):39-41.

[21]Lee J C,Cheah Y-N.Paraphrase Detection Using Semantic Relatedness Based on Synset Shortest Path in WordNet[C]//2016 International Conference on Advanced Informatics:Concepts,Theory and Application(ICAICTA),2016:1-5.

[22]Lee Y Y,Ke H,Yen T Y,et al.Combining and Learning Word Embedding with WordNet for Semantic Relatedness and Similarity Measurement[J].Journal of the Association for Information Science and Technology,2020,71(6):657-670.

[23]Kusner M,Sun Y,Kolkin N,et al.From Word Embeddings to Document Distances[C]//International Conference on Machine Learning,2015:957-966.

[24]Landauer T K,Foltz P W,Laham D.An Introduction to Latent Semantic Analysis[J].Discourse Processes,1998,25(2-3):259-284.

[25]Hofmann T.Probabilistic Latent Semantic Analysis[J].arXiv Preprint arXiv:1301.6705,2013.

[26]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.

[27]Gabrilovich E,Markovitch S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C].IJcAI,2007:1606-1611.

[28]Schieber T,Carpi L,Diaz-Guilera A,et al.Quantification of Network Structural Dissimilarities[J].Nature Communications,2017,(8):13928.

[29]Vallender S.Calculation of the Wasserstein Distance Between Probability Distributions on the Line[J].Theory of Probability & Its Applications,1974,18(4):784-786.

[30]Grover A,Leskovec J.Node2vec:Scalable Feature Learning for Networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2016:855-864.

[31]Maaten L V D,Hinton G.Visualizing Data Using t-SNE[J].Journal of Machine Learning Research,2008,9(11):2579-2605.

(责任编辑:孙国雷)

猜你喜欢

网络结构度量聚类
鲍文慧《度量空间之一》
模糊度量空间的强嵌入
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
基于互信息的贝叶斯网络结构学习
地质异常的奇异性度量与隐伏源致矿异常识别
知识网络结构维对于创新绩效的作用机制——远程创新搜寻的中介作用
沪港通下A+ H股票网络结构演化的实证分析
复杂网络结构比对算法研究进展