APP下载

传播阶段中不同传播者的舆情主题发现与对比分析

2018-11-26王曰芬王一山

现代情报 2018年9期
关键词:发布者接受者生命周期

王曰芬 王一山

〔摘要〕在网络舆情内容的传播过程中,各种物理上独立的舆论会话在传播要素上可能存在着语义关联,并且传播要素之间的相互影响对舆情传播内容的演变具有重要作用。本文从网络舆情的传播阶段中传播要素的相互影响入手,以传播内容为主要研究对象,以社群网络中的关键节点及其传播主题为分析单元,将生命周期理论和关键节点识别相结合,并选择新浪微博作为数据来源,采集舆情事件信息,构建舆情事件生命周期各阶段的社会网络并提取关键节点,借助LDA主题模型方法挖掘各阶段舆情内容的主题,在此基础上研究相同阶段或者不同阶段中在关键节点影响下的舆情主题分布及其变化。研究结论为社会舆情分析与决策支持提供了一定的参考。

〔关键词〕网络舆情;主题发现;传播要素;生命周期;关键节点识别;社群分析;新浪微博;LDA主题模型

DOI:10.3969/j.issn.1008-0821.2018.09.005

〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2018)09-0028-08

Topic Discovery and Comparative Analysis of the Public Opinion from

Different Disseminator in the Communication StagesWang Yuefen1,2Wang Yishan1

(1.Department of Information Management,Nanjing University of Science & Technology,

Nanjing 210094,China;

2.Jiangsu Collaborative Innovation Center of Social Safety Science and Technology,Nanjing 210094,China)

〔Abstract〕In the content communication process of the network public opinions,a variety of physically independent public opinion dialogues may exist semantic association among the communication factors,and the interaction of communication factors plays an important role in the evolution of public opinion content.In this paper,the interaction of network public opinion in the communication process was commenced.The communication content was the main research object.The key nodes and their topics in the communication process were regarded as analysis unit.Sina micro-blog was chosen as a data source and collect public opinion event information.The research methodology was to integrate the life cycle theory and the identification of key nodes,and to construct social networks in all stages of the life cycle of public opinion events,extract key nodes,and mine the topic of public opinion content in all stages with LDA topic model method.On the basis of this,the topic distribution and changes of public opinion were studied in the same stage or in different stages under the influence of the key nodes.The conclusion provided some references for social public opinion analysis and decision support.

〔Key words〕network public opinion;topic discovery;communication factors;life cycle;the identification of key nodes;community analysis;Sina micro-blog;LDA topic model

舆情是指个人或各类社会群体构成的公众,在一定的社会空间内,对自己关心或与自身利益紧密相关的各种公共事务所持有的情绪、态度和意见交错的总和[1]。网络化与数字化媒体的不断发展,催生的网络诱致、放大、介入或主导的社会舆情事件频发,使得通过网络传播的舆情呈现出信息内容的高度分散化与各种会话的碎片化[2],导致社会舆情更加凸现复杂化与多元化特点,对公众的认知与行为影响越来越大。因此,以网络舆情作为对象,针对传播者与接受者、传播内容、传播媒介、传播效果及其影响与作用等等的研究引起了社会的广泛关注和重视。随着研究的技术手段与方法的发展,社会研究重点正在从单纯地收集有效数据向对舆情内容的深入研判上拓展,跟踪与获取关联舆情并系统组织同类舆情信息,挖掘舆情信息可利用的价值,生产可供决策参考的产品与服务[3]。而在深化研究时,鉴于网络舆情在内容传播中,各种物理上独立的舆论会话,在传播各要素上可能存在着语义关联。同时,历史舆论会话对于理解正在发展中的舆论会话、可能生长的舆论会话以及舆论会话的后续效应具有参考价值。其中,由传播者与接受者借助于相同或者相似话题形成的紧密连接的关键社群网络对舆情内容也会产生着重要的影响。所以,舆情内容的研究有着许多值得探索的问题,例如,在網络舆情传播的新生态下,基于传播过程的舆情传播要素之间是如何相互作用的,传播主体的不同对内容主题有何影响,在不同传播阶段舆情事件在传播内容和数量上有何变化,以及主题的变化又如何影响传播主体及其下一阶段的主题等等。

为深入研究传播过程中舆情传播内容与传播要素之间的影响,丰富与完善新媒体生态下社会舆情传播规律的认识,为社会舆情分析与决策支持提供更有效的方案。本文以传播阶段中传播要素的相互影响为切入点,以传播内容为主要研究对象,以社群网络中的关键节点及其传播主题为分析单元,将生命周期理论和关键节点识别相结合,并借助主题模型方法,研究同一阶段或者不同阶段中在关键的传播要素影响下的舆情主题分布及其变化。

根据研究的思路,相关研究主要涉及到舆情主题发现、舆情生命周期研判和舆情关键社群分析。

11舆情主题发现

主题发现即主题抽取和主题识别,旨在对大量的信息进行处理和分析,帮助用户高效地掌握信息内容、发现信息主题[4]。从目前针对舆情主题发现方法的研究来看,常用的舆情主题发现方法主要有两类:文本聚类和主题模型,但这些方法大多应用于新闻类数据的主题发现[4],较少针对网络舆情社交媒体。深入阅读研究网络舆情社交媒体主题发现的文献,本文发现LDA主题模型在网络舆情社交媒体主题发现研究中使用较多。LDA(Latent Dirichlet Allocation)[5]是一个三层贝叶斯概率模型,包含词、主题、文档三层结构。LDA模型认为每篇文档包含若干个主题,同时每一个主题是固定词典里的一个多项式分布,文档到主题服从Dirichlet分布,主题到词服从多项式分布[6]。所以,LDA主题模型认为任何一篇文档均由一个词频向量构成,这样就可将文本信息转化为数学模型。LDA主题模型中比较有名的有DTM动态主题模型[7]、ILDA增量型潜在狄利克雷分配[8]和OLDA在线潜在狄利克雷分配[9]。学者们根据不同的需求研究LDA模型在舆情主题发现中的应用,如:李真等认为,基于社会网络视角,利用LDA主题模型可多方面、多维度地识别网络舆情观点主题[10];陈晓美等通过LDA主题模型观点提取方法,研究了如何从网络言论中判定深度评论,摘取主要观点,探索从大规模舆情中有序呈现受众观点的新路径[11];宋蕾等使用LDA主题模型解决数据的稀疏性问题,并通过聚类算法最终实现微博热点话题的发现[12]。

12舆情生命周期研判

生命周期(Life Cycle)[13]的概念在诸如政治、经济和技术等众多领域都有应用。生命周期理论很好地诠释了事物的整个发展过程,即事物从产生、成长、衰退到消亡的过程。网络舆情的演化同样遵循这一规律,其传播演化的过程大致可以分为成长期、爆发期、衰退期和平缓期这四个阶段。生命周期理论现已成为众多学者在研究网络舆情的传播与演化时所借助的手段之一。如:史波结合生命周期理论分析了公共危机事件网络舆情在整个生命周期中的演变路径、演变表现和演变动因[14];杨长春等将舆情危机事件按照生命周期划分为危机前、危机中和危机后3个阶段,构建了微博意见领袖舆情危机管理能力的评判指标体系[15];方付建在研究突发事件网络舆情演变时,运用生命周期理论,将其划分为孕育、扩散、变换和衰减4个阶段,并对每个阶段的舆情议题展开了研究[16]。

13舆情关键社群分析

社交媒体中的用户根据其社会属性可以划分成不同的社会群体,其在舆情事件中扮演不同的角色,其中具有较强影响力的社群被称为关键社群。而关键社群通常由众多影响力较强意见领袖及认同其观点的普通用户组成。因此,准确识别出各类舆情意见领袖是进行关键社群分析的重要前提和步骤。“意见领袖”这一概念最早由拉扎斯菲尔德提出,其定义为:在将媒介信息传给社会群体的过程中,那些扮演某种有影响力的中介角色[17]。社交媒体社会网络中的意见领袖通常扮演信息转达者和信息把关者的重要角色,并能够深刻影响其周边用户[18]。意见领袖在社会网络概念中被称作“关键节点”,本文中两者的含义相同,下文统称“关键节点”。社会网络中各类描述节点属性的特征进行舆情社群关键节点识别是目前常用的方法。如:康伟以2011年重大突发事件“7·23”动车事故为实证研究对象,生成“7·23”信息传播网络拓扑图,并基于邻接矩阵数据进行了网络密度、可达性、聚类系数和中心性测度,依据测度结果和位置角色分析对其进行了关键节点的分层与识别[20]。

通过阅读已有的研究成果,本文发现针对网络舆情热点话题发现的研究比较多,其中的方法和模型也较为成熟。同时,舆情生命周期研判和关键社群分析也在不断地扩展应用。然而,将几种方法结合,构建挖掘和揭示更深层次舆情内容的研究方案还有待于进一步的研究。

2研究设计

21研究问题提出

如今舆情大多数是通过网络社交媒体传播的,由于网络社交媒体具有的实时性和高交互性的特点,使得用户在发布信息的同时也在接收其他用户的信息,即同时扮演着信息发布者和接受者的双重角色。基于传播观点的发布与接受,信息发布者和接受者相互影响,进而作用于传播内容并使其发生着改变。体现在传播阶段过程中,信息发布者和信息接受者所传播的观点主题状态的变化大致可以归为3类:其一,接受者认可发布者的观点,发布者主题被强化;其二,接受者认可发布者的观点并有新的认知,产生新主题并发布,主题呈现多样继承性;其三,接受者不认可发布者的观点,产生与原观点相悖的主题,主题呈现多元变异性。

那么,在深化舆情传播特点与规律的研究中,基于上述三种舆情观点主题状态的变化,本文认为需要解决以下5个具体问题入手:1)生命周期同一阶段,不同类别发布者的主题有何异同?2)生命周期同一阶段,发布者和接受者的主题有何异同?3)生命周期相邻阶段,前一阶段的接受者主题与后一阶段的发布者主题有何异同?4)生命周期不同阶段,发布者主题如何变化?5)生命周期不同阶段,接受者主题如何变化?

如果将舆情生命周期划分为成长、爆发和衰退等阶段,并采用通常将舆情社群中的關键节点视为信息发布者、而普通用户视为信息接受者的做法,那么,在舆情传播阶段中,上述5个研究问题的逻辑关系可以如图1来表达,其图中序号与上述5类问题分别对应。图1研究问题的逻辑关系图

22研究思路与研究方法

针对上述5类研究问题,本研究的思路为:以“北大女研究生章莹颖失踪事件”为研究案例,以新浪微博平台中的数据为来源,以生命周期理论划分舆情传播阶段和以关键社群分析方法识别舆情社群的关键节点,在此基础上,以LDA主题模型抽取和识别不同阶段的舆情主题,并进而识别和比较信息发布者与接受者的观点主题及其相互影响。研究的主要流程为:首先,选择研究方法和模型;其次,为舆情事件划分生命周期阶段;然后,利用舆情事件中的转发关系,以用户为节点、转发关系为连线构建各阶段的转发社会网络,利用度中心性指标识别关键节点并分类;再次,根据各阶段不同类型关键节点的微博内容和原创微博的所有评论,利用LDA主题模型分别提取博文和评论的主题;最后,针对上述要解决的5类研究问题作出分析并得出结论。设计的研究流程和采用的研究方法如图2所示。

23数据收集与整理

本研究以新浪微博(littp://weibo.com)平台作为案例数据采集的来源,利用Python编写微博爬虫,以“章莹颖”为检索词,通过前期对该案例事件的重要时间节点分析,确定选择数据爬取的时间为2017年6月11日至2017年图2研究流程和研究方法示意图

8月20日,爬取的相关数据为:微博信息(微博内容、微博ID、发布时间、发布者昵称等)、转发信息(转发内容、转发关系、转发时间等)、评论信息(评论内容、所属微博、评论者等)和用户信息(用户ID、昵称、粉丝数等),并将所获信息存入MySQL数据库。经过编程自动筛选与人工干预,去除无用和干扰数据,将数据库中的数据处理后,分别存入转发表(166 443条)、微博信息表(21 299条)、评论表(148 037条)和用户信息表(252 014条)这4个Excel表格中。

3实证和分析

31微博舆情生命周期阶段划分

根据生命周期理论,舆情事件在微博中的传播与演化存在明显的阶段性特征,而微博的发文数和转发数是这些特征的量化表现。本文以生命周期理论为依据,结合“章莹颖失踪事件”中微博发文数和转发数的变化情况(如图3),将该事件的舆情演化过程划分为4个阶段:成长期(6月11日~6月25日)、爆发期(6月26日~7月2日)、衰退期(7月3日~7月23日)、平缓期(7月24日~8月20日)。

32微博舆情社会网络构建和关键节点识别

本文将“章莹颖失踪事件”微博转发数据按照时间排序,分别划分到的生命周期的4个阶段,然后以用户为节点,转发关系为连线,构建各阶段的转发社会网络,运用社会网络可视化软件Gephi生成如图4所示的生命周期各阶段转发网络图。

通过分析转发网络各阶段的数据,本文按照度中心性值的大小对网络中的节点进行了降序排序,分别选出Top10、

Top20和Top50的关键节点,并按照其社会属性将其分为政府类、媒体类和草根类节点。如图5所示,进一步分析Top10、Top20和Top50中政府类、媒体类和草根类节点各自的度中心性值占比。图5各类关键节点度中心性值占比分布

其中,政府类节点在Top10、Top20和Top50中的度中心性值占比除了在衰退期略高于20%外,其余时期均在10%左右,占比极小。从政府类节点的类别属性来看,政府类节点除了共青团中央这个正部级机构外,其余均为地方性机构(如:内江市中区公安等),规模较小,影响力有限。媒体类节点的占比均呈现出先增加后减少的趋势,成长期占比均大于20%,爆发期占比达到最大,为60%左右,随后显著下降,在平缓期时稳定在20%左右。从媒体类节点的类别属性来看,媒体类节点中既有人民日报和中央电视台这种全国性综合媒体,也有诸如《三联生活周刊》这类规模相对较小,覆盖面较为单一的中小媒体,涵盖较为广泛。草根类节点无论在Top10、Top20还是Top50中,其4个时期的度中心性值占比均较高,在最低的爆发期,其占比仍超过30%。在经历了从成长期到爆发期短暂的下降后,占比在衰退期和平缓期显著上升,最终达到80%左右。从草根类节点的类别属性来看,草根类节点主要为微博个人用户和兴趣类博主。

由于政府类关键节点在Top10、Top20和Top50中的度中心性值占比均较低,影响力有限,同时其发布内容主要为转发的案件信息,与媒体类关键节点发布内容类似,因此,本文将政府类关键节点和媒体类关键节点合并为一类,下文统称为“官媒类”关键节点。表1展示了生命周期各阶段Top50中官媒类和草根类的部分关键节点。

33不同关键节点舆情主题的发现与解读

对照生命周期的不同阶段,分别选取微博社会网络中表1生命周期各阶段Top50关键节点分类展示

生命周期官媒类草根类起始期中国新闻网、头条新闻、中国之声……这里是美国、大神说、我的前任是极品……爆发期人民日报、环球时報、央视新闻……Paingod、这里是美国、郭松民……衰退期共青团中央、人民日报、头条新闻……段子坊、何兵、谨言马西亚诺……平缓期中国青年网、新浪新闻、内江中区公安……侯宁、谨言马西亚诺、张颐武……

官媒类和草根类关键节点(两类信息发布者)发布和转发的所有微博以及普通用户(信息接受者)在全部原创微博的评论,使用LDA主题模型进行主题提取和分类。由于单条微博字数较少,为尽可能多地涵盖微博的主要内容,需要较多的关键节点,因此本文选取Top50中各类关键节点的微博内容。经过提取、整理和概括,信息发布者和信息接受者的主题分布分别如表2、表3和表4所示。

义、程序、公平”词汇反映了草根类关键节点关注美国的法律、体制等因素对案件审判的影响,以及如何保证法律的公正等问题。TopicⅢ-3关注中美两国的办案效率,TopicⅢ-4仍然是女生安全。在平缓期,除TopicⅣ-4涉及章莹颖的家属,其余3个主题均与事件无直接联系。TopicⅣ-1关注留学安全,TopicⅣ-2提到了国内的一起人口拐卖案件,TopicⅣ-3仍然关注女性安全,安全问题在生命周期后3个阶段均有出现,具体体现在留学安全、中美两国安全环境差异和女生安全三方面。

34不同关键节点的舆情主题的对比分析

根据上述舆情主题的发现和解读,在概括各类舆情信息发布者和接受者4个阶段主题的基础上,构建舆情观点主题对比分析表格,如表5所示,并针对上文提出的5类问题作出解答分析。

1)生命周期同一阶段,不同类别发布者的主题有何异同?

在生命周期同一阶段,官媒类关键节点侧重对事件的跟进报道,注重写实,较少发表主观看法。而草根类关键节点则不仅关注事件本身,还联系广泛,对类似事件也进行了讨论,表达的观点和看法都具有一定的深度。本文认为,这种区别与两类发布者的现实属性有关,官媒类关键节点在发布信息时需要考虑后果和影响,必须确保信息的真实可靠,因此不会轻易表达主观意见,而草根类关键节点大多为个人用户或某一兴趣领域的微博达人,他们在表达意见时更容易联系自身和周边且较少顾及影响,因此思维更开阔,观点更多样。

2)生命周期同一阶段,发布者和接受者的主题有何异同?

在生命周期同一阶段,作为信息接受者的普通用户更善于联系自身并关联相似事件,与草根类关键节点见解深刻不同,普通用户更多地倾向于情绪的表达和宣泄,在思维的深度方面有所欠缺。而相较于官媒类关键节点,普通用户则较少关注事件的进展信息,更倾向于讨论事件造成的后果,以及如何避免类似事件的发生。总之,普通用户群体由于人员素质参差不齐以及条件有限,整体思维水平不如草根类关键节点,对事件的报道和曝光方面则不如官媒类关键节点,但其人数众多,影响力不容忽视,决策者仍需关注其诉求倾听其意见。

3)生命周期相邻阶段,前一阶段的接受者主题与后一阶段的发布者主题有何异同?

如表5所示,生命周期相邻阶段的信息接受者和发布者分别被同一种形状标注(菱形、圆形和三角形)。分别比较3个相邻阶段的接受者和发布者,本文发现,前一阶段接受者关注的主题有一部分出现在相邻下一阶段的发布者1(草根类关键节点)主题中或发布者1中有相关的主题与之对应。如表5中下划线加粗字体所示,“马里兰大学中国留学生辱华”与“中美精英对主流文化的看法”、“中美安全、破案效率对比”与“FBI破案效率与中国的比较”、“中国和外国安全水平的比较”与“留学生安全以及中美教育”分别为3组对应主题,分别涉及文化、安全和教育三方面,与事件有较强联系。但是,发布者2(官媒类关键节点)在3个相邻阶段则无相应主题与之对应。综上所述,本文认为草根类关键节点比官媒类关键节点更多地与普通用户进行交流,或者说草根类关键节点更容易受普通用户观点、看法甚至情绪的影响。

4)生命周期不同阶段,发布者主题如何变化?

对比草根类关键节点4个阶段的主题,本文发现,在事件发生不久,主题都与事件直接相关,如事件的进展、当事人信息等。而随着时间的推移,与事件间接关联的主题逐步出现,本文认为这是草根类关键节点对事件进行深入思考并结合自身经验所发表的看法,其中既包含对事件的态度,对外部环境的分析,对事件后续处理的关注,也包含对如何避免类似事件再次发生的思考,最后这些看法上升到国家、制度和文化层面。4个阶段中主题的演变由点及面,层层深入,逐步扩展。对比官媒类关键节点4个阶段的主题,本文发现,官媒类关键节点在4个阶段均集中报道事件的进展,主要有案件进展信息,相关人员资料等,只是在平缓期时提到了一封母亲写给女儿强调人生安全的信。

5)生命周期不同阶段,接受者主题如何变化?

比较分析作为信息接受者的普通用户4个阶段的主题,本文发现随着时间的推移,主题在广度和深度上均有一定程度的突破。从成长期到平缓期,普通用户常联系各类相似事件,如“北电侯亮平事件”和“马里兰大学中国留学生辱华事件”,同时对事件的深层次原因以及如何避免类似事件再次发生也有一定的讨论与思考,但思考普遍不深入。普通用户在4个阶段均具有较强的情绪释放和宣泄,主要为抨击极端言论和祈求平安等。

4总结

某一社会事件发生后,经网络社交媒体的传播,受到各类意见领袖和网络推手的促动,引发公众的广泛参与,随之而来的发文数、转发数和评论数的大量增长,公众的意见逐步产生并成型,最后,公众的意见慢慢达成一致从而形成舆情[21]。本文选择以“2017年北大女硕士章莹颖失踪”事件为案例,基于新浪微博获取数据,并借助生命周期理论、关键社群分析方法和LDA主题模型,通过挖掘各类信息发布者和接受者在生命周期不同阶段的主题,研究网络舆情传播过程中关键节点和普通用户主题的影响以及变化,得出如下思考:

网络舆情事件中的作为信息发布者的微博草根类关键节点规模庞大、影响广泛、见解深刻,是一股不容忽视的力量,对其观点主题进行有效的识别、提取、跟踪和掌握,倾听其利益诉求,有助于正确地引导舆情的传播,促进传播行为之间的合理互动,为舆情决策提供积极的支撑。微博评论的高互动性让作为信息接受者的普通用户交流和讨论更加便捷,这也使得不同的观点在评论区能够被充分表达并形成多样化的主题。因此,关注评论区的主题有助于了解普通用户的想法,决策者不仅应重视关键节点,还要兼听“底层民意”,这样才能有效化解舆情危机,做出符合广大人民群众利益的决策。官媒类关键节点由于本身的政府和媒体属性使得它们具有较高的权威性,在事件爆发初期及时进行信息发布和谣言破除,在事件中后期对事件进行有针对性的点评和解读,有助于正确地引导舆论,官媒类关键节点在此次事件的整个过程中欠缺对事件的解读,有待改进。同时,研究发现普通用户的观点在一定程度上能引起草根类关键节点的关注和思考,但对官媒类关键节点基本无影响,因此,建议作为官方与权威代表的官媒类关键节点增加对普通用户意见的关注。

虽然研究结果比较丰富,但本研究仍存在两点局限:其一,研究只选取了单一的事件,不能完全反映一般规律;其二,只按照转发网络中用户节点的度中心性指标和节点社会属性对各类信息发布者进行了划分,未综合考虑其他用户行为,如点赞和评论等,且未将主题发现与用户行相结合。今后还需通过选取系列事件,并将用户行为和主题发现结合起来进行研究。以上这些都是后续研究的重点和难点。

参考文献

[1]刘毅.略论网络舆情的概念、特点、表达与传播[J].理论界,2007,(1):11-12.

[2]王曰芬.大数据环境下社会舆情及其演化分析的研究[J].情報资料工作,2016,37(3):5-5.

[3]岑咏华,王曰芬.大数据环境下社会舆情分析与决策支持的研究视角和关键问题[J].现代图书情报技术,2016,32(7/8):3-11

[4]梁晓贺,田儒雅,吴蕾,等.微博主题发现研究方法述评[J/OL].图书情报工作,1-7.http://kns.cnki.net/kcms/detail/11.1541.G2.20170921.1115.009.html,2017-09-21.

[5]Blei DM,Ng AY,Jordan MJ.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.

[6]阮光册.基于LDA的网络评论主题发现研究[J].情报杂志,2014,33(3):161-164.

[7]Blei D M,Lafferty J D.Dynamic Topic Models[C]// International Conference.DBLP,2006:113-120.

[8]Griffiths T L,Steyvers M.Finding Scientific Topics[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(1):5228.

猜你喜欢

发布者接受者生命周期
新加坡新法规引争议
从生命周期视角看并购保险
民用飞机全生命周期KPI的研究与应用
企业生命周期及其管理
基于NDN的高效发布/订阅系统设计与实现
Flu Study
广告发布者的著作权审查义务问题研究
加权映射匹配方法的站内搜索引擎设计
游戏、电影和接受者:跨媒介时代融合的新方式
基于有限承诺审核的信息传递均衡策略