APP下载

基于价值累加理论的网络热点事件舆情研判及系统实现*

2016-01-26徐勇

计算机工程与科学 2015年12期



基于价值累加理论的网络热点事件舆情研判及系统实现*

通信地址:430022 湖北省武汉市湖北行政学院信息中心Address:Information Center,Hubei Academy of Governance,Wuhan 430022,Hubei,P.R.China

徐勇

(湖北行政学院信息中心,湖北 武汉 430022)

摘要:基于价值累加理论分析网络热点事件的演变过程,确定触发因素的出现、共同信念的形成、行动动员的完成是事件演变的三个关键环节,设计监测模型,对事件舆情中的敏感因素、情感的形成及扩散进行分析判断。在此基础上,构造网络舆情热点信息智能监测平台系统(NPOIMS),以我国西部地区的x市为实例对象,架构舆情监测系统,监测与x市有关的各类舆情信息,提炼热点词语,进行舆情研判,提供分析报告,为相关部门提供舆情引导和事件应对的信息参考和决策支持。

关键词:价值累加理论;网络热点事件;舆情研判

1引言

网络热点事件以互联网为主阵地,参与主体多元,影响范围广。近年来,“厦门PX事件”“天价烟局长事件”“躲猫猫事件”“河北李刚门事件”“郭美美事件”“微笑局长事件”“陕西神木‘房姐’事件”等一系列网络热点事件,对我国社会产生了深刻的影响。对网络热点事件舆情的研判是有效应对事件的前提和基础。

国外对网络舆情系统已进行了多年的研究,在自然语言检索[1~3]、海量数据信息检索[4]以及上下文摘要[5,6]等方面有深厚的基础。国内的网络舆情系统在网页抓取[7]、内容分析[8]、数据挖掘[9]、主题识别与跟踪[10,11]等方面进行了较大密度的研究,但相关算法还不是很成熟,如舆情热点的发现、热点信息的情感倾向性判断等方面,还存在诸多问题。相关研究也多是单纯从技术角度进行系统的研发,很少以社会科学的相关理论为基础,通过对舆情产生及发展的背景及相关因素等进行分析,用以指导建立舆情监测系统,以提高事件应对的针对性和有效性。

从网络热点事件案例可以看到,事件的发展过程以网络舆情热度变化为重要标志,具有典型的集群行为特征:参与人群自发无指导、无明确目的、不受通常的行为规范约束、多有狂热行为,并且有着明显的形成、发展、衰退的生命周期。因此,本文将网络热点事件的发展过程看作是一个完整的集群行为的演变过程,认为网络热点事件是在一定的社会背景下,由某些特定因素触发,众多网民以网络为主要渠道进行情感宣泄,并可能会伴发现实世界中的集体行动,最终产生一定社会影响的网络集群事件。

Figure 1 Public opinion evolution model of network hot events图1 网络热点事件舆情演变的过程模型

美国社会学家斯梅尔塞借助经济学描述产品价值增值的术语,提出了用于解释集群行为的价值累加理论,认为所有的集群行为都是由六个方面的因素相互作用产生的,分别是:结构性诱因、结构性紧张、共同信念、触发因素、行动动员和社会控制失效。本文以价值累加理论的六个条件为分析维度,选取近几年来发生的一些网络热点事件作为样本案例,对事件舆情的演变过程进行分析,把握事件演变的关键环节,设计构造基于价值累加理论的舆情监测研判系统,为舆情应对提供必要的决策支持。

2网络热点事件的舆情演变分析

通过对网络热点事件样本案例的分析,可以发现网络热点事件的发展脉络大体遵循着这样一个规律:社会矛盾、社会不平等、不公正现象,经过媒体的报道,会扩大社会的不满情绪。公众往往因受自己的背景、学历、年龄、价值观、兴趣、爱好,以及所处的群体环境等的影响,更愿意选择那些与自己的既有立场和态度一致或接近的内容加以接触、认知和记忆。这样,当面对包含有吸引关注的有关新闻要素时,公众极易因为心理共鸣而形成某种共同感受,产生普遍情绪和共同信念,并通过互动交流自发地完成行动动员,推动事件走向高潮。事件演变的过程模型如图1所示。

从图1可以看到,在事件的发展过程中,结构性诱因和结构性紧张构成了事件发生的基础性条件,社会控制失效为事件的发生创造了良好的外部条件。触发因素的出现、共同信念的形成和行动动员的完成刺激网络热点事件由初发直到爆发,事件的舆情热度不断高涨,是事件演变中的三个关键环节。

触发因素的出现为社会紧张凝聚了浓度,为事件的发生提供了一个真切而敏感的具体刺激,契合了公众固有的价值观念、历史记忆、物质利益、心理因素等,激起种种议论或产生多种情绪性表现,事件开始在网上发端,舆情在短时间内会急速上升,整个舆情态势出现波动性变化。

共同信念的形成为网民的集体行动指明了方向。共同信念从某种意义上说是再造了、深化了甚至是夸大了公众的怨恨、相对剥夺感和压迫感。网民个体的怨恨相互渲染,达成对事件统一的认知,个体的怨恨被提升为群体的怨恨,产生共鸣,群体的情感能量迅速增强,事件被酝酿,舆情持续走高。

行动动员的核心是公众情感的动员。事件的符号化标签是增强情感的图腾,符号以及与符号特征相关的一些信息是唤醒群体情感的源泉。个体之间、个体与群体之间形成交互的循环作用,彼此间的情感相互感染、反复加强,充分保持了符号在群体中的传播。群体情感的价值指向不断强化,形成“制度化”情感,情感能量不断聚集,并达到足够的水平,事件在网上爆发,舆情沸腾。

因此,对网络热点事件舆情研判的重点是对敏感因素、情感的形成及扩散进行分析判断,把握事件演变的三个关键环节。

3网络热点事件的舆情研判

定义类NetInfoOpinion,用以表示网络上的某个具体的舆情信息,NetInfoOpinion的数据结构定义如下:

public classNetInfoOpinion{

public stringC; //信息的内容

public stringInfo_URL;//信息的地址

public stringInfo_Type;//信息类型

public intRdNum; //报道天数

public intRfNum; //报道频率

public intCkNum;//网民点击数

public intDNum; //网民评论数

}

某个具体的信息可以表示为:It=〈C,RdNum,RfNum,CkNum,DNum〉。

在信息特征项的抽取中,以传统TF*IDF算法为基础,考虑篇章的结构信息对权重的影响,将不同位置相同的词语同等看待,赋予同样的权值,改进TF*IDF方法来计算特征项的权重termWeight。通过K-近邻算法和K-means算法对信息进行分类和聚类,并根据主题关注度和主题相关度来确定话题相关信息的热度。

(1)

其中,Ar(i,tm)表示信息的热度,Aru(i,tm)表示在时间段tm内,公众对信息i的关注度,即用户关注度;Arm(i,tm)表示在时间段tm内,网络上关于信息i的关注度,即媒体关注度;Rel(i)为主题相关度;tm可以是任意的时间段,如一周、一月等;参数α和β的主要作用是用来调节媒体关注度和用户关注度的数值差异,以平衡各因子对整个公式的影响大小,可以根据经验来设置其大小。

Aru(i,tm)的主要特征通过CkNum和DNum表现。一般来说,如果公众对某一信息很感兴趣,那么就会在阅读之后留下自己的评论意见,所以设定评论人数的权重大于阅读人数的权重。

Aru(i,tm)=log(0.5*Pri+Pci+λ)(0.5*Pri+

(2)

其中,Pri表示信息i的阅读人数(只看不回复)的比例,Pri=CkNumi/(CkNumi+DNumi);Pci表示信息i的回复人数的比例,Pci=DNumi/(CkNumi+DNumi);λ为动态调整因子,用来平衡公式中相关因子对公式的影响;tmi为当前时间,tm0为主题的发布时间,(tmi-tm0)为当前时间与主题发布时间的时间差,当时间差为0时,时效性因子值为1,随着时间差的增大,时效性因子呈指数衰减,时间越长,公众的关注度越低。

Arm(i,tm)的主要特征通过RDNum和RfNum表现。在系统中,不区分新闻的来源,都设定相同的权重。而描述热点信息的特征项必定会在每个新闻来源的多篇报道文档中频繁出现,出现得越频繁,信息受媒体的关注程度越高。

(3)

其中,RfNumi(tm)表示在时间段tm内关于信息i的报道总数;RDi(tm)表示网站上的所有报道总数;N表示网站上的信息总数;RDNum(tm)表示时间段tm内,关于信息i的报道天数。通常有多篇相关报道的话题比报道量极少的话题的价值大得多,所以取指数形式来提高其权重;考虑时间因素RDNum(tm),如果信息i在时间段tm内的报道越集中,那么信息i的关注度也越高。

Rel(i)是通过计算该主题下的回复内容与原主题内容的相关度统计得到,两篇帖子之间相关度的计算可以通过比较两篇文本的内容的相似度来判断。具体计算模型如下:

(4)

(5)

其中,sim(c0,cj)为c0和cj之间的文本相似度,用向量间夹角的余弦值来计算c0和cj之间的文本相似度:wj,k为第j篇文档中第k个特征项的权重;N是两篇文档中包含的特征项种类的数量。

3.1 敏感信息判断

基于对热点事件触发因素类型分析,建立敏感信息基本库。设计自适应话题跟踪算法,基于文本的特征子集向量实现对热点的跟踪。考虑到随着时间的变化,不仅关于热点话题会有新的内容出现,而且原话题本身也可能因为现实世界中的一些变化而发生动态的变化,即出现话题更新或漂移,如在陕西“微笑局长”事件中,杨达才由“微笑局长”变为“表哥”“表叔”就是因为公众所关注的热点由“微笑”变为了“名表”。当原话题出现更新或漂移时,其特征子集也可能会发生变化,如果不对特征子集进行适时调整,话题跟踪后将难以得到与漂移后的话题相关的结果,而简单地认为话题没有后续新内容出现,与实际情况不相符。因此,在设计跟踪算法时,为提高跟踪的精度,对原话题的特征子集根据跟踪结果进行自适应地修正。

修正特征子集的基本思路是以跟踪到的新文本为基础,从新文本的特征项中选择权重最高的项,加入到原文本的特征子集中,而后以此为新的特征子集,进行后续的跟踪工作。特征子集修正的具体过程描述如下:

步骤1抽取新文本特征项集Dnew中max(termWeight)所对应的特征项tnew;

当发现热点舆情出现明显的波动性变化时,表明该热点的舆情信息中,出现了极大吸引公众关注的信息,需判断是否出现敏感信息。具体过程如下:

步骤2将DSUD中的特征词与敏感信息基本库进行匹配,判断是否有与基本库中的某些特征词的信息相吻合的特征词;

步骤3如果有吻合的特征词,则监测系统据此认为价值累加理论中的触发因素条件出现了,将结果提供给人工进行确认。

3.2 情感形成分析

在经过人工确认敏感因素出现后,进一步基于DSUD判断是否出现了符号化标签信息(或与符号化特征相关的信息)。具体算法描述如下:

步骤5将确认的符号化标签信息写入敏感信息基本库,扩展基本库。

3.3 情感扩散判断

舆情指数的计算公式如下:

Exp_HotTopici,x=

(6)

其中,Exp_HotTopici,x为话题HotTopici在第x天的舆情指数,W_HotTopici,x为话题HotTopici在第x天的话题关注度,W_HotTopici,1为该话题第1天出现时的话题关注度。话题关注度基于话题的热度和话题的平均相似度得到:

W_HotTopici,x=Fi(avgsim)*Ar(i,tm)

(7)

根据敏感因素舆情的发展变化,以“8%规律”(跟帖量除以总浏览量大于8%)作为衡量是否出现情感扩散的理论依据(“8%规律”在干群舆情信息监测工作中得到推广应用,并取得了较好的效果)。如果超过8%,则判断公众关于此话题的情感呈扩散状态,需对舆情进行重点关注并进行必要的处理,以干预网民的行动动员。否则,只需对舆情进行关注,以防出现情感的扩散。

根据舆情研判的结果,将热点舆情分为四类:不含敏感因素;含敏感因素未形成共意;含敏感因素,形成共意但情感未扩散;含敏感因素,形成共意且情感扩散,并将研判结果报告管理人员,为舆情应对做好相应准备。

4网络热点事件的舆情监测预警

构造网络舆情热点信息智能监测平台系统(NPOIMS),针对互联网上的舆情信息进行舆情监测、采集、处理,发现舆情热点,并对热点进行跟踪,预测其发展趋势,研判网络热点事件发生的三个关键环节,为事件的应对工作提供技术支持。系统框架如图2所示。

Figure 2 Framework of the NPOIMS图2 智能监测系统(NPOIMS)的框架

以我国西部地区的x市为对象,基于NPOIMS,根据x市的实际情况,架构“x市网络舆情监测系统”。系统可以实时监测各类网站、微博、论坛上与“x市”的各级领导、各行政区域、职能单位、重点企业等有关的各类舆情信息,发现热点舆情,并通过对敏感信息的研判、热点舆情情感形成及扩散的研判,为有关部门提供舆情引导和网络热点事件应对的信息参考和决策支持。

系统监测的主要舆情载体的范围分为主要新闻类、区域性门户类、商业类、社交类、微博客类,每类预先设定一些主要站点的网址。其中,主要新闻类预设的有:人民网、新华网、凤凰网等;区域性门户类预设的有:古城热线、西部网、每经网等;商业类预设的有:新浪、网易、TOM等;社交类预设的有:百度贴吧、天水在线、天涯社区等;微博客类预设的有:新浪微博、网易微博、腾讯微博等。通过对预设网站的定向信息采集,确保重要信息优先采集不丢失,并同时通过向主流搜索引擎进行搜索补充,确保信息收集的全面性。

知识库用于存放词典和各类规则。知识库中的所有词典书写分为词典别名跟词典规则两个部分,词典别名是显示在系统中的词语,词典规则是实际搜索的关键词语。

敏感信息基本库存放一些为公众所关注的敏感类信息,添加“警察”“干部”“公务员”“食品安全”“污染”“PX”“官二代”“富二代”“房叔”“钉子户”等为敏感信基本库词条。

规则库设置系统的匹配规则,使用符号“*”表示“与”,“+”表示“或”,“-”表示“非”,“()”表示“优先级”;定义先后顺序为:与、或、非。设置规则,如:公务员*考试*(干涉+暗箱操作+设限+限制+猫腻+量身+内定+泄题)。

系统运行后(运行时间段为:2015年4月15日~2015年5月25日),按照预先的设置,自动搜索与x市有关的最新舆情信息,对采集到的舆情信息进行热点分析,将分析结果按本月热点、本周热点、今日热点分类显示,并按日期进行比较分析,进行舆情提示(如图3所示)。同时,提炼热点词语,以热词聚焦列表显示,进行舆情研判。对需重点关注、及时应对的敏感舆情,以图表形式对载体传播态势和各媒体的传播情况进行预警提示(如图4所示),并自动生成舆情专题报告,存储为Word文档(如图5所示)。

Figure 3 Analysis of today’s public opinions图3 今日舆情分析

Figure 4 Warning prompts of public opinion carrier dissemination trends图4 舆情载体传播态势预警提示

Figure 5 Public opinion report generated by system automatically图5 系统自动生成的舆情专题报告

NPOIMS通过主题自动识别,智能过滤、聚类,专题聚焦,实现多角度、多层次展示信息,揭示网络舆情规律,帮助用户研判及预警网络舆情趋势,进而帮助用户及时、全面、准确地掌握网络舆情动态,为决策层做出正确舆论引导提供必要的理论依据,从而提高其公关应变能力和重大事件的网络舆情处置能力。

5结束语

本文以社会学的价值累加理论为基础,通过案例分析确定网络热点事件发展演变的关键环节,并以此为指导,构建网络舆情热点智能监测系统,获取网络热点信息,分析研判敏感因素、情感的形成及扩散,并根据研判结果对舆情进行分类,指导相关部门进行网络热点事件的应对。本文的研究对丰富网络热点事件的舆情监测,具有探索性的意义。

参考文献:附中文

[1]DeneekeK.Usingsentiwordnetformultilingualsentimentanalysis[C]∥ProcoftheIEEEInternationalConferenceonDataEngineering(ICDE2008),2008:507-512.

[2]Aleman-MezaB,NagarajanM,DingL.Scalablesemanticanalyticsonsocialnetworksforaddressingtheproblemofconflictofinterestdetection[J].ACMTransactionsonWeb,2008,2(1):1-29.

[3]AbbasiA,ChenH,SalemA.Sentimentanalysisinmultiplelanguages:FeatureselectionforopinionclassificationinWebforums[J].ACMTransactionsonInformationSystems,2008,26(3):1-34.

[4]GuerrieroA,RagniF,MartinesC.AdynamicURLassignmentmethodforparallelwebcrawler[C]∥ComputationalIntelligenceforMeasurementSystemsandApplications(CIMSA),2010:110-123.

[5]ZhugeH.Communitiesandemergingsemanticsinsemanticlinknetwork:Discoveryandlearning[J].IEEETransactionsonKnowledgeandDataEngineering,2009,21(6):785-799.

[6]SelamatA,Ahmadi-AbkenariF.ApplicationofclickstreamanalysisasWebpageimportancemetricinparallelcrawlers[J].InformationTechnology(ITSim),2010(1):1-6.

[7]WangYa-xuan,XuCong.Applicationresearchontheagent-basedpersonalizedintelligentinformationretrievalsystem[C]∥Procofthe2ndAsia-PacificConferenceonInformationTheory(APCIT2011),2011:24-26.(inChinese)

[8]PengXue-shi,SunChun-hua.Paradigmwordsselectingmethodbasedonwordclusteringforsentimentsanalysis[J].ApplicationResearchofComputers,2011,28(1):114-116.(inChinese)

[9]HanZhong-ming,ChenNi.Anefficientandeffectiveclusteringalgorithmfortimeseriesofhottopics[J].ChineseJournalofComputers,2012,35(11):2337-2347.(inChinese)

[10]WangWei,YangWu,QiHai-feng.Networkhotspottopicdetectionalgorithmbasedonmulti-centermodel[J].JournalofNanjingUniversityofScienceandTechnology(NaturalScience),2009,33(4):422-426.(inChinese)

[11]XueFeng,ZhouYa-dong,GaoFeng.Anonlinedetectionandtrackingmethodforburstytopics[J].JournalofXi’anJiaotongUniversity,2011,45(12):64-69.(inChinese)

[7]王雅轩,顼聪.基于Agent的个性化智能信息检索系统应用研究[C]∥The2ndAsia-PacificConferenceonInformationTheory(APCIT2011),2011:24-26.

[8]彭学仕,孙春华.面向倾向性分析的基于词聚类的基准词选择方法[J].计算机应用研究,2011,28(1):114-116.

[9]韩忠明,陈妮.面向热点话题时间序列的有效聚类算法研究[J].计算机学报,2012,35(11):2337-2347.

[10]王巍,杨武,齐海凤.基于多中心模型的网络热点话题发现算法[J].南京理工大学学报(自然科学版),2009,33(4):422-426.

[11]薛峰,周亚东,高峰.一种突发性热点话题在线发现与跟踪方法[J].西安交通大学学报,2011,45(12):64-69.

徐勇(1974-),男,湖北荆门人,博士,副教授,研究方向为网络舆情和计算机仿真。E-mail:hfxing@sohu.com

XUYong,bornin1974,PhD,associateprofessor,hisresearchinterestsincludenetworkpublicopinion,andsimulation.

Public opinion analysis and implementation of networkhot events based on value added theory

XU Yong

(Information Center,Hubei Academy of Governance,Wuhan 430022,China)

Abstract:We analyze the evolution of the network hot events based on the value added theory. The emergence of the precipitating factors, the formation of generalized belief, and the completion of mobilization for actions are three crucial phases of the evolution of the events. We also design a monitoring model to analyze sensitive factors, the formation and diffusion of the emotions of public opinions in the events. Based on this, we develop a network public opinion intelligent monitoring system (NPOIMS). And the public opinion monitoring system is built up by takes the X city in the west of China as the instance object. All kinds of public opinion information of the X city are monitored. The hot words are refined, and the public opinion is analyzed. And the analysis results are provided to the government departments as a decision support to guard public opinions and dispose the events.

Key words:value added theory;network hot events;public opinion analysis

作者简介:

doi:10.3969/j.issn.1007-130X.2015.12.010

中图分类号:TP393

文献标志码:A

基金项目:国家社会科学基金资助项目(11CGL092)

收稿日期:修回日期:2015-10-25

文章编号:1007-130X(2015)12-2256-06