大数据环境下网络舆情评估模型的构建*
2016-12-19谢树云全晓松申云成
谢树云,全晓松,申云成
(昭通学院 信息科学与技术学院,云南 昭通 657000)
大数据环境下网络舆情评估模型的构建*
谢树云,全晓松,申云成
(昭通学院 信息科学与技术学院,云南 昭通 657000)
当前网络舆情的发展呈现随时间变化的过程,本文研究在大数据环境下实现预警的软件模型的构建。提出网络舆情信息获取的Mashup模式,建立评估数据集合;针对具体的网络舆情评估指标体系,提出一种通用的舆情综合度量方法;实现对舆情的分级度量,把网络舆情从高到低划分为红、橙、黄、绿等四个等级,以供相关组织决策。
大数据;网络舆情;Mashup;评估体系;综合度量
公共舆论是社会的皮肤,是社会气候的晴雨表,当前我国社会转型期的各种社会思潮、社会矛盾、社会热点等问题和现代传播方式聚集交融形成的网络舆情是公众表达对现实社会的各种态度、意见和情绪的综合反映,网络舆情的形成对社会公众情绪、社会突发事件发展趋势、政府政策制定都具有相当影响力。目前网络已经成为一种整合多种传播信息方式的综合平台,致使互联网的信息形成了浩如烟海的大数据时代。对此挖掘有价值属性的网络舆情对掌握社会思想动态、敏锐捕捉社会突发事件发展趋势、提高社会预警能力、社会治理能力和科学决策都具有现实的积极意义。
1 大数据环境下的网络舆情研究综述
随着网络技术的发展、各类互动平台的运用和各种传播方式整合到网路中,使互联网传播信息具有快捷性、互动性、自主性、跨时空性、大数据性等特征,网络信息已经进入了名副其实的大数据时代,网络舆情的大数据导致政府引导、决策十分困难。及时发现网络信息中包含的有价值属性的信息,并作出最快速的反应,成为网络大数据时代的第一要务。然而,在网络舆情的大数据环境下,有价值的信息很多,但要挖掘出来却很困难。若靠传统人工方法从网络中搜集信息方方面面的热点,并进行原因、趋势分析,显然是绝无可能实现的。
对此,很多学者从信息挖掘、评估体系、舆情预警等方面进行了研究。戴嫒提出了以网络舆情综合指数为一级指标的网络舆情安全评估指标体系[1];吴绍忠、李淑华将舆情、舆情传播和舆情受众相结合,生成了网络舆情预警等级指标体系[2];王青、成颖、巢乃鹏等通过对主题舆情进行E—R分析,从舆情热度、舆情强度、舆情倾度、舆情生长度4个维度设计了网络舆情监测与预警指标体系[3];朱辉、骆公志提出网络舆情评估EHA 三维指标体系[4];徐迪提出了四级指标体系[5]。
从网络舆情产生的过程来看,主要由三个阶段构成。第一阶段网络舆情经历个体聚众、内化思想形成群体化舆论,第二阶段网络舆情在个体聚众化的基础上进行聚核化过程凸现网络舆论领袖,第三阶段网络舆情在聚众化和聚核化的基础上形成引导化舆论,实现引导网络舆论形成区域化、群体化的社会影响和群体事件[6]。因而网络舆情的发展具有阶段性,更呈现整体发展过程。总的看来,之前的研究大多基于网络舆情发展过程的阶段性研究,而将网络舆情发展过程理论和信息技术有机结合,并为网络舆情评估提供一种过程模型的平台少,网络舆情评估仍然停留在阶段性研究上。本文提出一种过程模型,以原始信息的词语识别[7]、舆情扩散中的数据统计、网民情绪态度等方面为依据,采用多级评判的思想,参考风暴等级,把网络舆情划分为红、橙、黄、绿等四个等级,供相关部门决策。
2 网络舆情评估模型关键技术
2.1 舆情评估指标体系
舆情评估指标体系是多级评判的基础,现有舆情评估指标体系存在不能反映网络舆情发展的时间过程、计算过程复杂等问题,因而本文提出表1的四维网络舆情评估体系。
表1 舆情评估指标体系
表1中,每个三级指标都可以按照括号内的方法计算权值,可以实现数值化。每组对应于一个上级指标的度量指标权重之和等于1 ,满足归一性;第三级指标的计算值由计数、分类计数、百分比等方法产生。可以表示为下面的表达式:
与其他的评估体系相比较,此体系的一个特点在于,强调时间对舆情的影响。在计算变化率时,由于舆情的数量曲线可能是起伏的,因此不但要关注相邻两天的变化,还要兼顾一段时间内的变化趋势。
2.2 Mashup信息获取
Mashup被称为糅合技术,是目前网络上新出现的一种现象。在应用中,Mashup把有合作关系的多个公共或者私有数据库通过web应用加在一起,形成整合。Mashup应用本身不需要存储大量数据,而是对引用来的数据进行处理,产生统计数据。目前Mashup技术被应用于地图、搜索、购物、新闻、微博等Web服务。
2.3 等级评价
为便于理解舆情严重程度,需要对舆情按照严重程度从高到低划分为红、橙、黄、绿四种颜色等级,前面小于等于10%的部分为红色,大于10%且小于等于20%为橙色,大于20%且小于等于40%的为黄色,大于40%的为绿色。
3 网络舆情搜集评估评判模型
网络舆情信息的搜集评估评判过程可以表示为图1。
图1 网络舆情评估过程Fig.1 Network public opinion evaluation process
评估过程主要包括四块功能,分别是舆情信息搜集、评估体系建设、多级评判和结果应用。
3.1 舆情信息搜集
舆情信息的源头通常是发布的一条或者多条消息,如果网民关注它,此舆情就会被不断转载、点击、搜索,并且追加更为详细的相关消息、追加评论、发布态度,还会撰写文章、发表观点。一条消息的基本信息表示为一个集合。
IB(主题,作者,时间,基本内容,作者态度倾向),。
对消息进行分析,可以补充集合。
IA(主题类别、发布者影响度、主题署名度、内容倾向)。
在传播过程中,逐渐产生一些新的信息,表示为集合。
ID(传播渠道、传播范围、单击次数、转载次数、主题搜索次数、页面数量、受众态度)。
对同一事件引起的舆情信息进行计数,产生集合。
IC(Web页面数量)。
对这些信息进行统计,会产生信息集合。
IS(Web页面数量变化率、页面点击数量变化率、主题搜索数量变化率)。
应该说,信息搜集是整个模型中最重要的一个环节。
网络舆情的信息源包括各种各样的网站、新闻、博客、论坛、社区、聊天室、微信。诸如腾讯新闻、迅雷新闻等站点是比较固定的舆情来源,天涯社区之类的网站信息流量非常大,而聊天室的信息变化大,blog类的站点内容相对单一。因此,对于不同的舆情资源,应该采用不同的技术实现舆情搜集。如图1,对于建立了合作关系的站点,可以选择采用Mashup糅合技术,对于其他关注站点,选择采用信息监控技术,以获取舆情动态。另外,流动性大的场合完成信息搜集困难一些,比如聊天室,需要考虑有效的技术。
3.2 评估体系建设
网络舆情评估体系建设是有效评估的关键。首先,需要在实践中不断地对项目进行调整,以期有效地反映公众的态度。其次,对各个评估项目的重要程度开展分析,为每个项目确定合适的权重,实现网络舆情评估体系的数据化。
3.3 多级评估
在对网络舆情按照评估体系规范化之后,根据各个项目所占权重计算舆情的综合评判结果,完成多级评判。
任一舆情的评判计算模型可以表示为
W=∑(Ai*∑(Bj*∑(Ck*w))),
其中Ai为一级指标权重,Bj为二级指标权重,Ck为三级指标权重,w为某三级指标的计算值。
多级评判的结果W表现为一个数字,数字越大表示舆情越重要。按照评判结果从大到小对舆情排序,划分舆情等级,实现舆情预警。
3.4 结果应用
对结果的应用主要表现在下面几个方面:
(1)对不良网络舆情进行预警,进行有效的引导,避免发生危机;
(2)关注民生,及时处理反映出来的问题;
(3)帮助制定有效的不良舆情预案;
(4)帮助开发更先进的舆情监测产品。
4 结束语
本文研究了在既有的网络舆情评估体系下,对网络舆情信息进行搜集、分析、统计、预警的软件模型。首先信息搜集由文章分词软件模块实现关键词识别,其次使用数学方法进行统计;再次对统计数据按照网络舆情评估体系给定的权值进行计算,产生舆情信息的评估值;最后按照评估值对舆情信息分色排序,供舆情预警使用。有效的舆情预警不但依赖于网络舆情评估体系建设,也和信息搜集、分析、统计等原始数据密切相关。并且,随着社会环境、信息流通环境、价值观的变化,也会对评估方法产生影响。总之,网络舆情评估是一个长期的、不断变化的过程,对它的研究不可停止。
[1]戴媛,郝晓伟,郭岩,等. 我国网络舆情安全评估指标体系的构建研究[J]. 信息网络与安全,2010(4):12 - 15.
[2]吴绍中,李淑华. 互联网络舆情预警机制研究[J]. 中国人民公安大学学报(自然科学版),2008(3):38 - 42.
[3]王青,成颖,巢乃鹏. 网络舆情监测及预警指标体系构建研究[J]. 情报科学,2011(7):7 - 10.
[4]朱辉,骆公志.网络舆情评估EHA 三维指标体系的构建[J].南京邮电大学学报(社会科学版),2013(15):37-42.
[5]谢海光,陈中润. 互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006(3):95 - 100.
[6]全晓松,陈永华,孔浩.新媒体环境下高校自组织网络群舆论引导研究[J].西安电子科技大学学报,2012,22(1):107-109.
[7]孔浩,全晓松,陈永华. 高校学生网络社区舆论搜集中同义词分词器的设计与实现[J]. 北京邮电大学学报,2012(5):5- 8.
Online public opinion assessment model for large data environments
XIE Shu-yun,QUAN Xiao-song,SHEN Yun-cheng
(College of Information Science and Technology, Zhaotong University,Zhaotong Yunnan 657000, China)
In the big data environment, you can find the public's attitudes toward social events from the network. Network access to information made public opinion Mashup mode, assessment data collection; specific evaluation index system of network public opinion, public opinion put forward a common integrated measurement method, to achieve the classification of public opinion measurement; low public opinion of the network is divided into red , orange, yellow, blue, black and five levels for decision making.
Big data; Internet public opinion; Mashup; Evaluation system; Comprehensive measure
2016-02-02
云南省教育厅科学研究基金:“校园网络自组织群舆论数据挖掘与引导措施研究”(项目编号:2012C180)。
谢树云(1976-),男,云南昭通人,副教授、硕士。主要研究方向:计算机软件。 全晓松(1966-),男,云南昭通人,副教授。主要研究方向:计算机软件。 申云成(1979-),男,云南昭通人,副教授、博士。主要研究方向:计算机科学与技术。
TP393.09
A
1673-6125(2016)01-0054-04