基于相对权重的网络舆情监测系统设计*
2015-01-15潘大庆
潘大庆
(柳州市委党校,广西 柳州 545006)
随着互联网的大量普及,网络舆情也成为一项社会和国家安全的一个重要因素.因此对网络舆情进行实时的跟踪和监测,能够让国家及时地掌握网络舆情的发展变化和发展规律[1-3].对于一些影响社会安定和稳定的不良网络舆情做到及时地发现和跟踪,能为维护整个社会的安定发挥积极的作用.
近年来国内外针对网络舆情监测技术的研究很多,并取得了一系列的研究成果,比如:董亚倩,邓尚民等人[4-5]以社会网络为分析对象,研究了网络舆情主体挖掘技术,也重点研究了高校中的舆情演变规律及安全评估指标体系.而陈新杰、呼雨等人[6]也专门对网络舆情监测的指标体系进行了研究.
但是对网络舆情监测技术的研究并没有止境,随着网络结构的不断变化,以及网络舆情复杂性的日益发展,使得开展网络舆情监测的相关技术研究,依然还需要继续努力[7-9].笔者通过深入的研究,设计了一种基于相对权重的网络舆情监测算法和系统.
1 舆情监测系统组成
舆情监测系统组成结构如图1所示.该系统主要包括信息采集、信息监测和信息管理三个部分.其中信息采集又由网络地址过滤、网络页面内容分析、页面去冗、网络爬虫和网络爬虫策略深层模块所组成.在这些功能模块中通过网络爬虫按照预先设定的爬虫策略,对整个网络中的页面进行自动化的获取和分析,而且在获取过程中,为了提高数据采集的精度,设计了网络地址过滤和页面去冗的功能模块.
在网络监测模块中主要由文本分类、文本聚类、相对权重计算、主题监测、虚事统计和关联事件统计等功能模块组成.在这些功能模块中最核心的是相对权重的计算,其作用是通过对网络爬虫采集到的页面进行初步的文本分类和聚类之后,计算每一个网络页面它的关键词的相对权重,为后期的主题检测和事件统计奠定基础.
信息管理模块主要包括热点事件记录、热点事件发展趋势显示、舆情状态显示、舆情关联事件列表、舆情信息上报接口、用户管理接口和用户配置接口等功能模块.在这些功能模块中,基本上可以分为两大类,一类是事件信息的显示,一类是用户接口模块[10-11].信息显示主要是对舆情的分类、舆情的动态变化情况、发展趋势等特性进行显示.而接口模块主要接收用户的一些管理和配置的信息,使得整个舆情监测系统能够更好地运行.
笔者所设计的舆情监测系统,最重要的是对舆情监测部分的设计和实现,在这个功能中主要通过设计专门的舆情监测算法来实现对舆情的跟踪和监测.
图1 舆情监测系统组成结构Fig.1 Composition and structure of public opinion monitoring system
2 舆情监测算法设计
一篇文档T_k中,经过分词处理后,提取出来的关键词有),所有待处理的文档共有N篇.
利用这一分词权重描述模型,能够对所有待处理文档中分词进行权重分析和度量,为网络舆情监测提供准确的信息支持.
舆情监测算法流程如图2所示.在舆情监测过程中首先通过网络爬虫对网络中的页面进行采集,提取各个页面中的内容数据,将所提取的内容数据送入相应的数据库,数据库中的数据都将会统计入库文档集合中的相关参数,比如文档中的关键词汇,文档出自的地方,以及文本所包含的字数等等相关参数.之后对所有入库的文档进行页面分词,通过页面分词将整个页面中的各个词汇提取出来,之后按照本文所设计的分词权重计算算法,对每个页面中的分词计算其相应的权重,最后再用该权重计算出整个页面的主题权重.以此完成对整个页面的权重计算,当对整个数据库中的页面数据进行依次扫描和计算之后,则可以完成对整个文库中的统计权重的计算.最后根据预先设定的热点事件评价阈值,对网络中的热点事件进行分析和判断,最后给出舆情监测的结果.
图2 基于相对权重的舆情监测算法流程Fig.2Process of public opinion monitoring algorithm based on relative weight
3 测试与分析
选取典型舆情事件测试数据样本库对笔者设计的舆情监测系统性能进行测试,测试之前对主要的评价指标进行了分析,并选取恰当的评价指标对舆情监测系统进行测试.
召回率也即查全率,是用于评价检测系统所检测到的结果在所有符合条件的事件比率,其计算公式如下所示:精度是衡量检测系统所有预警事件的准确性,其计算公式如下:
除此之外,还有漏报率和误报率也可以衡量检测系统的性能.漏报率是指系统对真实舆情事件的漏报比率,误报率是指系统预警的舆情事件错误概率,这两个指标的计算公式分别如下:
从计算公式可以看出,在实际的应用过程,漏报率和误报率都可以由召回率和精度两个指标计算得到,因此在实际测试评价检测系统性能时,一般只采用召回率和精度两个指标.根据本文所选取的舆情监测测试样本数据,测试结果如表1所示.
表1 舆情监测系统测试结果Tab.1 Test results of the public opinion monitoring system
从测试结果可以看出,笔者所设计的舆情监测系统,在对给定的测试文档中,能够准确地发现测试文档中的热点事件,其对事件的检测精度大于92%.而在检测过程中其召回率大于91%,这一测试结果表明,笔者所设计的舆情监测算法,能够有效地检测和发现网络中热点事件.并且由于笔者所设计的舆情监测算法计算速度快,因此能够实现对热点事件的实时跟踪的应用.
4 结语
网络舆情监测对维护网络世界的和平,乃至整个现实世界的安定都有着重要的作用.虽然目前也有很多技术和方法用于网络舆情监测,但是由于网络的复杂性,导致目的网络舆情技术往往具有一定的局限性[12-13].有的时候面对一些复杂网络,其得到的舆情监测效果并不理想.笔者通过设计基于相对权重的网络舆情监测技,能够动态的去调整和适应未知的网络环境,以及网页内容的动态变化,从而确保所设计的网络舆情监测系统能够具有较高的舆情监测精度.
[1]刘建军,王威.试论大学生网络舆情的预警机制[J].高校辅导员,2010(4):5-9.
[2]王晓兰.2010年中国微博客研究综述[J].国际新闻界,2011(1):24-26.
[3]谢海光,陈中润.互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006(3):95-100.
[4]董亚倩,邓尚民.基于社会网络分析的网络舆情主体挖掘研究[J].情报资料工作,2011(6):45-49.
[5]董亚倩.高校网络舆情演变规律及安全评估指标体系构建研究[D].淄博:山东理工大学,2012.
[6]陈新杰,呼雨,兰月新.网络舆情监测指标体系构建研究[J].现代情报,2012,32(5):4-8.
[7]金兼斌.网络舆论调查的方法和策略[J].河南社会科学,2007(4):118-121.
[8]缪志波.浅析微博时代高校网络舆情的监测与引导[J].当代教育论坛,2012(1):118-121.
[9]姜胜洪.网络舆情热点的形成与发展、现状及舆论引导[J].理论月刊,2008(4):34-36.
[10]刘繁荣,刘华宝.突发公共事件网络舆情的政府应对[J].中共南昌市委党校学报,2011,9(2):43-46.
[11]马宾.高校校园网络舆情及预警机制研究[J].科技视界,2012,1(3):91-93.
[12]刘巧英.信息生命周期管理队图书馆信息服务的启示[J].图书馆学研究,2006(8):57-59.
[13]刘志明,刘鲁.微博网络舆情中的意见领袖识别及分析[J].系统工程,2011(6):9-14.