APP下载

基于Single-Pass的军事网络舆情监控系统设计

2018-01-08赵晓楠马晨辰

电子设计工程 2017年16期
关键词:特征词网页舆情

赵晓楠,马晨辰

(中国人民解放军68303部队 甘肃 武威733004)

基于Single-Pass的军事网络舆情监控系统设计

赵晓楠,马晨辰

(中国人民解放军68303部队 甘肃 武威733004)

军事网络舆论导向是人们获取军事信息的主要来源,这些舆论信息将直接影响人们的判断,甚至危害社会安全。本文基于军事主题特点,对比常见的文本聚类算法,改进传统的Single-Pass算法,设计适合军事主题的网络舆情监控系统,准确率和召回率都高于Single-Pass算法5个百分点以上,达到较好的效果,从而为相关部门制定决策提供可靠依据。

Single-Pass;军事;文本聚类;网络舆情监控

随着互联网技术的不断发展,网络上的信息越来越丰富,由于网络的虚拟性和隐蔽性,人们更喜欢通过互联网进行交流和发表各种意见。军事作为特定的主题,更吸引着较多的军事爱好者,他们通过网络发表各类留言和评论,一些负面消极和不良舆论,严重地危害了社会稳定。由于网络情报资料的开放性、及时性以及便捷性等特点,作为一种新的公开情报资料,越来越受到情报工作者的重视[1-3]。甚至有一些情报工作者将网络舆情作为公开情报资料搜集的第一来源。

如何快速获取国内外互联网媒体中关于军事事件的评论和观点给相关部门带来了极大困难。主题爬虫技术和情感分析技术的结合使我们对特定领域的网络舆情分析成为可能。通过对特定领域网络舆情的分析,可以给相关决策部门提供决策支持,有效防止危害社会稳定的谣言传播。

1 系统总体功能

军事网络舆情的特点包括突发性强、多元性强、控制难度大等特点。针对军事网络网络舆情特点,本文设计利用网络爬虫技术、中文分词技术、信息分析和处理技术、文本聚类和挖掘技术等的军事网络舆情监控系统,实现对互联网相关舆情信息的自动采集,并对海量数据进行分析和监控,挖掘动态舆情信息,把握处理突发事件的最佳时机。军事网络舆情监控系统主要包括信息采集、舆情分析和舆情服务模块,系统体系结构如图1所示。信息采集主要是利用网络爬虫实现对网络舆情信息的采集,并将网页信息经过去重和去噪,生成干净的文本信息,通过中文分析算法提取特征值,建立文本向量空间模型(VSM,Vector Space Model);舆情分析模块是系统的核心部分,利用文本聚类发现热点话题,并对话题进行情感倾向性分析,使人民掌握舆情趋势;舆情服务是向相关人员提供舆情报告,通过掌握报告实现对突发事件的处理,并利用个性化定制,提供方便的舆情信息,给决策者制定决策提供可靠依据[4]。

图1 系统体系结构

2 系统功能设计

2.1 舆情信息收集

舆情信息收集是利用网络爬虫从网页中提取非结构化信息,并存入结构化数据库中。依据相应爬行规则,网络爬虫通过网页链接地址寻找网页,从网站的某个页面开始,读取内容,分析页面中的其它链接地址,然后通过这些新的链接地址继续查找下一个网页[5],如此循环,直到爬取所有页面或达到系统预先设置的停止条件。最后将与主题相关的信息经处理后保存到系统数据库中。

2.2 舆情信息处理

爬虫爬取网页后,要对网页信息进行处理,主要包括网页去“噪”、网页去重、中文分词及特征词提取。通常网页中包含大量的“噪声”,主要是一些无用的广告等,这些内容对系统没有作用,但却影响系统运行速度,并占据大量存储空间,所以首先要对爬虫爬取的网页信息进行去“噪”,保留网页链接、正文和标题。在本系统中,我们采用文档对象模型(DOM,Document Object Model)来获取网页的正文和标题信息,首先构建DOM树,然后从DOM树上删除节点的过滤器,获得相应文本信息[6-8]。在网页中,通常存在大量重复的链接,为避免网页冗余,提高系统效率,还需去除重复的网页。通过分析页面提出网页特征码,根据特征码区分相同或相似网页。利用网页特征码索引网页,建立检索系统,并将特征码存入检索系统中。当爬取出新的网页后,根据文档特征码进行判断,相似度大于系统设定的阈值则认为是重复网页,系统自动删除。

经上述网页处理后,将得到结构化的网页信息,然后进行分词处理。文中利用中科院自行研制的ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)进行分词,去除停用词后建立VSM。

2.3 舆情信息分析

话题发现和聚类是舆情监控系统的基础,就是把描述同一话题和事件的网页按一定序列聚合在一起,减少冗余和重复信息,给用户提供方便[9-10]。话题发现流程如图2所示。

图2 话题自动发现流程

话题发现和聚类算法受信息本身被关注程度的影响,关注程度高,聚类效果就好,对话题的评估能力也强,从而更好的为网络舆情监控系统提供可靠依据。常见的话题发现和聚类算法主要包括Single-Pass算法,基于文本划分、层次、密度和网格的聚类算法。对上述五类算法进行比较,可得出以下结论,如表1所示。

表1 常见聚类算法的指标表现

由表1可知,在预知主题的情况下,Single-Pass算法更适合用于舆情话题发现和聚类,在实际应用中,此算法也是使用最广泛的算法之一,其各项性能指标及聚类结果都得到开发者的认可。但由于其精度一般,并受文本输入顺序的影响较大,也制约着其聚类效果的提升。

文中对Single-Pass算法进行改进,以弥补其算法精度上的不足。首先是改进特征词的选择,在对网页进行向量化时,只选择具有实际意义的名词和动词表示向量,而不是对所有词语都向量化;并加入网页的标题表示向量,用网页标题和正文的双向两表示法;在文本初步聚类时,每次处理一批文档,而不是简单的单个处理,这样就可以有效避免Single-Pass对文本输入顺序的依赖性,完成初步聚类后,再进行偏离点的调整,直至满足系统设置停止条件。

1)特征词选择

改进后的Single-Pass算法把网页中去掉停用词后的名词、动词作为特征词,然后统计出这些词的出现次数以及反文档频率。利用公式(1)计算得出特征词权重,根据权重组合计算出文本相似度。

其中,Wi指第 i个特征词的权重,TFi(t,d)指特征词t出现在文档d中的次数,N是网页的文档总数,DF(t)指网页中含有特征词t的网页总数。在实际中,由于文本的复杂性,会使得文本向量中有较多的0项值,给计算带来较大开销,并使得文本相似度区分不明显,本文对Single-Pass算法进行改进,文本输入后,首先对其内容进行分词,根据辞典辨识,将经过分词后的每个词语进行词性标注;选取特征词时,只选择文本中的动词和名词(此步骤只需经过一个词性判断就能实现);然后统计动词和名词的词频,从而减少特征词数量,降低运算量,减少开销,同时也保存了文本内容的关键信息,避免了矩阵稀疏现象,也提高算法准确性。然后根据Single-Pass算法的步骤,统计特征词频率及反文档频率,利用TFIDF公式得到特征词权重,然后计算相似度。本文采用空间夹角余弦公式实现对文本相似度的计算,如公式(2)。公式得到的数值都介于0~1之间,数值越接近1,就说明两个文本相似度越高,它们被归为同一话题的可能性就越大;反之,两个文本越不相似,属于同一话题的几率就小。

2)双向量表示

Single-Pass算法在选择特征向量时只选择文本正文,忽略了文本的标题。而文本标题却涵盖了文本的主要内容,网络新闻和各类帖子更是如此,新闻和帖子的标题往往蕴含事件的主要内容。如果能较好的运用标题的这一属性,从标题中得出事件的关键元素,并强调标题的作用,将能较好的促进文本聚类效果,从而改进常见文本聚类算法的不足。因此在本文中,我们选择标题和正文双向量表示法。在计算文本相似度时,标题和正文都参与运算。首先我们计算得出标题和主题的相似度,以及正文和主题的相似度;然后对标题和正文的相似度进行加权求和,并对标题中的关键词赋予较高的权重。本文中,通过反复试验,赋予标题特征词权重0.75,正文特征词权重0.25时,聚类效果较好。此方法加入了标题特征词,无疑会增加运算,但由于标题的文字数量远低于正文,所以对计算无较大影响,却对话题发现和聚类精度有了较大改善。

3)偏离点调整

Single-Pass算法在处理文本时,根据文本输入的顺序,一个一个处理文本,在第一次读取时就确定文本所属的类簇,之后输入的文本根据与前面文本的相似度划分类簇,这就导致文本的输入顺序会很大程度上影响聚类结果。所以说,一个好的文本输入顺序会使文本有较好的聚类效果。但根据实际应用,文本的内容确定后,其聚类结果就应当确定,不应该受到输入顺序的影响。为了克服此类问题,本文在进行文本聚类时,一批一批的来处理,而不是单个的进行处理。由于每次加入新的文本后,会引起类归属的变化,在本改进算法中,允许类进行重选择,称为偏离点的调整。即当有新的文本加入话题后,此类内的所有话题重新计算相似度,看是否处于最相似的类中,若是,则不变动;若不是,就调整类簇,将此文本放入经处理后最接近的类簇中。这些调整会引起连锁的反应,导致系统无法终止。因此,在本文中为了防止这种现象的发生,本文设定当有90%或者以上的文本处于最接近的类簇中时,将不再进行调整。根据大量的实验验证,此终止条件达到预期效果,令人满意。

2.4 舆情服务

舆情服务是系统的输出层,给用户提供相关信息,包括舆情报告、邮件、用户个性化定制和舆情信息发布等[11-13]。从而为用户提供清晰、精确、快捷方便的网页舆情信息服务功能,满足用户对信息的各种不同需求。

3 实验与分析

实验采用Single-Pass算法和改进的Single-Pass算法进行比较测试。实验环境采用为Windows XP系统,1G以上内存机器,用VC 2010进行编译。数据用以下6个关键字:教育、娱乐、汽车、经济、军事、体育。通过百度进行搜索,采用每个主题的前100条文档,总共600条文档进行聚类分析,故K=6。由于这两类算法对初始聚类中心的依赖性都比较高(即初始聚类中心的选择能较大程度地影响聚类结果),所以我们采用多次随机选取聚类中心,多次重复运行,然后取平均值作为聚类算法性能的结果。实验结果如表2和表3。

表2 Single-Pass算法结果

表3 改进的Single-Pass算法结果

比较上述两表发现,在准确率方面,改进的Single-Pass只有经济一项比原Single-Pass略低一点;在召回率方面,改进的Single-Pass只有汽车一项比原Single-Pass略低一点。除此之外,其它项无论在准确率还是召回率,改进的Single-Pass都比原Single-Pass效果要好。改进的Single-Pass算法的两项数据均高于Single-Pass算法5个百分点以上。且改进的Single-Pass聚类算法比Single-Pass聚类算法在处理异常数据和噪声数据方面更好。

4 结束语

网络舆情预警的作用在于,尽早发现可能的危机苗头,尽早判断可能产生的危机走向和规模,尽早让有关职能部门做好应对准备[14-15]。本系统预警能力较高,能够及时从海量的互联网信息中发现潜在的危机苗头,并能准确预计舆情发生的时间差,从而为相关职能部门提供足够的时间来做准备,为网络舆情应对赢得宝贵时间,并将有效推进军队信息化建设进程。

[1]Agrawal D,BudakC,El Abbadi A,et al.Big Data in Online Social Networks:User Interaction Analysis to ModelUser Behavior in Social Networks[M].Databases in Networked Information Systems.Springer International Publishing,2014.

[2]张玉珠.基于内容相似性的论坛用户社会网络挖掘[J].通信技术,2013,46(253):57-59.

[3]张玉峰,王志芳.基于内容相似性的论坛用户社会网络挖掘[J].情报杂志,2010,29(8):125-130.

[4]何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报:理学版,2010,42(1):82-85.

[5]张长利.面向特定领域的互联网舆情分析技术研究[D].吉林:吉林大学,2011.

[6]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-390.

[7]刘恒文.基于网络语义挖掘的舆情监测预警研究[D].武汉:武汉理工大学,2010.

[8]Jennifer Bachner,Kathy W.Hill.Advances in Public Opinion and Policy Attitudes Research[J].The Policy Studies Journal,2014,42(1):51-70.

[9]Feng Cao,Zhenji Zhang.A model of ecological monitoring and response system for internet[J].International Journal of Multimedia and Ubiquitous Engineering,2014,9(5):373-39.

[10]刘恒文.基于网络语义挖掘的舆情监测预警研究[D].武汉:武汉理工大学,2010.

[11]殷风景.面向网络舆情监控的热点话题发现技术研究[D].北京:国防科学技术大学,2010.

[12]张春华.网络舆情社会学的阐释[M].北京:社会科学文献出版社,2012.

[13]李金海,何有世,熊强.基于大数据技术的网络舆情文本挖掘研究[J].情报杂志,2014,33(10):1-6.

[14]方星星,吕永强.基于改进的single-pass网络舆情话题发现研究[J].计算机与数字工程,2014,42(7):1233-1237.

[15]高承实,陈越.网络舆情几个基本问题的探讨[J].情报杂志,2011,30(11):52-56.

Design of network public opinion monitoring system in military based on Single-Pass

ZHAO Xiao-nan,MA Chen-chen
(Army Unit 68303,Wuwei 733004,China)

Military network public opinion is the main source of military information.These information will directly affect people's judgment,and even endanger social security.According to the characteristics of military,this paper compares common text clustering algorithms,and improves Single-Pass algorithm.Then design network public opinion monitoring system which is suitable for military.The accuracy and recall rate are above 5 percentage points than the Single-Pass,and so as to provide a reliable basis for the relevant departments to make decision.

Single-Pass; military; text clustering; network public opinion monitoring

TN957.52

A

1674-6236(2017)16-0117-04

2016-07-04稿件编号:201607025

赵晓楠(1986—),女,河南偃师人,硕士研究生,中级工程师。研究方向:人工智能与应用。

猜你喜欢

特征词网页舆情
基于改进TFIDF算法的邮件分类技术
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
产品评论文本中特征词提取及其关联模型构建与应用
基于URL和网页类型的网页信息采集研究
舆情
舆情
舆情
网页制作在英语教学中的应用
面向文本分类的特征词选取方法研究与改进