网络舆情系统关键技术研究综述

2019-04-12方茜

现代计算机 2019年7期

方茜

（四川大学计算机学院，成都610065）

0 引言

随着互联网的发展，网络是人们获取社会信息的重要途径，已成为人们生活中不可缺少的一部分。他们通过各大网络平台发表个人观点，讨论各种新鲜话题，话题的类型层出不穷，涉及国计民生、关乎群众利益的突发性新闻话题。网络平台的自由性和多样性已经具有了引导舆论，影响受众的能力。网络舆情成为社会舆情的重要组成部分，由于网络的传播的随机性、突发性、高速性，使得一些虚假及不良信息迅速上升为热点话题，引起公众的恐慌和不满情绪，扰乱社会秩序。网络舆情系统的研究与开发已经受到我国政府的高度重视，通过网络舆情系统设置舆情监测任务，通过监测与追踪分析，对可能给社会带来不利影响和风险的事件或者话题事先预测，并进行预警，对这类事件或者话题预先处置，以防止危机爆发。

目前已有很多网络舆情系统产品，比较有名有清博舆情、新浪舆情通、林克舆情、乐思舆情等，这些产品能够时时监测到当前网络中发生的一些热门话题，但是这些产品还存在一定的缺陷，第一，无法提供实时话题或文章的预警，需要舆情工作者手动预警；第二，这些舆情产品未实现对舆情未来发展趋势进行预测。一个网络舆情系统主要包含以下几个主要功能：舆情监测功能、舆情预测功能、舆情预警功能。在这些功能中涉及很多计算机领域技术方法及研究，本文主要综述网络舆情系统中这三个功能中的话题追踪技术、情感极性判断技术、舆情预测技术以及预警技术目前的研究现状。

1 舆情监测技术研究

舆情监测是网络舆情系统的重要组成部分，通过舆情监测技术能够检测话题，发现话题，追踪话题，同时可以分析检测话题下的文章情感极性，为系统的预警做铺垫。舆情信息的采集是通过爬虫技术从各门户网站各大平台收集海量数据，对这些海量数据进行预处理、分类、聚类、存储、统计分析，从而提取网络舆情系统中用户关注的信息为用户提供服务。在舆情监测技术中，本节主要阐述舆情话题追踪技术和舆情情感极性判断所用到的技术。

1.1 舆情话题追踪技术

舆情话题追踪的任务是跟踪已知话题下的后续文章，若已知话题没有明确描述时，则需要由若干先验的文章聚类得到的。传统方法主要使用文本分类的方法或者相似性方法，通过话题已有的文章训练样本得到分类器，当出现新文章时放入分类器，判断是否属于该类别话题。另一种方法是自适应话题追踪方法，其在分类过程中加入了学习机制，每判定完一篇文章后，如果该文章符合话题训练集的某一标准，就将该文章加入训练集用以训练话题模型，不断更新和调整话题追踪训练模型，防止出现话题跟踪不准确和话题漂移现象。

表1 话题追踪技术总结

在传统话题追踪中，话题模型得到后就不在进行调整，从始用到终，然而随着时间的发展，话题的侧重点不断发现变化，针对话题的演变，需要调整模型，才能更加准确地进行话题追踪；而自适应话题追踪实现这个功能，会利用自学习的方法更新模型，能够提高话题追踪的准确率。

1.2 舆情情感极性分析技术

网络舆情系统中，在向用户展示监测到的某一话题的文章列表中会表示出每篇文章的情感极性，用于舆情管理工作者在监测过程中做相应的判断。目前已有的研究中对舆情情感分析的研究主要分为基于文本分类的方法，将舆情情感极性作为分类处理，分类的结果为正中负三极，主要取决于分类器的选择；其次是基于语义规则的情感分析识别，提取文章语义模式特征，对所有特征中语义倾向值求和作为该文章语义倾向值，与阈值比较得到情感极性；再次是基于情感词典的情感极性识别，根据词汇的倾向值来度量文本的倾向值，词汇的倾向值通过计算词汇与情感词典中基准词之间的关联度获得，再求和文本所有词汇倾向值与阈值比较得出情感倾向；最后是基于深度学习的情感极性识别。

表2 情感极性分析方法总结

基于本文分类、语义规则、情感词典的方法存在训练集需要人工标注，耗时耗力，且目前还没有实现自动抽取语义模式的方法，每个语义模式和语义倾向值需要人工完成，依赖专家知识，同时对情感词典的选择要求也较高；而基于深度学习的方法能够自动提取特征，不依赖专家知识，但需要大量的训练样本。

2 舆情预测技术研究

网络舆情系统中通过话题预测趋势，分析舆情未来趋势才能做出合理的监管和预警决策。网络话题的传播过程是一个基于时间序列的演化过程，其传播呈现出不规则的趋势，且在话题的发展过程中常出现一些不确定影响因素，难以量化。尽管舆情话题传播不是典型的时间序列，也没有固定的演化模式，但利用时间序列的研究方法对网络话题传播趋势依旧是可行的。最早提出的预测模型是线性预测模型，但在线话题传播是一个相对复杂的过程，不仅包含线性机制，同时还包含非线性机制，因此有研究者提出非线性模型。然而话题的传播过程中存在明显的混沌特性，且存在很多不确定因素，因此预测模型需要自适应调整，又提出自适应模型。自适应模型是在前两种方法的基础中加入自适应规则动态调整训练样本，更新训练模型，有效地调整因舆情传播过程中的随机性和不确定性因素带来的偏差，使得预测更加准确。表3 列出目前对舆情话题预测的分类及每个分类下的方法。

表3 预测模型方法总结

3 舆情预警技术研究

网络舆情系统实现预警功能的主要目的是为了持续监测舆情信息，全面了解舆情的基本情况和发展态势，发现潜在问题，做到危机事件爆发前对舆情进行及时跟踪处理，维护社会秩序和稳定。现有的舆情预警研究大部分以我国为主，主要有两类研究：一种是通过不同层次的预警指标体系，建立预警模型，得到预警分级；另一种是通过量化某些舆情数据的特征属性（情感极性、态度等）进行建模实现网络舆情未来发展趋势的预测，并根据具体的预测结果进行预警分级。

3.1 舆情预警指标体系

舆情指标体系的建立是舆情预警的关键步骤，通过预警指标能够发现网络舆情的潜在问题，对舆情信息的判断更加客观。舆情指标体系的建立主要有以下几个组成：

（1）确定关键指标的构成

（2）指标横向维度

（3）指标纵向层次

（4）指标量化

在现有的研究中，确定关键指标的构成方法主要有专家问卷调查法和文献法。而指标量化中指标权重的确定相对较多，主要有：①问卷法，在问卷法中大部分使用德尔菲法，有少数文章使用格栅法来为指标打分；②层次分析法（AHP）；③熵权法；④模糊德尔菲和模糊层次分析法。这些方法确定指标权重具有较强的主观性，主要依赖于专家知识，同时确实论证过程。第四种方法相对于前几种加入模糊理论，引入一定的客观性。如何去除指标权重计算较强的主观性和科学性是未来研究的方向。

3.2 舆情预警模型研究

预警模型的建立主要通过两种方式，一种是通过指标体系使用模糊理论建立预警模型，另一种是通过机器学习来建立预警模型，表4 列出目前的预警模型主要方法。

表4 预测模型方法总结

模糊理论建立的预警模型主要是建立隶属度函数，对各指标因素进行评判确定其隶属度，将其与预先设置好的预警等级阈值进行比较，得到相应等级的预警。机器学习方法建立预警模型主要是通过将指标量化，建立预警模型，输入为量化后的指标，输出为预警等级。目前针对舆情预警的研究相对较少，对舆情预警研究的主要来源于管理科学学科人员，极少部分来源计算机学科，将计算机领域知识运用的舆情预警的准确性是舆情预警研究的未来方向。

4 结语

网络舆情系统的功能构建关乎到能否对舆情信息进行监测，实现准确分析，在舆情危机爆发前对其进行处理，防止舆情危机爆发，扰乱社会秩序，制造混乱。目前的网络舆情系统还存在一定的缺陷，预测和预警不够准确。现有的研究中在舆情话题追踪技术和情感极性分析技术相对较为成熟，而对预测和预警技术还需加大研究力度，从而实现功能更加完备准确有效的网络舆情系统。