高校网络舆情监测机制研究
2021-04-05陈蒙李学志
陈蒙 李学志
摘 要:随着当今时代网络的高速发展与广泛应用,大量的互联网信息也随之而来,如何对互联网进行监测与分析便成了一项重大的命题,识别网络舆情在公众情绪中的变化趋势具有重要意义。基于此,对高校的网络舆情监测机制进行分析研究,提出一个基于互联网话题定时的新词结构发掘方法。通过监测校园中的公共事件,实现对校园中网络信息的有效监控。
关键词:高校舆情;舆情监测;数据挖掘;情感分析
中图分类号:TP391.1 文献标识码:A 文章编号:2096-4706(2021)17-0145-04
Abstract: With the rapid development and wide application of the network in today's era, a large amount of internet information also appears. How to monitor and analyze the internet has become a major proposition, it is of great significance to identify the change trend of network public opinion in public sentiment. Based on this, this paper analyzes and studies the network public opinion monitoring mechanism of universities, and puts forward a new word structure mining method based on internet topic timing. By monitoring the public events in the campus, we can effectively monitor the network information in the campus.
Keywords: university public opinion; public opinion monitoring; data mining; sentiment analysis
0 引 言
现在是大数据的时代同时也处于人人都是自媒体的时代,社交网络成为现下大家进行沟通、交流和获取信息的主要且重要媒介和平台。由于网络信息传播的特点一级网络自身的自由性与包容性,使得我们传输的信息不管好与不好,积极与消极,都能在网络中快速传播。再加上网民自身对于讯息具有较强的好奇心和猎奇心理,导致其对于消极和负面的信息表现出更大的兴趣,这也无形中刺激了信息的二次迭代传播,甚至会形成一股不可控的影响力。高校也是一个重要的信息传播场所,学校的主要成员是学生,学生是年轻和活力的代表,这个人群对于新生事物会表现出更强大的关注度,而且作为年轻的一代往往不具备甄别是非好坏的能力,缺少较强的信息识别和判断意识。而且,现在的趋势是,社会大众和媒体对高校校园越来越关注,其所处的舆论环境也是越发复杂,故其对于高校网络舆情的研究具有现实意义。
针对高校校园网络舆情的监测和群体网络的演化研究的需求,对高校网络舆情监测机制进行研究和分析[1]。校园网络舆情监测平台,其目的在于能够及时、准确、高效地对以大学生为群体的网络舆情进行监控,提供科学合理的技术方法对网络舆情态势进行分析和研判,并将评判结果反馈给高校学生管理部门,以便制定相应的对策,维护高校校园的稳定。学生作为校园网络舆情的重要载体,交互的对象往往也是学生,而其相互之间的互动以及交互也是导致校园网络舆情的主因。针对这一基本特点,本文网络舆情信息获取的来源主要包括针对大学生的各类论坛、贴吧、微博等。根据以上需求,该机制的研究主要从以下几个方面开展:舆情信息采集(文本挖掘)、舆情信息预处理(文本挖掘)、舆情分析(情感分析)。在文本挖掘方面,我们采用“Scrapy-Redis-Bloomfilter”分布式爬虫框架对语料库进行抓取,并以微博评论为实验对象。在文本处理方面,系统将自动装配数据库中的语料库,完成相应的处理工作。在情感分析方面,我们尝试用一种新的思路构建汉语分词词典。为了弥补情感词典在识别“形容词不定式句”时的有效性不足,我们准备一套情感映射的预备方案,并且考虑到句子中状语副词对于情感表达可能会产生的影响[2]。
1 高校网络舆情监测
1.1 數据挖掘
如何从互联网上去获取有效的数据使我们进行数据分析的一个非常重要的组成部分。
Pais等人[Pais,Cordeiro,Martins等人(2019)]开发了一种基于API的特定社交网络爬虫技术。该技术可以通过社交网络提供的API轻松方便地去获取结构化数据。但是对于类似于微博的社交网络,有限的访问令牌日期、API数据内容和访问时间会严重阻碍到数据收集。若是使用网络爬虫技术的话,则是没有如上的要求和限制的。在此,我们选择使用selenium工具去启动浏览器,进而去模拟出登录的动作,在此基础之上去分析网页,最后得到我们想要的数据。在此,介绍一下selenium,它是一个用于进行Web应用程序测试的工具插件,可以拿来处理涉及复杂环节的登录。但是有一个我们无法忽视的细节问题,它对于抓取数据量大的海量数据效果不是很理想,基于此,提出了一个新的改进方案:可以去利用爬虫框架Scrapy,把Scrapy-Redis的分布式组件中的Redis数据库导入到该框架中,进去达到一种更加高效的分布式爬虫系统,该系统的提出也能用来解决数据率低的问题。基于这样的研究前提,我们的舆情监测平台系统的数据采集部分采用Scrapy-Redis分布式框架,使用基于二进制向量和哈希函数的重复数据删除算法Bloom Filter对抓取前后的url进行过滤和处理。
1.2 情感分析
对于前面采集到的数据,我们准备采用文本情感分析的方法对获取的数据进行处理。现在来讲,对文本情感进行分析主要是采用两种方法进行分析研究,分别是基于机器学习的方法和基于词典的方法[3]。前者主要是从文本中提取一些积极和消极的情感文本作为训练集,并根据情感分类器对所有的文本进行积极和消极方向的分类。该方法已应用到许多领域,但是仍然有其不足之处:需要人为的标注训练模型;当遇到的文本数据规模比较大的时候,无法保证一个较高的准确度;由于语言本身句子结构和用法的灵活性,在特征选择方面存在着许多干扰因素。于是针对上述的研究分析结果,我们选择用基于词典的方法对数据进行分析和处理。我们往往会选择一个比较庞大的,质量稍微比较高一些的情感词典,结合相应的语义规则,去评判相关的舆情热度和情感倾向性,为我们提供一个感知舆情,掌控舆情和引导舆情的方法。
2 相关技术
2.1 文本挖掘及数据分析
大家都很清楚,基于Scrapy-Redis的分布式爬虫框架主要是用于协助我们捕获评论信息的。但是有一个情况需要考虑,当用于爬行的数据超过一定量的时候,Redis会占用大量内存空间。同时爬虫框架自身也是需要占用内存,故在此使用Scrapy同时进行爬虫变得有些困难。在这里,我们可以使用一个可以删除重复数据的算法Bloom Filter,该算法通过使用数组表示要进行检测的集合,通过概率算法快速去判断出该集合中是否存在重复元素,通过研判,若是集合中存在有重复的数据,可以进行删除操作。这个算法在空间和时间上都占用优势。我们准备了一些解决方案用于对抗微博上的反爬虫行为的检测,用来确保获取数据的任务。具体做法为:
(1)重新编写代理IP池的维护脚本。国内的几家主要代理IP供应商的网站,采用的都是“双进程+多线程+多协程”的维护模式,可以异步操作“代理IP池验证”和“代理IP池旋转”,确保可用的IP存活率为90%。以上保证了主爬虫框架能够实时使用100多个http类型的代理ip。代理IP的使用频率控制在1/5分钟。
(2)基于STAFF对国内24家网络服务商主页进行监控框架,采集中继服务器IP;分布式爬虫携带Socks5来伪装HTTPS流量以实现全局访问。
(3)准备200个微博免验证账号,定期模拟登录破解验证,确保cookie池可用。
我們可使用以下描述的两种方法进行数据分析,用来确保大多数没有用处的数据被过滤掉。第一种优先可调用爬虫智能分析报纸库,它可以为我们提供更为强大的功能,以及它可读性也不错。具体做法是,Article类首先被导入到报纸库中,然后直接传入URL,并调用它的下载方法。其次,去调用解析方法来对网页进行智能解析。最后,根据需要过滤掉没有用处的数据。而在Scrapy中,有两种提取数据的方法供我们选择,一种是使用Xpath选择器,另一种是使用CSS选择器。在Scrapy爬虫框架中,text()函数经常与Xpath表达式一起使用,以提取节点的数据内容,而我们常常会选择Scrapy自带的解析器Scrapy Selector的XPath工具来解析HTML信息。
2.2 数据清理
接下来我们要对已经采集获取到的文本数据进行分析处理,由于获取的原始数据会存在错误、格式不一致的情况或是带有一些与情感分析不太相关的内容,我们统称其为脏数据。为了提高数据的质量,须对数据进行规范化处理。
2.3 情感分析
我们对文本进行的情感分析,主要是通过分析文本信息数据来挖掘出来情感倾向。对于文本情感分类,首先从文档中提取情感特征,然后使用分类器对其进行分类。这里使用的分类器主要是采用朴素贝叶斯方法构建文本情感分析分类器[4],继而将情感粒子细分。
2.3.1 建立词典
词典的覆盖面和完整性往往决定最终的分析效果,词典也是文本情感分析中非常核心的环节。我们选取的一般情感词典有清华大学褒贬义词典、知网情感分析用词语集、台湾大学NTUSD。考虑到网络新词更新速度非常快,我们选择基于这些通用情感词典,基于时间维度对每天的采样信息进行分析,发现新词,扩展情感词典。
2.3.2 文本预处理
文本预处理包括中文分词和停止词的去除。删除停止词就是遍历语料库中的所有单词,并删除停止词[5]。
2.3.3 建立模型
根据分词的结果进行正负极性的分类。如何实施,我们采用朴素的贝叶斯算法。其是一种基于概率的算法,根据一定的先验概率,计算出Y变量属于某一类的后验概率[6]。具体步骤如下所示:根据构造的向量矩阵,计算公式为:
接下来的工作重点是细分情绪粒子,词汇本体中的情绪分为7种类型:希望、快乐、沮丧、愤怒、恐惧、失望、震惊,情绪强度为:1、3、5、7、9、5级,9级强度最大,1级强度最小[7]。每个词对应的信息,如在每种情绪下的极性。将上述分割结果转换为字典,继而对对文本分词结果进行分类操作处理,甄别出其中代表情感的词汇、否定意义的词汇以及程度副词。第一步是先将初始权重W的值设置成为1,从词汇本体中的第一个情感词开始,用其情感词的权重值与情感值进行乘法运算作为分数值,随之去判断确认词汇本体中的情感词是否有程度副词和否定词汇,若是其中有一个是消极的词汇,则用权重值W乘(-1)作为程度副词程度值。第二步用新的W的权重值去进行遍历第二个情感词,循环操作直到词汇本体中所有的情感词都被遍历一遍。每次遍历结束之后的权重值之和就是这个文本最终的情感值,当然这个最终结果值是以累加和的形式存在的[8]。
2.4 系统总体设计
网络舆情监测系统总体架构,如图1所示。该设计主要是由以下几个模块组成的:数据挖掘采集模块、数据预处理模块、情感分析模块、网络舆情预测模块。
2.5 实验对象描述
现在的学生使用社交网络比如微博,贴吧记录自己的日常以及表达各自的情感,微博和贴吧也是近年来发展比较快的社交网络,它可以做到信息实时更新与传播。故选择它们为主要的研究对象,通过“Scrapy-Redis-Bloomfilter”的分布式爬虫架构来获取数据信息,为了保证文本数据的合理性和有效性,我们对其进行了预处理操作,然后采用上述的方法对信息进行情感分析。
2.6 实验配置
我们选择了一台存储类型为DDR4 2 400 MHz,硬盘容量为128 GB SSD+2 TB的PC机作为实验PC。表1详细说明了PC的配置。
2.7 监测结果展示
通过对来自新闻、微博、贴吧等相关社交网络中的有关新疆理工学院的文本类舆情信息进行实时全面监测,并且通过图片文字识别技术帮助我们进行图片舆情监测,获取到的信息更加全面,更加准确。监测到的实时信息如图2所示。
我们将社交网络上获取到的有关新疆理工学院的相关信息数据进行处理分析,数据可视化展示,清楚并且有效地传达处理舆情信息,如图3所示。
3 结 论
在本文中,我们对高校网络舆情监测机制进行探索分析和研究。首先,考虑到网络舆情环境,在可转移模型有限、种子语料库不足的情况下,尝试采用改进的方法区构建情感分析相关的词典。建立中文分词词典。当情感词典不能直接有效地对文本的深层情感进行分类時,我们可以根据基准的积极情绪和消极情绪进行分类和区分,将情感映射到深层情感,实现间接分类。同时,我们整合了一些优秀的网络词汇和情感词汇,进一步扩展了词汇语料库,提高了系统识别的准确性。我们接下来的工作重点将会放在以下几个方面:在网络世界中我们经常使用表情符号来表达我们的观点,但是在数据采集的过程中我们却人为的没有考虑这些因素。这是因为不同年龄阶段的网友对同一个表情符号的理解是不一样的,我们无法获取到准确地信息。我们还会动态持续地改进构建一套“网络舆情词典”,毕竟网络语言更新比较快,不同年龄群体的网络都有自己的一套网络习惯用语,而传统的词典是不能够好好去甄别这些词汇,一套好的词典是能够帮助我们提高分词效率。最后我们需要改进的工作是需要优化网络爬虫框架,需适度且适量地增加请求的频率,进而去提高整体的爬行效率,在前期的工作中我们为了确保爬虫可以获取到一些敏感的词汇信息,我们设计了匿名代理访问网站的方案,这个在解决问题的同时却让我们的数据爬虫速度降低了,这已成为我们下一个阶段关注和解决的重点。
参考文献:
[1] 李玮洁.校园网舆情监测平台与网络群体演化的研究 [D].北京:北京交通大学,2012.
[2] 贾珊珊.基于规则与模型相结合的中文微博情感分类研究 [D].石家庄:石家庄铁道大学,2015.
[3] 王世泓.基于情绪词典扩展技术的中文微博情绪分析 [D].南京:南京航空航天大学,2015.
[4] 马晓玲,金碧漪,范并思.中文文本情感倾向分析研究 [J].情报资料工作,2013(1):52-56.
[5] 叶翔斌.网络文本情感分析的研究与实现 [D].长沙:湖南大学,2015.
[6] 宋静静.中文短文本情感倾向性分析研究 [D].重庆:重庆理工大学,2013.
[7] 朱俭.基于集成情感成员模型的文本情感分析方法 [J].计算机工程与应用,2014,50(8):211-214.
[8] 孙本旺.汉藏双语情感词典构建及情感计算研究 [D].西宁:青海大学,2019.
作者简介:陈蒙(1991.01—),女,汉族,河南南阳人,讲师,硕士研究生,主要研究方向:网络舆情,数据挖掘。