大数据时代高校网络舆情监控研究
2020-03-11黄烨
黄烨
摘 要:随着大数据时代的到来,网络舆情的力量不容小觑。高校作为网络舆情的聚集地,由于其主体的特殊性,容易引起舆情的聚集和爆发。所以做好高校网络舆情监测,防范舆情危机的发生,可以有效保障校园网络信息安全,促进高校和谐稳定发展。
随着互联网的发展,大众喜欢在网络中发表个人意见,意见一旦聚集形成庞大的舆论就容易导致舆情爆发。网络舆情的力量不容小觑,现代互联网发展迅速,互联网上时刻充斥着各种各样的信息,稍有不慎,可能一件小事也会愈演愈烈,给互联网带来形形色色的风险。例如今年网上爆发的“肖战227”事件,本来是肖战粉丝之间的摩擦,却愈演愈烈,如同滚雪球一样,造成影响巨大的网络舆情。肖战本人也因此受到很大的牵连,个人形象和资源都大受影响。“肖战227”事件证明网络舆情影响不可忽视,良好的舆情分析管理和监控能力必不可少。
1高校网络舆情现状
高校是网络舆情的聚集地。大学生是一个特殊群体,他们年轻,有朝气,具有较高的知识水平和较强的认知探索能力,接受新生事物能力强,敢于并且善于表达个人观点、热衷于参与舆情讨论,容易对一件事情产生共鸣。在大学生当中,可能因为没有重视一个小的舆情,导致一系列连锁反应。网络舆情在高校传播的主要方式有: 微信、QQ等即时通讯;各类论坛;网络新闻的评论区;微博、博客(Blog);抖音、快手等短视频软件。这些都是舆情的形成和表达的主要途径,大学生对这些平台都比较熟悉,也比较热衷于在这些平台发表意见和情绪,这对舆情会产生重要的影响。
高校需重视新时代网络舆情带来的挑战,并且建立起完善的网络舆情应对机制,做好网络舆情监控以及舆论引导工作,在舆情爆发之前未雨绸缪,减少负面舆情对高校正常工作的冲击,充分发挥网络文化的教育与管理功能。
2高校网络舆情的基本特征
从高校网络舆情的特征上来说,它实际上是一对矛盾的综合体:高校网络表达能够开放、互动、自由,但同时也是可控的。高校网络信息是学生情绪化和非理性的表达,但这些内容却能客观地反映学生的真实心理状况。做好网络舆情监控要了解高校网络的特征,在此基础上做出正确的舆论引导和管理。
2.1产生主体特殊
高校网络舆情的主体是大学生。他们的特殊性在于大学生是一个群体,他们年龄相仿,受教育程度相同,生活和知识水平往往在同一个层次。当网络舆情发生时,他们很容易产生认同并达成共识。大学生表达观点的欲望强烈,愿意在网络上发表对事情的看法和见解,但有时候可能会出现极端现象,容易被煽动情绪,尤其是在网络这个自由便捷的空间里,大学生往往在未经过深思熟虑且探讨不深入的情况下发表意见,形成声势浩大的意见倾向,导致网络舆情危机。
2.2輿情内容多元性
高校网络舆论涉及的内容广泛、主题多样,可能涉及到社会的各个层面。学生们通过各种渠道了解信息,传播信息,对于感兴趣的内容发表各自的看法,宣泄情绪。在虚拟的网络空间里,不同的意识和思想相互碰撞,网络舆情呈多元性发展。
2.3网络舆情突发性
网络舆情的爆发往往没有征兆和预警,属于突然爆发。大学生经常上网冲浪,对网上的事件也比较敏感,一个事件在网上曝光时,大学生往往能迅速反应并发表评论,个人意见很快聚集形成公众意见。
3网络舆情监控系统关键技术
3.1网络爬虫技术
信息采集的主要载体包括网络媒体网站、论坛、微博、微信等,可利用爬虫技术进行信息采集。网络爬虫是一种基于索引引擎技术的网络信息获取工具。它可以根据需要提取网页的脚本或程序,其基本原理是通过遍历URL,不断搜索网络信息,并将在URL中获得的数据保存到本地数据库中,实现信息获取。
3.2网页解析技术
要实现对某网站数据的爬取,需要对该网站上网页数据进行分析,了解网页的结构之后,在爬虫代码中编写提取网页中特定数据的代码。这是将互联网数据转化为通俗易懂的信息数据的重要一步,也是决定舆情监测效果的关键。目前主要有三种web页面解析技术:
3.2.1正则表达式:一种字符串匹配的模式,其由普通字符和一些元字符组成。根据特定的语法来设置字符串的匹配规则,用于快速检查一个字符串是否匹配该规则,还可以从字符串中抽取或者替换满足条件的子串。正则表达式适用于简单的字符串,但涉及到难度较大的就无法提取,正则表达式写起来较为复杂并且出错率高。
3.2.2XPath:一种在XML和HTML文档中查找信息的语言,可用于遍历XML和HTML文档中的元素和属性,并根据网页的树层次结构获取节点。这些路径表达式与常规计算机文件系统中看到的表达式非常相似。
3.2.3BeautifulSoup:是一个一个从HTML或XML中提取数据的Python库,可以按照节点的名称、节点的属性值、节点的文本来搜索符合条件的节点。它是灵活方便的网页解析库,处理高效,而且支持多种解析器。使用Beautifulsoup可以不用编写正则表达式就方便的实现网页信息的提取,可以高效节约开发者时间。
3.3分词技术
分词技术用于将语句拆分成单词。计算机要理解语义,必须先要识别出关键词,将完整的句子拆分成词串,就是分词技术了。现在常用的分词算法可分为三类。一种是基于字符串匹配的分词方法,这种方法需要有一个字典,根据一定的策略,将要待分析的字符串与字典中的条目进行匹配。如果匹配正确,则字符串是一个单词。根据不同的匹配方法,可以将匹配方法分为正最大匹配法(从左到右)、反向最大匹配法(从右到左)和最小分割法(将每句话中切出的单词数量最小化)。字符串匹配方法快速、容易实现,但不能有效处理歧义词。第二种是基于统计的分词方法,这种方法是对句子中字与相邻字共现的频率来计算,共现信息量越大,表明关系越紧密,共现次数越多,越有可能是一个词。第三种是基于理解的分词方法,这种方法可以使计算机能够模拟人类对分词的语法和语义进行分析。但是这种方法还不成熟,因为汉语结构复杂词汇量庞大,计算机需要大量的语言知识和信息。
随着互联网在全球范围内的快速发展,网络舆情给高校的稳定和大学生的成长发展带来了挑战。教育领域的舆论发展变化规律极不可控。因此,研究和监测网络舆情,对于高校的稳定发展具有重要的现实意义。做好高校网络舆情监测与管理,防范舆情危机的发生,可以有效保障校园网络信息安全,促进高校和谐稳定发展。
参考文献:
[1]孙洪庆,李晓光.大数据时代高校舆情导向机制【J】.继续教育研究,2018(8):27-31.
[2]曹彬,顾怡立,谢珍真 . 一种基于大数据技术的舆情监控系统 [J]. 信息网络安全,2014(12):38-42.
[3]陈燕.近十年高校舆情及舆情引导研究综述【J】.陕西理工大学学报,2017(35):85-96.
[4]韦媛媛. 高校网络舆情引导中的微信应用探讨【J】. 当代教育实践与教学研究, 2015( 4) .
[5]冯如晓,刘志明,雷龙艳. 基于搜索引擎的关键词舆情过滤算法研究【J】 .计算机工程应用技术,2014,10( 6):1328-1332.
[6]刘毅.网络舆情研究概论【M】.天津:天津人民出版社, 2007:51—52.
[7]胡静,蒋外文,朱华. W e b 文本挖掘中数据预处理技术研究【J】. 现代计算机,20 0 9( 3).
(江西警察学院)