基于文本挖掘的高校网络舆情用户情感分析研究
2020-11-10姚怡琦李晓雨
杨 单,程 键,姚怡琦,李晓雨
(中南民族大学 管理学院,湖北 武汉 430074)
1 研究背景
互联网给人们的生活、工作等各方面带来了巨大变化,同时也形成了全新的舆论环境,网络舆情已经成为网络管理的重要内容。网络舆情是指由某事件的刺激而产生的通过互联网平台传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合[1]。
高校大学生作为网民的重要组成部分,能借助网络平台便捷地获取各种信息,并可相对自由地发表与自身利益相关或对各种社会公共热点事件自主表达有倾向性的态度和看法,已经成为了网络舆情的主要生成力量和影响对象。[2]高校网络舆情已经成为了网络舆情的重要组成部分,近年来已经成为提升网络治理能力的重要课题,受到相关舆情管理部门及相关学者的重视和关注。根据2018 年《中国高等教育舆情报告》显示,高校舆情热点事件的首曝光以网络媒体为主,所占比例已至90%,并且社交媒体也是公众获取信息的主要来源,据统计,年度十大热点高校舆情事件中有60%的话题来自社交媒体的爆料。[3]
社交媒体是指互联网基于用户关系的内容生成与交换平台,主要包括社交网站、即时通讯平台、论坛、博客等[4]。微信、微博、知乎等社交媒体已经成为高校学生获取信息、相互交流、表达诉求的主要渠道,对社交媒体的使用促使舆情传播具有一定的圈层化和私密性[5],同时正是由于传播空间的相对自由和匿名评论的相对隐秘,再加上高校大学生生活阅历较浅、容易受到舆论影响,一些比较极端和激烈的表达形式会在其表达观点时采用,无法以逻辑鲜明的论述方式进行理性表达,其发表的评论往往带有强烈的感情色彩。因此,对社交媒体中高校舆情相关的用户评论进行情感分析具有重要意义。[6]
2 用户情感分析的基本流程
首先使用网络爬虫采集到近期新冠疫情期间被广泛讨论的“武汉高校宿舍被征用”及“考研扩招”两个相关话题的用户评论信息,对数据进行清洗级预处理后,基于词频统计绘制词云图,直观分析热点关注词汇,然后分别对两个话题评论信息进行了Rost 情感分析和Gooseeker 情感分析,基于Snownlp 情感判断来判断两个话题的正面和负面情绪比例,并基于此有针对性的对于“考研扩招”的用户情感走势进行更具体的分析,接着对于两个话题的用户评论数据进行社会网络分析,最后基于研究结果对于高校网络舆情管理提出有针对性的建议。
图1 基于文本挖掘的用户情感分析流程
3 用户情感分析的数据处理及分析过程
3.1 数据采集
新冠疫情期间,武汉高校宿舍被征用及考研扩招这两个与学生利益相关度非常高的话题引起了广大高校学生的热烈讨论,选择这两个话题来研究高校网络舆情具有一定代表性和时效性。而相对于QQ 和微信,微博和知乎由于其公共属性特点,已经成为了高校学生获取社会信息、进行公众话题讨论、表达诉求的主要社交媒体,因此我们选择的用户评论数据来源是微博和知乎。我们利用自己设计编写的网络爬虫程序在微博的相关话题的讨论、超话和知乎相关话题的问答中采集与武汉高校宿舍被征用、考研扩招的相关话题讨论的评论数据并进行存储。初期共采集了约30000 条用户评论数据。
3.2 数据清洗预处理
3.2.1 删除不规范数据
爬取到的初始数据存在冗余以及格式不规范等问题,对其进行简单的预处理,删除相关不规范数据后,获得规范数据约16000 条。
3.2.2 文本预处理
文本预处理是对文本符号处理、分词、提取关键词、去除停用词等一系列操作的统称,经过预处理操作后,能够明显提高文本表达的质量。我们采用Python 语言对于文本进行预处理操作。主要的流程包括以下步骤:
数据清洗:首先将通过附件形式载入附件,并将数据记录转换为data_frame 形式存储。我们发现评论数据中不仅包括了中文字符,还包括了数字、英文字符、标点等一些无明确意义的非常规字符,因此利用正则表达式定义了一个删除除字母、数字、汉字以外的所有符号的函数。
jieba 分词:分词是中文文本分析的重要内容,正确的分词可以帮助更好的来构建模型、运用算法分析。在分词过程过程汇总才用了jieba 库进行分词。
去除停用词:无论是中文中,还是英文中,都有用来起连接作用的连词、虚词、语气词等无意义的词,这些词没有具体含义,只是起着衔接句子的作用。这些词对文本分析没有任何帮助,因此需要对分词后的数据进行停用词处理。我们选用的停用词表为中文停用词表、哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表。
3.3 文本挖掘与数据可视化
3.3.1 词频统计
词频统计:将分词后的词语进行词频统计,并按照词频显示词语。
图2 词频统计结果
通过词频统计可以看出,在武汉高校宿舍被征用话题中,高校学生比较关心在宿舍中的私人物品能否被好好保管、疫情以后宿舍是否能有效消毒、学生表示理解但希望能提前通知或者征用体育馆这类地方等。在考研扩招话题中,高校学生希望自己未来能够考上、在研究生时期获得更好的学习发展,提高自己的能力、并认为考研扩招能够缓解就业压力等,并且可以看出专硕、人工智能、计算机是较多人的选择方向。
3.3.2 绘制词云
绘制词云:将词频统计的结果用wordcloud 库中的WordCloud.generate_from_frequencies 方法绘制词云,并用matplotlib.pyplot 展示并保存词云。通过词云绘制,可以更直观地了解到高校学生关心的热点。
图3 武汉高校宿舍被征用词云图
图4 考研扩招词云图
3.4 情感分析
对于“武汉高校宿舍被征用”话题,利用Rost 工具将评论数据分类为正面情绪、负面情绪和中性情绪三大类,并将结果绘制成饼状图。从图5 中可以看出武汉高校宿舍被征用的事件中,负面情绪为多,占47.08%,中性情绪、正面情绪分别占23.79%、29.13%。通过观察负面情绪的评论数据,结合微博用户历史信息进行分析,发现这些评论数据呈现负面情绪微博用户大多数是被征用宿舍高校学生,在疫情初期,“我的电脑怎么办?”、“私人物品如何处理?”、“回去以后会传染吗?”多数负面评论对于自己宿舍被征用后的财产、卫生状况有所担忧,这也属于人之常情。但是也应该看到,正面情绪的评论也不少,尤其在看到相关报道政府和学校对于被征用宿舍的有序管理后,“支持国家做法,特殊时期,人命比学生宿舍重要”、“互相理解,和冲在一线的人员相比这也不算什么,同意被征用”,后期类似这样的正面评论占主导地位,表现出了当代大学生极强的社会责任感。
对于“考研扩招话题”,选取的评论数据来自知乎,我们使用Gooseeker 进行情感分析,并将结果可视化。我们发现,在考研扩招事件中,正面情绪最多,占48%,中性情绪占29%,负面情绪占23%。“哭了,考研有希望了”、“提升整体国民素质”、“赶上了好时候,要努力了”,在正面情绪评论中,类似这样的评论比较多,这些评论可能更多的来自于今年或者明年要准备考研的大学生,对于教育部研究生扩招的政策非常支持,提升了他们考上研究生的希望。当然也要注意到,评论中的负面情绪主要集中在“学历可能会贬值吧”、“以后可能工作更难找了”类似于这样的对于未来的担忧之上。而暂时不考研或者已经考过研的大学生用户评论可能更多的会保持中立。
SnowNLP 是基于Python 中文文本的文本情感分析包,我们利用它来进行评论数据情感判断,将评论数据分为正面情绪和负面情绪两大类,返回值为情绪的概率,越接近1 表示正面情绪,越接近0 表示负面情绪。具体情感判断结果如图7 所示:
从图7 中可以看出,在“武汉高校宿舍被征用”话题中,用户评论的负面情绪较多,在“考研扩招”话题中,用户的正面情绪较多。
考研一直是高校学生关注的一个热点,2020 年受疫情影响教育部为缓解就业压力而发布的研究生扩招信息使得这个话题更加火爆,因此我们对于“考研扩招”话题用户评论数据的情感分析走势进行了进一步深入的分析。
我们对于获取到的“考研扩招”话题用户评论数据进行处理后,绘制成了考研扩招情感走势变化图,如图8 所示。从图中可以看出,“考研扩招”话题在2015 年几乎没什么热度,而近几年随着考研人数大幅度增加,竞争愈发激烈,因此关注度和话题量也逐步上升。在去年(2019)考试结束后,在今年(2020 年)1 月份开始,复试受到疫情影响话题度开始显著上升,到2 月份教育部发布扩招相关文件后,话题度暴增。而从情感分析走势来看,正面情绪和中性情绪还是一直占主导地位,负面情绪占比较少,说明高校学生还是比较理性地在看待“考研扩招”的这个政策,积极努力的在根据政策调整心态,做好考研准备。
3.5 社会网络分析
从社会网络的视角看,词语是网络中的一个个节点,而它们的共现则体现为节点之间有直接的联系。在虚拟的词语网络中,由于是否共现和共现频次的不同,每个节点在网络中具有不同的地位,承担不同的角色。在一定的时间范围内,有些关键词反映的是该话题的讨论热点;有些词之间的联系非常紧密;有些词会在网络中显得比较孤立。通过对词语网络的分析,可以发现隐藏在真实关系网背后的关系网络,它对于了解一个话题的讨论热点、讨论规模等有极大的帮助。因此,我们对于“武汉高校宿舍被征用”和“考研扩招”两个话题进行了社会网络分析。
在“武汉高校宿舍被征用”话题的评论数据中,通过社会网络分析,可以发现“学生”、“物品”、“宿舍”处于网络图的中心位置,几乎与其他所有关键词都发生联系。除此外,“学校”、“武汉”、“征用”等与其他词的关系也很紧密,说明很多学生也很关注这些关键词,并且其他的关键词也是围绕这些关键词开展的,因此可以推断这些关键词是话题热点。
图9 “武汉高校宿舍被征用”话题用户评论数据社会网络图
在“考研扩招”话题的用户评论数据中,通过社会网络分析,可见“研究生”、“硕士”处于网络图的中心位置,几乎与其他所有关键词都发生联系。除此之外,“就业”、“本科”、“考研”等与其他词的关系也很紧密,说明很多学生也很关注这些关键词,并且其他的关键词也是围绕这些关键词开展的,因此可以推断这些关键词是话题热点。其次,处于边缘地带的一些关键词,如“复试”、“规划”等,这些节点处于边缘,与其他关键词的联系较少。最后,像“调剂”、“贬值”、“疫情”等处中间的关键词,它们是连接中心关键词和边缘关键词的桥梁。
图10 “考研扩招”话题用户评论数据社会网络图
4 结论与建议
本文关注的“武汉高校宿舍被征用”、“考研扩招”两个话题都是在新冠疫情爆发这一特殊时期发生的影响比较大的高校网络舆情事件,受到广大高校学子的持续关注,对于研究高校舆情具有一定的典型性和代表性。在文章中,首先使用Python 网络爬虫技术从微博和知乎等社交媒体的这两个话题的相关评论页面抓取了相关评论数据,对采集到的文本数据进行清洗和中文分词,去除数据中停用词,然后基于词频统计绘制了词云图,再结合相关工具和技术对两个话题分别进行了情感分析,并利用Snowlp 模块进行了情感判断。从分析结果来看,“武汉高校宿舍被征用”话题评论数据中前期负面情绪较多,后期逐渐转向正面情绪,可以看出高校学生对于宿舍被征用作为防疫用途初期是有所顾虑的,更多表现在对于私人财产和公共卫生方面的担忧,但随着疫情的发展,越来越多的大学生表达了对特殊时期特殊政策的支持,体现出了高度的社会责任感和爱国精神;在“考研扩招”话题评论数据中正面情绪占主导地位,可以看出对于考研扩招大部分大学生持乐观情绪,觉得自己考上研究生的希望增加,虽然也有部分负面情绪集中在对于学历贬值、工作不好找的担忧方面,但是整体来看态度是积极的。最后采用社会网络图的形式对于两个话题中的关键词汇之间的关联关系进行了进一步分析。
在当前以社交媒体为主流的互联网时代,高校网络舆情已经成为社会网络舆情的一个重要组成部分。高校网络舆情具有敏感事件多、传播速度快、复杂程度高、影响范围广等特点,加大了网络舆情管理的难度。网络舆情危机的发生和舆情主体特征有密切关联,因此要做好高校网络舆情工作,就需要展开大量基于实际热点舆情问题的调研,分析高校网络舆情主体特征,把握好网上舆论引导的时度和效度,对高校网络舆情导控提出针对性的建议和指导方法,从而创建更加和谐的高校网络环境。