基于弹幕的网络舆情文本挖掘与情感分析
2022-11-04洪小娟
白 健,洪小娟
(南京邮电大学管理学院,江苏 南京 210003)
1535179246@qq.com;1291823970@qq.com
1 引言(Introduction)
随着新媒体技术的不断蓬勃发展,人们获取信息和表达情绪的方式更加多元化。以Bilibili为代表的新媒体传播平台在传统评论的基础上引入弹幕评论,为网民提供全新表达途径的同时,也构建了全新的网络舆情空间,逐渐成为新的“网络舆情传播载体”。
传统评论是网民基于整体感知做出的“滞后”评论,因而更加偏于“理性”表达。而弹幕作为一种新媒体时代下的短信息表达方式,以实时评论的方式表达了用户对于当前视频的即刻认知与行为倾向,相比于传统评论方式具有更强的情感色彩和时效性,这对于网络舆情情感分析研究具有独特的研究价值。通过对弹幕内容进行数据可视化、情感分析以及主题分类,有助于动态把握网络舆情态势走向,追踪网民关注热点,寻找弹幕背后所蕴含的情感倾向和舆情热点,为防范化解网络舆情风险,完善舆情分析机制,构建和谐稳定网络空间做出贡献。
2 研究设计(Research design)
本文研究设计思路:首先,使用Python编写网络爬虫技术代码进行网络舆情弹幕文本数据采集和数据清洗;其次,使用中文分词组件Jieba进行弹幕数据的分词、去停用词以及高频词统计,得到网络舆情的高频关键词及权重;再次,调用WordCloud库设置词云图样式并将经过Jieba分词器处理的弹幕数据进行词云图呈现;最后,基于SnowNLP进行情感分析,判断弹幕数据中积极、消极、中性的情感比例并进行分析,得出情感分析占比图、直方图和波动图,并基于LDA主题模型得到焦点主题。具体研究流程如图1所示。
图1 基于弹幕的网络舆情文本挖掘与情感分析流程Fig.1 Text mining and sentiment analysis process of network public opinion based on bullet screen
3 数据采集与数据清洗(Data acquisition and data cleaning)
3.1 数据源选取
Bilibili作为一个快速崛起的新媒体平台,具有超过3亿的用户数量,其活跃用户群体大,弹幕数量丰富且具有较好的包容性,因而本文选择Bilibili作为数据源,进行数据采集操作。
3.2 数据采集
首先使用开发者工具获取视频弹幕的异步请求包,观察和分析网页变化规律,找到网络数据来源。通过对目标网页数据来源地解析,从Headers中获取爬虫所需的URL、Cookie及User-agent。其次,使用Python的Requests第三方库,使用解析获得的Cookie以及User-agent构建headers{}请求头,结合URL地址调用request.get()方法获取原始弹幕数据;最后,使用Python内置Re库的正则表达式re.findall()函数精确匹配要爬取的内容,剔除无关数据,并将弹幕数据进行存储。
3.3 数据清洗
数据清洗是网络爬虫的重要一环,通过剔除原始弹幕文本中的表情符号、数字、空白值等无效信息,可以有效提升数据质量。
4 高频词统计与数据可视化(Statistics and data visualization of high frequency words)
在完成数据采集以及数据清洗后,调用第三方Jieba、WordCloud库实现高频词统计与数据可视化。
4.1 Jieba分词、去停用词及高频词统计
Jieba分词器是目前Python中最好的中文分词组件,主要利用中文词库确定汉字间的相关概率,进而产生正确分词结果,此分词方式的准确率超过了97%,能够很好地协助使用者完成主题词抽取、潜在主题发现等工作,尤其适用于中文文本分类。Jieba支持用户词典和停用词字典功能,这能够在较大程度上提升分词结果的准确度,对分词结果不太理想的词组,也能够采取引入用户自定义字典的方法加以处理。因而本文选择使用Jieba分词器进行弹幕文本数据的分词、去停用词及高频词统计。
首先,使用Pandas库的read_csv()方法导入经过简单数据清洗的弹幕文本数据,并通过Jieba库的jieba.lcut()方法实现对弹幕文本的分词操作;其次,使用stopwords=[line.strip()for line in open().readlines()]导入停用词词典,并通过遍历循环将“增加热度、增热专用、1、2”之类无效弹幕进行剔除;最后,使用jieba.analyse.extract_tags()方法提取弹幕文本“Top10关键词及权重”并通过遍历操作实现存储。
4.2 WordCloud词云图绘制
WordCloud库以WordCloud对象为基础,以词语为基本单位进行词云图绘制。首先,通过wordcloud.WordCloud()函数进行词云图参数设置,本文设置width=1200,height=900,font_path='msyh.ttc',background_color="white",max_words=1500,stopwords=stopwords,确定词云图的形状、尺寸、背景色、字体等;其次,使用wordcloud.generate_from_text()方法将Jieba分词处理后的弹幕文本数据传入词云图中;最后通过wordcloud.to_file()方法输出词云图。
5 弹幕情感倾向分析(Sentiment tendency analysis of bullet screen)
5.1 SnowNLP情感分析原理
传统的Python自然语言处理库大多都面向英文,对于中文文本处理兼容性较差,而SnowNLP库的出现很好地弥补了这一点。SnowNLP库自带中文正负情感训练集,可以通过朴素贝叶斯原理实现情感分析、词性标注、文本分类等操作,很好地适用于中文文本数据的处理,故本文选取SnowNLP进行网络舆情的情感分析。通过SnowNLP情感分析可以获得情感分析占比图、直方图、波动图以及情感得分表等可视化结果。SnowNLP情感预测基本原理如下。
式(2)即为SnowNLP情感预测过程使用的基本式,该式还可以进一步简化为式(3)。
5.2 LDA主题模型原理
LDA是潜在语义分析和概率语义分析的扩展,在文本数据挖掘等领域广泛使用。LDA模型可以自动将文本自动编码为一定数量具有实质性意义的主题,可极大减少人为干预负担。运行LDA模型,可以获得每个主题下的词语分布概率,以及文档对应的主题概率,其模型结构如图2所示。
图2 LDA模型结构示意图Fig.2 Structure diagram of LDA model
LDA模型分为文档、主题和词语三层,是典型的生成式主题模型,具体文档生成过程如下。
5.3 实验与分析
为了验证基于弹幕的网络舆情文本挖掘与情感分析的可行性以及可靠性,以“鸿星尔克捐款”为主题构建实验数据,进行效果检验。
首先,爬取相关弹幕并对数据进行清洗,获得视频地址、弹幕地址、弹幕时间以及弹幕内容等数据,如图3所示。
图3 爬虫结果展示(部分)Fig.3 Crawler results show (partial)
其次,经过Jieba分词、去停用词、高频词统计,获得“Top10关键词及权重”表,详见表1。其中,“国货、格局、鸿星尔克、支持”等网络舆情关键词赫然在列,其权重分别为1.426044、1.144364、0.934489、0.518985。同时,通过WordCloud绘制词云图,可以得到以“鸿星尔克捐款”为主题的弹幕词云图,如图4所示。图中“支持国货、格局、鸿星尔克”等关键词词频较高。
图4 词云图Fig.4 Word cloud
表1 Top10关键词及权重Tab.1 Top10 keywords and their weights
最后,调用SnowNLP和LDA进行最为重要的弹幕情感倾向分析和主题提取。通过SnowNLP情感分析,可以得到与“鸿星尔克捐款”相关的网络舆情弹幕情感分析占比图、直方图和波动图,如图5—图7所示。图5从情感得分占比的角度给出了情感分析数据,可以直观看出积极、消极及中性情感分别占比为87.93%、10.66%和1.41%。图6以直方图的形式呈现了情感得分的区间分布,从图中可以看出整体情感分布靠右,说明网民对于该网络舆情事件呈现较为积极的态度。图7以波动图的形式呈现了弹幕时间与情感得分的关系。图中,横轴为弹幕时间,纵轴为弹幕情感得分,波动曲线整体分布靠上,且随着时间推移越发稳定于上侧区间,一方面说明情感得分均值高于0.5,网民对该事件大多持积极观点,另一方面说明随着时间推移持有积极观点的网民逐渐占据多数。
图5 鸿星尔克情感分析占比图Fig.5 Proportion chart of sentiment analysis for Hongxing Erke
图6 情感分析直方图Fig.6 Histogram sentiment analysis
图7 情感分析波动图Fig.7 Fluctuation graph of sentiment analysis
通过实验分析不难发现,情感分析占比图、直方图和波动图三者分别从情感得分占比、分布和时间三个角度呈现了弹幕背后蕴含的舆情信息,说明以“鸿星尔克捐赠”为主题的相关网络舆情,整体情感倾向较为积极,网络舆情态势稳步向好。
通过LDA进行主题词提取可以获得弹幕数据主题聚类表,详见表2。从表2可以看出“格局、国货、鸿星尔克、吴荣照老板”四个主题是弹幕背后隐藏的核心主题词,是网民真正的关注焦点。
表2 主题聚类表Tab.2 Theme clustering table
不难发现,利用LDA进行主题词提取获得的主题聚类表与Jieba分词获得的“Top10关键词及权重”表及WordCloud绘制的词云图所示结果一致,三者相互印证,说明无论是词频角度还是聚类角度,“格局、国货、鸿星尔克、吴荣照老板”均为该网络舆情的核心焦点,进一步呈现了弹幕与网络舆情之间的潜在联系,这对于切实把握网民关注焦点,防范化解衍生舆情具有重要意义。
6 结论(Conclusion)
弹幕相较于传统评论具有更强烈的情感色彩以及更强的时效性,本文通过对弹幕数据的文本挖掘和情感分析探索隐藏在弹幕背后的网络舆情信息。实验结果显示,历经网络爬虫、数据清洗、数据可视化、SnowNLP情感分析和LDA主题词分类等步骤后,获得的网络舆情弹幕词云图、情感分析占比图、直方图、波动图及LDA主题聚类表等结果较好地呈现了网民的情感倾向与关注焦点,这对于把握网络舆情动态走向、防范化解网络舆情风险具有一定的现实意义。新媒体时代下,网民群体意见表达渠道更加多元化,弹幕这一新兴情感表达方式的出现,是对现有舆情研究的良好补充,通过深入对网络舆情弹幕的研究可以更好地响应网民合理关切,完善舆情分析机制,进而为构建更加和谐清明的网络空间做出贡献。