基于LSTM的B站用户情感分析
2022-07-01曾子济鲍磊闫瑾
曾子济 鲍磊 闫瑾
摘要:B站作为当下最受年轻用户欢迎的智媒平台,吸引了大量的年轻人。B站评论是用户对视频不同态度的集合,如何广泛收集意见,观察用户情况,并针对实际情况优化对青少年的教育方法,早已成为青少年研究领域的热点。本文进行了基于B站用户评论的相关研究。通过对评论进行数据预处理,并构建神经网络对评论的情感倾向做出预测,获取了基于B站指定视频集合的用户情感倾向,并探究了B站用户评论分析在舆情监控、教育领域的应用前景。
关键词:智慧媒体;青少年;教育;情感分析
0.引言
智慧媒体[1]是以互联网为基础,智能提供符合用户需求内容和服务的一种新型传播媒体。智慧媒体对青少年的影响主要有积极方面和消极方面:
已有研究表明,智慧媒体的使用可以帮助个体形成积极的自我概念、促进人际交流、获得社会支持。
但是,智慧媒体使用也会带来一系列负面影响,可能会导致睡眠障碍、外貌焦虑和身材焦虑等后果。
《2020年度全国未成年人互联网使用情况的调研报告》[2]显示,2020年,我国未成年互联网普及率为94.9%,比2019年提升1.8个百分点。说明随着数字时代发展,孩子们首次触网的年龄越来越小,互联网对青少年群体的影响也受到社会各方的广泛关注。
1.研究方法
1.1数据源的选取
克劳锐在《2020上半年短视频内容发展盘点报告》提到,过去三年,B 站新增用户平均年龄为21岁,18-35岁用户占比达到78%。为了更好地研究智媒对当代青少年产生的影响,本文选取B站作为数据来源。
1.2数据特点
经过研究发现,B站用户评论具有以下特征:
(1)文字稀疏性。通常B站评论文本由词语和短句构成,文字稀疏。
(2)实时性。B站信息的传播具有很强的实时性,用户评论更是如此。
(3)交互性。用户的转发、评论等行为表明了B站具有很强的互动性。
1.3数据获取方法
本文通过计算机爬虫对评论进行获取。该方法优势在于能自动化运行。
1.4模型构建
1.4.1语料预处理
在收集到B站评论文本之后,去除掉其中的噪声和无用数据,然后对B站文本进行文本预处理,将评论文本切分成单独的词语。
文本预处理之后,计算机无法识别预处理得到的词语。需要利用数学模型将这些无规则的文本转换成结构化的表示,以便计算机读取和识别。
1.4.2模型训练
LSTM[3],是一种特殊的 RNN,能够学习长期依赖性,在许多问题上表现非常出色。
本文选取LSTM来对评论数据进行预测,首先需要对标注好的数据训练词向量,通过引入模型,指定訓练数据、词向量维度、最小词频和迭代轮次进行训练,得到训练好的词向量。然后定义神经网络,设置网络超参数来对网络进行训练。
2.结果与讨论
2.1数据说明
本文对针对2022年4月16日的B站热门视频(共十部)进行评论爬取,爬取视频的相关信息如表2-1所示。
2.2结果
针对爬取到的评论数据,本文首先对评论进行分词和向量化,实验数据预处理后进行实验,实验结果如表2-2所示。
模型的各项评价指标如表2-3所示。
从结果来看,本文构造的情感词典和情感值计算方法是理想的。
2.3讨论
随着数据时代非结构化数据的暴增,从中获取有价值的信息将成为日后研究的主流,同时也具有极大的应用价值,如:
1)网络舆情监控。通过对用户评论的情感分析,可以生成网民对同一事件不同的态度和观点,获得对一个事件的整体性观点和看法。
2)为教育决策提供依据。大数据时代,数据已成为决策的支撑力量,教育部门可以针对分析结果制定相应的政策,提高教育水平。
在大数据时代,数据将会成为创造力和效益的代表,合理利用数据,未来将会创造无限可能。
3.结论与展望
本文结合机器学习和计算机爬虫技术对智慧媒体用户评论进行分析,验证了模型的有效性。在大数据时代,结合大数据收集和机器学习算法对海量数据进行处理并从中提取价值必将是未来趋势,这一方向也值得我们投入大量精力进行研究。
参考文献:
[1]王越,徐天晟.不同智媒平台的青少年模式差异研究综述[J].科技视界,2020,(16):260-261.
[2]2020年度全国未成年人互联网使用情况的调研报告(解读稿)[J].中国共青团,2021(15):13-14.
[3]Graves, Alex.(2012). Long Short-Term Memory.10.1007/978-3-642-24797-2_4.
本文章为国家社会科学基金项目《数据赋能的智慧媒体对青少年行为模式变化影响的研究》(项目编号:19BXW120)支持的研究所取得的阶段性成果。