基于神经网络的在线课堂弹幕评论的情感分析与研究
2021-09-10陆霞武善锋
陆霞 武善锋
摘 要:随着在线教学平台的普及及推广,师生在线的有效互动和学习效果的评价成为研究的热点。在线课堂教学实施过程中的弹幕评论是师生交互的主要方式之一,教师借助学生评论可以有效地了解学生的学习效果。文章研究利用神經网络算法及文本挖掘技术对弹幕文本中出现的基础情感词语、表情符号、网络用户进行情感分析,能够为教学计划的制定和修改提供有效的数据支撑。
关键词:在线课堂;弹幕;神经网络;情感分析
0 引言
近年来,在线教学平台成为互联网文化产业中重要的一环,也成为线下教学有效的补充。弹幕是一种在视频界面以文字、符号等密集而快速显示实时评论的形式,有别于普通的留言板[1]。弹幕评论可以直观表现感受和情绪,通常用于在线课堂教学过程中学生发表个人观点,使用方便且传播速度快,但是其中包含了大量碎片化的文本表达,因此包含个人情感倾向的弹幕文本的分析对学生在线学习效果产生巨大的影响。
使用自然处理语言(Natural Language Processing,NLP)和神经网络模型对弹幕评论进行情感分析成为近年在线学习平台研究的热点,借助于弹幕文本的长度、发送频率、文本特性等属性分析用户的交互型特点和活跃度特征,可以作为学生对于教学满意度的评价因素之一。
1 神经网络模型介绍
目前,神经网络在图像分割、模式识别等领域有着广泛的应用。神经网络是一种仿生算法,具有信息传输和错误反向传播两个主要特征。通过神经网络可以对文本中的频谱和语义进行建模[2]。神经网络结构如图1所示。
其中,X1,X2,…,Xn表示前向输入数值;Y1,Y2,…,Ym表示反向传播数值;ωij,ωik表示反向传播参数,ωij表示类型层,ωik为打印层。从图中可以看出,神经网络的构造函数是一个非线性函数,若以自变量作为网络输入值,因变量作为网络输出值,可以构造一个从n到m维的函数[3]。
2 基于神经网络的弹幕文本处理步骤
2.1 数据采集
在线学习平台中的弹幕文本规模庞大,且不断变化,所以使用网络爬虫程序和采样策略对弹幕数据进行抓取。数据采集过程经过协议分析、设置采样时间、编写抓包程序、自动抓取数据和数据存储几个步骤,从而获取课程信息、学习人数、学习时长、用户学习等级、弹幕信息等初始数据。数据采集流程如图2所示。
2.2 数据标准化
利用神经网络函数实现采集数据标准化,具体分为以下5个步骤。
步骤1:神经网络初始化。
根据神经网络类型及打印矩阵算法确定节点数n,隐藏节点数1和打印层节点数m。确定打印范围、访问率、ωij和ωik神经元之间的连接及比例a、不可见层范围b。
步骤2:隐藏层输出及打印输出。
2.3 数据分析
利用已经使用神经网络算法得到的标准化数据及研究得到的用户相关行为数据,建立用户行为模型。深入了解学生在线学习效果,为教学策略的制定和调整提供参考依据。根据弹幕数据的特点,结合采集并标准化的数据分为两个部分。其一为用户行为属性数据,包括在线学习时长、账号等级、发表弹幕的数量及发表弹幕的文本长度;另一部分为用户情感属性数据,目前大多数弹幕文本倾向于口语化表示,且带有大量表情符号,从一些碎片化的词语及表情符号可以体现出学生的情感。
(1)基础情感词语的提取。
BosonNLP属于基础情感词典,其内部的词句是根据新闻、论坛、微博等数据来源的上百万篇情感标注的数据而构建的。囊括了很多正式的和非正式的文本表述,还收录了很多褒义词、中性词和贬义词,并按照情感倾向和情感强度对情感值进行了赋权[4]。
(2)表情符号的提取。
弹幕中的表情符号往往与需要表达的情感是一致的。例如,“老师讲的课真好”,其中“真好”与“”都表达了满意的感情。因此,在弹幕分析过程中,可以使用表情符号判断用户情感。可以使用《情感本体库》七分类标准(见表1),将表情符号从弹幕文本中剥离出来,作为情感判断的依据。
(3)网络词语的提取。
弹幕中经常会出现一些网络新词,这些新词不同于传统的口语表达方式,现有的一些分词法不适用于网络词语的分析,会影响网络词语提取及分析的准确性。例如,“太难了,蓝瘦香菇”。其中,“蓝瘦香菇”并不是正常的文本词语,无法直接进行分词处理,“蓝瘦”和“香菇”就属于网络词语。这时,就可以使用N-Gram+凝聚度+自由度的方法来提取及识别网络词语[5]。
3 结语
本文从在线学习平台学情分析的角度出发,对弹幕中所表达的情感进行研究,提出了基于神经网络的在线课堂弹幕评论的情感分析方法。将弹幕文本的处理过程分为数据采集、数据标准化、数据分析3个步骤,使用神经网络算法完成采集数据的标准化工作。利用提出的模型探究在线课堂教学活动中学生学习的学情和满意度,为教学计划的制定和修改提供有效的依据。
[参考文献]
[1]段炼.面向弹幕文本的情感分析研究[D].重庆:重庆邮电大学,2019.
[2]马喆康.一种集成深度学习模型的旅游问句文本分类算法[J].计算机工程,2020(11):22-23.
[3]张咪乐.基于概念神经元网络模型的高校政治教学系统构建[J].自动化技术及应用,2020(39),58-60.
[4]邱全磊,崔宗敏,喻静.基于表情和语气的情感词典用于弹幕情感分析[J].计算机技术与发展,2020(8):33-35.
[5]张咪乐.面向视频弹幕的文本情感分析与研究[D].兰州:兰州交通大学,2020.
(编辑 傅金睿)