APP下载

基于深度学习方法的“双减”政策短文本情感分析

2022-05-18李沅静叶仁玉

皖西学院学报 2022年2期
关键词:分词贝叶斯短文

李沅静,叶仁玉

(安庆师范大学 数理学院,安徽 安庆 246133)

2021年7月国家正式实施的《关于进一步减轻义务教育阶段学生作业负担和校外培训负担的意见》(简称为“双减”政策)受到社会广泛关注。随着政策的发布和实施,各大网络平台产生了大量的关于“双减”政策的评论文本和相关的短文本信息,这些文本信息反映了民众对该政策的情感态度。通过文本情感分析方法对这些评价文本进行有效的挖掘和分析,能更好地分析热点舆论,了解大众的观点,以便给政府部门提供重要的决策依据。目前对于“双减”政策的短文本分析的研究较少,本文旨在针对微博和抖音平台爬取到的“双减”政策评论的短文本数据,利用文本挖掘技术,基于机器学习与深度学习模型对短文本进行训练,将实证结果进行对比与分析,结合分析结果提出关于“双减”政策相关建议。

1 相关工作

文本情感分析是对主观性信息的挖掘,是对其蕴含主观情绪的文本进行采集、分类和分析的过程[1]。文本情感分析涉及统计学、语言学、人工智能等多个专业方向的研究内容,是当前自然语言处理领域的研究热点。目前主要有基于机器学习和基于深度学习的两种文本情感分析方法。

基于机器学习的方法是将训练集中的数据训练成为情感分类器,再使用该分类器对新句子的进行情感倾向预测,常用的机器学习分类算法有朴素贝叶斯、支持向量机等[2]。基于机器学习的文本情感分析方法最初是由Pang等人提出[3],证实了支持向量机在文本分类上具有较好的性能。在大批量数据实例下,朴素贝叶斯分类器对于支持向量机具有更佳的情感极性分类性能[4]。实证表明相较于经典方法,主题模型与支持向量机的评论分类方法有更低的困惑度、信息提取更为充分[5]。

基于深度学习的文本情感分析主要利用深度学习模型的自动捕捉文本的重要表达特征,提高分类的效率,充分挖掘语意文本情感信息[6]。常用的深度学习模型有长短期记忆模型(LSTM)、双向长短期记忆模型(BiLSTM)等[7]。实践证明,基于LSTM模型的中文文本多分类器,同时融合Dropout算法得出的最终分类模型,具有良好的文本多分类性能[8]。在注意力机制下,利用character-SATT-BiLSTM中文情感分析算法,短文本信息的稀疏特征能够完整保留,有效提高了分类性能[9]。目前基于机器学习与深度学习的文本情感分析方法主要着重于对模型的创新与研究,而基于这些模型对具体事件的分析与探讨较少。“双减”政策是国家新出台的一项教育民生政策,受到全社会民众的高度关注和多方面评价,该政策涉及面广泛,意义深远和重大。目前利用机器学习与深度学习的方法对“双减”政策进行文本情感分析的研究几乎空白。本文结合四种学习方法对爬取到的“双减”政策评论短文本进行训练与分析,并结合分析结果给予相关建议。

2 相关技术

2.1 文本分词和文本表示

由于中文所具有的特殊性,针对中文文本进行分词处理成为一项基础任务。目前使用最为广泛的分词工具有SnowNLP, Thulac, Jieba分词等。Jieba分词作为当前最简单、便捷且高效的工具之一,其基本原理是在前缀词典的基础上对句子进行扫描,然后构成有向无环图,再利用路径规划找出最大概率路径以及基于词频的最大切分组合[10]。

为了将文字语言转化为计算机能识别的符号,需要将文本形式化表示。词向量生成模型(Word2vec)作为目前使用较为广泛的文本表示模型,能够充分体现词语之间的关联性,适用于词语间的相似度计算。

2.2 文本分类方法

2.2.1 朴素贝叶斯分类

朴素贝叶斯分类法是基于独立性假设的前提,并结合了贝叶斯定理的概率分类方法,通过学习和总结输入和输出变量之间的文本特征,从而对新数据输出变量值进行分类预测[11]。该方法将文本按照一定比例分为训练集与测试集,训练集中包含N个文本D={D1,D2,…,DN},以上文本分别属于不同类别C={C1,C2},其中C1对应本文中的积极情感倾向,C2对应消极情感倾向。训练集中共有L个文本特征词{W1,W2,…,WL}。朴素贝叶斯分类的训练过程如下:

(1)计算文本类别的先验概率估计,如公式(1)所示

(1)

(2)计算特征词Wk在类别Cj中的条件概率估计

(2)

其中,N(Wk,Cj)表示样本中属于Cj且含有Wk的样本数量。N(Cj)表示样本属于Cj的样本数量。

(3)每个文本都由若干个特征词所构成,则类别Cj产生文本Di的概率估计为

(3)

(4)输出类别:通过测试集中的文本特征计算测试集中每条文本所属类别的概率,按照最大后验概率进行分类,测试文本Di属于类别Cj的概率估计为

(4)

2.2.2 支持向量机分类

支持向量机是一种基于间隔最大化的有监督的二分类机器学习算法,具有极佳的预测能力[12]。在训练集D={(x1,y1),(x2,y2),…,(xm,ym)}中,xm是指第m个特征向量,ym∈{+1,-1}表示向量所属类别,其中+1表示具有积极情感倾向的文本,-1表示具有消极情感倾向的文本。支持向量机的基本原理如下:

在存在无数超平面的两个类别的样本空间中找到区分程度最大的两个类别的超平面,将超平面表示为

y=wTx+b

(5)

其中w是法向量,b是位移项。定义分类规则如下:

(6)

s.t.yi(wTxi+b)≥1 (i=1,2,…,m)

(7)

引用拉格朗日函数构造无约束的目标函数,并利用求偏导数解出超平面参数,进而得到分类模型

(8)

为避免维度灾难,使用核函数简化运算,K(xi,xj)表示核函数,最终分类模型函数为

(9)

因径向基核函数学习能力和泛化能力较强,因此常常选用径向基核函数作为默认核函数[13],故本文选择径向基核函数进行实际处理,径向基核函数公式如下:

(10)

其中σ>0为高斯核带宽。

2.2.3 LSTM模型和BiLSTM模型

LSTM模型主要包含记忆单元c,输入门i,遗忘门f以及输出门o。记忆细胞起到了储存信息的功能。遗忘门对来自当前输入和前一个历史状态的值进行合并加权处理。输入门控制信息输入,输出门判断下一状态的信息输出,模型结构如图1所示。

图1 LSTM模型结构图

(1)遗忘门决定前一个记忆单元中的信息被遗忘的程度,即

ft=σ(Wf[ht-1,xt]+bf)

(11)

其中,Wf是遗忘门的权值向量,bf是遗忘门函数的偏移变量,ht-1是上一时刻隐藏层输出,xt表示当前时刻的输入向量,σ是sigmoid函数。

(2)输入门通过控制当前时刻信息决定其存留下来的程度,即

it=σ(Wi[ht-1,xt]+bi)

(12)

(13)

(3)当前时刻的记忆单元状态是由遗忘门输入和上一时刻状态的积加上输入门两部分的积:

(14)

(4)输出门决定记忆单元输出信息多少,再经过tanh函数处理,与记忆单元ct共同汇总LSTM最终的输出信息:

在经过分词处理后,固定每条文本的索引长度,使用Word2vec将每条文本转化为词向量(x1,x2,…,xn)输入LSTM模型对文本情感特征进行训练学习得到对应的输出结果(h1,h2,…,hn)。

BiLSTM模型由两层LSTM组合而成,其结构图如图2,一层为前向LSTM,是按照正向学习顺序(文本顺序从前往后)进行训练,另一层为后向LSTM,按照逆向学习顺序(文本顺序从后往前)进行训练,kt表示第t时刻前向LSTM隐含层的输出,ht表示第t时刻后向LSTM隐含层的输出,由正向层的隐含层输出kt与后向隐含层输出ht得到第t时刻的最终输出ot=[ht,kt]。BiLSTM模型双向并行的训练方式保证了充分地提炼上下文文本的信息。

图2 BiLSTM模型结构图

3 实证研究

对于“双减”政策短文本进行实证情感分析研究,具体步骤流程图如下:

图3 “双减”政策短文本实证研究流程图

3.1 数据采集及预处理

通过python爬虫软件后羿采集器在微博和抖音平台上抓取了关于“双减”政策的评论短文本,数据包括用户ID、用户头像链接、短文本评论内容、评论时间等。然后对数据进行如下处理:

(1)由于微博平台限制,每次爬取数据可能存在重复值。本文将评论内容、用户ID和评论时间完全相同时视为重复文本,将多余数量内容项删除。

(2)短文本长度普遍只具有几十到几百个字节大小,内容简短且容易存在部分无效评论,其评论内容无效或者评论不相关内容都会对最终情感分析造成极大影响,故选择手动剔除,最终有效评论文本共10217条。

(3)利用Jieba分词对每一条评论短文本进行分词处理,结合自定义停用词文本进行处理。

3.2 基于波森词典的文本情感极性分类

本文选择将波森情感词典作为文本情感极性分类的辅助工具。波森情感词典是基于微博、知乎等社交软件数据来源所构造的词典,适用于处理社交软件短文本,该词典对于各单词都赋予了一定的权重,由单词权重为基础计算整句的情感得分,得分为正则认为该句具有积极的情绪,得分为负则认为该句具有消极的情绪,得分为零的文本进行剔除。图4为波森情感词典计算得分的具体步骤流程图。

图4 波森情感词典计算情感得分的步骤图

使用Jieba分词对每条“双减”政策评论语料进行分句、分词处理后,导入波森情感词典对分词赋予相应的情感值,再进行情感值的加和汇总,最终得到每一条短文本的情感值,再对情感值进行情感极性分类。剔除情感得分为零的79条文本后,最终具有情感值的有效文本共10138条。结果显示,积极情感文本共4097条( 40.4%),消极情感文本共6041条( 59.6%),说明60%的民众对于国家的“双减”政策持有焦虑态度。

3.3 词云主题分析

本文使用Jieba和WordCloud库对于积极情感文本和消极情感文本分别绘制词云图,设置词云图中生成的词数分别为100。

图5显示最高频数主题词为“支持”,对于“双减”政策表现出明确的肯定态度。“托管”“辅导班”“培训”等主题词表明了拥有积极情感的民众对于辅导机构的校外补课方式十分抵制,认为“双减”政策对于加重学业压力的行为采取适宜的抑制政策极其合理。

图5 积极情感分类短文本词云图

图6中“作业”出现最为频繁,拥有消极情感的民众认为“双减”政策并没有真正落实,作业负担仍然过重。“高中”“高考”“焦虑”等主题词表明家长对于学业竞争和考试存在担心与焦虑,尤其是中高考的面临使得家长质疑“双减”政策的推广是否真正符合我国国情。同时主题词“游戏”在消极情感文本样本中出现了263次,一定程度上反映出“双减”政策后,一部分家长对于孩子沉迷于游戏问题的担忧。

图6 消极情感分类短文本词云图

3.4 模型构建及参数设置

3.4.1 确定文本索引长度

考虑到评论短文本的长度不一,需要对句子长度进行标准化处理,将文本转换为相同的索引长度。绘制样本语料句子长度的分布直方图和累积分布函数曲线,图7显示90%的文本字符数小于等于100,99%的文本字符数小于等于109,本文确定选择文本索引标准长度为109。

图7 语料句子长度的分布直方图和累积分布函数曲线

3.4.2 构建模型

本文基于Word2vec进行词向量表示,使用sklearn构建朴素贝叶斯模型和支持向量机模型,使用TensorFlow和Keras构建LSTM模型和BiLSTM模型。利用split函数,随机从10138条文本中筛选出90%文本作为训练集数据,10%文本作为测试集数据,将文本索引长度定为109。为避免过拟合现象产生,本文使用了Dropout机制进行处理,取Dropout值为常用值0.2,即一层神经元经过Dropout处理后,神经元中会有20%的数值被置为0。考虑到样本大小与运行环境,每次训练在训练集中取64个样本训练,即批尺寸设置为64;经过多次试验对比,并结合文献[14]的参数设定,将每个单词映射为维度为100的向量,即词向量维度设定为100,将输出维度大小为50,优化器为Adam-Optimizer[15]。

3.4.3 定义模型评价指标

为了验证模型训练与测试的有效性,考虑到精确率(P)和召回率(R)在实践中会出现矛盾的情况,而F1分数作为两者的调和平均值,往往成为实验最有效的综合评价指标[16]。本文选取准确率(A)、F1分数两种模型评价指标。公式如下:

其中TP表示预测为积极,实际标签为积极的样本数;TN表示预测为消极,实际标签为消极的样本数;FP表示预测为积极,但实际标签是消极的样本数;FN表示预测为消极,实际标签是积极的样本数。

3.5 实证结果

利用朴素贝叶斯、支持向量机、LSTM、BiLSTM四种方法对“双减”政策评论短文本情感极性分类数据进行训练,并对训练结果进行比较,具体结果如表1。

表1 四种学习模型的实证结果对比

由表1、图8和图9显示,朴素贝叶斯与支持向量机两个模型在F1分数和准确率相接近,朴素贝叶斯模型准确率为75.44%,支持向量机模型准确率达到76.92%;LSTM模型相比朴素贝叶斯与支持向量机效果要优,准确率达到79.88%;BiLSTM模型同时进行了正向和逆向的学习顺序,充分提炼了上下文文本信息,该模型识别效果最好,其F1值分别为78%和86%,准确率为82.74%。同时可见两类深度学习模型比机器学习模型的情感分类性能好。

图8 四种模型的F1分数对比图

图9 四种模型的准确率对比图

4 结语

本文结合Jieba分词处理,使用波森情感词典作为辅助工具,针对微博和抖音平台爬取的“双减”政策评论短文本数据进行语料分析和情感分析,绘制了词云图,同时基于朴素贝叶斯、支持向量机、LSTM和BiLSTM四种模型对“双减”政策同一语料集进行训练与预测,并进行效果对比,得出在“双减”评论数据方面,深度学习模型相比传统机器学习模型有更优的分类效果,BiLSTM模型对于“双减”政策的文本分类最有效。

结合数据分析结果,本文针对“双减”政策提出如下建议:首先,政策实施带来的后期评价褒贬不一,对于60%家长担忧的“双减”政策对中高考的负面影响,建议相关部门给予相应回应。其次,“双减”后周末时间完全交给了孩子和父母,依据文本词云图分析结果,部分家长担心可能会增加周末学生沉迷游戏的风险,建议社会和学校能开设丰富学生周末业余生活的有益活动。最后,相关部门可以利用大数据和人工智能技术对于“双减”政策的实施效果进行实时跟踪,及时发现问题和解决问题,对政策实施的进行相应地细化与调整,实现决策的科学化和民主化,以便政策实施效果达到最好。

猜你喜欢

分词贝叶斯短文
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
KEYS
Keys
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
基于互信息的贝叶斯网络结构学习