APP下载

基于深度学习的藏文多极情感分类方法的研究

2021-10-24曲塔吉安见才让

计算机时代 2021年10期
关键词:注意力机制

曲塔吉 安见才让

摘要: 藏文多极情感分类方法是自然语言处理研究中识别用户对某件事或话题的主观情感倾向性识别的研究课题之一。文章分析了藏文多极情感分类方法的特点,对采集的藏文情感语料进行整理校对;提取相关特征,建立情感语料库和情感分类识别模型;再通过大量的实验找出存在的不足,并进行完善,以此提高藏文多极情感数据的准确率。实验表明,优化后的藏文多极情感分类的识别准确率达到84.5%。

关键词: 情感分类; LSTM神经网络模型; 注意力机制; 藏文程度词; 藏文转折词与否定词

中图分类号:TP391.1          文献标识码:A     文章编号:1006-8228(2021)10-41-03

Research on Tibetan multi-polar sentiment classification method based on deep learning

Qu Taji, Anjian Cairang

(School of Computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)

Abstract: The Tibetan multi-polar emotion classification method is one of the research topics in the natural language processing research to identify the user's subjective sentiment orientation for a certain event or topic. This article analyzes the characteristics of the Tibetan multi-polar sentiment classification method, organize and proofread the collected Tibetan sentiment corpus, and extract features to build sentiment corpus and sentiment classification and recognition model. Identify existing problems through a lot of experiments and further refine and improve the accuracy of Tibetan multipolar sentiment data. In the experiment, the optimized and expanded Tibetan multi-polar emotion classification and recognition accuracy rate reached 84.5%.

Key words: sentiment classification; LSTM neural network model; attention mechanism; Tibetan degree words; Tibetan transition words and negative words

0 引言

情感分析[1]作為用户行为分析的重要组成部分,是对带有主观性情感倾向或情绪态度的文本进行分析处理和归纳推理的过程。其一方面可以通过对用户评论的筛选与归类,从中挖掘用户对产品或服务的意见,并基于这些意见对用户的行为进行预测从而制定科学合理的运营策略;另一方面,通过对大量文本的情感分析,可以有效监控网络舆情和预测网络舆论走向,并及时监测舆情危机做出预警,维护网络安全,构建和谐网络环境。在自然语言处理技术的应用当中,情感分析更是必不可少的。例如在自动机器翻译中,对输入文本进行情感倾向判断时,有助于精准的选择带有正面或负面的同义词进行翻译,以此提高翻译的准确率。

因此,本课题提出将藏文情感分类方法通过深度学习的相关技术进行深入研究,首先对藏文多极情感分类方法的特点进行分析,并对采集的藏文情感语料进行筛选,扩充,人工标注和分词,去除或加工情感词当中的缩写词、重叠词、特殊字符等,对情感数据进行整理、校对及数据预处理,以此构建藏文多极情感语料库;其次对相关理论知识进行深入学习,结合相关特征进行词向量分析,采用基于多层正向LSTM和注意力机制的神经网络模型建立藏文多极情感倾向型分析模型。

1 相关工作

1.1 藏文多极情感分类

藏文多极情感分类属于情感分析方法当中文本情感分类的范畴,初期的情感分类能有效分析情感句子当中所表达出来的正面、中立、负面情感等情感倾向,让情感分类技术能直接从检测后的最终情感倾向结果中传递出文本的主观态度倾向。但在本文的研究中增加了情感极性的部分,对情感句子当中表达出来的情感程度进行分类和归纳,按照一定的分类规则进行人工标注和分词并分类为六种情感极性,即满意、一般满意、非常满意及不满意、一般不满意、非常不满意,总共收录相关情感数据29121条句子。

1.2 藏文程度词与情感句子搭配

本文采集的情感数据当中,藏文程度词主要用于对采集的四种情感态度数据当中两种不同情感极性的数据进行限定和修饰,以此达到各类情感句子的情感极性。程度词的不同是能将同一种表达的内容变得完全不同,又会以一致的情感倾向表达出来,即有不同之处,又有相同之处。正因如此,程度词的修饰作用在文本数据的人工标注上起到了加速效果,它能将每一条文本数据的分类以最准确、最快的方式表达出来。如表1所示。

1.3 藏文转折词和否定词应用

情感数据当中出现的转折词,能表示某个情感倾向的转变或变化,主要是强调变化后的情感表达状态,是以转折后的情感倾向为主要判断依据产生的情感倾向转换作用。转折词有时在识别的过程中将消极情感词识别成积极情感词,或将积极情感词识别成消极情感词,在一定程度上会导致识别率下降。主要是因为转折前后的情感句子当中既包含积极情感词,又包含消极情感词。如表2所示。

当一个句子当中出现“不”“没有”之类的词,我们经常判定这类词很有可能是句子字面意义和文章所表达的意义不一致,而在情感句子当中否定程度的强弱及说话者的态度都直接决定着其情感倾向的转变。在藏文句式的常规文法应用中,使用的否定词主要有“?????????????”四种,在本文中对这四种否定词加以使用,在标注时与之相关的否定情感词有“???????? ???????????? ???????? ???????????”等等。但是,不能直接判定其否定词就是消极情感词,因为在情感句子当中还存在情感句子转折前后的一个情感倾向。如表3所示。

值得注意的是,否定词在表达时,光从字面意义上判断其情感倾向很容易,但放到特定的环境下和特定的语境中情感倾向改变的可能性特别大,这就需要在后期的标注上格外注意。

2 基于深度学习的藏文多极情感分类方法的模型

本文提出一种用于藏文多极情感分类方法的多层正向LSTM[2]和注意力机制[3]模型。此模型主要是通过不同层的正向LSTM在同一个深度学习模型中进行训练。其模型将不同邻域的情感分类数据文本通过词向量输入到正向LSTM模型中,再通过注意力机制从softmax模型中输出分类的结果。如图1所示。

此模型的整体训练思路是:首先将藏文情感文本进行向量化处理组成数组,用矩阵化的方式来表示情感数据的语义信息;其次载入到生成的词向量[4]模型,创建用于训练集的藏文情感数据矩阵和LSTM的计算单元,在构造训练集索引之前,视情况确定并设置好训练长度;最后使用由标签的数据训练输出层的分类器,用该分类器对藏文情感分类进行分析识别。

3 实验结果

本次实验的实验数据共有29121条情感数据文本,在整个实验过程中,通过在训练中多次反复提取特征从而加强特征的记忆力,训练集和损失值在不断下降的同时,其准确率一直在上升并趋于平稳,最终的准确率为:84.5%。后续实验表明此模型具有良好的稳定性,不断增加语料后准确率随之上升。如图2所示。

如图2所示,基于多层正向LSTM和注意力机制的模型算法的结果在准确率和损失值方面都表现的优异稳定。其最大的原因在于输入时做了大量的加工处理,让卷积层[5]在词向量的部分得到了更多的序列信息,让卷积层更容易获得特定的特征为识别基础,其中也运用到的各种算法的优势,让藏文多极情感分类的识别有了更高的准确率,损失值也变得越来越低。其实验结果示例表如4所示。

4 结束语

本文对基于深度学习的藏文多极情感分类识别做了较为全面的探讨和研究。通过严格的数据预处理构建藏文多极情感文本数据库,在数据上通过训练模型实现藏文多极情感分类方法的识别,由于藏文的情感分类方法数据库存在着明显的不足,公开的数据寥寥无几。因此,我们采用人工的方式,对数据进行标注、筛选、扩充,并逐一校对,为后续的实验提供了更好的更准确的数据。

后期需对藏文多极情感分类语料库做扩充和进一步完善。在基于各种不同情感极性和复杂的数据时,本文使用的模型分类效果也会随之改变,对此需要进一步思考在面对海量的复杂数据时,如何改进和维持模型的分类效果,提高其准确率以及在其他领域的泛化能力。

参考文献(References):

[1] 段懿轩.基于神经网络的中文文本情感分类及其在輿情分析中的应用.西安电子科技大学硕士论文,2019.

[2] 王瑞龙.基于注意力深度学习的情感分类研究[D].西北大学,2019.

[3] 王明阳.句子级和段落级的语义相似度算法的设计与实现[D].北京邮电大学硕士论文,2019.

[4] 张鹏.基于深度学习混合模型的商品垃圾评论识别研究 [D].江苏科技大学大学,2019.

[5] 周泳东.基于卷积神经网络的商品评论情感分析的研究[D].南京邮电大学,2019.

[6] 何晗.自然语言处理入门[M].人民邮电出版社,2019.

猜你喜欢

注意力机制
基于注意力机制的行人轨迹预测生成模型
基于注意力机制和BGRU网络的文本情感分析方法研究
多特征融合的中文实体关系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度学习的手分割算法研究
从餐馆评论中提取方面术语
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法