APP下载

结合金融领域情感词典和注意力机制的细粒度情感分析

2022-09-28祝清麟徐睿峰刘宇瀚毛瑞彬

中文信息学报 2022年8期
关键词:词典实体注意力

祝清麟,梁 斌,徐睿峰,刘宇瀚,陈 奕,毛瑞彬

(1. 哈尔滨工业大学(深圳) 计算机科学与技术学院,广东 深圳 518055;2. 深圳证券信息有限公司,广东 深圳 518028)

0 引言

随着互联网和金融行业的快速发展,在金融领域不断出现大量专业的股评报告、研究报告等,以及个体投资者的个人看法和分析。无论是新闻报道还是针对相关主题与公司的评论信息,往往都包含有对相关事件与公司的评价与态度,具有丰富的投资和监管参考价值。对这些评价信息的全面把握,有助于投资者更好地了解市场,辅助投资决策。同时,对于金融市场监管者,有助于及早从评价中发现潜藏的问题,对于掌握市场动态、消除市场风险也有着重要意义。为此,金融文本的情感分析研究正在成为当前研究和应用热点。

金融领域的文本实体级细粒度情感分析研究尚处于初级阶段,也是细粒度情感分析重要的子任务[1],目前面临着诸多挑战。首先,缺乏高质量、大规模的金融领域文本情感标注语料,导致文本处理底层技术缺乏数据支撑。现有的通用文本情感分析模型缺乏对金融领域文本特点的分析和利用,没有考虑金融领域词性特征,缺乏对金融领域情感先验知识的利用,因此在金融文本上表现欠佳。

针对现有金融领域语料库匮乏的问题,本文构建了金融领域细粒度情感分析语料库。首先对各大金融新闻网站进行数据爬取与清洗,之后按照字级别对所爬取的数据进行实体标注和实体情感标注。总共标注了5 206篇新闻稿,整理出3 325个实体和对应的9 240条情感语句,并构建了包含5 047个词的金融领域情感词典。

针对现有方法对金融领域知识利用不足的问题,本文设计并实现了结合金融领域情感词典和注意力机制的细粒度情感分析模型(Attention-based Recurrent Network Combined with Financial Lexicon, FinLexNet),该模型使用一个LSTM提取词级别的文本信息,并基于金融情感词典将文本中的词分成“积极”“消极”“中立”“金融实体”“其他”五个类别对文章进行表示,使用另一个LSTM提取金融领域词性特征,这样不仅能让模型关注到不同类型词语的特殊性,从而更好地理解上下文的语义信息,还能作为对细粒度信息的补充,获取更宏观的文本信息。模型还使用了金融领域的情感词典指导注意力机制,使得注意力机制更加关注金融领域情感词,在构建的数据集上达到了同类模型的最佳效果。

本文构建了一个百万级的金融领域实体级细粒度情感分析语料库,并在此基础上提出了一种结合金融情感词典和注意力机制的情感分析模型,不仅对深入研究金融领域文本的情感分析具有很好的科学意义,同时可以服务于面向金融领域的舆情分析、市场判断和监管协调,具有较好的应用价值。

1 相关研究

细粒度情感分析是情感分析的一个热门且具有重要应用价值的领域[2],侧重于对细粒度情感信息的挖掘。对于金融领域,实体级的细粒度情感分析用于分析出金融文本中出现的金融实体的情感,常用的分析方法有基于情感词典、机器学习和深度学习三种。

情感词典是识别文本情感的有效工具,有不少学者研究构建情感词典的方法[3-[4],形成了如WordNet[5]等具有代表性的英文情感词典和董振东等人编制的中文知网情感词典HowNet。基于情感词典的细粒度情感分析方法主要是利用句式词库和情感词典去分析文本语句的特殊结构及情感倾向词,如Wu等[6]根据情感词情感强度的不同而赋予不同的情感权重,然后进行加权求和。Lipenkova等[7]提出了建立的词典和通用语言规则相结合的方式,其在中文方面级情感分析任务上取得了较好的效果。

基于机器学习进行细粒度情感分析也是主流的方法之一,在早期的研究中,细粒度情感分析被当作一般情感分类任务,使用情感词典、文本语义特征等提取文本特征来建立细粒度情感分类模型。Kiritchenko等[8]引入了产品的总体评分和情感词库两个外部知识,并和SVM分类器相结合,在SemEval 2014年竞赛中取得了最佳性能。Ramesh等[9]提出使用马尔科夫随机场解决在线课程MOOC中的方面级情感分类问题。郝志峰等[10]提出一种把情感对象识别看作一个序列标记问题的方法,通过在传统的CRF序列标记模型上增加情感对象的全局节点,有效地结合上下文信息、句法依赖以及情感词典,从而可以识别出微博中的情感对象。然而传统的机器学习方法通常需要依赖大量的人工筛选特征,这需要耗费大量的时间和精力。

随着深度学习技术的发展,研究人员设计了一系列的神经网络自动生成对象和内容的低维度表示方法,并且在细粒度情感分类任务中得到了较好结果。Tang等[11]提出一种基于目标的长短时记忆网络 (TD-LSTM),依据目标词的位置将输入的文本切分成左右两个部分并分别送入LSTM,较传统LSTM模型性能有所提升。注意力机制(Attention Mechanism)源于对人类视觉的研究,近年来,随着注意力机制的深入研究,很多学者基于注意力机制提出了一系列的方法进行细粒度情感分析。赵冬梅等[12]提出一种利用协同过滤算法计算得到用户的情感分布矩阵,再使用注意力机制提取文本信息,从而进行实现情感分类。曾峰等[13]提出了一种基于注意力机制的LSTM神经网络模型,从词级别和句子级别两个层面进行语义提取,从而获取不同词语和句子的重要性。吴小华等[14]使用字向量对文本进行字级别的表示,并使用双向的LSTM网络和注意力机制提取上下文之间的关系。

金融领域细粒度情感分析研究较少,Cortis等[15]讨论了SemEval-2017会议“金融微博和新闻的情感分析”任务三十余位参赛者的方法和工具,其中最多人使用的是基于传统机器学习模型SVM和SVR的方法。Wang等[16]指出金融领域数据标注需要广泛的领域专业知识,进行专业标注会很昂贵,所以构建的数据较少。Maia等[17]发布了一个非常小的数据集(FiQA),包含了金融领域的文本实例和文本中提到的实体,并给每个实体的情感打分。Yang等[18]基于ELMo模型提出了ULMFiT方法分析FiQA数据集上的金融实体情感。Salunkhel等[19]提出了一种用于方面分类的迁移学习方法和一种基于金融数据的情感预测的回归方法,迁移学习方法利用了BERT,并使用了不同的回归方法,其中线性支持向量回归法的效果最好。

细粒度情感分析的方法较多,但是在金融领域实体级细粒度的情感分析研究较少,尤其是在缺乏数据集的情况下使得金融领域的研究更难以开展。我们针对语料库匮乏的问题构建了金融领域细粒度情感分析语料库。针对现有模型缺乏对金融领域知识利用的问题,提出了构建结合金融领域情感词典的细粒度情感分析方法,用金融领域情感词指导注意力机制,并结合金融领域词性特征,取得了同类模型的最佳性能。

2 金融领域实体级细粒度情感分析语料库构建

针对金融领域情感分析语料库匮乏的问题,我们设计并构建了金融领域实体级细粒度情感分析语料库。考虑到新闻文本信息丰富、更新速度快且较为正规,我们爬取了各大金融数据网站(21世纪经济报道(1)http://news.21so.com/chanye/、财新网(2)http://companies.caixin.com/news/、每经网-公司版(3)http://www.nbd.com.cn/columns/346、生意社(4)http://news.toocle.com/list/c-3511-1.html、人民网(5)http://industry.people.com.cn/GB/413887/index.html)作为数据来源,采用Scrapy框架共计爬取22 681篇新闻文本,并对文章进行了删除特殊符号处理,利用正则匹配剔除一些无关信息等预处理。

首先我们进行了金融实体的标注。对于金融实体,我们标识出文本中的公司名、人名和品牌名称。实体名基于长匹配的原则进行标注,并通过天眼查辅助确定公司名、品牌名称等。

例如: “乐融致新和乐视网业务发展的颓势仍没有出现明显的好转。”

在这个文本中“乐融致新”和“乐视网”为我们标注的实体。

对于金融实体情感标注,我们将金融实体的情感极性标注为三大类: 无情感、消极、积极,每一类指定的标注准则如下:

(1) 积极情感

对于积极情感的标注,如果文本中出现了有利于公司经营的事实,以及一些人为的积极评价,则标注为积极。

例如: “伴随着近年来白酒行业复苏,水井坊业绩也水涨船高。”

(2) 中立情感

对于中立情感的标注,如果文本中出现的信息为与公司经营相关,但无法判断是有利还是不利的事情标注为中立,包括以下情况:

① 一些与公司经营相关的事实性的陈述,包括(但不限于): 公司人事变更、子公司或者下属经营企业的设立与关闭、公司财务或投资操作等。

② 既有有利事实也有不利事实(句中不存在尽管、然而、虽然、但是等表达情感偏向的转折副词)。

③ 一些与公司经营相关的中性人为表述与评价。

例如: “电商是未来发展的方向,所有的企业都在发力,华为也不例外,但目前来看,这一动作的成效需要检验。”

(3) 消极情感

对于消极情感的标注,若文本的信息不利于公司经营,标注为消极。包括一些不利于公司经营的事实,以及一些人为的消极评价。

例如: “由于游戏收入下滑,热门游戏进入周期末尾,近期市场对腾讯的评估本来就不太乐观。”

为了构建金融领域细粒度情感分析数据集,从爬取的22 681篇新闻文章中选取了5 206篇标注。首先由4名标注人员进行预标注2 000条,在标注过程中分别对各自的标注结果进行比对,收集存差异与有歧义的地方,对各类实体以及针对模糊和有冲突的语境制定相应的标注准则。在标注过程中,每一段新闻文本由至少两名标注者独立标注,即标注过程中标注者之间彼此没有交流,完全依赖先前制定好的准则标注。独立标注完成后,对于有差异或有错误的标注结果,一名额外的标注者会参与讨论,直到所有的标注者意见统一后,对已标注数据进行人为修改,最终完成标注。

最终整理出3 325个金融实体,每个金融实体对应一个或多个语句,共计有9 240条对应的情感语句,共108.7万字。在9 240个情感语句中,金融实体情感是积极的有4 189条,中性的有3 202条,消极的有1 627条。具体的统计结果如表1所示。

表1 金融实体情感数据统计

通过分析金融文本数据,根据经验判断出了哪些词汇会影响对实体情感极性的判断,从而构建了一个金融领域情感词典,其中包含了2 079个积极词、1 070个中立词和1 898个消极词。金融领域情感词典的具体统计信息如表2所示。

表2 金融领域情感词统计

为了计算待标注的语料库与标注者之间的一致性,计算了Cohen’s Kapp[20]值与Fleiss’ Kappa[21]值。 Fleiss’ Kappa值为0.668 6,表明实验标注结果数据具有较好一致性。Cohen’s Kapp值达到0.721 0,说明标注者可以在给定文本的情况下可靠地识别目标实体的情感。

3 结合金融领域情感词典和注意力的细粒度情感分析模型

本文提出的一种结合金融领域情感词典和注意力的情感分析模型框架如图1所示。为提取细粒度的语义信息,使用LSTM提取词级别的语义信息(见模型右半部分);为了让模型关注到不同类型词语的特殊性,并获取更宏观的文本信息作为对词级别信息的补充,使用另一个LSTM提取词类级别的语义信息(见模型左半部分)。其中词类级别的表示是指将文章词分成5个类别: Pos,Neg,Neu,Entity,Other,即“积极”“消极”“中立”“金融实体”“其他”五个类别。然后使用Word2Vec模型对文本进行训练,从而获取每一类词语词向量的平均值来表示该类词向量。为了关注到与预测情感极性相关度高的词语,使用金融实体与金融文本进行词级别的注意力。为了让模型更加关注金融领域情感词,模型还使用了金融领域情感词典去指导注意力机制,从而使模型更加关注金融情感词所在的位置,提升情感分析的准确度。

图1 结合金融领域情感词典和注意力的情感分析模型框架

3.1 基于LSTM的词级别编码器

为了提取文本的语义,使得其特征表示更加符合当前语境信息,我们采用了长短时记忆网络(Long-Short Term Memory,LSTM)提取词级别的语义特征,将整条金融文本经过分词和词嵌入之后输入LSTM,如式(1)所示。

(1)

3.2 基于LSTM的词类级别编码器

上一节中提取的文本是词级别较为细粒度的信息,但不能注意到不同类别的词汇。在本节中使用词类级别的表示方法,本文基于领域情感词典和已经标注好的金融实体,将文章词分成5个类别: Pos,Neg,Neu,Entity,Other,即“积极”“消极”“中立”“金融实体”“其他”五个类别。其中“积极”“消极”“中立”来自标注的情感词典,“金融实体”为标注的金融实体,“其他”为其他词汇或是未登录词。然后使用Word2Vec模型对文本进行训练,从而获取每一类词语词向量的平均值来表示该类词向量。通过词类级别的表示不仅可以给模型提供不同词类级别的信息,让模型关注到不同类型词语的特殊性,从而更好地理解上下文的语义信息,而且还能获取更宏观的文本信息,作为对词级别较为细粒度的信息的补充。

为了具体说明如何进行词类级别的表示,在此举一个简单的例子: 经过分词后“腾讯 公司 股票 近期 下跌”这句话中有5个词语,其中“腾讯”和“公司”两个词语为金融实体, “股票”和“近期”属于其他词汇,“下跌”为消极类金融领域情感词。则这句话的词类级别表示为[Entity,Entity,Other,Other,Neg],每一类对应着相同的词向量。

LSTM的隐状态输出序列[h1,h2,…,ht]可以作为当前文本的特征表示,其中的ht对应于文本序列中第t个词的特征。

为了提取词类级别的语义特征,本文使用另一个LSTM网络作为文本的特征提取器,将之前介绍的经过词嵌入表示的词类级别文本输入LSTM′,如式(2)所示。

(2)

3.3 词级别的注意力机制

通过两个LSTM建模得到的文本表示,会给每一个词分配相同的权重,因而无法准确把握语义的重点。注意力机制的思想是不同的情境下不同文本的重要程度不同,在计算过程中将文本的语义根据分配的权重进行加权求和,获得与任务更相关的文本的表示。为了进一步提升情感分析的准确度,借助注意力机制,建模实体情感与各个词语之间的关系,为子句的词序列语义特征分配不同的权重,使得更重要的词语得到更多的关注。式(3)与式(4)为词语的注意力权重计算方式:

LSTM提取的带有注意力加权的子句文本特征表示如式(5)所示。

(5)

相似地,将词类级别的语义信息送入LSTM′后,同样使用注意力机制确定与实体相关的上下文语义信息,得到注意力得分为α′it,特征向量为o′i。

3.4 基于金融领域情感词典的注意力指导

注意力机制能够更好地关注到重要的词汇从而提高模型识别的准确率,但不一定能够准确地识别对结果有较大影响的词语是哪些金融领域情感词。为了解决这个问题,我们使用构建的金融领域情感词典去指导注意力机制,使得金融情感词的获得更多关注。

为了使用构建的金融领域情感词典,对于一个输入的分词后的句子,构建一个与分词后的句子长度相同的情感词向量,称为VecLex,并初始化为0。遍历输入金融文本中的词语,若其出现在金融领域情感词典中,则在情感词向量中将对应位置设为1。

为了更方便地理解金融领域情感词向量的概念,举一个简单的例子如图2所示。假设输入的金融文本为“腾讯 公司 股票 近期 下跌”,首先初始化一个情感词向量[0,0,0,0,0],遍历输入的句子发现“下跌”这个词出现在金融领域情感词典中,属于消极词,便把“下跌”这个词在情感词向量对应的位置设置为1,则该句话的情感词向量为[0,0,0,0,1]。

图2 金融领域情感词向量示意图

为了使得注意力机制更加关注金融领域情感词,我们修改了损失函数,在交叉熵损失后又加入了一项λ(α-VecLex)2。其中λ是确定情感词典损失重要性的超参数,α为注意力机制的得分,VecLex为情感词典向量。从而使得注意力机制得分α去拟合金融情感词向量,从而使模型更加关注输入金融文本金融情感词。

之后将词类级别的注意力表示和词级别的注意力表示相结合,将两个带有注意力加权句子文本特征表示向量拼接起来,最后经由softmax层得到模型的概率输出,如式(6)所示。

pi=softmax(oi⊕o′i)

(6)

其中,“⊕”为向量拼接操作,oi经过LSTM的注意力机制的词级别表示,o′i是经过LSTM′的注意力机制的词类级别表示。

模型的最终的损失函数如式(7)所示。

(7)

其中,D为样本集合,yi为子句真实标签,pi为模型的预测结果,λ是确定情感词典损失重要性的超参数,αnorm为LSTM词级别注意力得分α和经过LSTM′的词类级别注意力得分α′的平均值。

4 实验

4.1 数据集

实验数据集采用构建的金融领域实体级细粒度情感分析语料库,将数据集分成测试集、验证集与训练集,具体的划分如表3所示。

表3 金融领域情感文本训练集测试集数据统计

4.2 评价指标

本文使用准确率(Accuracy,A)和Macro-F1值作为评价标准。

4.3 实验设计

4.3.1 词向量

实验的词向量采用腾讯AI Lab公开的中文词向量数据集[22],该数据集涵盖面广,囊括了800余万个中文词语,数据集的维度为200维。该词向量的训练使用了腾讯提出的Directional Skip-Gram (DSG)算法,相比于广泛采用的词向量训练算法Skip-Gram (SG),DSG算法额外考虑了词对的位置信息,从而能更准确地表示词汇的语义。具有词语覆盖率全、新鲜度高、词向量准确率高的特点。在训练的过程中词向量不冻结,参数随训练一起更新。

4.3.2 超参设置

参数优化采用 Adam[23]优化算法, 学习率设置为 0.0001。对词向量矩阵以及不同LSTM 层之间的连接采用Dropout[24],对LSTM 层内部与隐状态相关的权重矩阵采用 DropConnect[25]。Batch-size为128,Dropout为0.2,DropConnect为0.1,LSTM的隐藏层为200维,LSTM Attention的输出为200维,LSTM′ Attention的输出为50维,情感词典损失重要性的超参数λ=0.035。

4.3.3 对比模型介绍

对比模型包括基础的Bi-LSTM模型和近些年在方面级的情感分析(Aspect Based Sentiment Analysis)领域的深度学习模型进行对比,参与对比的模型有以下几种:

●Bi-LSTM: Bi-LSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成,使用Bi-LSTM模型提取文本的语义信息之后,直接送入softmax层进行分类。

●TD-LSTM[11]: 基于目标的长短时记忆网络,根据特定目标单词的所在位置,将训练语句拆分成左、右两部分,通过LSTM获取左、右部分两个隐层的输出,输入分类器,获取分类结果。

●IAN[26]: 该模型改进了传统的分类模型中将两者分开独立建模或者只针对内容建模的方法,该模型先让内容和目标分别通过不同的LSTM后,利用注意力机制实现两者的信息交互,从而提升模型的准确度。

●AOA[27]: 该模型建模了目标和文本的交互关系,分别将文本和目标经过双向的LSTM,并使用隐藏层的输出接着计算两者的交互矩阵,将该矩阵得到的信息送入softmax实现对情感的分类。

●MemNet[28]: 该模型利用了注意力机制的QA系统中的深度记忆网络,将方面词的上下文信息作为存储器中存储的内容,实现了一个针对方面级的情感分析模型。

●ATAE-LSTM[29]: 该模型利用了注意力机制来获取上文下信息与目标词信息之间的关系,结合了LSTM神经网络与注意力机制提取句子语义,从而提升情感分类的准确度。

4.4 实验结果与分析

4.4.1 总体性能

所有实验均采用 NVIDIA GeForce GTX 2080Ti 显卡进行计算加速,并在单张显卡下完成。在前文提到的数据集进行了实验,总体性能的实验结果如表4所示。

表4 总体实验性能结果图

从实验结果可以看出,我们提出的模型FinLexNet取得了0.742 5的准确度和0.714 7的F1值,均达到了对比模型的最佳效果。基础模型Bi-LSTM的效果最不理性,是因为只能获取总体的文本信息,并不能对实体进行建模。TD-LSTM提取实体前后语句语义的综合,性能有所提升。IAN和AOA实现了实体与模型之间的交互,更好地理解了实体在文中的语义信息,同Bi-LSTM相比也有不小性能提升。ATAE-LSTM使用注意力机制对实体和文本进行建模,但是我们认为注意力机制没有准确把握关键词导致性能没有明显提升。我们提出的FinLexNet模型性能较好的原因是结合了金融领域词性信息并用金融情感词指导注意力机制,模型获得的信息更加丰富、并使得注意力更好地把握关键词。

4.4.2 消融实验

为了考察模型框架中各组件的贡献程度,本文设置了模型中不同结构的消融实验,实验结果如表5所示。

消融实验模型设置具体细节如下:

●LSTM-ATT: 使用LSTM去提取文本信息,并使用注意力机制。

●LSTM-ATT-Lex: 使用LSTM提取文本信息,并使用标注的情感词典指导注意力机制。

●Double-LSTM-ATT: 使用两个LSTM分别提取文本和词类表示的文本信息,并使用注意力机制后输入到softmax层,不使用标注的情感词典。

●Double-LSTM-ATT-Lex: 使用两个LSTM分别提取文本和词类表示的文本信息,并与注意力机制结合,使用标注的情感词典指导注意力机制。

表5 消融实验结果

从实验结果来看,使用金融领域情感词典指导注意力机制对实验性能具有较大的提升,说明金融领域情感词典中的词对判断实体的情感极性有较大的帮助,而通过修改损失函数可以有效地指导注意力机制着重关注金融领域情感词,从而达到提升实验效果的目的。

4.4.3 注意力可视化

为了探究模型注意力机制关注的内容,对三个输入样例的注意力权重进行了可视化,颜色表示一个词在给定句子中的重要性,颜色越深越重要。如图3所示。

图3 注意力机制可视化图

如在第一段话中,金融实体为“派思股份”,情感极性为积极。从注意力可视化看出“溢价率极高”的颜色最深,对照了“派思股份”积极的情感极性。

在第二段话中,金融实体为“智慧松德”,在文本中该公司对业绩下滑进行解释,情感极性为消极。从注意力可视化可以看出“业绩下滑”最能体现出情感极性,颜色最深。而连词“导致”往往用于不好的结果,也被模型准确的识别出来。

第三段话中,金融实体为“信达生物”,文本说了撤回上市申请对公司的业务没有影响,所以情感极性为中立。在可视化结果中着重强调了“主动撤回”和“没有影响”,较为准确地找到了判断情感极性的关键词。

通过以上可视化的结果可以说明,注意力机制较好地注意到了关键词和金融领域情感词典,有助于模型判断金融实体的情感极性。

4.4.4 错误分析

为了更好地改进模型,选取了一些错误案例进行分析。为了更方便地进行分析,将金融文本中的实体进行了加粗表示,消极的语句加上了下划线,积极的语句用波浪线标识。

例如: “市场认为,从财务数据来看,宣亚的收购是划算的。宣亚2016年的营业收入为4.67亿元,净利润为5 871.01万元。8月15日,宣亚国际发布2017年中报,报告期内,公司实现营业收入2.10亿元,同比下降6.74;净利润为2 722.00万元,同比增长4.22。而映客直播的同期营收达到了43.47亿元,归母净利润更是高达4.8亿元,远远高于上市公司。

这个例子中,“映客直播”的情感极性为积极,而模型判断为消极。分析原因是模型可能没有找准映客直播对应的语句,同“宣亚国际”的营收下降产生了混淆。

例如: “中信银行向佳兆业伸出援手始于佳兆业陷入债务危机之时。彼时中信银行深圳分行对危机中的佳兆业施以援手,提供大约300亿元资金助其解困,100亿元用于置换佳兆业位于上海、杭州等地的8个优质资产项目债务;另有100亿元将作为佳兆业的后续开发贷款。此后平安银行也与佳兆业达成全方位的战略合作,签约金额为500亿元,用于支持佳兆业的未来发展。”

该例子中,“佳兆业”的情感极性为积极,而模型判断为中立。分析原因是模型注意到了消极观点“陷入债务危机”,同时也注意到中信银行伸出援手,提供了300亿资金纾困,“支持佳兆业的未来发展”。从而认为是中立。而如果进一步的推理可以知道,这是一个利好的消息,所以情感极性更为积极。这说明虽然模型学习到了很多情感词,但是由于缺乏对这种褒贬都存在的情况的进一步推理,导致分类错误。

5 总结与展望

本文构建了一个金融领域实体级细粒度情感分析语料库,并提出了一种结合金融领域情感词典和注意力的细粒度情感分析模型。为了利用金融领域词性信息并结合粗细粒度的文章信息,本文使用两个LSTM网络分别提取词类级别和词语级别的语义。为了让模型有针对性地关注对情感结果影响较大的词语,本文使用金融领域情感词典对注意力机制进行修正。最后,在本文标注的金融领域细粒度情感分析语料库上进行实验,实验结果表明,本文提出的结合金融领域情感词典和注意力模型能有效提升细粒度情感分析的准确性。未来的工作可以针对文本中有正负两面评价金融实体的情感进行研究,并考虑如何充分利用文本中的金融数字信息。

猜你喜欢

词典实体注意力
让注意力“飞”回来
知识图谱的候选实体搜索与排序①
米兰·昆德拉的A-Z词典(节选)
米沃什词典
实体书店步入复兴期?
2017实体经济领军者
A Beautiful Way Of Looking At Things
“函数及图象”错解词典
漫画词典
关于推动实体书店经营发展的几点思考