APP下载

面向情感分析的深度学习技术研究浅析

2023-01-07唐裕彪

数字通信世界 2022年2期
关键词:检索模态神经网络

唐裕彪

(中国移动通信集团重庆有限公司,重庆 401121)

1 情感分析概述

情感分析采用自然语言来处理和挖掘文本的技术,对带有情感色彩的主观性文本描述进行分析、处理和识别的过程。文本情感分析涵盖了自然语言处理、文本挖掘、信息检索、信息抽取、机器学习等多个领域,得到众多学者以及研究机构的广泛关注,成为自然语言处理领域的热点研究问题。情感分析包含了文档级、句子级、方面级三个层次[1]。文档级情感分析假设整个文档只包含关于一个主题的观点;句子级的情感分析同样假设一个句子中只表达一个主题;方面级情感分析旨在判断所讨论的每个方面所表达的情感极性。目前,方面级情感分类的深度学习领域正在蓬勃发展,其目标是确定用户在评论中对给定方面表达的意见是积极的、消极的还是中性的。

2 面向情感分析的深度学习技术

基于深度学习的方面级情感分类可分为用于方面级情感分类的递归神经网络,用于方面情感分类的循环神经网络,用于方面级情感分类的基于注意机制的循环神经网络,用于方面级情感分类的卷积神经网络,用于方面级情感分类的存储记忆网络[2]。

2.1 递归神经网络

递归神经网络是一种从数据中学习有向无环图结构的神经网络。它可以看作是递归神经网络的一种推广。给定一个句子的结构表示,采用递归的方式由下至上来产生父表示,其中短语可以依照组合的形式标记出来,从而可以得到一个句子完整的表示方法。然后,一个句子的表示被用来对给定的输入句子进行类似情感分类的最终预测。相关研究模型有递归神经网络。

2.2 循环神经网络

在这一分类中,模型可以分为三大类:循环神经网络、双向循环神经网络、混合循环神经网络。相关研究模型如下:

(1)目标独立长短期记忆神经网络。它利用两个长短期记忆神经网络,从关于给定方面的左上下文和右上下文学习表示。在此之后,将最后的隐藏向量连接起来,并将它们输入决策层,以预测句子在这个方面的情感极性。

(2)广义回归神经网络。该模型采用双向循环神经网络来克服池化函数的缺点,为此提出了两种门控神经网络。首先,它利用双向广义回归神经网络将句子中的单词连接起来,以便在隐藏状态上应用池化函数,而不是单词嵌入函数,以便更好地表示方面及其上下文。其次,采用三向门控神经网络结构对句子中所提到的方面与其周围语境之间的相互作用进行建模。

2.3 基于注意机制的循环神经网络

注意机制已成功应用于多种自然语言处理任务中,如机器翻译、智能问答、语义理解等[3]。各种基于注意力的循环神经网络模型最近被引入到方面级情感分析中,它可以有效地关注句子的重要部分。方面级情感分析的基于注意力的循环神经网络模型可分为基本注意力的循环神经网络模型和基于交互注意力的循环神经网络模型。单跳注意长短期记忆神经网络模型是一种基于方面嵌入,以方面表示与词嵌入的拼接为输入,利用长短期记忆神经网络的隐藏状态进行注意计算。在这个模型中,连接注意是用来捕捉句子中给定方面的重要部分。

2.4 存储记忆网络

存储记忆网络为方面级情感分类引入了一种端到端记忆网络,它利用一种外部记忆机制来捕捉句子中与给定方面有关的重要信息。此外,还有人提出一种基于记忆网络的重复注意机制,针对各个方面捕捉长距离分离的情感信息。为了克服记忆模型的近视问题,提出了句子级内容注意机制。方面级情感分类的多跳注意机制的深度记忆网络,在外部存储器上采用了一种多跳注意机制来关注上下文词项的重要性水平,明确地捕获了语境词的重要信息,用于推断特定方面的情感极性。这些重要度和文本表示通过多个计算层进行计算,这些计算层是具有外部记忆的以注意为基础的神经模型。

2.5 联邦学习

2.5.1 情感分析安全

情感分析的安全问题主要存在3种威胁:恶意客户端修改模型更新,破坏全局模型聚合;恶意分析者通过对模型更新信息的分析推测源数据情感隐私信息;恶意服务器企图获得客户端的情感源数据。针对以上威胁,增强联邦学习隐私安全性的主流方案与经典机器学习隐私保护技术结合,包括差分隐私(DP,Differential Privacy)、安全多方计算(MPC,secure Multi-party Computation)、同态加密(HE,Homomorphic Encryption)等技术。

2.5.2 信任与激励机制

学术界通过结合区块链技术做出了大量研究。区块链是比特币的底层技术,它作为一种安全可靠、不可篡改和支持查询验证的分布式分类账,被应用于解决各类数据安全存储和信任问题。联邦学习通过集成区块链能够以一种安全、高度抗中断和可审计的方式记录其模型更新,为系统框架提供可问责性和不可否认性。同时,区块链的激励机制作为一种经济回报能够根据构建模型时客户端的贡献给予相应的奖励。

2.5.3 研究热点

(1)系统异构。在基于联邦学习的情感分析环境中,由于参与训练的客户端之间硬件配置、网络带宽、电池容量等不同,各终端设备的计算能力、通信速度和存储能力各不相同。除此之外,基于联邦学习的情感分析架构通常会限制终端设备参与训练的数量,尤其是在数百万设备参与的训练中,处于活跃状态的往往只有数百个客户端。每个客户端并不一定可靠,随时可能因为网络故障、算力限制等问题退出现有训练,这些系统级别的异构会给模型整体效能造成极大的挑战。因此,适用于系统异构的联邦学习算法必须满足3点要求:客户端的低参与率;兼容不同的硬件结构;能够容忍训练设备的中途退出。

(2)统计异构。不同的终端设备通常使用各式各样的方式生成、存储和传输用户情感数据,因此各设备之间数据的特征和体量可能有很大的不同,导致数据呈非独立同分布和非平衡分布。尽管这类分布的数据集可以通过通信效率优化的方式处理,但仍然存在一些针对统计异构的解决方法,如通过多任务学习框架学习不同的局部模型。类似于元学习,多任务学习由于对个性化和特定于设备建模的支持,已经成为解决数据统计异构性的主流方法。

(3)无线通信。在5G技术日益普及的今天,基于联邦学习的情感分析开始被逐渐应用于无线网络领域。由于无线信道的带宽容量有限,因此在发送情感数据之前,需要对模型更新进行量化压缩,在这种模式下,一个重要的考虑因素是当存在量化误差时模型更新的鲁棒性。除了通信带宽,无线通信中复杂的噪声和干扰也是加剧信道瓶颈的因素。因此,开发适用于无线通信的联邦学习算法具有突出的研究意义。

除了对联邦学习本身技术的改进,最新的研究进展包括结合边缘计算在情感分析领域的应用。由于部分终端设备并没有足够的计算资源,同时为了满足智能决策的低时延响应,边缘计算在云中心和终端设备之间添加了边缘服务器作为中介层,联邦学习作为其“操作系统”满足了智能边缘设备实时决策、多点协同、自主可控的要求。充分利用智能边缘服务器计算、存储、传输能力,改变传统集中上传情感数据进行决策的方式,破解了传统集中式机器学习数据难以聚合、隐私难以保护、云中心的单点故障等问题,为未来多功能集群、跨多智能设备的实时情感分析提供了可靠的技术保障。

2.6 多模态情感分析

由于人类的语言行为通常呈现为多模态混合的形式,比如自然语言、面部特征以及声学行为,因此在处理这类多模态情感数据时就会面临这样的困难:一是由于对于每种模态序列采样速率的不同导致数据不对齐;二是跨模态元素之间具有远距离的依赖,这种依赖性会对特征融合带来一定的影响。

针对上述问题,传统的处理方法是通过人工预处理强制地将视觉和声觉特征与词的分辨率对齐,然后基于这种对齐后的时间步长来对多模态之间的相互作用进行建模,没有将原始多模态特征之间长距离的依赖性考虑在内。多模态转换模型,以端到端的方式来直接学习没有对齐的模态特征表示,其核心是双向的跨模态注意机制,该机制关注不同时间步长的多模态序列之间的交互作用,并潜移默化地使一个模态去适应另一个模态。

在高维上,模型通过一个前馈融合进程从多个跨模态转移来合并多模态时间序列,每个跨模态转换器通过学习跨两种模态特征的注意力,使用来自源模态的低维特征去反复强化目标模态。因此,多模态转换模型使用该跨模态转换器对所有的模态对进行建模,然后由一个序列模型使用融合的特征进行预测。

由于人类的多模态语言序列不像词嵌入那样离散且具有良好的代表性,模态序列之间有很大的频率差异,使用注意力机制将一个模态潜移默化地去适应另一个模态,从而可以将模态之间长距离的依赖性考虑在内。

2.7 可搜索加密

(1)为了保护情感数据的机密性,情感数据需要采用端到端方式进行加密;此外,灵活的访问控制(AC)在数据共享中起着至关重要的作用。

(2)数据拥有者:自身的存储和计算资源不足,需将本地资源文档外包给云服务器存储。首先,数据拥有者将外包文档加密并生成检索索引,将密文文档和检索索引一起外包给云服务器。其次,当数据拥有者想要检索某个特定关键词时,生成该关键词的检索陷门,并提交给云服务器进行检索。

(3)一般的可搜索加密方案包含四个算法:一是用户生成秘钥,用户输入安全参数,返回密钥;二是用户生成密文的检索索引,输入密钥和明文数据库,返回检索索引;三是用户生成关键词的检索门限,输入关键词,返回关键词的检索门限;四是服务器执行检索操作。

3 结束语

文本情感分析可实现对主题词描述情感极性的有效识别,本文简要概述了情感分析的概念及其分类。详细讨论了面向方面情感分析的深度学习模型。未来,在方面级情感分析的研究中,文本情感预训练粒度控制技术、结构语言训练模型决策技术以及可解释性方面情感分析技术等将是该领域的热点研究方向。

猜你喜欢

检索模态神经网络
神经网络抑制无线通信干扰探究
2019年第4-6期便捷检索目录
专利检索中“语义”的表现
基于神经网络的拉矫机控制模型建立
国内多模态教学研究回顾与展望
复数神经网络在基于WiFi的室内LBS应用
基于HHT和Prony算法的电力系统低频振荡模态识别
基于支持向量机回归和RBF神经网络的PID整定
由单个模态构造对称简支梁的抗弯刚度
国际标准检索