APP下载

基于有序神经元LSTM的短文本相似性检测

2021-12-14

计算机应用与软件 2021年12期
关键词:神经元语义向量

吴 迎 岗

(广东工业大学计算机学院 广东 广州 510006)

0 引 言

随着当今互联网的不断快速发展,以短文本为基本形式的网络信息急剧增加,文本分析应用中短文本相似度计算起了重要作用,文本挖掘、人工智能信息检索和知识管理等都需要借助于文本的相似性检测、度量和评价的方法[1-2]。短文本相似性检测就是通过计算得到两个文本中这些相似部分的比例,然后分析及整合中间结果的过程。如果两者相似度超过某一阈值,则可以判断内容重复,并将结果反馈给用户,对于存储方面也能够有效地降低存储消耗。目前,常用的短文本相似度算法有基于关键词频率和反向文本频率计算相似度的方法(TF-IDF)[3]、空间余弦相似度算法[4]、传统的基于精确匹配的相似性匹配算法[5]、基于距离测量的差分对齐算法[6]等。

伴随着深度学习在自然语言处理方面的迅速发展,其在文本相似度任务中也被逐渐地应用起来,并不断取得新的突破。本文在已有神经网络研究的基础之上,提出一种更加简单有效的基于有序神经元LSTM(ON-LSTM)相结合的短文本相似度计算的方法。该模型能够更好地对短文本深层次的结构信息以及对词汇间的局部语义信息进行关注和表达,并经过IC层,加快模型的收敛速度。最终结合整体的语义信息表示,来计算文本的语义相似度,并判断是否是相同的语义表达。

1 相关理论

1.1 词向量

在如今的自然语言处理中词嵌入技术得到了广泛应用,它是将单词词语用矢量的形式进行表达并得到计算机能够识别的向量形式的技术,在短文本处理任务中为文本量化。对于传统短文本向量表示都是基于one-hot编码形式。one-hot编码简单方便,但忽略了单词词语之间的语义关系,而且还会引起维度灾难问题。词向量的提出很好地解决了one-hot编码存在的问题,词向量是将高维稀疏的特征向量映射为低维稠密的特征向量。Bengio等[7]提出用神经网络概率语言模型NNLP来处理文本信息。Mikolov等[8-9]基于 NNLP 提出 Word2vec模型,并给出了利用 CBOW和Skip-gram两种模型构建词向量。本文利用Google提出的NLP工具Glove[10]进行词向量的训练。

1.2 IC层

Batch Normalization[11]和Dropout[12]是常用的神经网络的训练技术。批量归一化网络激活函数,使神经网络中神经元的均值为0、单位方差为1。Batch Normalization在每一层神经网络的计算过程如下:

B={x1…m}

(1)

yi=BNλ,β(xi)

(2)

(3)

(4)

(5)

y′i=γ×x′i+β

(6)

上述过程中B表示一个批次中有m个激活值,x′i表示归一化之后的值,y′i表示经过BN变换之后的值。Dropout则通过在一个层中为神经元引入独立的随机门来构造独立的激活函数,允许神经元以概率p输出其值,否则输出0来停用它们。Dropout的数学形式表达式为:

y=f(W×d(x))

(7)

(8)

式中:p为Dropout的随机失活率;mask为以1-p为概率的贝努力分布生成的二值向量。

IC层是由Batch Normalization和 Dropout 相结合构成。本文为提高神经网络的训练速度以及防止出现过拟合现象引入了Batch Normalization机制和Dropout机制,它可以减少任意一对神经元之间的相互信息以及系数,从而减少神经元之间相对于dropout层的成对互信息来实现更稳定的训练过程,能够更快地加快模型在训练中的收敛速度[13]。

1.3 深度学习方法

目前深度学习的各种方法以及模型在NLP领域应用广泛[14],深度学习方法也为短文本相似度计算研究提供了新思路,对于给定的两个输入句子,通过某一方法得出这两个句子是否具有相似的语义关系,即提出一个简单而又高效的计算方法来判断两个句子是否是相似的。如Huang等[15]提出了经典的单语义模型DSSM(Deep Structured Semantic Models)。Mueller等[16]提出了基于Siamese网络的学习文本相似度的模型体系结构,用于学习变长字符序列的相似性度量。Pang等[17]提出了匹配金字塔模型,将卷积神经网络思想迁移到了文本匹配中。Chen等[18]提出了如今应用最广的ESIM模型,用句子间的注意力机制,来实现局部的推断,进一步实现全局的推断短文本匹配模型。Zhou等[19]在ESIM模型的基础上提出多方向匹配的BiMPM模型,从多个角度匹配模型,解决之前单一模型交互匹配不充分等问题。

2 有序神经元LSTM神经网络

2.1 神经网络方法

循环神经网络(Recurrent Neural Network,RNN)是具有循环结构的神经网络,RNN的链式结构能够处理序列信息,因此在自然语言处理方面相关任务中被广泛使用。RNN已经被证明对于自然语言中的语言建模问题具有很好的效果。其具有的结构通常如图1所示。

图1 RNN网络结构图

但循环神经网络自身也具有一定程度的局限性,例如:伴随着相关序列信息的不断输入,循环神经网络对相对距离较远的序列信息学习的程度,会产生较长距离依赖的问题,即对于之前较长时间序列信息上的一些信息可能产生感知力弱化的问题,进而会形成梯度爆炸和梯度弥散。鉴于RNN存在的缺陷问题,长短期记忆神经网络(LSTM)的出现可以更好地解决循环神经网络存在的相对距离较远的序列信息学习产生依赖的问题。LSTM结构如图2所示。

图2 LSTM结构图

其内部门构造机制的各个门以及记忆细胞的表达式如下:

LSTM遗忘门表达式为:

ft=σ(Wf·[ht-1,xt]+bf)

(9)

LSTM输入门表达式为:

it=σ(Wi·[ht-1,xt]+bi)

(10)

(11)

LSTM细胞更新门表达式为:

(12)

ot=σ(Wo·[ht-1,xt]+bo)

(13)

LSTM最终的输出表达式为:

ht=ot×tanh(Ct)

(14)

(15)

(16)

(17)

两个LSTM分别从左端到右端以及从右端到左端计算序列。式中:Ht表示BiLSTM的最后输出;ht表示两个双向LSTM层的当前时刻隐藏层的输出状态;b表示偏置项值;W代表网络隐藏层的权重矩阵;xt表示当前时刻的输入数据。BiLSTM的网络结构如图3所示。

图3 BiLSTM网络结构

对于RNN以及LSTM都没有利用到神经元的序信息,而ON-LSTM神经网络则试图将这些无序的神经元经过某种变化形成一个有序结构来表示序列信息的某种特定信息结构,从而将神经网络中的神经元序信息利用起来。ON-LSTM中“ON”代表的是“Ordered Neurons”,即有序神经元,文献[20]表明其将神经元经过特定排序是为了将层级结构(树结构)整合到 LSTM 中去,从而允许长短期记忆神经网络可以学习到文本句子中的层级结构信息。进而得到短文本信息的深层次特征表示和每一个句子之间的语义关系编码,ON-LSTM可以令循环神经网络模型在不破坏其序列表示的情况下执行树状合成。对于长期依赖问题以及较长序列泛化问题,ON-LSTM 也比普通LSTM模型性能更佳。ON-LSTM与LSTM 模型的架构相似,不同的是排除了单元状态的更新功能,并以新的更新规则替代,其变化部分表达式如下:

(18)

(19)

(20)

(21)

ht=ot∘ tanh(ct)

(22)

基于以上,本文提出一种基于有序神经元LSTM的短文本相似度匹配方法。该方法利用ON-LSTM神经网络能够自动学习到句子的层级结构信息的能力,对输入的上下文信息进行深层次的特征信息提取,更好地学习到上下文之间的联系,然后进行语义编码,通过IC层加快模型收敛速度,结合整体的语义信息表示,最后通过全连接神经网络层来计算文本的语义相似度,提高模型的准确率。

2.2 基于有序神经元LSTM的短文本相似

基于有序神经元LSTM的短文本相似研究思路如图4所示。首先对短文本数据进行数据清洗,去除文本中包含的标点符号和特殊字符,仅保留可挖掘语义价值的文本信息。然后将短文本数据导入进行数据预处理,包括特征数值化、批归一化以及在输入神经网络前进行随机失活操作。在此过程中,使用Glove得到文本的词向量表示以及将数据转成固定长度的向量化表示,每一条文本数据都可以表示成一个固定长度的向量,每一个索引值代表了一个词向量。经过上面的操作,输入的数据就可以根据单词索引所对应的词向量形成词矩阵。把得到的词向量输入到IC层中,加快模型收敛速度,经过处理再输入到ON-LSTM层中。最后进行相应的计算。

图4 基于有序神经元LSTM的短文本相似研究思路

本文基于有序神经元LSTM的短文本相似模型结构图如图5所示。首先将文本进行数值化操作,然后输入到ON-LSTM神经网络中,在此之前数据会通过IC层来加快模型自身的收敛速度,然后计算整体的文本语义信息表示,最后通过全连接层来计算两个文本短语之间的语义相似度。

图5 基于有序神经元LSTM的短文本相似模型结构图

3 实验与结果分析

3.1 实验环境

本文实验环境如表1所示。

表1 实验环境

3.2 实验数据

本文选用公共的 Quora Question Pairs数据集进行实验,验证所提出网络模型的有效性。数据集共包含了 404 290个问题组合对,该数据集中提供了已经标记好类别的文本数据信息以及其他信息,数据集仅标注类别标签为1和0,表示相似和不相似两种状态,如一条数据具有相同语义则标签为 1,反之则为 0。判断一个问题对是否语义是相似的,即将问题Q1和Q2作为输入,根据网络模型最终输出的概率值来判定,概率值越接近1表示两者越相似。

3.3 实验对比

为了验证本文提出的基于有序神经元LSTM的短文本相似模型的有效性,设置以下几组深度学习方法对比实验:CNN、LSTM、BiLSTM-CNN和Attention- LSTM。训练集以及测试集分别随机选取为80%和20%。采用Glove训练的词向量作为实验中神经网络的输入,为了更好地对比分析实验结果,在保证相同条件的情况下,将相同神经网络模型的超参数均作相同设置。

3.4 实验参数

实验中对于卷积神经网络以及LSTM中使用的参数值大小如下。在固定其他相同值参数的情况下,设置词向量维度为300维,为了防止模型在训练过程中出现过拟合现象,将dropout率设置为0.25,卷积神经网络中的卷积核大小选为3,滤波器的数量设置为128,LSTM以及其他类似模型中隐藏节点数设置为128,激活函数选择ReLU,优化函数选择Adam,在整个试验过程中利用批处理方法对其他参数进行更新,批处理的大小设置为200,迭代次数设置为10。损失函数使用binary_crossentropy交叉熵损失函数来度量模型分类器的预测输出的概率分布与真实分布之间的差异。假设概率分布p为期望输出,概率分布q为实际输出,H(p,q)为交叉熵,其公式为:

(23)

3.5 实验评价指标

本文采用的评价标准为准确率(Accuracy)和F1-Score。F1-Score是二分类问题里面最常见的一个衡量指标,它是精准率与召回率的调和平均数,最大值为1,最小值为0。Precision衡量的是模型的查准率,而Recall衡量的是模型的查全率,具体公式如下:

(24)

(25)

(26)

(27)

式中:TP表示预测是正样本,实际上也是正样本;FP表示预测是负样本,实际上是正样本;TN表示预测是负样本,实际上也是负样本;FN表示预测是正样本,实际上是负样本。

3.6 实验结果及分析

为验证本文提出网络模型的有效性,分别将以上5种模型进行实验对比分析,结果如表2所示。

表2 五种模型的比较结果(%)

由表2可知,本文提出的基于有序神经元LSTM的短文本相似模型在准确率以及F1-Score中表现出的性能均优于对比实验中的其他四种网络模型。本文网络模型的准确率和F1-Score分别达到了81.05%和75.26%均高与其他四种模型。LSTM在文本相似度任务中的性能要稍低于CNN网络,表明CNN和LSTM都具有对文本特征进行学习的表征能力。而对于CNN和BiLSTM的混合模型要优于两者单一模型。Attention-LSTM模型是结合了注意力机制的模型,同单一LSTM模型相比,能够有效地提升LSTM的准确率。而采用本文提出的方法同Attention-LSTM以及LSTM比较,准确率和F1-Score均有提高,表明ON-LSTM使文本的层级结构信息融入到LSTM中,自动学习到层级结构信息,更好地表示文本深层次语义信息,实验效果也达到了最优。

由图6可知,变化趋势均是属于先上升再逐渐稳定,其中CNN与LSTM以及Attention-BiLSTM模型变化率相较于另外两组模型最为相似。而对于CNN和LSTM的混合模型BiLSTM-CNN要优于两者任何单一模型。本文提出基于有序神经元LSTM的短文本相似模型呈现先上升再平稳趋势,优于其他四组深度学习模型,在文本特征提取方面具有较好的性能以及达到较高的精准度。

图6 val_acc的变化趋势图

由图7可知,CNN模型的波动最不稳定,本文模型相较于其他四组深度学习模型来说整体波动较小,且变化趋势逐渐降低并趋于平稳。综合图6、图7分析可知,本文提出的基于有序神经元LSTM的短文本相似模型具有收敛速度快、准确率高的优点。

图7 val_loss的变化趋势图

为衡量5组深度学习模型之间收敛速度的优劣,统计它们每一次完成迭代的时间代价,即模型完成一次训练所需花费的时间代价。图8显示了不同深度学习模型时间代价随迭代次数的变化趋势。除CNN模型之外,本文模型在时间消耗方面整体优于其他几组模型,时间代价最小,这说明了本文提出的基于有序神经元LSTM的短文本相似模型具有收敛速度快的优点。

图8 时间代价趋势图

4 结 语

本文提出了一种基于有序神经元LSTM的短文本相似模型。该模型能够利用ON-LSTM自动学习到层级结构信息,更好地表示文本深层次语义信息,通过IC层加快模型收敛速度,结合整体语义信息表示,最后通过匹配层来计算文本的语义相似度。由多组对比实验表明,本文模型在指标分析中比其他对比模型都有较好的提高,能够更好地对文本相似性进行计算,具有可行性以及有效性。

猜你喜欢

神经元语义向量
真实场景水下语义分割方法及数据集
向量的分解
AI讲座:神经网络的空间对应
仿生芯片可再现生物神经元行为
这个神经元负责改变我们的习惯
研究人员精确定位控制饮酒的神经元
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
汉语依凭介词的语义范畴