融合指针网络的新闻文本摘要模型
2021-03-21蔡中祥孙建伟
蔡中祥,孙建伟
1(中国科学院大学,北京100049) 2(中国科学院 沈阳计算技术研究所,沈阳 110168)
1 引 言
随着互联网技术的快速发展,越来越多的机构更倾向于使用网络平台发布信息,人们在日常生活和工作生活中常常被丰富的平台信息所包围.因此,人们迫切需要寻找一条能够快速、准确获得所需信息的途径.自动文本摘要技术能够快速地精简源文本,并根据其主要内容来生成短文本摘要,有效地为人们快速获取信息提供了很大的便利.
根据文本摘要的实现方式可分为抽取式摘要和生成式摘要.抽取式摘要通过对源文本句子根据重要度重新排序组合,抽取能够表示源文本主要信息的短语、句子以生成摘要.该方法简单实用,生成的摘要全部来源于源文本.但是通常会有句子间不连贯的问题,同时还会产生一些冗余词.生成式摘要通常使用编码器获取源文本的上下文特征信息,利用自然语言生成技术生成摘要.虽然该方法比抽取式方法生成的摘要更具有语义性,但是会存在生成摘要重复和生成未登录词等问题.近年来,随着在seq2seq框架中使用注意力机制,源文本和摘要之间加强了相关性联系,生成摘要的通顺性也相继得到改善,文本摘要技术也愈发成熟.
本论文首次将文本摘要技术应用在党建新闻领域中,提出Tri-PCN模型为长文本的党建新闻生成合适的新闻标题.本论文的创新之处在于:1)使用Transformer模型作为编码器和解码器,利用多端注意力机制从新闻长文本序列中提取多层次文本特征,使模型更加适合党建新闻长文本序列的特点.2)从指针生成网络中引入指针复制功能,使生成的新闻标题保留新闻文本中关键的党建信息.在本论文构建的党建新闻数据上,通过3个模型的实验对比,表明本文提出的Tri-PCN模型更适合党建新闻领域的文本摘要任务.
2 相关工作
自动文本摘要作为自然语言处理的主要任务之一,人们早已开展大量的研究.早期的研究主要是抽取式文本摘要技术,根据关键词、句子位置等特征,计算关键词、关键句的重要度,选择最得分最高的词和句子组成摘要.2004年,Mihalcea等[1]将源文本中的句子作为图的节点,图中边的权重通过计算节点之间的相似度获得.然后使用基于图算法的TextRank算法计算句子的重要度,将句子重新排序重组,组成新的摘要.
随着深度学习的发展,利用神经网络模型的生成式方法也得到广泛应用.2015年,Rush等[2]首次提出在seq2seq框架中应用注意力机制的文本摘要模型.该模型以卷积神经网络(CNN)为编码器,神经网络语言模型(NNLM)为解码器,结合注意力机制生成摘要,是生成式文本摘要技术的一项突破性工作.2016年,Chopra等[3]在Rush等[2]的工作成果上使用循环神经网络(RNN)替代卷积神经网络(CNN)作为编码器,利用循环神经网络的时序性提高了摘要的质量.同年,Nallapati等[4]将seq2seq框架中的编码器和解码器全部替换为循环神经网络,同时在编码器中加入了额外的词性和实体信息特征,进一步提高了摘要的质量.虽然基于seq2seq框架的生成式文本摘要技术逐渐成为主流,然而仍然存在一些问题,比如生成未登录词(OOV)、生成词重复等问题.2015年,Vinyals等[5]提出了在seq2seq框架中添加指针网络的Ptr-Net模型,指针结构[6-8]逐渐成为主流.2016年,Gu等[9]提出了添加拷贝机制的CopyNet模型.两种模型在生成摘要时不仅可以从词表中选择词,还可以从源文本中直接拷贝词,有效缓解了未登录词问题.2017年,See等[10]提出的指针生成网络(Pointer-generator network)将指针机制和拷贝机制同时添加到seq2seq框架中,缓解了未登录词和生成词重复问题.2018年,Gehrmann等[11]等提出基于一种注意力机制自上而下选择内容的摘要生成模型,Lin等[12]重新使用卷积神经网络作为编码器对源文本进行全局编码,在文本摘要任务上取得了很大的提高.Shen等[13]根据语言结构提取句子特征向量,并构建AM-BRNN模型生成摘要.同年,越来越多的研究者开始将强化学习应用在文本摘要任务中.Paulus等[14]首次在文本摘要任务上引入了强化学习,通过对生成摘要的评估指标进行联合优化,缓解了曝光偏差问题.Xu等[15]提出一种基于卷积自注意力编码并结合强化学习策略的强化自动摘要模型.
经过实验研究表明,基于seq2seq框架的生成式文本摘要模型更适合短文本标题的生成,对于过长的文本生成标题效果比较差.原因在于,编码器无法充分的从过长的文本序列提取上下文信息特征,产生长期依赖问题.而以RNN为代表的编码器因为时序性特点,无法并行计算;在模型训练时需要花费大量的时间,同时还需要大量的计算资源.因此,本文针对上面两种缺点加以改善,并成功应用在党建新闻领域中.
3 本文的方法与模型
本文提出的融合指针网络的党建新闻领域文本摘要模型结构如图1所示.该模型是基于编码器-解码器结构提出的,由3部分组成,第1部分是新闻文本编码器,输入分好词的新闻文本,经过词嵌入后得到文本的词向量(Embedding)表示,使用Transformer模型[16]的多端注意力机制(Multi-Head Attention)提取新闻文本特征,得到K特征矩阵和V特征矩阵;第2部分是指针复制网络,通过编码器提取的两个特征矩阵与解码器提取的Q特征矩阵计算,得到复制指针pgen,使用复制指针选择新闻标题词是从词表中生成还是从新闻文本中复制;第3部分是新闻标题解码器,同编码器相似,输入分好词的新闻标题,词嵌入后得到标题的词向量表示,使用Transformer模型提取新闻标题特征,得到Q特征矩阵,利用复制指针选择的标题词生成新闻标题.
图1 模型总体结构Fig.1 Modestructure
3.1 新闻文本特征提取编码器
为了将新闻文本输入到模型中进行处理,需要使用编码器对文本进行特征提取.目前流行的编码器结构为双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM[17]),但是在党建领域中,新闻文本的长度普遍比普通文本摘要任务长3-5倍.因此,本文采用Transformer模型作为编码器.Transformer编码器的输入与其他编码器不同,是新闻文本分词后的词向量(Embedding)与词位置向量(PositionalEncoding)的累加组成.然后使用多端注意力机制(Multi-HeadAttention)对输入词向量进行特征提取;使用残差连接和层归一化(Add&Norm)用来缓解梯度消失、加速模型训练时收敛.相比于双向长短时记忆网络的优点是:1)处理更长的文本序列;2)可以高效的并行化计算.Transformer模型结构如图2所示.
图2 Transformer编码器Fig.2 Transformer encoder
3.1.1 词嵌入
给定一个新闻文本序列S=(w1,w2,…,wn),对文本进行分词.在输入到编码器前,使用word2vec词向量训练工具把每个词转换成向量表示X=(x1,x2,…,xn).由于Transformer编码器并不像双向长短时记忆网络编码器具有时序性,因此使用正余弦函数为每个词添加一个位置编码T=(t1,t2,…,tn),计算方式如式(1)、式(2)所示:
PE(pos,2i)=sin(pos/1000002i/dmodel)
(1)
PE(pos,2+1)=cos(pos/1000002i/dmodel)
(2)
其中,pos为词在句子中的位置,i为向量的某个维度,dmodel为词向量的维度.最终的词嵌入向量由词向量与位置编码向量通过相加得到.
3.1.2 多端注意力特征提取模型
将新闻文本序列的词嵌入向量分别乘以3个不同的参数矩阵WQ、WK、WV进行线性映射,得到Transformer模型的输入 Q矩阵、K矩阵和V矩阵.为了更好的捕获不同层次文本序列的特征信息,该模型使用了由多个缩放点积自注意力(Scaled Dot-Product Attention)构成的多端注意力模型,多端注意力模型模型结构如图3所示.
图3 多端注意力模型结构图Fig.3 Multi-head attention model structure
其中,缩放点积自注意力的计算方式如式(3)所示:
(3)
其中,dk=64为缩放因子,通过缩放因子的归一化保证训练时梯度的稳定.不同缩放点积自注意力模型得到不同的输出向量Z,将8个输出向量进行拼接并通过一个全连接层后得到多端注意力模型的输出,计算方式如式(4)所示:
MultiHead(Q,K,V)=Concat(head1,…,head8)WO
(4)
接着加入残差连接以缓解梯度消失问题,同时对输出进行层归一化,加快训练时模型收敛.之后,将输出向量输入到一个全连接前馈神经网络层,该全连接层由两次变换构成.第1次通过ReLU激活函数做非线性映射,第2次是使用线性激活函数恢复到原始维度,计算方式如式(5)所示:
FFN(x)=max(0,xW1+b1)W2+b2
(5)
为了获取多层次的新闻文本信息,得到更加充分的新闻本文表征,在编码阶段总共堆叠6个相同的模块进行计算,得到两个特征矩阵K矩阵和V矩阵.
3.2 融合指针网络的新闻标题生成解码器
在解码阶段,同样使用一个Transformer模型作为解码器用来生成新闻标题.为了能够从输入的新闻文本中抽取更多的重要信息,模型中添加了指针生成网络.模型自动生成标题词的功能,同指针生成网络从输入文本中复制词的功能相结合,有效提高了生成的新闻标题的丰富度.
与编码阶段不同的是,解码阶段是一个顺序输入过程.在生成新闻标题的每一个时刻t,使用一个掩码多端注意力模型进行特征提取(训练阶段输入的是参考新闻标题t时刻的词,测试阶段是解码器t-1时刻生成的词).掩码多端注意力模型将t时刻之后的词进行掩码操作,只允许使用t时刻之前的特征向量计算t时刻的特征向量.除了增加掩码操作,其他的计算方式都与解码阶段相同.最终,得到一个特征矩阵Q,Q矩阵表示从开始时刻到当前时刻的新闻标题特征向量.
接着使用多端注意力模型对Q矩阵和来自解码器的K矩阵、V矩阵进行计算,同样在多端注意力模型后加入残差连接和全连接前馈神经网络层,最后经过 层的归一化,得到词表中所有词的分布概率Pvacab.
在党建领域中,新闻文本在分词后通常包含比较多的低频词,经过数据预处理操作,统一被归档为未登录词(OOV),在词表中使用“
在解码阶段,每一个时刻t通过复制指针pgen控制预测词是从词表中生成还是从新闻文本中复制.指针pgen计算方式如式(6)所示:
(6)
最终,融合了指针网络模型的解码器,可以通过指针pgen选择从新闻文本中直接复制党建关键信息词.计算词表的分布概率前,先将新闻文本中的未登录词提取出来扩充到词表中构建新的词表,然后再计算t时刻预测词w的分布概率.计算方式如式(7)所示:
(7)
可以看出,若预测词w是未登录词,那么pvocab(w)等于零.这样,预测词w就可以只从新闻文本中生成.其中,αt是新闻文本序列对解码器t时刻预测词的注意力分布权重,通过解码器提取新闻标题得到的Q特征矩阵与编码器提取新闻本文得到的K特征矩阵、V特征矩阵计算而得.具体计算方式如式(8)、式(9)所示:
et=vTtanh(WQQt+WKKt+WVVt+battn)
(8)
αt=softmax(et)
(9)
因为新闻文本中可能存在多个位置i的词wi都是预测词w,因此计算词表概率时需要将所有预测词w的注意力权重进行累加,如公式(7)所示.
4 实验与分析
4.1 数据集描述
目前国内还没有党建领域的新闻文本摘要数据集,公开的高质量中文文本摘要数据集只有哈工大的LCSTS数据集[18],但是该数据集包含了科技、娱乐等多个领域,句子的平均长度在10-30之间,和党建领域的新闻数据相差较大.
实验所用数据集均为使用Python爬虫抓取的人民日报上近20年的新闻,包括新闻标题和新闻文章两部分.因为原始数据纷乱复杂,所有数据都经过了预先处理,包括删除特殊
表1 数据集的统计信息Table 1 Statistics of dataset
符号、去除停用词等,并使用jieba分词工具进行分词,过滤词频小于3的词和长度大于100小于380的新闻.通过整理实际获取到的新闻数据为25W条,分为训练集(80%,20W条数据)、验证集(15%,37500条数据)和测试集(5%,12500条数据).数据集信息如表1、表2所示.
表2 数据集样例Table 2 Sample dataset
4.2 实验设置
4.2.1 实验环境
实验环境如表3所示.
表3 实验环境Table 3 Lab environment
4.2.2 实验参数设置
本实验的词向量训练使用Google开源的word2vec工具,词向量的维度设置为512.批次大小设置为64.Transformer模型中所有的全连接前馈神经网络层隐状态维度都设置为2048.优化算法使用Adam算法,初始学习率设置为为0.002,超参数设置为β1=0.9,β2=0.98,ε=10-9.解码时,使用集束搜索方法,束宽度设置为4.
4.2.3 实验评价指标
实验采用ROUGE[19]作为党建新闻标题生成模型的评测方法.ROUGE-N通过比较生成摘要和参考摘要的重叠词以衡量两者之间的相似度,计算方法如式(10)所示:
(10)
其中,Ref Summaries为参考摘要,即人工爬取的新闻标题.n-gram为n元词(n个连续的词).Countmatch(-ngram)为同时出现在模型生成的摘要和参考摘要中的n元词个数.实验中采用了ROUGE-1(1-gram)和ROUGE-2(2-gram),有效的衡量生成新闻标题包含的关键信息量.
实验中还采用了ROUGE-L,通过计算生成摘要和参考摘要的最长公共子序列,衡量生成新闻标题的流畅度和可读性.
4.3 实验对比方法
为了验证模型的有效性,本文实现了3个对比实验模型与本文提出的模型进行比较.
TextRank:该模型是基于图算法的一种抽取式文本摘要方法,通过计算句子间的重要度,进行排序重组生成新的摘要.该模型经常作为抽取式自动文本摘要的基准模型.
ABS:Rush等[2]等首次提出在seq2seq框架的基础上使用注意力模型,作为生成式文本摘要方法并应用到自动文本摘要任务中.该模型经常作为生成式自动文本摘要的基准模型.
Pointer Generator:在ABS的基础上,通过指针结构选择摘要词,并且添加覆盖机制,有效缓解了未登录词和生成摘要重复问题.
对比模型和本文提出的模型在党建新闻数据集上的实验评测结果如表4所示.
表4 模型评测对照表Table 4 ComparisonTable of models
由表4可以看出:
1)基于TextRank算法的抽取式文本摘要模型作为一种简单的非监督学习方法,在3项ROUGE评测指标上都略高于生成式自动文本摘要的基准模型ABS.虽然ABS基准模型使用了注意力机制,有效的从长文本序列中提取到丰富的文本特征信息,但是抽取式方法仍然能获得不错的成绩,证明新闻标题中的关键词大部分来自于新闻文本中的词.
2)与生成式文本摘要基准模型ABS相比,Pointer Generator模型有了进一步的提高.因为Pointer Generator模型使用指针结构和覆盖机制缓解了未登录词问题以及重复生成问题.说明指针网络可以明显提高新闻标题的质量.
3)与3个对比模型相比,本文提出的Tri-PCN模型在3项ROUGE评测指标上均取得最好成绩.表明该模型在党建新闻领域的数据集上,可以从长文本的新闻序列中提取更多的文本特征,同时通过指针复制网络保留新闻的关键信息,使生成的摘要更满足党建新闻的要求.
5 结 语
针对于党建新闻领域的自动文本摘要任务,本文提出了一种融合指针网络的生成式模型Tri-PCN.在从党建新闻文本中提取特征时使用由多端注意力机制为单位的Transformer模型作为编码器和解码器,使得模型能更好的处理长文本序列,同时Transformer模型的并行化计算也加速了训练过程.融合了指针网络使得模型更大程度上保留新闻文本中的重要党建信息.通过在爬取的真实党建新闻数据集上进行实验对比,本文的模型比其他方法生成的新闻标题有更好的准确性和可读性.