融合词汇特征的生成式摘要模型
2019-06-11江跃华丁磊李娇娥杜皓晅高凯
江跃华 丁磊 李娇娥 杜皓晅 高凯
摘要:为了能在摘要生成过程中利用词汇特征(包含n-gram和词性信息)识别更多重点词汇内容,进一步提高摘要生成质量,提出了一种基于sequence-to-sequence(Seq2Seq)结构和attention机制的、融合了词汇特征的生成式摘要算法。算法的输入层将词性向量与词向量合并后作为编码器层的输入,编码器层由双向LSTM组成,上下文向量由编码器的输出和卷积神经网络提取的词汇特征向量构成。模型中的卷积神经网络层控制词汇信息,双向LSTM控制句子信息,解码器层使用单向LSTM为上下文向量解码并生成摘要。实验结果显示,在公开数据集和自采数据集上,融合词汇特征的摘要生成模型性能优于对比模型,在公开数据集上的ROUGE-1,ROUGE-2,ROUGE-L分数分别提升了0.024,0.033,0.030。因此,摘要的生成不仅与文章的语义、主题等特征相关,也与词汇特征相关,所提出的模型在融合关键信息的生成式摘要研究中具有一定的参考价值。
关键词:自然语言处理;文本摘要;注意力机制;LSTM;CNN
中图分类号:TP319文献标志码:A
Abstract: In order to use lexical features (including n-gram and part of speech information) to identify more key vocabulary content in the summarization generation process to further improve the quality of the summarization, an algorithm based on sequence-to-sequence (Seq2Seq) structure and attention mechanism and combining lexical features is proposed. The input layer of the algorithm combines the part of speech vector with the word vector, which is the input of the encoder layer. The encoder layer is composed of bi-directional LSTM, and the context vector is composed of the output of the encoder and the lexical feature vector extracted from the convolution neural network. The convolutional neural network layer in the model controls the lexical information, the bi-directional LSTM controls the sentence information, and the decoder layer uses unidirectional LSTM to decode the context vector and generates the summarization. The experiments on public dataset and the self-collected dataset show that the performance of the summarization generation model considering lexical feature is better than that of the contrast model. The ROUGE-1, ROUGE-2 and ROUGE-L scores on the public dataset are improved by 0.024, 0.033 and 0.030, respectively. Therefore, the generation of summarization is not only related to the semantics and themes of the article, but also to the lexical features.The proposed model provides a certain reference value in the research of generating summarization of integrating key infromation.
Keywords:natural language processing; text summarization; attention mechanism; LSTM; CNN
近年來,由于互联网技术的迅猛发展以及用户规模的爆发式增长,互联网的数据呈现指数级增长。文本是目前形式多样的信息数据中最主要的存在形式。如何能从海量的文本数据中挖掘出重要而且是用户关心的话题和信息,对于提升阅读效率、消化海量信息是非常有帮助的。文本摘要是文本信息自动抽取的主要任务之一,它追求以更加精简、精确的方式,用少量文本尽可能地表述原文含义。按照产生方式的不同,文本自动摘要可分为抽取式和生成式摘要。其中,抽取式摘要主要是指从原文中抽取出和文章主题相关的内容,在不超过一定字数的限制下,尽可能地让抽取的句子覆盖到原文所有含义,并按顺序排列生成一段摘要文本;生成式摘要则是通过让模型学习原文中所表达的含义,推断所需要生成的摘要内容,由模型自动生成一段摘要文本。根据任务的不同,文本摘要也可分单文档摘要和多文档摘要。通常,人们在阅读文章时,一方面要保留句子的大部分信息,另一方面要关注句子中重要的词汇信息。在生成摘要时,应对原文中的短语按照词性做不同的处理,例如对名词、动词等有实际意义的词汇信息,在生成摘要时保留信息;对于介词、虚词等无明显含义的词汇应保留较少的信息。
在Seq2Seq框架和attention机制的基础之上提出了使用卷积神经网络提取词汇特征,并将其融合在上下文中的方法,对原文的词汇特征进行提取,并和基础框架所提取的句子特征一起构成上下文特征矩阵,目的在于使用上下文信息时既要保留文本的序列信息,同时也要保留重点词汇特征信息。
1相关工作
在生成单文档摘要时,可通过深度学习的方式实现,即使用大规模的数据集,以数据驱动的方式训练神经网络,学习原文浅层语义并生成摘要。在相关工作中,RUSH等[1]和CHOPRA等[2]使用Seq2Seq框架,在编码器端给定输入的句子,在解码器端输出摘要的每个词,并以局部注意力机制提升效果。NALLAPATI等[3]融入传统的TF-IDF,POS、命名实体等特征来提升效果,引入Pointer解决未知词和低频词。HU等[4]提供了一个新的中文短文本摘要数据集(数据来源为新浪微博),并根据正文和摘要之间的相关性进行了人工评分。YAO等[5]总结了近几年文本摘要领域的新方法,从抽取式和生成式、单文档和多文档这几方面进行评价,包括数据集和评价方法等。摘要生成时,其输出句子的长度较难把控,为解决这个问题,KIKUCHI等[6]提出在解码器端,将原摘要的长度信息输入到LSTM中进行控制,取得了较好的结果。ZENG 等[7]考虑到人工编写摘要时通常需要先对全文内容通读以了解文章主题,提出将全文信息通过RNN编码为一个向量,再进行解码。SEE等[8]通过在输出端对下一个词的生成或复制的概率进行预测,解决OOV(out-of-vocabulary)和低频词的问题。GEHRING等[9]将编码器和解码器用卷积神经网络替代,达到了接近state-of-the-art的表现。CHANG等[10]在生成中文摘要时,当编码器输入词时可使模型获得较多的信息,解码器输出字时可压缩并精简文章的内容。MA等[11]在训练时将摘要内容进行自编码,监督生成的原始内容编码,使编码器生成的内容更加接近参考摘要。PAULUS等[12]提出内注意力机制解决重复词语的问题,训练方法中融合了监督学习和强化学习以提升效果。WANG等[13]以convolutional sequence to sequence(ConvS2S)为基础,将主题信息融入其中,使用强化学习训练方法优化。FAN等[14]根据用户写作摘要的风格,包括摘要长度、用词等特征生成摘要。GAO等[15]提出了读者感知生成摘要的任务,设计了一个名为读者感知摘要生成器(RASG)的对抗性学习模型,将读者的评论纳入生成式摘要。针对PECH(产品感知答案生成)任务,GAO等[16]设计了一种基于对抗性学习的模型PAAG,提出一种基于注意力机制的阅读审查方式,用来捕获给定的问题中与评论相关度最高的词语。
和上述工作不同的是,笔者提出基于Seq2Seq的框架,在上下文特征中加入由卷积神经网络提取的词汇特征,根据词性信息判断词汇的重要性,进而保留文章的重点内容,完成文本摘要的生成。
2融合词汇特征模型
以Seq2Seq为基础框架模型,结构如图1所示。在输入层,使用词性向量和词向量进行叠加,构成整个网络的输入向量。在编码器端,分为2部分:一部分使用双向LSTM[17]模型,对分词后的源文本内容进行句子级别的浅层表征学习;另一部分使用卷积神经网络对所有词汇提取n-gram和词性特征,最后将2部分学习到的特征矩阵融合在一起,构成上下文向量。在输出摘要时使用单向的LSTM,每个时间步都需要对上下文特征矩阵进行注意力权重的分配,进而生成词汇。
2.1构建输入层向量
融合短语特征的自动摘要模型的输入由2部分构成,第1部分将分词后的源文本转换成词向量,使用xw={xw1,xw2,…,xwn}来表示;第2部分将源文本的词性转换为向量,用xp={xp1,xp2,…,xpn}表示,其中n表示输入词性的索引。最后,对输入序列的词向量和词性向量连接,得到带有词性特征的输入向量wp,如式(1)所示。wpn=∑ni=1[xwi;xpi]。 (1)2.2Seq2Seq模型
编码器使用双向LSTM模型,输入的是带有词性特征的向量,通常将编码器所有输出的隐藏状态作为原始句子的浅层语义表示,在解码器端对该向量进行解码。由于模型所使用的是双向LSTM,每个时间步都接收来自前一时刻或后一时刻的隐层状态,所以在每个时间步需要对前向和后向的各个隐层状态向量进行连接,得到包含前后语义的隐藏状态。式(2)中t,t+1表示后一时刻的隐层向量,式(3)中t,t-1表示前一时刻的隐层向量,式(4)中t表示当前时刻融合前向和后向的隐层向量,对于解码器同样使用LSTM神经网络进行解码。t,t=LSTM(wpi,t+1,t+1),(2)
t,t=LSTM(wpi,t-1,t-1),(3)
t=[t:t]。(4)式(5)中st表示解码器端的隐藏向量,ct表示LSTM中的状态向量。式(6)中yt表示每个时间步输出的摘要序列词汇。st=LSTM(ct,yt-1,st-1),(5)
yt=softmag(g[ct;st])。(6)2.3融合词汇特征
借鉴LIN 等[18]的工作內容,依据其设定的卷积神经网络结构,卷积核的大小依次设定为k=1,k=3,使卷积神经网络能提取词汇的n-gram的特征。在卷积层,将包含词性的词性序列作为基本单位输入到网络中,使用多个与输入向量维度相一致的卷积单元学习词汇特征。假设整个输入序列的长度为n,对于每个卷积单元,经过一次卷积后,生成与输入矩阵大小相同的特征矩阵,最后将多个卷积结果和编码器的隐层状态连接,使用全连接层学习多种特征融合。h=(W[g1,g2,g3,]+b)。(7)式(7)中h为最终的编码器隐层向量,维度为m×n,m代表输入向量的维度,n表示输入序列的长度,其中g1,g2,g3表示由卷积层输出的特征矩阵。表示激活函数GLU[19]。得到融合词汇特征和句子特征的隐层向量后,引入注意力机制[20]来捕获输出内容与上下文向量的关联程度。ct=∑Ni=1αtihi, (8)
αt=exp(eij)∑Tk=1exp(eik),(9)
eij=α(si-1,hj)。(10)式(8)—式(10)中,ct表示當前时刻的上下文向量,eij表示解码器端隐层状态st-1和编码器隐层状态hj之间的相关系数。当输出摘要时,需要将得到上下文的向量ct输入到解码器的LSTM单元中。
2.4损失函数
本文训练的模型采用反向传播方式,目标函数(代价函数)为交叉熵代价函数,将yt作为输出生成的摘要词汇,X为源文本输入序列,模型训练的目标是在给定输入语句的情况下最大化每个输出摘要词的概率。式(11)中k表示同一个训练批次句子的索引,t表示句中输入词汇的索引。Δ=-1N∑Nk=1∑Tt=1log[p(y(k)t|y(k) 3实验 3.1数据集描述 本文模型所使用的第一个数据集是大规模的中文短文本摘要数据集LCSTS[4],主要是收集自新浪微博的内容,总共包含超过240多万条摘要文本内容。每对摘要文本中,其原始内容少于140个字,摘要则由人工编写。数据集共分为3部分,第1部分约240万对,第2部分约1万对,第3部分约1千对,其中第2部分和第3部分由人工方式对标题和正文之间的相关度按照1至5进行评分,得分越高相关度越高。按照HU等[4]的工作内容,将数据集分割为训练集、验证集和测试集。另外,还使用第2个数据集,以人工方式收集并整理20条微博内容供模型测试使用,参考摘要和原文内容的抽取方式与LCSTS[4]数据集的抽取方式相同。 3.2实验参数设置 模型中词向量的维度为512,词性向量的维度为50,经过网络合并输出后的特征维度为562。以每64个样本为一个批次的方式进行模型训练,设置Adam[21]的学习率为 0.001,设置代价函数的惩罚项为0.001。同时设置编码器的LSTM神经网络层数为3层,解码器的LSTM神经网络为1层,每个卷积层的输出维度与输入向量维度保持一致。该摘要生成模型运行在Ubuntu 16.04系统,运行环境为PyTorch0.4和NVIDIA GTX 1080ti显卡。 3.3评价指标设定 实验借鉴RUSH等[1]的工作内容,使用自动文本摘要的相关评测标准ROUGE[22]。该评测方法基于生成摘要和参考摘要中n-gram的共现信息来评价摘要质量,现在被广泛应用于DUC评测任务。评测标准包括ROUGE-N,ROUGE-L等。其中N表示N元词,而L表示最长公共序列。ROUGE-N的计算方式为ROUGE-N=∑S∈sumref∑gramn∈Scountmatch(gramn)∑S∈sumref∑gramn∈Scount(gramn),(12)式中:sumref表示参考摘要;countmatch(gramn)表示由模型生成的摘要和标准参考摘要中共同出现的n元词个数,count(gramn)则表示标准参考摘要中出现n元词的个数。ROUGE-L表示模型生成摘要与标准参考摘要之间,最长的公共序列长度与参考摘要长度之间的比值。ROUGE-L相比于ROUGE-N考虑了摘要中词语的次序,评价更为合理。 4实验结果及分析 本文所使用的对比模型是RNN[14]和RNN content[14]。其中,RNN content使用了上下文向量Content,将所有的编码器输出作为解码器的输入;RNN(W)使用的是jieba分词后的文本进行训练;RNN(C)使用基于词的方法训练模型。Seq2Seq是本文所实现的基于Seq2Seq并结合注意力机制的模型,其编码器和解码器使用的分别为双向LSTM和单向LSTM。 表1给出的是不同模型的ROUGE测度值。本文所提出的融合词汇特征的摘要生成模型与其他4种模型相比,性能有所提升。从表1中可以看出,使用双向LSTM作为解码器的Seq2Seq模型,要比单向的RNN作为编码器的模型在ROUGE-1,ROUGE-2和ROUGE-L上分别提升0.013,0.020,0.019,说明使用双向LSTM更能捕捉文章特征信息。融合词汇特征的模型(HN)在基于Seq2Seq框架的基础上,增加词汇特征的融合要比不使用词汇特征的模型在ROUGE-1,ROUGE-2和ROUGE-L上的指标均有所提升。实验效果证明融合词汇特征的模型比无词汇特征的模型效果要更好一些。 这里给出另一组与图2中的实验结果样例。源文本是:昨晚,南车、北车陆续发布公告。据一财记者多方了解,公告所提到的“筹划重大事项”,正是酝酿将南北车合并,合并一事由国务院要求推进,并由国务委员王勇负责督办,而合并背后的导火索,是两家公司在海外市场竞相压价的“恶性竞争”。生成的摘要内容:避免海外恶性竞争国务委员牵头推南北车合并。图2纵轴代表生成的摘要内容,横轴代表原文内容,由于篇幅所限,只截取具有代表性的内容。从图2中可以看到,在生成的摘要词汇和原文词汇间注意力权重的不同,如原文内容中的“合并一事由国务院要求推进”与摘要中的“国务委员牵头推南北车合并”,这两段文本间色块的深度明显大于其他部分,表示这两段内容间有较强的关联性。但图2中也有一些注意力权重未能达到预期效果,如原文中的“由国务院”的“由”字和摘要中“南北车”的“车”字相关性最高,导致权重分配错误的原因可能是因为在模型训练过程中,对一些频繁出现的搭配进行了错误的学习,解决途径之一是增加训练集,以降低某些错误固定搭配的比例。 表3所示的为本文所实现的HN模型和Seq2Seq模型在测试集2上的ROUGE分数。从表3中可看到HN模型生成摘要的ROUGE分数比Seq2Seq的要更高一点。说明本文所实现的模型在其他测试集上,也比单纯的结合注意力机制的Seq2Seq模型更优。但测试集1的ROUGE分数明显高于测试集2上的分数,主要由于测试集2为人工收集的数据集,考虑到成本问题,只有20条,数据不具有广泛的代表性,仅作为比较模型的优劣程度的指标。 5結语 笔者提出的融合词汇特征的模型应用卷积神经网络从原文本中提取词汇特征,采用双向LSTM提取句子特征,然后将词汇特征与句子特征相融合,以达到利用词汇特征寻找文章中重点内容的需求。通过与其他模型相比较,证明了融合词汇特征的模型是有效的。 虽然所提出的模型达到了预期效果,但仍然有较大的提升空间,首先本文的模型只是通过非线性函数融合句子特征和词汇特征,未对词汇特征的权重进行进一步优化,以后可考虑使用多层次注意力机制,对词汇特征进一步提取。其次在做摘要任务时,需要考虑文章的主题信息,而且如果文章内容较长时,在模型的训练过程中通常会出现梯度爆炸或梯度消失等问题,也不利于模型提取重要信息。未来可进一步考虑在长文本内容中,使用划分文章段落和句子的层次结构的方法缩短序列,达到分块提取重要信息的需求,同时可加入文章主题信息作为监督,保证模型生成的摘要和文章主题相一致。 参考文献/References: [1]RUSH A M, CHOPRA S, WESTON J. A neural attention model for abstractive sentence summarization[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon:[s.n.], 2015:379-389. [2]CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. San Diego:[s.n.], 2016: 93-98. [3]NALLAPATI R, ZHOU B, SANTOS C N D, et al. Abstractive text summarization using sequence-to-sequence rnns and beyond[C]//Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Berlin:[s.n.],2016:280-290. [4]HU Baotian, CHEN Qingcai, ZHU Fangze. LCSTS:A large scale Chinese short text summarization dataset[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon:[s.n.],2015: 1967-1972. [5]YAO Jinge, WAN Xiaojun, XIAO Jianguo. Recent advances in document summarization[J]. Knowledge and Information Systems, 2017, 53(2): 297-336. [6]KIKUCHI Y, NEUBIG G, SASANO R, et al. Controlling output length in neural encoder-decoders[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin:[s.n.], 2016:1328-1338. [7]ZENG Wenyuan, LUO Wenjie, FIDLER S, et al. Efficient summarization with read-again and copy mechanism[C]// Proceedings of the International Conference on Learning Representations.[S.l.]:[s.n.],2017:1-13. [8]SEE A, LIU P J, MANNING C D. Get to the point: Summarization with pointer-generator networks[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.]:[s.n.],2017:1073-1083. [9]GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning[C]//Proceedings of the 34th International Conference on Machine Learning. [S.l.]:[s.n.],2017: 1243-1252. [10]CHANG C T, HUANG C C, HSU J Y J, et al. A hybrid word-character model for abstractive summarization[EB/OL]. https://arxiv.org/pdf/1802.09968v2.pdf, 2018-02-28. [11]MA Shuming, SUN Xu, LIN Junyang, et al. Autoencoder as assistant supervisor: Improving text representation for Chinese social media text summarization[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Short Papers). Melbourne:[s.n.], 2018:725-731. [12]PAULUS R, XIONG Caiming, SOCHER R. A deep reinforced model for abstractive summarization[C]//Proceedings of Sixth International Conference on Learning Representations. [S.l.]:[s.n.],2017:1-13. [13]WANG Li, YAO Junlin, TAO Yunzhe, et al. A reinforced topic-aware convolutional sequence-to-sequence model for abstractive text summarization[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI). [S.l.]:[s.n.], 2018: 4453-4460. [14]FAN A, GRANGIER D, AULI M. Controllable abstractive summarization[C]//Proceedings of the 2nd Workshop on Neural Machine Translation and Generation. Melbourne:[s.n.],2017:45-54. [15]GAO Shen, CHEN Xiuying, LI Piji, et al. Abstractive text summarization by incorporating reader comments[EB/OL]. https://arxiv.org/pdf/1812.05407v1.pdf, 2018-12-13. [16]GAO Shen, CHEN Xiuying, LI Piji,et al. Product-aware answer generation in e-commerce question-answering[C]//Proceedings of the 12th ACM International Conference on Web Search and Data Mining.[S.l.]:[s.n.],2019:07696. [17]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. [18]LIN Junyang, SUN Xu, MA Shuming, et al. Global encoding for abstractive summarization[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Short Papers). Melbourne:[s.n.], 2018:163-169. [19]DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney:[s.n.], 2017: 933-941. [20]BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[C]// Proceedings of International Conference on Learning Representations.San Diego:[s.n.], 2015:14090473V6. [21]KINGMA D P, BA J L. Adam: A method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations.San Diego:[s.n.], 2015:1412.6980V9. [22]LIN C Y, HOVY E. Automatic evaluation of summaries using N-gram co-occurrence statistics[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Stroudsburg:[s.n.], 2003:71-78.第40卷第2期河北科技大學学报Vol.40,No.2 2019年4月Journal of Hebei University of Science and TechnologyApr. 2019