APP下载

一种融合主题的PGN-GAN文本摘要模型

2023-01-31郭继峰费禹潇孙文博谢培浇

小型微型计算机系统 2023年1期
关键词:主题词指针文档

郭继峰,费禹潇,孙文博,谢培浇,张 健

1(东北林业大学 信息与计算机工程学院,哈尔滨 150000) 2(无锡科技职业学院 人工智能学院,江苏 无锡 214029)

1 引 言

随着近年来互联网文本信息的爆发式增长,极大的增加了阅读的困难,从繁杂的文本中提取有用的信息变得越显得格外重要,因此如何高效准确的从中提取信息组成摘要成为了目前互联网行业的迫切需求.

在先前的工作中,有研究人员利用隐迪利克雷(LDA)方法生成文档主题模型以提取文档集或语料库的潜在主题信息[1],随着LDA技术的不断成熟,主题模型除了用在分类预测的方面[2]也更多的应用在文本摘要方面的工作[3].

现阶段文本摘要技术大致分为两类,抽取式摘要与生成式摘要[4],抽取式摘要技术一般依靠词频、统计等抽取原文的词语或句子,生成式摘要技术一般需要利用神经网络从中提取文本的特征再通过语料生成所需的摘要,但目前常用的基准序列到序列模型仍然具有事实偏差、不够还原等问题.目前解决以上问题的主流思想是指针生成网络[5].

随着生成对抗网络(GAN)[6]在图像领域的广泛应用,GAN也被尝试应用在了文本生成中[7].本文使用生成器G来生成文本,并利用鉴别器D作为文本的分类器,D的主要作用是鉴别文本是由机器生成还是人为生成.G和D的对抗学习最终可以协助传统的网络结构生成更高质量的文本.

为了能够生成更加贴近主题信息和原文本的摘要,本文在指针生成网络的基础上尝试融入了LDA主题模型,并将主题信息融入到结合GAN的序列到序列模型中,该模型将利用主题来模拟人类的先验知识,从而使摘要更多的结合主题生成,在获得主题词向量后与上下文共同合成新向量来影响文本的生成.

2 相关工作

在目前主流自动摘要方法中抽取式摘要根据特定的约束条件从原文抽取相关且重要的句子,经过组合后组成摘要[8],生成式摘要需要对原文内容及结构加以理解,精炼出原文的主旨和概要,从语言的撰写来说,生成式摘要更接近人类语言摘要的撰写方式.

抽取式摘要的现有方法中句子重要度计算通常会结合考虑各种统计学和语言学特征,例如句子的位置、词频、词汇链等.句子抽取则大致分为无监督和有监督两种,其中无监督方法主要包括基于质心的方法[9]、基于图模型的方法[10],基于主题模型的方法等.有监督方法包括支持向量回归,条件随机场模型[11]等方法.但是抽取式摘要多是启发式算法计算句子分数,缺少对于概率的思考,所以有研究人员开始转向考虑带有贝叶斯的方法.2003年Blei等人提出LDA模型[1],将文档看成是由K个主题随机产生的,将文本的词袋作为特征,经过LDA模型训练后,以新的概率分布来描述文档的主题.刘娜等人在2014年提出基于LDA的重要主题多文档自动摘要方法,在DUC2002数据集上生成摘要时优先考虑重要主题产生的特征[12].

生成式摘要的研究随着近年来人工智能技术的发展而不断增加,随着Seq2Seq模型被应用在自然语言领域上,2015年Rush等人首次采用神经模型进行生成式摘要的应用[13],2016年Paulus等人首次提出基于循环神经网络的生成式文本摘要[14].

2016年Xing等人考虑将主题信息应用到传统的Seq2Seq结构中[15],通过从预训练的LDA模型获得消息的主题词,并通过主题注意力合成主题向量,共同影响消息的生成,这一思路被应用在聊天机器人中,使得机器人对话的生成更加具有营养.2017年Liu等人提出基于词和主题来学习主题词嵌入,有效的提升了对于一词多义和同音异义的区分度[16].

同时也有研究者将GAN应用在文本生成提出TextGAN模型[17],后续有研究者不断对GAN框架进行改进,以使得生成文本更加适用于各种不同类型的文本.

可以看到,主题信息对于文本生成存在着一定程度的影响.本实验在基于引入了注意力的编码器解码器结构上,对于文本进行LDA主题建模,将文本依据主题分类后生成主题词向量融合注意力,然后在加入了指针网络来解决生成符合原文的摘要,并利用生成对抗网络进行训练以获得更优秀的文本摘要信息.

3 本文所用方法及模型

3.1 基于主题的文章摘要

不同文章的摘要与文章内容有着密切的联系,不同文章内容也存在着主题上的差异,LDA是一种常用的主题模型,其基础是文章是由多个主题构成的,而每个主题都是词集的一个概率分布[2].

首先对于给定的数据集会有M个文档,D:{d1,…,dm},文档d中含有S个句子,N个词,在LDA模型中,LDA假定N篇文档中含有K个主题,Wmn代表第m篇文档中的第n个词,Tmn代表第m篇文档的第n个词的主题.θm表示第m篇文档的主题概率,服从以α为参数的狄利克雷分布,φk代表第k个主题的对应词的概率,服从以β为参数的狄利克雷分布,LDA的模型图如图1所示.

图1 LDA模型图Fig.1 LDA model diagram

本文通过LDA提取主题词的主要思路为:

1.对于给定文本集合中的每篇文档,生成一个隐迪利克雷分布模型,得到θm作为主题—文档分布.

2.每个主题t,依据以β为参数的狄利克雷分布得到分布φk,即主题词分布.

3.利用主题词分布和主题文档分布得到词Tmn和wmn.

为了获取词汇的概率分布,我们利用吉布斯采样来进行求解,对于当前文档的每一个词我们随机赋予一个主题编号t,随后重新扫描当前文档,对于每一个当前词利用吉布斯采样公式来更新他的主题编号,重复以上步骤直到采样收敛,最后统计文档中各词的主题,得到该文档的主题分布.

3.2 生成对抗网络

生成对抗网络最初于2014年由Goodfellow等人提出[6],最初的GAN由两个网络组成,生成器(G)和判别器(D),生成器的输入是一组随机的噪声,然后通过学习样本来生成新样本,鉴别器用来鉴别生成的G(z)是否为真.在整个训练过程中依据公式(1)使生成器和判别器达到动态平衡:

(1)

图2 GAN结构图Fig.2 GAN structure

对于生成器G和判别器D的训练,我们首先固定生成器的权重,对判别器更新权重,随后两方交替迭代直到生成器生成同训练样本相同的分布,如公式(2)所示:

Pg=Pdata

(2)

3.3 结合主题的指针生成网络

3.3.1 指针生成网络

指针生成网络是在基于注意力机制的序列到序列模型上改进的[5],指针网络更适用于摘要生成领域主要是由于它可以有选择地从原文中取词,同时也可以从固定的词汇表取词.指针生成网络和传统的Seq2Seq模型相比引入了当前词的权重,而不是直接从一个序列转化为另一个序列.

传统引入注意力机制的Seq2Seq模型的基本流程为:

首先将当前字符传入编码器,对于给定的文本序列x=x1,x2,…,xt,…,xT,目标序列为y=y1,y2,…,yn,…,yN,注意力机制采用了和以往不同的做法,注意力机制中的定义为如公式(3)所示:

(3)

(4)

eij=η(si-1,hj)

(5)

h是来自每一步隐藏层的状态,在解码器部分采用每一个输入是前一部分词预测的词向量,最终隐藏层状态ht,同时输出一个解码状态st用于当前步的预测,公式(4)中αij是来自由公式(5)的eij即隐藏层编码器最终输出相似度,η是一个多层感知机.在计算完注意力分布后将得到预测词表上的概率分布.

在指针网络中,引入了Pgen如公式(6),Pgen将隐藏层状态hi,解码器状态st和当前字符的输入xi,计算得:

(6)

这其中,w是需要学习的参数,通过σ激活函数激活后,形成Pgen.Pgen代表指针网络生成的概率,通过引入Pgen获得生成单词P(w)的概率分布见公式(7):

紧张的施焊开始了。首先由专人对焊条进行烘干处理,先将焊条放入80摄氏度的烘箱内预热,以防暴温造成药皮断裂,然后放入460摄氏度的烘箱内烘干,再放入150摄氏度的恒温箱里。焊工作业前,从中挑出药皮完好的焊条放入随身携带的保温筒,并佩带面罩、眼镜,随身携带钢筋、手把式角砂轮、钢刷、创锤、扁铲、焊口检测器等,一个个“全副武装”,像是待命冲锋陷阵。

(7)

当w不在词典中时,Pvacab=0表示单词从原始文本中得到,当w在词典中时,通过生成得到.

3.3.2 融合主题

在采用LDA模型后,公式(8)中每输入一个文档D:{d1,…,dm},就对应着一个主题z,这里Cwz表示单词w被赋值给z的次数,这样就可以得到文档的主题向量k.

(8)

为了能够让网络学习到主题信息,本文尝试在传统序列的基础上,引入主题词,当对于给定的数据集,利用LDA方法生成主题词后于事先设定的主题中训练出t1…tk,选取前n个作为对应文本的主题词.

将主题词T:(t1,…,tn)表示为词向量,利用普通编码器的最终隐藏层状态s0作为主题注意力层的输入,形成(s0,t1,…,tn)的新编码层,同样利用注意力机制的原理形成新的主题注意力结果oi,然后将序列注意力和普通注意力叠加得到输出,总体的框架如图3所示.

图3 融合主题的3指针网络Fig.3 Pointer network withtopic

在decoder层,如公式(9)所示每一步的隐向量和传统注意力机制一样将h转化为ci,然后将主题向量k融入αoj中,其中si是第i-1步的隐藏状态,hT是句子的最终的隐藏层状态,η是一个多层感知机.

(9)

4 实 验

本文实验数据使用gigaword数据集进行实验[18],该数据集的文本和摘要都较短,其中含有大约380万个训练样本,19万个验证样本和1951个测试样本进行评估.其输入的摘要对由原文章的标题和第一句组成.

4.1 准备工作

在构建融合主题的对抗指针生成网络之前,需要对实验数据进行预处理,数据是否干净对实验结果有很重要的影响,首先将数据集分为训练集、测试集、验证集3部分,从训练集文件中生成的词典大小为50000,然后利用分词工具nltk进行分词、去除停用词等预处理技术后进行训练.束搜索大小为5,batch_size为30.

4.2 评价指标

就现在来说,在文本摘要方面评价指标依旧采用ROUGE评价方法[19],它被广泛用于评估自动文摘以及机器翻译等方面.ROUGE是一种面向n元词召回率的评价方法.ROUGE的基本思想是将标准摘要与生成摘要做对比,通过计算两者之间重复的词数目作为评价摘要质量的指标,生成的摘要与参考摘要的重合程度越高则ROUGE评分越高[20].本实验采用ROUGE-1、ROUGE-2、ROUGE-L来作为指标.ROUGE-n的计算方式见公式(10):

(10)

L是LCS(longest common subsequence,最长公共子序列)的首字母,因为Rouge-L使用了最长公共子序列.Rouge-L计算方式由如公式(11)-公式(13)中所示:

(11)

(12)

(13)

其中LCS(X,Y)是X和Y的最长公共子序列的长度,m,n分别表示参考摘要和自动摘要的长度一般指所含词的个数.R和P分别表示召回率和准确率,F则是需要计算的Rouge-L.β一般被设置为一个很大的数,所以在此时Rouge-L的计算中几乎只考虑了R的值.

4.3 主题选取

为了更好的确定LDA模型内主题的个数,本文依据文档—主题的概率分布来确定每篇文档的最大概率,并依据分布选取前10个概率较大的主题词作为该文档的主题特征来扩充.本文设置在[10-50]个主题范围中选取最合适的主题个数.

图4 不同主题个数的困惑度Fig.4 Perplexity of different topic numbers

由图4可以看到,在主题数K选取为36时对于文档有最优的分类效果,此时的困惑度最低,随着主题数的增加,由于过拟合模型的困惑度会趋于稳定,因此本文将主题数设置为36.

4.4 结果分析

为了验证提出方法的有效性,本文实验部分将所提出的融入主题的指针生成对抗网络与其他经典算法和模型进行了对比,对比结果见表1.

表1 所提出模型与其他模型对比Table 1 Proposed model and other models

Lead-n算法是传统且简单的算法,选取文章开头的前n个句子作为摘要,由于新闻文章一般在开头就会呈现关键信息,且gigaword数据较短,所以选取第一句作为验证生成的摘要.

ABS是RUSH等基于注意力机制的编码器解码器结构,该模型经常作为生成式文本摘要的基准模型[13].

BERTSUM模型[21]来自于预训练模型BERT在抽取式摘要上的改进,达到了最近几年较好的效果.

从表1可以看出Lead-n算法作为抽取式模型的代表,仍具有着很高的评分,从目前所选取的数据集来看,可能是由于重要信息一般在文本开头,而且参考摘要较为固定,文章可能存在着多种可用的摘要,这些因素对于抽取式模型的评分也有一定的提升作用,BERTSUM方法同样来自于BERT在抽取式中的应用,也取得了比较好的效果.对于本文提出的模型较传统的Seq2Seq和PGN模型都有很大的提升,在ROUGE1和ROUGE2以及ROUGE-L上都有较为显著的改进,同时所提出的模型较结合GAN及主题的方法也都有一定的提升,相比于BERT在摘要方面的改进也得到了略高的分数.

表2是生成摘要的对比,可以看到,在经由指针网络对传统Seq2Seq的改进后,可以有效的改善如重复生成和摘要不还原等以上问题[22],但从表2可以看出,依然存在如关键信息保存不全的问题,在融入了主题注意力后得到了其他关键的信息,BERTSUM采用抽取式,生成了较完整的句子,但不适用短文本.而最终本文提出的加入了生成对抗网络的模型结果较其他生成的摘要更加通顺,同时因为主题信息的引入,更加贴近原文的含义.

表2 生成摘要对比Table 2 Proposed model and other models

5 结束语

本文提出了一种基于主题的对抗生成指针网络.首先通过主题建模获取单词的主题向量,然后将结合主题的词向量与注意力相结合,形成新的复合注意力共同影响单词的生成,并加入对抗生成网络以在指针覆盖机制上取得了更好的效果.本文中的生成摘要ROUGE评分较前人的基础工作提升了5%以上,证明了引入主题信息和GAN网络对摘要效果提升的有效性.

下一步将尝试更多其他能有效提升文本摘要的方法,如预训练模型及其变种,进一步简化模型,尝试在其他多领域和模型中继续利用主题词向量来生成更完整和流畅的文本摘要.

猜你喜欢

主题词指针文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
垂悬指针检测与防御方法*
为什么表的指针都按照顺时针方向转动
《老年医学与保健》2017年第23卷主题词索引
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
《疑难病杂志》2014年第13卷主题词索引