面向连贯性强化的无真值依赖文本摘要模型

2022-03-13陈共驰马廷淮

计算机与生活 2022年3期

陈共驰，荣欢+，马廷淮

1.南京信息工程大学人工智能学院（未来技术学院），南京210044

2.南京信息工程大学计算机学院（软件学院、网络空间安全学院），南京210044

随着互联网的飞速发展，网络中蕴含了基数庞大、形式多样的数据内容，从中迅速定位关键信息是高效信息检索面临的首要问题。对于文本数据而言，自动摘要技术能够从给定语料中提取核心内容，以篇幅相对较短的摘要文本描述原文主旨，有利于降低文本数据的存储成本，是提高文本数据检索效率的必要手段，对进一步实现信息集成有着重要的现实意义与应用价值。

现有自动文本摘要方法可从原文中直接选取重要语句或语段，按语句抽取方式产生摘要文本；另一方面，为加大对原文的信息表示、内容凝练和语义转述，近年来生成型文本摘要方法已成为文本摘要领域的研究热点。一般而言，生成型文本摘要方法首先对给定原文进行编码，从词、句层面获得能够涵盖原文信息的向量（嵌入）表示；其次，从已有编码表示中进一步识别并提炼重要信息，解析出与原文主旨更为相关的特征编码；最后，对上述特征编码进行解码，即根据解码结果从给定词表（词典）中选择相应词汇，以形成摘要文本，重新由文字形式表述原文主旨。由此可见，相较于抽取型方法，生成型文本摘要实施难度更大，但其产生的摘要文本在词汇表述上更加灵活丰富，对原文关键信息的凝练效果更加理想。

然而，所面临的问题是，生成型文本摘要方法需经过原文编码、编码解析和特征解码过程，由更丰富的词汇组织语句以转述原文主旨，故易导致所产生摘要语句的连贯性（coherence）欠佳，摘要文本可读性不理想；此外，现阶段生成型文本摘要方法涉及人工标注的摘要真值进行有监督训练，致使现有生成型文本摘要方法常面临摘要真值资源稀缺问题，故仅依靠事先标注语句连贯性较强的“摘要真值”，按有监督训练方式提升模型所生成摘要的语句连贯性，在实际应用中或阻力较大。因此，本文立足于生成型文本摘要模型，寻求在无事先已标注摘要真值介入的前提下（即无真值依赖），仍能够提升摘要生成模型语句连贯性的有效机制，从而改善摘要文本语句流畅度，增加摘要文本可读性。

针对上述问题，本文遵循“先抽取、再生成”的原理，提出一种面向连贯性强化的无真值依赖文本摘要模型（abstractive text summarization model with coherence reinforcement and no ground truth dependency，ATS_CG）；该模型由编码器（模块A）、连贯性度量模块（模块B）和解码器（模块C）三部分组成，按两阶段生成摘要文本。

具体而言，一方面，在摘要文本生成阶段，编码器（模块A）首先对给定原文本（source document）进行编码，获取原文本的嵌入表示；在此基础上，连贯性度量模块（模块B）采用Transformer-XL编码器对原文本的嵌入表示做进一步编码处理，解析与上下文相关的内容特征，并在连贯性度量模块的顶层设置“关键语句分类层”，产生语句抽取标识，以筛选出（或为关键的）语句编码结果，从而通过连贯性度量模块刻画出从原文抽取关键语句的过程；最终，解码器（模块C）基于连贯性度量模块输出的关键语句编码，初步产生针对所“抽取”关键语句的解码结果，即原始词汇分布。

另一方面，在语句连贯性强化阶段，模型ATS_CG首先取得上一阶段解码器（模块C）输出的原始词汇分布，通过“按概率选择”与“按Softmax-贪婪选择”产生两类摘要文本，并由编码器（模块A）对两类摘要进行重新编码；之后，由连贯性度量模块（模块B）解析两类摘要的重编码结果，以模块B 顶层Transformer-XL 编码器中内嵌的基于语义段（segment）的循环自注意力权重作为摘要语句的连贯性收益；以所生成摘要文本与“伪摘要真值”的ROUGE评分，作为摘要语句的内容收益，从而由上述两收益之和，通过连贯性度量模块计算两类摘要文本各自对应的总体收益；此处，“伪摘要真值”为通过ROUGE 评分从原文抽取的最优语句集合。其次，构建两类摘要的“交叉熵损失”，采用强化学习中的“自评判策略梯度”（selfcritical policy gradient），以两类摘要的“总体收益差值”对模型参数梯度进行奖励或惩罚，迫使“按Softmax-贪婪选择”所生成摘要的总体收益向“按概率选择”所生成摘要的总体收益逼近，通过“概率探索”提升“Softmax-贪婪选择”的整体基线水平，进而提升模型ATS_CG 所生成摘要文本在语句连贯性与语句内容方面的收益取值。最终，在无摘要真值介入的前提下，生成语句连贯性高、内容质量好的摘要文本。

综上所述，本文提出了一种面向连贯性强化的无真值依赖文本摘要模型（ATS_CG），该方法按照“抽取与生成”相结合的方式，基于从原文提取的关键语句集合产生摘要内容；同时，通过对初步生成的摘要文本进行重编码、连贯性与内容收益计算，在解码器原始词汇分布基础上，获取“按概率选择”相较于“按Softmax-贪婪选择”所取得的“收益优势”，通过最大化该“收益优势”指导模型梯度更新，以产生语句连贯性较高的摘要文本。实验结果表明，即便在仅给定原文本的限制条件下，模型ATS_CG的ROUGE、METEOR评分指标上总体上仍优于现有文本摘要方法；与此同时，模型ATS_CG 所生成的摘要文本在语句连贯性、内容重要性、信息冗余性、词汇新颖度和摘要困惑度等方面亦优于现有方法。

1 相关工作

目前，基于“编码-解码”思想的序列到序列（sequence to sequence，Seq2Seq）结构是处理生成型文本摘要任务的主要方法。传统Seq2Seq 结构中的编码器和解码器常采用循环神经网络（recurrent neural network，RNN）、长短期记忆网络（long short-term memory，LSTM）和双向LSTM 网络（bi-directional long short-term memory，Bi-LSTM），为了产生语句质量更优的摘要文本，众多学者对上述基于循环神经网络及其变体的摘要生成模型做了相关改进。Cohan 等提出一种可从词语和语段两个层面捕捉输入文本语篇结构的层次型编码器，并将语篇结构特征注入解码器，辅助解码器生成摘要文本，该工作已在学术论文摘要生成任务上取得了较高的ROUGE评分；Paulus 等在解码器端引入内部注意力机制（intra-decoder attention），即在第位解码时观察前-1 位解码结果，由注意力权重防止解码器生成重复内容，有效降低了摘要文本语句内容的冗余度；同时，该工作结合Teacher Forcing 算法和自评判策略梯度构建混合强化学习目标，使模型在处理原文本时有效避免了曝光偏差（exposure bias），并生成具有较高评估精度的摘要文本；Celikyilmaz 等首先将输入的原文本划分为多个语段，并基于Bi-LSTM 模型构建多个代理（agent）；之后，各代理对所分配的语段进行解析，并根据多代理通信机制在代理间传递所属语段的解析结果，最终形成原文本的“全局观察”，由“全局观察”按“编码-解码”思想生成摘要文本。

尽管上述模型都在摘要生成的精度上取得了提升，但其所采用的循环神经网络及其变体均为基于时间步的序列结构，严重妨碍了模型的并行训练，致使模型在训练和推理过程中受到内存限制，导致摘要生成模型编码与解码速度降低，训练开销增大。另一方面，上述工作均以最大化ROUGE 指标或极大似然为目标来优化模型，未涉及对摘要语句连贯性或流畅度的考虑，且均依赖事先标注的摘要文本真值进行有监督训练，模型训练所涉及的数据成本较高。因此，仍需对基于循环神经网络及其变体的摘要生成模型做进一步改进。

为此，Vaswani 等提出的Transformer 模型采用一种全新结构，其完全依靠自注意力机制来刻画输入和输出间的全局依赖关系，避免了时序性循环结构的引入；该结构可使摘要模型进行充分的并行化训练，训练速度和推理速度得到显著提升。因此，将Transformer和自注意力机制引入上述“编码-解码”结构是目前生成式摘要的研究热点。具体而言，Liu 等提出的BERTSUMEXTABS 模型将已预训练的BERT作为编码器获取输入文本编码表示，6 层Transformer 作为解码器生成摘要内容；特别地，该工作在编码器之后引入2 层Transformer组成的抽取器，负责从编码器输出的编码表示中抽取重要句子以让解码器关注原文重要内容，由此产生质量较高的摘要内容。Zhang 等提出PEGASUS 模型利用空白句子生成（gap sentences generation，GSG）的自监督预训练目标，结合由定量指标ROUGE-F1 抽取的伪摘要训练基于Transformer 的摘要生成模型，实验结果表明模型经过预训练之后，仅需少量摘要真值数据进行微调即可产生评估精度较高的摘要文本，有效降低了模型训练的数据成本。王侃等在原文本预处理过程中向Transformer 引入与文本内容相关的先验知识，通过自注意力机制结合ELMO（embeddings from language models）模型获取输入的动态文本矩阵，将该矩阵输入到基于Transformer 的编码-解码结构中，最终产生连贯摘要语句。此外，Pilault等在应用Transformer 对重新组织后的长文本（如论文）进行摘要生成后，发现该模型即便不采用Copy机制仍能保证摘要语句的连贯性，但其内容关联程度欠佳。

针对摘要语句连贯性方面的工作还包括：Chu等通过对原文本进行编码、解码和重编码，构建摘要相似性损失和文本重构损失来优化模型，该模型在评估阶段采用已训练好的语言模型计算生成摘要文本的负对数似然，以此衡量语句连贯性；Li 等利用BERTSCORE指标构建分布式语义收益，将该收益结合自评判策略梯度对模型进行优化。人工评估结果表明该收益能使得模型摘要更连贯；Chen 等在对解码器进行预训练后，通过在句子级别上应用优势动作评判（advantage actor-critic，A2C）对抽取器进行优化，以保证模型转述正确的关键语句从而生成连贯流畅的摘要。

上述模型对摘要连贯性的优化均以最小化所生成摘要文本困惑度（perplexity）为目标。然而，值得注意的是，现有工作在对摘要语句连贯性进行评估时均采用人工评估方法，即在摘要生成模型内部缺少一种对语句连贯性进行自动度量的机制或方法。

综上所述，现阶段生成型文本摘要方法应该满足或解决以下问题：第一，能够根据给定原文本生成语句连贯且可读性高的摘要文本；第二，摘要生成模型内部应包含对所生成摘要语句进行自动连贯性度量的处理机制；第三，应尽量减少模型训练过程对摘要真值数据的标注依赖，以降低模型训练成本。

2 ATS_CG 摘要生成模型

2.1 模型总体架构

如图1 所示，ATS_CG 模型主要分为两个阶段：

第一，摘要文本生成阶段（图1 中①至⑥，蓝色线条标识）。首先，编码器（模块A）采用AL-BERT 组件获取原文本集的编码表示E，由连贯性度量模块（模块B，顶层为Sigmoid 分类层）获取辅助信息并抽取关键语句集合；此处，辅助信息与关键语句集合视为对编码表示E的特征解析结果；接着，由解码器（模块C）对和进行解码、查词后初步产生针对关键语句内容的摘要文本。

值得注意的是，如图1 所示，摘要文本生成阶段中由解码器（模块C）对和进行解码时，需基于原始词汇分布，采取“按概率选择”与“按Softmax-贪婪选择”两类策略进行词汇选择，从而产生不同选择策略下的摘要文本。

第二，语句连贯性强化阶段（图1 中⑦至⑫，橙色线条标识）。首先，模型ATS_CG 将阶段1（“按概率选择”或“按Softmax-贪婪选择”）初步生成的摘要文本重新递交给AL-BERT 编码器（模块A），进行“摘要重编码”；其次，基于重编码结果，取得连贯性度量模块（模块B）中第层编码组件（Transformer XLEncoder）内嵌的基于语义段的循环自注意力权重，以此作为阶段1 所生成摘要文本的语句连贯性评分，记为连贯性收益（），从而在模型内部引入语句连贯性度量机制；再者，计算阶段1 所生成摘要文本与伪摘要的ROUGE 评分，记为内容收益（）；此处，“伪摘要”是通过计算原文各语句与原文整体的ROUGE 评分后取得分最高的前条语句组成的。最终，以摘要文本的语句连贯性收益与摘要文本的语句内容收益构成模型ATS_CG 摘要生成的总体收益（记为），采用强化学习中的自评判策略梯度，遵循“最大化收益”原则，由总体收益（包含内容与连贯性两方面）更新模型ATS_CG参数梯度，从而引导模型在无人工标注的摘要真值介入的前提下（如仅依靠伪摘要），产生语句连贯性高且内容质量好的摘要文本。

图1 ATS_CG 模型总体架构Fig.1 Architecture of ATS_CG model

2.2 阶段1：摘要文本生成阶段

图2 阶段1：模型ATS_CG 摘要文本生成具体流程Fig.2 Stage 1:detailed process of summary generation of ATS_CG

如图2 所示，在摘要文本生成阶段中，连贯性度量模块（顶层为Sigmoid 分类层）负责解析AL-BERT编码器输出的文本编码表示E，以提取跨语义片段的上下文信息；此外，顶层Sigmoid 分类器从上下文信息中判别关键语句以产生抽取标识，进而输出关键语句集合（编码）。特别地，可在后续解码过程中为关键语句集合提供对应的上下文信息，进而辅助解码器产生概括原文主旨的摘要文本。

抽取输入文本集对应的伪摘要集合

其次，区别于现有工作，如图3 所示，解码器（模块C）解析获得摘要文本的原始词汇分布（observation distribution），记为=[,,…,obs_dis]；其中，obs_dis为第篇文本D对应摘要的原始词汇分布。在此基础上，一方面，模型ATS_CG 采用基于概率的词汇选择方法，产生每篇文本所对应摘要的词汇分布，记为=[,,…,act_dis]；其中，act_dis表示第篇文本D对应摘要的词汇分布；特别地，此处基于概率的词汇选择方法表示“若存在词汇分布[0.7,0.2,0.1]，则即便某个词汇被选中的概率较低（如0.1），但依旧有可能被选中”。相反，另一方面，当模型ATS_CG 采用基于贪婪策略（greedy selection）的词汇选择方法时，由“Softmax”固定选取概率最高的词汇（如0.7），记该情形下摘要的词汇分布为=[,,…,greedy_dis]。最终，根据上述词汇选择策略生成相应词汇分布后，模型ATS_CG采用波束搜索（beam search）算法，依据词汇分布（或）查询字典，获得对应的摘要文本。

图3 模型ATS_CG 摘要文本生成阶段中的关键语句解码与相关分布生成Fig.3 ATS_CG decoding key sentences and generating related distribution in summary generation stage

2.3 阶段2：摘要语句连贯性强化阶段

如图4 所示，在摘要语句连贯性强化阶段中，模型ATS_CG 首先针对阶段1“按概率选择”与“按Softmax-贪婪选择”初步产生的摘要文本，从语句连贯性与语句内容两方面对摘要文本进行评分以得到总体收益，记为。将输入文本集中所有文本对应摘要的总体收益表示为=[,,…,reward]；一般而言，语句连贯性需通过文本内容反映出来，故在本文中，将针对摘要内容的评分亦归属至语句连贯性范畴。

图4 阶段2：模型ATS_CG 摘要语句连贯性强化阶段具体流程Fig.4 Stage 2:detailed process of coherence reinforcement of summary sentences generated by ATS_CG

值得注意的是，如图5 所示，若两词间的自注意力权重越高，则该词对的语义联系越紧密；进一步地，若语义段之间自注意力权重越高，则认为两个语义段的语义更加相关，出现位置不应相隔较远，从而体现语义上的连贯性。

图5 语义段划分与基于语义段的循环自注意力Fig.5 Segment partition and recurrent self-attention mechanism based on segment

按式（9）将上述语句连贯性收益（）与语句内容收益（）进行合并，获得模型ATS_CG 摘要生成的总体收益，即；其中，，，∈(0,1)为平衡参数。

基于模型ATS_CG 摘要生成的总体收益（，含语句连贯性与语句内容两方面），如图4所示，在摘要语句连贯性强化阶段的最后，采用强化学习自评判策略梯度，由模型总体收益（）指导各模块参数梯度更新。最终，提高解码器（模块C）所产生的原始词汇分布（）整体“基线”水平，以在无摘要真值介入的前提下，产生语句连贯性高的摘要文本。

3 实验结果与分析

本章对本文所提出面向连贯性强化的无真值依赖文本摘要模型（ATS_CG）进行一系列实验分析，分别从摘要生成过程与摘要生成质量两方面讨论模型的有效性。本文采用Python 3.7 与Tensorflow-1.15 实现模型，实验运行环境为GPU，NVIDIA GeForce GTX 1080Ti，11 GB。

3.1 数据集与实验设置

首先，本文采用CNN/Daily Mail 与XSum 两个典型自动文本摘要数据集进行实验，二者均以新闻报道作为文本数据，并包含对应的“金标准”摘要真值文档。本文将原始数据集划分为训练集、验证集与测试集，训练集用于模型训练，验证集用于模型参数选择，测试集用于模型评估。特别地，“金标准”摘要不参与模型ATS_CG 训练过程，仅用于摘要生成质量评估。如表1 所示，CNN/Daily Mail 所包含的原文本与摘要文本的平均长度均大于XSum；XSum 由人工书写的1 句话作为摘要真值。相较于CNN/Daily Mail，XSum 中摘要真值的新颖度（Novelty）更高，包含更多原文中未出现的字词。

表1 本文实验所采用数据集CNN/Daily Mail与XSum 的相关信息Table 1 Statistical information of CNN/Daily Mail and XSum datasets

其次，在模型设置方面，令词向量维度为，隐层单元个数为，自注意力头数为，前馈层维度大小为，ATS_CG模型采用AL-BERT（=128，=1 024，=16，=4 096）作为编码器，连贯性度量模块由=3 层Transformer-XL Encoder（=1 024，=2 048，=32，=4 096）组成，解码器由=6 层Transformer-XL Decoder（=1 024，=2 048，=32，=4 096）构成。在摘要文本生成阶段，采用宽度为4 的波束搜索算法进行词汇选择，所生成摘要的最大长度由数据集原文档与摘要文档的平均压缩率确定（文档长度之比），且丢弃单词个数低于3 的语句；连贯性度量模块与解码器分别采用学习率为1E-3、0.05 的Adam 优化器，且两者学习率随迭代次数的增加而减小。批处理样本数（，即输入文本集大小）为16。在语句连贯性强化阶段，式（8）所示文本内容收益中取=0.3，=0.2，式（9）总收益中=0.7。模型利用CNN/Daily Mail 数据集进行训练时，输入文本集在一次迭代中取前=8条最优记录用于连贯性强化阶段时的“经验回放”；利用XSum 进行训练时，在一次迭代中取前=4条最优记录。

接着，在对比方法方面，将本文所提出摘要生成模型ATS_CG 与现有抽取型和生成型自动摘要方法相比较。其中，对于抽取型方法，选用MMS_Text、SummaRuNNer、Refresh和HSSAS；对于生成型方法，选用Pointer-Generator+Coverage、Bottom-up、DCA（deep communicating agents）、BERTSUMEXTABS和PEGASUS。

最后，对于评估指标，本文采用ROUGE-N（包括ROUGE-1 和ROUGE-2，式（12））、ROUGE-L（式（13））和METEOR（式（14））指标评估生成文本内容质量，同时配合人工评价对相关模型所生成的摘要文本在语句连贯性、内容冗余度及内容重要性三方面进行评估。此处，ROUGE-N 中，表示元（gram）长度，{RS}表示参考摘要，(gram)表示生成摘要中与参考摘要中相同元数目，(gram)为参考摘要中总的元数目；ROUGE-L中，为生成摘要，为参考摘要，(,)表示生成摘要与参考摘要的最长公共子序列长度，为生成摘要长度，为参考摘要长度；METEOR 中，为生成摘要中与参考摘要相匹配的一元组数目，为参考摘要长度，为生成摘要长度，、、为平衡参数，为生成摘要中与参考摘要中公共子序列数目。

3.2 ATS_CG 模型摘要生成过程讨论

为探究模型ATS_CG 中不同模块对实验结果的影响，本文实现了如表2 所示的六种消融性组合。具体而言，组合1 采用模块A（AL-BERT 编码器）与不含有可替换顶层的模块B（连贯性度量模块，仅为Transformer-XL Encoder）进行编码，再利用模块C（解码器）进行解码以产生摘要。组合2 在组合1 的基础上为模块B 添加了Sigmoid 分类层，旨在对文本编码表示进行关键语句选择后再生成摘要。组合3 与组合2 结构相同，但其对模块B 进行了预训练；特别地，上述3 个组合均采用训练集“金标准”作为真值进行有监督训练。组合4 采用组合3 的结构，除了对模块B 进行预训练外，仅通过最大化连贯性收益进行连贯性强化，强化过程中采用抽取的伪摘要作为可替代真值；组合5 与组合4类似，但其仅通过最大化内容收益进行连贯性强化；组合6即为图1中完整的ATS_CG模型，此时仍采用抽取的伪摘要作为可替代真值。

表2 与图1 对应的ATS_CG 模型消融性组合Table 2 Ablation combinations of ATS_CG corresponding to Fig.1

分别运用CNN/Daily Mail、XSum 验证集对上述六种消融性组合进行评估，实验结果如表3、表4 所示。首先，组合2 评估结果均优于组合1，这表明模块B 对关键语句进行抽取后能使解码器对重点内容进行解码进而产生更高质量摘要。其次，组合3 优于组合2，表明预训练能使模块B 参数配置更加合理，进而更合理地选择关键语句。接着，组合4 和组合5 评估结果均优于组合3，表明本文构建的收益与语句连贯性强化方法能有效提升摘要内容质量。特别地，组合4 的ROUGE-L 与METEOR 指标优于组合3，可反映出本文连贯性度量与强化对语句连贯性的提升。最后，融合所有机制的组合6 评估结果最优，反映出本文所提出模型ATS_CG 各模块在摘要生成上的有效性。

表3 消融性组合评估结果（CNN/Daily Mail数据集）Table 3 Evaluation results of ablation combinations on CNN/Daily Mail dataset %

表4 消融性组合评估结果（XSum 数据集）Table 4 Evaluation results of ablation combinations on XSum dataset %

综上可知，对于ATS_CG 模型而言，其一，通过比较组合2 与组合3，可发现由伪摘要对连贯性度量模块预训练后，更能从文本编码表示中识别出重要语句和上下文语义信息，从而为解码器提供语义基准和辅助信息以生成能确切概括原文主旨的摘要内容；其二，通过比较组合3 与组合4，可发现通过自注意力权重对连贯性进行度量，并以此作为摘要收益进行强化训练，可有效提升模型所生成摘要语句质量；其三，通过比较组合1～5 与组合6，可以发现通过构建文本内容收益和文本连贯性收益对模型进行强化训练（组合6），能促使模型生成ROUGE 评分与METEOR评分（基于“金标准”摘要）更高的摘要内容。

3.3 ATS_CG 模型与现有文本摘要模型比较

本节中将ATS_CG 模型分别与现有的抽取式方法和生成式方法在测试集上进行精度比较以评估其摘要生成质量。首先，ATS_CG 模型与对比方法在CNN/Daily Mail 数据集上的评估结果（3 次平均）具体如表5 所示（ROUGE-AVG 为ROUGE-1、ROUGE-2和ROUGE-L 三者均值），相应柱状图如图6，其中（a）是ATS_CG 与抽取型基线模型对比结果图，（b）是ATS_CG 与生成型基线模型对比结果图。

表5 生成摘要评估结果（CNN/Daily Mail数据集）Table 5 Evalution results of generated summarization on CNN/Daily Mail dataset %

一方面，如图6（a）所示，ATS_CG 模型的评估结果总体优于现有抽取型方法。该模型在ROUGE-1、ROUGE-2 指标优于其余抽取型基线模型，表明其能有效地获取原文主旨信息。同时，其在ROUGE-L 和METEOR 指标上的评分均高于其余抽取型基线模型，这说明该模型在对所获取关键句进行转述时能保证生成语句的连贯性。所比较的抽取型方法（MMS_Text、SummaRuNNer、Refresh和HSSAS）核心思想可归结为三类：一是将文本转为图结构（如MMS_Text），通过为节点（句子）打分从而抽取重要语句以形成摘要文本；二是通过编码器挖掘文本潜在特征，以概率矩阵或语句排列顺序抽取摘要语句（如SummaRuNNer和HSSAS）；三是借助强化学习构建质量收益，以最大化收益为目标更新语句选择策略后，对原文档抽取摘要文本（如Refresh）。然而，对于本文提出的ATS_CG 模型而言，其核心思想为“先抽取，再生成”，该模型的连贯性度量模块在预训练后能识别并抽取原文关键语句，从而促使解码器关注重点内容；此外，在解码生成时，ATS_CG 模型将含有上下文语义的辅助信息输出到解码器，进一步丰富了模型内部的文本特征信息，最终使模型ATS_CG 所产生摘要文本质量优于“单一”的抽取型模型。

图6 CNN/Daily Mail数据集上实验结果（对应表5）Fig.6 Experimental results on CNN/Daily Mail dataset corresponding to Table 5

另一方面，如图6（b）所示，ATS_CG模型和现有生成型方法相比（Pointer-Generator+Coverage、Bottomup、DCA、BERTSUMEXTABS和PEGASUS）总体上亦取得了较优精度。该模型在ROUGE-1、ROUGE-2 指标优于其余生成型基线模型，表明其能对获取到的原文主旨信息进行正确的转述。同时，其在ROUGE-L 和METEOR 指标上的评分均高于其余生成型基线模型，这说明该模型更能生成连贯流畅的摘要内容。其性能提升可归因为：第一，如图2所示摘要生成过程中，模型ATS_CG 在预训练组件基础上（如AL-BERT 编码器和预训练连贯性度量模块），针对文本编码结果进一步以语义段为划分单元，并由=3 层Transformer-XL 组件通过基于语义段的循环自注意力机制进行额外编码，加大特征解析力度。第二，如图4 所示连贯性强化过程，模型ATS_CG 对已生成的摘要文本进行重编码以计算连贯性收益；与此同时，由抽取的伪摘要对生成摘要计算内容收益，通过最大化两收益加权和，对模型摘要文本生成过程进行强化，从内容层面与语句连贯性层面进一步提升模型文本生成质量。

其次，ATS_CG 模型与所对比方法在XSum 数据集上的评估结果（3 次平均）具体如表6，相应柱状图如图7。总体上，该模型仍取得最优结果。特别地，由于XSum 数据集对应“金标准”摘要新颖度较高，故仅将其用于测试生成型方法。表6 和图7 所示结果进一步说明，模型ATS_CG 所遵循的“先抽取，再生成”设计原理、基于语义段的循环自注意力权重和基于内容收益与连贯性收益的强化过程，能有效地提升摘要生成质量。

表6 生成摘要评估结果（XSum 数据集）Table 6 Evaluation results of generated summarization on XSum dataset %

图7 XSum 数据集上实验结果（对应表6）Fig.7 Experimental results on XSum dataset corresponding to Table 6

3.4 ATS_CG 模型摘要语句生成质量评估

本节中，与现有生成型方法（Pointer-Generator+Coverage、Bottom-up、DCA、BERTSUMEXTABS和PEGASUS）进行对比。首先，通过人工评估，对ATS_CG 模型语句连贯性、内容冗余性和内容重要性三方面进行度量，结果如表7 所示。接着，利用元新颖度和摘要困惑度对ATS_CG 模型产生摘要的内容丰富性及语句连贯性进行评估，结果如表8 所示。

具体而言，对于人工评估，将所选生成型对比方法和ATS_CG 所生成摘要文本提供给10 名具备自然语言生成研究经验的人员进行[1,5]范围评分，取各维度均值作为最终结果，如表7 所示。其中，语句连贯性指标越高，则表明摘要在语句连贯性方面的质量越佳；内容冗余性指标表示摘要语句所描述内容的重复性，其指标越高意味着摘要冗余度越低；内容重要性指标表示摘要所描述内容是否有效反映了原文主旨信息，其指标越高，则表明所生成摘要涵盖的原文关键信息越多。对于元新颖度，采用摘要中新出现的N-gram 与原文总N-gram 数之比进行计算。元新颖度越高，代表生成的摘要内容词汇相较于原文更加丰富，模型产生新词的能力更强。而摘要困惑度则对摘要语句的连贯性进行了评估，其值越低，表明摘要语句越流畅。

如表7 所示，模型ATS_CG 所生成摘要文本在语句连贯性上取得最优结果。相应地，如表8 所示，该模型摘要困惑度亦得到最优结果。该现象可归因为：第一，模型ATS_CG 连贯性度量模块采用的Transformer-XL Encoder 基于语义段的循环自注意力机制，使文本编码表示有效学习到更长范围的依赖关系并且避免了上下文碎片化问题，进而让辅助信息中包含更长范围内的上下文语义信息以帮助解码器产生质量更高的摘要。第二，连贯性度量模块利用已生成摘要的基于语义段的循环自注意力权重构建文本连贯性收益，可有效度量摘要文本间的联系性。第三，模型ATS_CG 采用如图4 所示的连贯性强化过程，通过构建如式（7）所示的摘要文本连贯性收益，如式（8）所示的摘要文本内容收益，从而让模型以最大化如式（9）所示的总收益为目标进行学习，保证模型生成摘要内容与原文主旨更加相关，内容更加连贯。此外，如表7 所示，模型ATS_CG 生成摘要在内容冗余度与内容重要性方面也表现最优，这得益于经过预训练的连贯性度量模块能对原文关键信息选择，从而使解码器对重点内容进行解码。

表7 摘要质量人工评估结果（CNN/Daily Mail 数据集）Table 7 Manual evaluation results of summary quality on CNN/Daily Mail dataset

表8 N-gram 新颖度与困惑度结果（CNN/Daily Mail 数据集）Table 8 Results of N-gram novelty and perplexity on CNN/Daily Mail dataset

如表8所示，模型ATS_CG相比于所对比方法，在摘要文本内容新颖度方面亦达到最优。更为重要的是，通过表8 可以发现，即便本文所提出的模型ATS_CG为提高语句连贯性需重新组织或表述语句，但所产生摘要文本的困惑度相较于其他现有方法而言依旧较低，即在产生新词汇的同时仍能够确保语义连贯性。

综上所述，本文提出的面向连贯性强化的无真值依赖文本摘要模型（ATS_CG）在无摘要真值介入的前提下，利用抽取的伪摘要进行连贯性度量模块的预训练，从文本编码表示中有效识别重要语句作为抽取标识，通过提取上下文语义信息作为辅助信息帮助解码器生成贴近原文主旨的摘要内容。与此同时，连贯性度量模块利用自注意力权重对经“重编码”后的摘要进行度量，计算连贯性收益并应用至模型连贯性强化训练过程中，生成更加连贯可读的摘要文本内容。

4 结束语

利用自动文本摘要技术凝练文本核心内容是减小文本数据存储成本、提高信息检索效率的必要手段。为了能对文本快速地生成质量高、可读性强的摘要，同时又避免模型训练的真值依赖，本文提出的面向连贯性强化的无真值依赖文本摘要模型（ATS_CG）利用基于循环片段自注意力机制的Transformer-XL 构建连贯性度量模块，并采用抽取的伪摘要对其进行预训练，其能有效识别和抽取文本重要信息。此外，其还能在重编码过程中对已生成的摘要进行自动的连贯性度量并产生文本连贯性收益，将该收益引入到模型的连贯性强化过程中，可促使模型生成更贴近原文主旨、连贯性更强的摘要内容。实验表明，引入了连贯性度量和连贯性强化的ATS_CG 模型在多组实验中的评估精度均优于其他现有方法。

本文未来工作将进一步提高自注意力权重对连贯性度量的有效性，通过构建多种度量方式，多角度地对语义联系性、语法规则性、共指消歧等连贯性因素进行考量，从而提高文本生成模型的语句连贯性。