文本摘要模型的研究进展
2022-06-23张紫芸王文发马乐荣丁苍峰
张紫芸,王文发,马乐荣,丁苍峰
(延安大学数学与计算机科学学院,陕西 延安 716000)
0 引 言
文本摘要是利用计算机对文本或者文本集合,在保留其原文主旨大意的基础上进行抽取、压缩和总结,形成文摘。文摘是全面准确地反映某一文献中心内容的简短连贯的文本。常用方法是将文本作为句子的线性序列,将句子视为词的线性序列。
文本摘要按照输入类型分为单文档摘要和多文档摘要。单文档摘要是对单个文档进行总结,多文档摘要是对一组文档进行总结;按照有无监督数据分为有监督摘要和无监督摘要;按照生成方式分为抽取式和生成式,抽取式是抽取原单文档或者多文档中的重要的句子和词汇进行摘要生成,生成式是通过释义和重组句子来构成摘要[1],允许生成新的词汇或者句子,随着算法的成熟,出现了生成式与抽取式结合的方法。
文本摘要由于其广泛的应用而成为重要的研究课题,现有研究工作主要围绕神经体系结构的探索[2-3]和训练约束的设计[4-5]。此外,还有一些工作试图整合文档特征以增强模型性能[6-9]。近几年预训练在机器翻译、摘要生成、对话系统等领域取得了较好的结果,为此本文主要综述基于预训练和非预训练模型的文本摘要进展。
1 非预训练文本摘要
预训练模型很大程度上提高了文本摘要任务的性能,但在此之前都是基于词或句的频率及其他一些传统的方法对文本进行摘要,本章对传统自动文摘算法进行简要梳理。
1.1 基于启发式规则
启发式算法(heuristic algorithm)是相对于最优化算法提出的,即一个问题的最优算法求得该问题每个实例的最优解。现阶段,启发式算法以仿自然体算法为主,主要有蚁群算法、模拟退火法、神经网络等[10]。在自动文摘领域,主要利用遗传算法、蚁群算法等将文本摘要问题形式化表示为优化问题,提取最优句子形成摘要。其缺点是运算复杂、参数设置和迭代停止条件等依赖经验[11]。
1.2 基于主题模型
主题模型是以非监督学习的方式对文本的隐含语义结构进行聚类的统计模型[12]。主要被用于自然语言处理中的语义分析和文本挖掘问题,也被用于生物信息学研究[13],应用该模型可以更加贴近原文语义和文章主题[14]。常见的主题模型有隐含狄利克雷分布[15]、潜在语义分析[16]、概率潜在语义分析。
1.3 基于统计模型
早期文本摘要的方法主要是抽取式摘要,其特点在于抽取全局的重要句子,据此研究者开始引入统计学的知识来计算统计特征,如词频、句子之间的相似性、句子位置、句子与标题(如有)的相似性、句子的相对长度等。统计模型指以概率论为基础,采用数学统计方法建立的模型。基于统计方面的文本摘要模型有text teaser[17]以及早年比较出名的text pronouns[18],text teaser论文中通过对文章标题特征、句子长度、句子位置、关键词频率等4个因素的计算,得出最佳得分句子构成摘要。
1.4 基于模板模型
Zhou等人[19]首先提出了使用模板生成摘要,使用全局选择的标题短语填充到预先指定的标题模板中生成标题,但该方法主要依赖于人工来构建规则、建立模板,存在很多缺陷,如构建模板需要耗费大量的人力、物力,需要丰富的专业领域知识,此外构建所有领域的模板是不现实的。随着深度学习的兴起,Cao等人[20]受传统的基于模板的方法启发,提出了使用存在的摘要作为软模板来指导seq2seq模型来生成摘要。首先使用信息检索平台(Lucene)从语料中检索合适的摘要作为候选模板,然后扩展标准的seq2seq模型,共同进行模板重新排序和模板感知摘要生成。Wang等人[21]提出了一种新的带有模板的双向选择性编码模型(BiSET),该模型利用从训练数据中发现的模板从每篇源文章中软选择关键信息生成摘要。
1.5 基于图模型
图模型是由点和线组成的用以描述系统的图形。在抽取式摘要中,将句子作为节点,使用句子间相似度,构造无向有权边。使用边上的权值迭代更新节点值,最后选取N个得分最高的节点,作为摘要。生成式摘要中,词作为顶点,2个词的相似度构造有向有权边,根据权重值、语法特性、整体内容排序函数最佳特性,选择最优路径作为每个原始句子集合中生成的摘要句,形成摘要。
2004年,基于谷歌的PageRank[22]算法,Mihalcea等人[23]提出了一种基于图形的文本处理排名模型TextRank算法可应用于文本摘要。文章提出了关键词和句子提取2种创新的无监督方法,此外它是无监督的,因此不需要任何训练集,并且不依赖于语言。但是其只考虑了句子间的局部信息,没有考虑去文章全局信息[24]。Sehgal等人[25]对其提出了改进,提出了一种用于在句子提取期间计算分数的相似性函数的变体,还强调了文章标题(如果提供的话)在提取每个句子的最佳归一化分数中的作用。
1.6 基于信息学模型
信息学是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。Peyrard等人[26]基于信息论,从4个不同的角度,在本质上对摘要本身做了分析。分别是冗余度、相关性、信息性、重要性。其中,重要性这个概念是论文新突出的理念,它结合了其余3个概念的内容,并进行了公式化,探究怎样才算是一篇好的摘要。
West等人[27]将摘要抽取过程分为2个阶段:抽取阶段和生成阶段。第1个阶段生成的摘要可以单独作为摘要输出,也可以作为第2阶段摘要抽取过程的输入数据。整个摘要生成过程不需要额外的真实摘要作为训练目标,属于无监督或者自监督的方法。抽取阶段的摘要抽取基于Information Bottleneck思想。从方法本质来说,相当于是对文章原句进行压缩。生成阶段的摘要生成主要是使用了当前比较热门的GPT-2的预训练语言模型,基于抽取阶段得到的摘要句,做文本生成任务。
1.7 基于多模态模型
Lev等人[28]收集了1716对论文/视频,并将口头报告的视频视为相关论文的摘要。它的训练数据的生成方法是完全自动的。训练数据可以随着文章的发表源源不断地增加。Palaskar等人[29]探讨了How2数据集上几个视频摘要模型的行为,提出了一种多模式方法,使用自动转换、音频和视频潜在表示,并使用层次Attention进行组合。对于评估,除了ROUGE之外,还提出了一个不考虑停用词的变体。所提出的模型包括仅视频摘要模型,该模型与纯文本模型竞争性地执行。
1.8 基于深度学习
深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字、图像和声音等对数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。典型的深度学习模型有卷积神经网络、堆栈自编码网络模型等。在抽取式摘要中,通常利用CNN、RNN、LSTM等神经网络模型进行句子抽取,在生成式摘要中,利用神经网络模型进行文本理解,端到端生成摘要。两者都对数据要求较高,参数量较多,易出现梯度消失或爆炸。有多种用于抽象文档摘要的深度神经网络模型。最主要的结构之一是具有注意机制的序列到序列(seq2seq)模型[30-32]。See等人[33]引入了指针生成器网络,该网络使用复制机制[34-35]隐式地将抽象与提取相结合。也有几项研究试图通过将抽象概括与提取模型明确结合来提高抽象概括的性能,包括使用不一致性损失[36]、关键短语提取[37-38]和句子抽取与改写[39]。
2 预训练文本摘要
语言模型是建模一个句子是语句的概率,语言模型的预训练在许多自然语言处理任务都取得了优异结果,如文本摘要、情感分析、命名实体识别、问答系统等。其中预训练是通过自监督的学习从大规模数据中获得与具体任务无关的预训练模型。
2.1 几种经典的预训练模型
目前流行的预训练模型包括ELMo[40]、GPT[41]和BERT[42]等,ELMo学习2种单向LM:前向LM从左向右编码文本,后向LM从右向左编码文本。GPT使用从左到右的Transformer逐字预测文本序列。BERT基于双向Transformer编码器融合左右上下文来预测屏蔽单词。在文本摘要任务中的预训练语言模型大多都采用BERT,下面对几个模型进行一个简单介绍。
ELMo。ELMo解决了现有的词向量表示存在的2大挑战:1)单词使用的复杂性,如句法和语法。2)单词在不同上下文中的一词多义性。它是双向基于特征的语言模型,使用独立训练的从左到右(前向)和从右到左(后向)的LSTM串联为下游任务生成特征,即一种新的深度语境化单词表示。
前向LSTM模型。给定N个token的序列(t1,t2,…,tN),前向语言模型通过对给定(t1,…,tk-1),预测下一个词语tk的概率,公式如下:
(1)
后向LSTM模型。后向LM类似于前向LM,除非它在反向序列上运行,根据第k个词后面的词去预测第k个词的概率,公式如下:
(2)
BiLM结合了前向和后向LM。最大化前向和后向的联合似然概率:
(3)
图1 ELMo模型图
1)GPT。针对以前的预训练语言模型的与下游任务的语言模型不一致,而造成的迁移困难以及用于学习的标记数据较少这2个问题,Radford等人[41]提出了一种半监督的模型GPT,模型分为2个部分:采用无监督学习的预训练充分利用大量未标注的文本数据,然后利用监督学习的微调来适配具体的NLP任务。GPT模型如图2所示。
图2 GPT模型图
2)BERT。Devlin等人[42]认为当前的技术限制了预训练表示的能力,尤其是对微调方法而言,因此提出BERT,其采用Transformer的双向编码器表示,通过在所有层中联合调节左右上下文来预处理来自未标记文本的深层双向表示。因此,只需一个额外的输出层,就可以对预先训练好的BERT模型进行微调,为各种任务创建最先进的模型,模型框架与GPT一样都是采用预训练和微调,也都是基于微调的语言模型。
3)此外不同于传统的从左到右,或者从右到左的语言模型,使用2个无监督的任务对BERT进行预训练:Masked LM和Next Sentence Prediction。其模型如图3所示。
图3 BERT模型图
2.2 基于预训练的生成式摘要
自然语言处理中的大多数模型预处理方法都利用了文本的自然排序。例如,Word2vec[43]使用固定大小窗口内的周围单词,用对数双线性模型预测中间的单词。生成的单词嵌入表可用于其他下游任务。还有其他使用类似技术的单词嵌入预训练方法[44-45]。Peters等人[40]和Radford等人[41]发现,即使句子编码器(不仅仅是单词嵌入)也可以用语言模型目标进行预训练(即预测下一个或前一个单词)。语言模型的目标是单向的,而许多任务可以双向利用上下文。因此,Devlin等人[42]提出了自然双向掩码语言模型目标(即在一个句子中用特殊标记掩蔽几个单词,然后预测它们)。上述方法都旨在预训练单词嵌入或句子编码器,因此Zhang等人[46]提出了HIBERT(变压器分层双向编码器表示)文档编码和一种使用未标记数据对其进行预训练的方法,将预先训练的HIBERT应用到摘要模型中。
虽然研究者对抽象文本摘要进行了大量的研究,但抽象摘要仍面临一系列挑战:1)神经序列到序列模型倾向于产生琐碎和一般的摘要,经常涉及高频短语;2)生成的摘要的语法性和可读性有限;3)在大多数以前的工作中,标准的序列到序列模型被训练成使用最大似然估计目标函数来预测下一个单词;4)现有的提取器作为一个独立的摘要模型(即没有提取器)的性能并不比选择前3句这样的可靠基线好;5)训练目标和评价尺度不匹配;6)神经模型对于单个文档的摘要已经取得了较好的结果,但是它们的输出通常是不连贯的,并且对输入不忠实;7)使用只保留上下文的解码器,因此在预测每个单词时没有完整的上下文;8)没有利用解码器侧的预先训练的语境化语言模型,因此解码器更难一起学习概要表示、语境交互和语言建模。
为了应对上述挑战,Liu等人[47]提出了一个对抗框架来联合训练生成模型G和区分模型D。具体来说,生成器G将原始文本作为输入并生成摘要。使用强化学习(即策略梯度)来优化G,以获得高质量的总结。Bae等人[48]改进了抽象摘要的句子重写方法,提出了一种利用BERT的新提取器结构和一种全局优化摘要级ROUGE度量的新训练过程。Sharma等人[49]提出了一个实体驱动的摘要框架SENECA来生成信息丰富且连贯的抽象摘要。实体感知内容选择模块首先从输入中识别显著的句子,然后,摘要生成模块进行跨句子信息压缩和抽象以生成最终的摘要,这2个部分通过强化学习进一步联系起来。基于语言的指导进一步增强了简洁性和清晰度,从而提高了摘要质量。
Zhang等人[50]提出了一种新的基于预训练的编解码框架,该框架可以根据输入序列分2个阶段生成输出序列。编码器,使用BERT将输入序列编码成上下文表示。解码器,在第1阶段,使用基于变压器的解码器来生成草稿输出序列;在第2阶段,屏蔽草稿序列的每个单词并将其馈送给BERT,然后通过组合输入序列和BERT生成的草稿表示,使用基于变压器的解码器来预测每个屏蔽位置的精炼单词,此外在学习过程中还引入了强化学习目标。Song等人[51]期望通过改进通用单文档摘要的框架来实现生成不同文本重用比例的摘要,因此提出了一个基于Transformer的,仅包含解码器的模型来控制生成摘要的复制率,在训练和解码阶段采取了多种策略生成从完全抽取到高生成度的不同摘要。
由于目前尚未有针对抽象文本摘要定制预训练目标,此外,目前抽象文本摘要任务也缺乏跨领域的系统评价,Zhang等人[52]提出了PEGASUS,这是一个序列到序列的模型,以间隙句生成为预处理目标,为抽象文本摘要定制,研究了几种间隔句选择方法,确定原则句选择为最优策略,展示了预训练语料库、差距句比率、词汇大小的效果,并扩大了最佳配置,以在所有12个不同的下游数据集上获得最先进的结果。
2.3 基于预训练的抽取式摘要
受BERT成功的启发,Song等人[53]提出了基于编码器-解码器的语言生成的掩码序列到序列预训练模型MASS。采用编码器-解码器框架,在给定句子剩余部分的情况下,重构一个句子片段,它的编码器取一个带有随机屏蔽片段(几个连续标记)的句子作为输入,它的解码器试图预测这个屏蔽片段。这样,MASS可以联合训练编码器和解码器来开发表示提取和语言建模的能力。通过进一步微调各种零/低资源语言生成任务,包括神经机器翻译、文本摘要和会话响应生成(3个任务和总共8个数据集),MASS在没有预训练或使用其他预训练方法的情况下,实现了对基线的显著改进。
Liu[54]提出了BERT的简单变体BERTSUM,是第一篇将BERT用于抽取式文本摘要的工作,主要是选择性抽取文本中的句子作为最后的摘要。工作的难点在于获得每个句子向量,然后对句子向量进行一个二分类,判断是否成为摘要。由于大规模、高质量的标注数据集不易获取,Zheng等人[55]开发了一个基于图的排序算法的无监督摘要模型,并改进了如何计算节点(也就是句子)的中心性。使用BERT来更好地捕捉句子相似性,并建立了具有有向边的图,认为任何2个节点对其各自中心性的贡献都受到它们在文档中相对位置的影响。尽管在许多NLP应用程序中已经对域移位进行了很好的研究,但是在提取文本摘要领域中,域移位仍然很少受到关注。Wang等人[56]分析了摘要任务中当前域定义的局限性,并将其扩展到文章出版物中。将域的常规定义从类别扩展到文本摘要任务的数据源。然后,重新调整多域汇总数据集的用途,并验证不同域之间的差距如何影响神经总结模型的性能。决定性点过程是抽取摘要的最佳技术之一,Cho等人[57]采用决定性点过程提取多文档摘要。DPP+BERT模型利用深度上下文表示和优化的力量,在多文档摘要基准上实现了出色的性能。
2.4 基于预训练的生成抽取式摘要
Liu等人[58]提出了如何将BERT有效地应用于文本摘要,强调了文档编码对于摘要任务的重要性,为抽取和抽象模型提出了一个通用框架。抽取式模型是通过堆叠几个内容转换器层建立在这个编码器之上的。针对生成式模型提出了一种新的微调调度,它对编码器和解码器采用不同的优化器,作为缓解两者之间不匹配的手段(前者是预训练的,而后者不是)。此外作者还证明了2阶段微调方法可以进一步提高生成的摘要的质量。
2.5 其它
语言模型(Language Model, LM)的预训练已在各种语言理解任务上产生了令人印象深刻的性能和样本效率。但是,仍不清楚如何最好地将经过预训练的LM用于生成任务,计算科学[59]等机构使用经过预训练的解码器网络,网络中相同的Transformer LM既对源进行编码,又生成摘要。这确保了网络中的所有参数,包括那些控制对源状态的关注的参数,都已在微调步骤之前进行了预训练。Dong等人[60]提出了一个能够同时处理自然语言理解和生成任务UNILM模型。UNILM模型的预训练是基于3个目标:单向LM(包括从左到右和从右到左)、双向LM和sequence-to-sequence LM。模型采用一个共享参数的Transformer网络的同时还使用了特定的self-attention masks用以控制预测时候所用到的上下文信息。在下游任务微调时,可以将UNILM模型视为单向的编码、双向的编码或者序列模型,以适应不同的下游任务(自然语言理解和生成任务)。
Lewis等人[61]提出了BART,一种用于预训练序列到序列模型的去噪自编码器。通过使用任意噪声函数来对文本进行加噪,并学习模型以重建原始文本来训练BART。评估多种加噪方法,发现通过随机改变原始句子的排列顺序并使用新的填充方案(其中文本段被单个mask标记替换)能获得最佳性能。Beltagy等人[62]提出了SciBERT,一种基于BERT的预训练语言模型,以解决缺乏高质量、大规模标签的科学数据的问题。利用对大型多领域科学出版物语料库的无监督预培训来提高下游科学NLP任务的绩效。论文使用来自不同科学领域的数据集对一系列任务进行评估,包括序列标注、句子分类和依存关系分析。
此外广泛使用的ROUGE的摘要自动评估依赖于参考和系统摘要之间的重叠。Sun等人[63]从评价方法角度,在文章在语义相似度的计算中彻底抛弃了ROUGE和n-gram共现,系统地研究了嵌入余弦相似度,以衡量3个数据集上摘要的质量。
不同模型在各个数据集上的ROUGE分数如表1所示。
表1 不同模型在英文数据集上的ROUGE(R1/R2/RL)分数
2.6 总结
文本摘要自1958年被提出,其发展过程经历了从发展缓慢到目前随着深度学习、预训练模型的提出快速发展的一个时期,下面针对文本摘要方法进行对比分析。
非预训练与预训练文本摘要:非预训练的文本摘要最初主要基于文本句子建立数学模型,如基于统计模型的计算句子之间相似性、文本中的词频等,以分类模型判断句子是否属于摘要部分等,都对文本摘要的发展起了很大的推动作用,但是模型存在运算复杂,需要专业的领域知识,耗费大量人力物力,不能很好地考虑到句子与文章之间的关系的缺点,但也为文本摘要的进一步发展奠定了很好的基石,促进了文本摘要的进一步发展。基于预训练的文本摘要首先是在大规模的数据集上进行训练,然后将学到的模型进行微调应用于文本摘要任务,摘要结果相比传统摘要模型在语义和句意上更加符合原文摘要,但是目前预训练模型正在越来越大(如模型参数),致使训练环境要求较高,因此很有必要研究出更加精简、普适性以及应用性较高得模型。
基于预训练的文本摘要方法目前已经取得了很大的成功,现整理常见的模型主要特征如表2所示。
表2 不同模型的主要特征
3 数据集
数据集的发展对模型的好坏有直接影响,起初摘要数据集大都来自新闻领域类数据,很大程度上限制了摘要发展,但现在摘要数据集正在多元化发展。下面对英文和中文摘要数据集进行综述。
3.1 英文数据集
3.1.1 DUC/TAC
DUC/TAC适用于单文档和多文本摘要,是由NIST举办的国际评测比赛的数据集,DUC举办时间为2001年—2007年,每年产生一个用于评测模型的小型数据集。从2008年开始,DUC变为TAC,TAC侧重于文本摘要系统的评估。TAC 2008主要任务是从2组相关的10个文档中生成2个100字的摘要,包含大约2.5 GB的文本(约907000个文档)。DUC-2002数据集包含567个文档摘要对,用于单文档摘要。DUC-2003包含624个文章-摘要对,DUC-2004包含500篇文档。由于DUC/TAC数据集较小,因此很难将其用作训练数据,通常与更大的训练数据集结合使用。
3.1.2 Gigaword
英文Gigaword[64]最初于2003年由语言数据联盟(LDC)制作,来自4个不同的国际英语新闻专线,包含了来自各种国内和国际新闻服务的大约950万篇新闻文章,包含380万个训练样本,190000个验证样本和1951个测试样本。之后约翰霍普金斯大学人类语言技术卓越中心开发Annotated English Gigaword(2012年),为英语Gigaword第五版(LDC2011T07)添加了自动生成的句法和语篇结构注释。Rush等人[65]采用神经语言模型和基于attention机制的上下文encoder结合起来做摘要,使用带注释的Gigaword和DUC数据集,由标准的Gigaword组成,由于包含许多虚假的标题文章对,基于启发式过滤器后,训练集大约由400万个标题-文章对组成。
3.1.3 CNN/Daily Mail
CNN/Daily Mail数据集是Hermann等人[66]从美国有线新闻网(CNN)和每日邮报网(Daily Mail)中收集的大约100万条新闻数据作为机器阅读理解语料库。语料库的统计信息如表3所示。
表3 CNN&Dailymail语料库的统计信息
Nallapati等人在赫尔曼等人的基础上,提出了一个长文档和有序的多句摘要的数据集。数据集有286817个训练样本,13368个验证样本和11487个测试样本。训练集中的源文档有766个单词,平均29.74个句子,而摘要由53个单词和3.72个句子组成。See等人[67]对原始数据或数据的非匿名版本进行去标签等预处理后得到非匿名版数据,包含287226个训练对、13368个验证对和114490个测试对。此外数据集更适用于抽取式摘要。
3.1.4 New York Times
《纽约时报》[68]数据集由纽约时报20年的约180万篇文章构成,数据集中有60万篇文章有人工摘要,其中超过150万篇被人工标注了文章中提到的人、地方和组织。Durrett等人[69]对数据集进行分割,得到100834个训练样本,9706个测试样本。数据偏向于抽取策略,因此偏向于抽取式摘要。
3.1.5 XSum
Narayan等人[70]提出了一个具有高度抽象摘要的新闻摘要数据集XSum,由2010年—2017年的227000篇英国广播公司(BBC)的在线文章和文章开头的引言句(单句摘要)组成,每篇文章在其网址中都有一个唯一的标识符,使用它将数据集随机分为训练集(90%,204045),验证(5%,11332)和测试集(5%,11334)。
3.1.6 Newsroom
Grusky等人[71]构建了Newsroom摘要数据集,由1998年—2017年间130万篇文章和摘要组成,由38家主要新闻出版物的编辑室的作者和编辑撰写。使用文章网址的散列函数将数据分为训练(76%)、开发(8%)、测试(8%)和未发布的测试(8%)数据集。数据集适用于抽取式和生成式摘要。
3.2 中文数据集
3.2.1 LCSTS
LCSTS数据集[72]是由哈尔滨工业大学的智能计算研究中心发布的一份基于中文微博网站新浪微博构建的大规模中文短文本摘要数据集。该数据集由200多万篇真实的中文短文组成,每篇短文的作者给出简短的摘要。手动标记了10666个简短摘要与其对应的简短文本的相关性。数据集由3个部分组成,如表4所示,第1部分包含大规模(短文,总结)对,第2部分包含10666个个人标记(短文本,摘要)对,第3部分包含1106对,由3个人同时打分。对第2部分和第3部分的短文本和相应摘要之间的相关性进行打分,分数范围从1~5,“1”表示“最不相关”,而“5”表示“最相关”,使用第3部分的3、4和5评分的对作为短文本摘要生成任务的测试集。第2部分和第3部分也可以用作训练和测试集,以训练一个模型,该模型可以用于选择第1部分所需的部分。并且在数据集的基础上用了最简单seq2seq给出了一个baseline,该数据集是针对单文本的生成式摘要。数据集具体信息如表4所示。
表4 LCSTS数据集
3.2.2 NLPCC
自然语言处理与中文计算会议(NLP&CC)是由中国计算机学会(CCF)主办的CCF中文信息技术专业委员会从2012年开始组织的年度学术会议。每年一届至今已举办9次,NLPCC2015中包含一项面向微博的中文新闻摘要任务,该数据集包括250篇来自新浪的新闻文本,包括原始文本和已经分句的文本,NLPCC2017、NLPCC2018中包含一项单文档摘要任务。会议提供了数据集NLPCC.NLPCC2017,NLPCC2018中提供的训练集是相同的,该数据集由大量带有参考摘要的中文新闻文章以及大量没有参考摘要的新闻文章组成(对于半监督方法)。2个部分都包含5000篇新闻文档,提供不同的测试集来评估和比较不同的文档摘要技术。数据集适用于单文本的生成式摘要。
3.3 其他
Sharma等人[73]介绍了一个新的数据集,包括130万份美国专利文献记录以及人类书面抽象摘要。特点:摘要包含更丰富的话语结构和更多的常用实体;更长的输入序列(CNN/DM的平均3572.8 VS 789.9个字);关键内容在输入中均匀分布,而在流行的基于新闻的数据集中,它通常集中在前几句中;摘要中存在更少和更短的提取片段。
Fabbri等人[74]提出了第一个新闻多文档摘要数据集。它包含来自1500多个不同网站的输入文章以及从网站newser.com获得的这些文章的56216篇专业摘要。此外,作者提出了一种端到端模型,该模型在各种多文档数据集(包括Multi-News)的自动和人工评估下实现了较好的结果。
4 评价方法
文本摘要的评估方法分为2个部分,自动评价方法和人工评价方法,自动评价方法是比较模型生成的摘要和参考摘要之间的相似度,人工评价是由专家对候选摘要进行评价。
4.1 自动评价方法
4.1.1 ROUGE
ROUGE,由Lin[75]于2003年提出,是目前评估文本摘要和机器翻译的一组指标。其基本思想是通过将由一系列算法或技术自动生成的摘要或翻译与一组通常由人工生成的理想摘要或翻译进行比对,通过对两者之间的重叠单元(n元语法,单词序列和单词对)进行计数,从而得出分值,以衡量自动生成的摘要或翻译与参考文本之间的相似性,来评价算法或者技术的有效性。下面对ROUGE-N进行介绍。
ROUGE-N是基于n-gram共现性进行统计,ROUGE-L是基于最长共有字句的共现性精确度和召回率Fmeasure进行统计,ROUGE-S是基于不连续二元组共现性精确度和召回率Fmeasure进行统计,ROUGE-W是基于带权重的最长公有子句共现性精确度和召回率Fmeasure进行统计。常用的评价指标为ROUGE-N。
(4)
式中:n代表n-gram的长度,n-gram是一个语句中连续的n个词组成的词组,其中Countmatch(gramn)代表同时出现在参考摘要和候选摘要中的n-gram数,Count(gramn)代表出现在参考摘要中的n-gram的个数。
4.1.2 BLEU
BLEU由Papineni等人[76]于2002年被提出,最开始开发被应用于机器翻译评估中。其计算方式与ROUGE相似,区别是BLEU基于精确率,而ROUGE基于召回率。由于机器翻译和自动文摘都可以被看作是从文本环境中产生的自然语言,因此作者认为BLEU可以用来评估自动文摘或类似的NLG任务,在文本摘要任务中是评价候选摘要和参考摘要的相似程度,和机器翻译度量参考翻译和机器翻译的形式一致。其度量公式为:
(5)
式中,wn表示n-gram的权重,且:
(6)
式中BP表示惩罚因子,c表示译文的句子长度,r表示有效参考译文的句子长度,公式表示若候选译文长度小于参考译文,会得到一个BP值,即短句惩罚因子,pn表示n-gram的精确度。
(7)
Countclip=min(Count.Max_Ref_Count)
(8)
式中Countclip是截断计数,Count是n-gram在候选翻译中出现的次数,Max_Ref_Count是n-gram在参考翻译中出现次数最大的值,两者比较取最小。其优点是计算简单且迅速,它通过在测试语料库上平均出单个句子的判断错误,而不是试图预测每个句子的准确的人类判断,从而与人类的判断高度相关。缺点是,只考虑了参考译文与候选译文的n-gram的重合度,对源文的本质意思欠缺考虑,不能很好地反映语法问题。
4.1.3 METEOR
METEOR度量方法早期是针对机器翻译评价任务的,近几年被研究人员也用于文本摘要评价任务。其起初是由Lavie等人提出评价指标中召回率的意义,之后Lavie等人[77]对BLEU度量方法进行改进,提出了基于单精度的加权调和平均数和单字召回率的METEOR度量方法,自2004年起,METEOR方法一直在被优化。
在目前Lavie等人[78]提出的METEOR计算方法中,首先计算参考摘要和候选摘要的准确率P和召回率R,得到参数化的调和平均值:
(9)
对于句子流畅度,考虑单词顺序的差距和差异,使用匹配单词的总数m和匹配上的语块个数ch计算惩罚系数,ch的数目越少,也就意味着候选摘要和参考摘要的语序越一致:
(10)
参数α、β、γ被调整以最大化与人类判断的相关性。因此得到METEOR的最终得分为:
Score=(1-Pen)·Fmean
(11)
4.2 人工评价
自动评价方法的关注点通常在候选摘要与文本的相似度,而忽略摘要的语义问题。人工评价方法一般从摘要内容的可读性、与原文档的相关性、信息性、简洁性与语义连贯性方面综合考虑参考摘要,人工评价摘要相比自动评价较为精确,但是消耗人力时间,而且人工的主观性方面容易受到外在因素的干扰。
5 未来研究挑战
文本摘要自1958年提出至今,技术一步步趋于成熟,但仍存在以下几方面的问题。
1)评价指标:目前被大家最广泛应用的评价指标是ROUGE,然而ROUGE偏向于考察摘要的重要性、流畅性等,却无法反映一段摘要是否包含了事实性错误,此外ROUGE方法是通过比较候选摘要和标准摘要的重叠度来衡量摘要的,缺少语义方面的比较[1]。因此对ROUGE进一步提出改进或者设计出一个能够捕捉摘要的事实一致性的评价指标并且全局衡量评价指标,是未来研究者们所面临的一个挑战及发展趋势。
2)数据集:现有基于预训练的文本摘要模型大多都是基于外文,在中文上的适应度不高,此外中文长文本摘要数据集较少,大多为短文本数据集,摘要长度在10~20字左右,从而普适性高的文本摘要模型的设计以及高质量中文长文本摘要的产生和其他语言数据集的产生对于摘要的发展会有很大的推动作用。
3)模型适应性:现有文本摘要模型大多集中在新闻领域,对其他领域适应性较差,因此研究更加普适性的模型也是很有必要的。
4)模型结构:预训练模型被提出后,在各个领域都取得了很好的效果,但随之产生的是越来越大的模型,模型参数越来越多,需要的数据集也越来越大。但是大也不一定就是好,目前的预训练模型大都是从大规模的数据集中进行学习,缺少总结归纳的能力。此外据研究,大规模的模型其运行过程也会对运行的环境产生影响。因此不一味追求大的模型,设计一个性能优、普适性高的模型是很重要的。
此外,虽然目前主流的预训练方法在文本摘要领域已经取得了较好成果,但以往的方法也有其可取之处,将两者结合也可以对模型性能产生影响。