APP下载

基于压缩空间句子选择的涉案新闻话题摘要*

2022-10-16卢天旭

通信技术 2022年9期
关键词:文档特征模块

卢天旭

(昆明理工大学,云南 昆明 650500)

0 引言

涉案话题新闻簇中含有描述同一话题的多篇新闻文档,需要从这些文档中提取出关键句子作为摘要来描述涉案话题关键信息,以实现涉案舆情信息的监管。当社会上发生一个与司法案件相关的热点事件时,信息往往会在新闻网站和媒体上快速传播、发酵,因此如何有效地进行涉案舆情监管是一个关键问题。通过技术手段快速获取舆情信息,及时提取案件舆情话题新闻的关键内容,对有关部门监管网络动向,维护网络秩序稳定而言至关重要。同一话题下新闻文档数量成百上千,用户如果直接从这些新闻中搜索描述话题的信息,需要花费较多的时间和精力一一阅读,处理起来非常不方便。通过文本自动摘要技术,从话题簇的新闻中提炼出含有话题关键信息的形式简练、覆盖准确的话题摘要,将极大减少用户的阅读时间,并能有效减少信息存储的代价。对于有关部门开展的针对涉案话题的舆情监管工作,获取舆情话题关键内容的技术起到了重要作用。

目前在通用领域针对话题摘要的研究分析是比较多的,并且由于近年来深度学习和神经网络算法取得了很大的发展,将其应用在话题摘要任务上也取得了许多研究成果。

涉案新闻的话题摘要针对的是同一案件话题下的新闻文档,其标题和正文内容均包含了涉案话题的要素关键信息,如表1 所示。

表1 涉案话题新闻结构示例

表1 中新闻的标题和正文中包含了案件名、涉案主体、描述、时间地点等要素关键词,如果使用通用的自动摘要方法,容易遗漏或覆盖不全这些关键信息,也可能提取到与涉案话题描述无关的句子,造成摘要中的句子突出度不高。此外,现有方法使用句子选择模型直接从原文中抽取代表性句子,比较简单实用,但是在涉案新闻话题摘要任务上,通用的自动摘要方法不能适应话题簇中新闻数据多案件要素的特点,生成的摘要句子关键性不足,重复性也较高,不具有实用性。因此,需要结合涉案话题的要素关键词进行句子重要性筛选,并使用一种可以平衡突出特征和重复特征的句子选择方法,才能在压缩搜索空间的基础上提升生成的话题摘要的质量。

1 相关工作

话题摘要的研究可以根据提出的方法划分为基于特征、基于主题模型、基于图、基于句子排序和基于神经网络5 类。相较于单篇新闻文档的摘要,话题摘要输入的样本数量更多,更容易产生重复性内容。此外,相较于一般的文本摘要任务,话题摘要任务要求生成的摘要句子包含描述话题的关键信息,并且最终得到的摘要句子集合既要凝练多篇话题文档的主要内容,又不能具有重复特征。

基于特征的摘要方法通过提取文档中的关键词、引导词等统计特征来对句子进行排序,从而选出排名靠前的句子作为摘要。Moradi 等人[1]提出了一种贝叶斯分类器的自动摘要模型,它将生物医学百科词典作为参照,从文本中分类出带有生物医学特征的句子作为摘要。Yan 等人[2]提出了基于时间特征的自动摘要,建立文档句子间的时间依赖关系。Liu等人[3]构建关键词组成的语义模块,并寻找与参考摘要重叠的模块,通过权重函数最大化该模块所在句子的重要程度来提取摘要句。Lin 等人[4]提出了一种多文档摘要系统,通过词频、句子位置等特征来选择需要提取和过滤的内容以提高和参考摘要的覆盖率。Ouyang 等人[5]融合词语的出现次序和出现频率计算句位特征,特征得分高的句子作为摘要句。

基于主题模型的摘要方法通过传统的主题模型获取文档的主题分布,并通过计算句子与主题的相似度得分来提取得分高的句子作为摘要。Shen 等人[6]提出了一种应用在摘要任务上的概率潜在语义分析模型,可允许词语与文档的潜在类别数量不同,同时引导文档聚类和生成摘要的过程。刘娜等人[7]在多文档摘要任务上融合词频等统计特征和潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型建立的重要主题特征,在摘要公共数据集上取得了不错的效果。Xiong 等人[8]利用LDA 主题模型,通过无监督方法筛选有用的评论,生成评论话题摘要,并考虑将其应用在多文档摘要任务中。Gong 等人[9]综合了原始文档中的句子相关性排序和潜在语义分析模型发掘的语义重要的句子,选取综合排名高的句子作为摘要句。Kar 等人[10]将LDA 主题模型应用在在线文本摘要任务上,对单个术语进行评分,然后使用评分信息对句子进行选择,生成最终摘要,并使用LDA 主题模型来寻找隐藏的主题变化结构。

基于图模型的摘要方法是基于构建图结构的思想,通过节点与边的关系构建句子之间的关联关系,并通过图结构的优化来计算句子的重要性。Mihalcea 等人[11]提出了经典的TextRank 算法,通过构建文档句子的图结构并根据相似度计算句子的重要性权重,可用于关键词和关键句子的抽取。Wan 等人[12]提出了一种基于图的流形排序算法,从多文档中提取以主题为中心的摘要,将文档内句子关系和跨文档句子关系视为两个独立的图结构,并采用线性、顺序和分数组合3 种形式融合这两种关系。Canhasi 等人[13]提出了一种新的基于图的方法,将输入文档和查询表示为多元素图,然后使用一种加权原型分析分解方法根据句子与查询的相关性来估计句子的重要性。Xiong 等人[14]在多文档摘要任务上,提出了一种新颖的基于超图的顶点增强随机游走模型,首先利用分层狄利克雷过程主题模型来学习句子中的词和主题概率分布,其次使用超图来捕获基于词和主题概率分布的聚类关系和句子之间的成对相似度,并进行句子排序。Van Lierde等人[15]提出了一种使用模糊超图来推断句子的主题分布的方法,最大化句子与定义的查询的相关性、在模糊超图中的中心性以及它们对语料库中存在的主题的覆盖来生成摘要。

基于句子排序的摘要方法通过优化的句子选择模型为文档中的句子进行打分排序,选取得分高的句子作为摘要。Carbonell 等人[16]提出了一种将查询相关性与信息新颖性相结合的经典方法,通过最大边际相关性减少重复,同时在重新排名中保持查询相关性检索文档,并选择合适的段落进行文本摘要。Lebanoff 等人[17]利用最大边际相关性方法从多文档输入中选择具有代表性的句子,并利用抽象的编码器—解码器模型将不同的句子融合到抽象的摘要中。Zhang 等人[18]提出了一种通过将文档集编码器添加到分层框架中,来实现为多文档任务中预训练成功的单文档摘要模型进行句子选择的方法。Cao 等人[19]提出了一种新的摘要系统,它共同处理句子和文档集群的分布式表示,以及应用注意力机制来模拟在给出查询时对人类行为的注意力阅读这两个任务,取得了较好的句子排序效果。Narayan等人[20]通过优化评价指标训练模型提取候选摘要,同时优化奖励函数,可以提取到符合预期的摘要句子。

基于神经网络表征的摘要方法是在神经网络学习句子的向量表征的基础上,进行句子选择生成摘要的方法。Cheng 等人[21]基于编码器提取器的数据驱动的摘要框架,通过分层神经网络结构分别提取句子和词的特征,从而得到更好的摘要。Cao 等人[22]使用循环神经网络的排序模型来选择文档集合中的句子,将句子排序任务表示为,在层次回归过程中,同时测量句子的突出度及其在解析的句子中的潜在表征,并使用贪婪的启发式方法来提取突出句子,同时避免重复特征。Zhang 等人[23]提出了增强型多视图卷积神经网络,以共同获取句子的特征,并对句子进行排序。Nallapati 等人[24]提出了基于循环神经网络的模型生成摘要预测,包括句子内容、突出性和重复性等抽象特征。此外,可以单独训练参考摘要,消除对句子抽取标签的依赖。Yasunaga 等人[25]在构建句子关系上使用图卷积网络,将句子嵌入作为网络的输入,并通过网络传播生成用于突出性估计的句子潜在表征,并使用贪婪的启发式方法来提取突出句子,同时避免重复特征。

以上方法是摘要任务中常用的方法,基于特征的方法依赖于统计学特征,使用环境发生变化时效果受影响较大;基于主题模型的方法容易受到数据的质量和任务类型的影响,会造成主题不一致的问题;基于图的方法依赖于句子之间的相似度计算,可以构建出多文档句子间的关联关系;基于句子排序的方法需要平衡突出度和重复度才能生成质量较好的摘要;基于神经网络的方法依赖于模型的表征能力,训练的参数较多。在完成话题摘要任务时,往往需要结合多种方法才能达到良好的模型效果。

本文考虑结合句子排序和神经网络的方法,并融入话题关键词特征,实现突出度高且重复特征少的涉案新闻话题摘要。

2 基于压缩空间句子选择的涉案新闻话题摘要

2.1 模型框架

本文提出一种基于压缩空间句子选择的涉案新闻话题摘要方法,先通过句子重要性评估步骤确定包含话题关键词的重要句子,然后通过文档集合编码器编码话题簇新闻文档集合和句子,再使用突出度计算模块和重复特征计算模块确定候选句子,最终得到候选摘要句子的评分,话题摘要由评分靠前的句子组成。模型主要分为5 个部分,分别为句子重要性评估模块、基于改进的基于Transformer 的双向编码表示(Bidirectional Encoder Representation from Transformers,BERT)模型[26]的文档集合编码器、突出度计算模块、重复特征计算模块和句子选择模块。模型框架如图1 所示。

图1 基于压缩空间句子选择的涉案新闻话题摘要模型框架

2.2 句子重要性评估模块

句子重要性评估模块首先需要定义话题簇中的关键词。话题簇中标题往往涵盖了准确的话题描述词,也是正文内容的高度概括,如果某个词语既属于案件的要素信息,又在各个新闻标题中高频出现,说明该词语比较重要,可以作为描述话题的关键词。因此本文定义了话题簇下标题的关键词作为话题的关键词。以话题“章莹颖案诉讼被驳回”为例,可以提取新闻标题中的“章莹颖案”“诉讼”“驳回”“家属”“校方”和“责任”等词语作为话题关键词。对于新闻文档中的句子,包含话题关键词越多,说明该句子重要性越高。基于这种思路,计算句子的重要性得分。

首先需要计算关键词的得分,也就是关键词的词频。使用Python 的正则化匹配提取出含有关键词的句子集合,过滤掉包含无关信息的句子。其次计算新闻文档中关键词的词频。设num(wi)为关键词wi在某篇新闻中出现的次数,∑num(wi)为所有词语在该篇新闻中出现次数之和。则关键词wi的得分SC(wi)的计算方式为:

计算出该文档中关键词的得分后就可以计算文档中句子的得分。设文档集合中第m个文档的第n个句子Smn的重要性得分为SC(smn),那么该句子的重要性得分的表达式为:

计算出文档集合中句子的重要性得分后,需要根据分数进行一次句子筛选。本文使用BERT 模型进行文档集合句子编码。BERT 模型对于编码的长度有限制,因此本文在句子编码前先提取了各文档中重要性得分最高的句子,组合成新的文档集合L进行后续的编码操作。

2.3 文档集合编码器模块

经过句子重要性评估后,新组合而成的文档集合L中包含了m个涉案新闻句子,即{l1,l2,…,lm},其中li表示集合中的第i个句子。为了得到高质量的句子和文档集合表征,本文考虑将BERT 预训练模型应用到话题摘要任务中。由于BERT 模型是基于词元级别的编码,不是句子级别的编码,且该模型的片段嵌入部分用来判断两个句子是否有关联,只包含两种类型的片段嵌入,不能直接运用到输入多个句子的话题摘要任务中。因此本文使用了基于改进的BERT 模型的文档集合编码器,如图2 所示。

图2 文档集合编码器模块

在文档集合的每个句子li之前加入[CLS]标记用来汇总句子嵌入信息,末尾加入[SEP]标记以区分不同句子的界限。为了区分不同位置的句子,引入了Eodd和Eeven两种不同的间隔片段嵌入。对于句子li,如果i为奇数,则该句子的间隔片段嵌入为Eodd,反之i为偶数时嵌入为Eeven。通过这种编码方式每个句子可以获得句子的Token 嵌入El、间隔片段嵌入Eodd和Eeven以及位置嵌入Ep3 种嵌入的融合。经过多个Transformer[27]编码层编码后,将句子li之前的[CLS]标记输出的表征T[cls]作为对应句子的表征,可以记作Eli′。Eli′和每个句子表征在文档集合编码器中的位置嵌入Ep′,融合后组成一个输入的表示序列。在序列的头部加入一个能表示文档集合的嵌入Eset,组合成一个完整的文档集合-句子表征输入序列,输入到多个Transformer 编码层中编码。最终得到完整的文档集合L的表征rset和句子编码表征。

2.4 突出度计算模块

话题摘要任务需要提取出具有代表性的句子,也就是突出程度高的句子,本文在文档集合编码和句子编码的基础上设计了一个单步步骤的句子突出度计算模块。设文档集合L的人工编写的参考摘要为R,目标是从L中提取k个能概括关键信息的句子作为摘要句。对于第t个选择步骤,当前已经生成的摘要句子集合为-1。设lj为L中尚未选择的句子,通过计算由文档集合编码器输出的集合表征rset和句子表征rli的双线性映射函数Fpro,来衡量所选句子包含在参考摘要R中的概率,其表达式为:

式中:Wbm为双线性映射的权重矩阵,可以对rset和两个维度不同的向量分别做线性变换并将二者映射到另一个空间中。其目标函数是将训练样本中包含在参考摘要R中的句子的对数似然函数最大化,即:

式中:双线性映射函数Fpro作为衡量当前候选句子li和尚未选择的句子lj的突出度评分函数,可以计算出每个候选句子的注意力得分,也就是句子的突出度得分。

2.5 重复特征计算模块

计算出候选句子的突出度得分后,还需要计算句子的重复特征。在进行第t个选择过程时,首先计算该过程的n元语法模型匹配特征,它表示候选句子li和已选择的摘要句lt-1的n元语法词组的重合程度,则有:

重合的词组越多表明重复的特征越多,为了准确计算重复特征,本文分别计算了一元、二元及三元语法模型的词组重合度。

为了挖掘更深层的句子表征相似性,本文在得到n元语法模型的词组重合度的基础上,又融合了句子表征的最大语义相似性Fsim来计算重合特征,如:

为了扩大通过候选句子和已选句子的余弦相似度计算出的重合特征的数值差异,使用线性归一化将特征值离散到0 和1 之间,则有:

重复特征计算模块计算出两种重复特征,将两种特征融合可以得到整体的重复特征。首先将0 到1 的区间长度等分为c个分块,根据一元、二元和三元语法词组的重合度特征以及归一化的语义相似性特征将其数值离散到0 到1 之间等分的对应分块中,从而将每部分特征转换为长度为c的one-hot向量表示,并将各部分拼接融合,得到模块整体的重复特征向量表征Frep(li)为:

式中:为各部分的重复特征向量分块后的one-hot向量。这样可以捕捉到各部分重复特征的影响,这是因为笔者希望选择的摘要句子具有较少的重复特征。

2.6 句子选择模块

通过句子突出度计算模块和重复特征计算模块得到突出度得分和重复性特征后,需要在句子选择模块中平衡这两种特征,使得选择的摘要句既要有一定的突出度,又不能含有过多的重复性特征。在句子选择的第一步中,本文只提取突出度得分最高的句子作为摘要的第一句。通过计算突出度特征Fpro(li)和重复特征Frep(li)的双线性映射函数来平衡候选句子li的两种特征,得到一个d维的映射匹配向量。将其输入到多层感知机中得到句子的最终得分SC(li),其计算公式为:

式中:为两种特征的双线性映射矩阵;Wh为多层感知机的权重矩阵。句子选择模块在训练过程中从参考摘要R里随机选择句子,让模型学习上下文信息,并学习寻找下一个突出且不重复的句子。句子选择模型的目标函数为:

目标函数表示在第t个过程中,选择任何句子li的概率是句子得分SC(li)在L中剩余的句子lj上的softmax 函数。句子选择模块的损失与句子选择的顺序无关,因为在训练过程中给定的句子是一组无顺序的句子,模块的选择对象总是下一个突出又不重复的句子,最终得到句子集合作为生成的话题摘要。

3 实验结果与分析

3.1 涉案新闻话题摘要数据集

涉案新闻话题摘要任务属于针对司法案件特定领域的任务,目前尚未有公开的数据集。因此本文在自行构建的涉案新闻话题摘要数据集的基础上开展具体工作。首先从各大新闻网站爬取涉案新闻话题数据,并从中选取了30 个话题新闻簇,每个簇中的新闻都描述同一话题,每个簇含有20 篇涉案新闻,包括标题与正文内容,总计15 343 个句子;其次进行了预处理。针对话题摘要任务对每个句子进行标注,构建了涉案新闻话题摘要数据集,数据集的划分如表2 所示。

表2 话题摘要数据划分

3.2 评价指标

本文模型性能的评估采用文本自动摘要领域中常用的内容度量评价方法,即通过计算ROUGE 值[28]来衡量生成摘要的质量。ROUGE 关注的是召回率,其值越高表示模型生成的摘要与参考摘要越接近,效果越好。ROUGE-n通过匹配n-gram模型词组的个数来确定生成的摘要与参考摘要的相似性,其计算方法为:

式中:n为n-gram模型词组的大小,本文选取n=1,2 时的一元和二元词组计算ROUGE-1 和ROUGE-2 的值来评价模型;nummatch(n-gram,为n元词组在参考摘要R中出现的次数和生成的摘要中出现的次数二者之中的最小值;分母为参考摘要中所有n元词组的总数。为了更全面地评价模型生成摘要的质量,本文还采用了ROUGE-L指标。ROUGE-L指标是衡量生成的摘要与参考摘要之间最长字符串的共现率的指标。设参考摘要R={r1,r2,…,rn},ROUGE-L计算方法为:

式中:RL和PL分别为召回率和准确率;α为召回率权重的超参数。RL和PL的计算方式为:

式中:L(ri,为参考摘要和生成的摘要中共现的最长字符串的长度;|ri|为参考摘要中的句子长度;为生成的摘要的总长度。ROUGE-L更多考虑召回率,因此将α 取较大的值。ROUGE-L越大代表两句话共现的字符串长度越长,二者更相似。

3.3 实验设置

模型实验采用改进的BERT 预训练模型编码话题簇新闻文档和句子,包含12 个隐藏层,每层有12 个注意力头,隐藏层维度为768,词表大小为30 522。文档集合编码器编码文档集合的Transformer层数为2 层,各层的dropout 设置为0.1。训练批次大小为128,训练轮次为20,学习率为2e-3,优化器采用Adam,β1为0.9,β2为0.999。式(8)中各部分重复特征的one-hot向量表示长度c为20,式(9)中突出度特征和重复特征的双线性映射输出的特征维度d为10。模型训练采用从参考摘要中随机选择的无顺序句子作为上下文信息。

3.4 基线模型分析

为了验证本文提出的压缩空间的句子选择模型对于涉案新闻话题摘要任务的有效性,本文选取了5 个模型作为基线模型,分别在构建的数据集上进行实验,基线模型分别为LEAD-3、LDA 主题模型、TextRank、BertSum 和RL-MMR。

(1)LEAD-3:是一种根据句子在文档中的位置来抽取句子作为摘要的方法,该方法认为文档最重要的部分就是开头部分,重点关注文档开头部分的前三句话,属于一种硬拦截方法,只提取前三句话作为摘要句,其余内容不考虑。

(2)LDA[7]:是一种主题模型,以概率分布的形式得到文档的主题分布,其在摘要任务上选取含有主题信息最多的句子作为摘要句。

(3)TextRank[11]:是一种基于图的重要性排序算法,以相似度构造句子关系图,计算每个句子节点的TextRank 得分,选取得分高的句子作为摘要句。

(4)DPP[29]:是将行列式点过程应用在抽取式摘要任务上的方法,行列式点过程的目的是使得子集的选择更具有多样性,越相似的样本越不能够被同时选择。

(5)RL-MMR[30]:该方法在最大边际相关性(Maximal Marginal Relevance,MMR)算法的基础上,利用分层编码对多篇文档进行句子编码,融合句子的表征和MMR 指导特征以及摘要的表征等多种特征迭代模型,从而选取句子的摘要。

将3 种ROUGE 值作为评价指标进行对比实验,实验结果如表3 所示。

表3 基线模型性能比较

从表3 中的实验结果可以看出,LEAD-3 算法在生成涉案新闻话题摘要时效果最差,因为它只关注文档集合的开头部分,通过硬截止的方式抽取前三句话,而前三句话叙述了较多的无关信息,导致不具代表性的内容较多,模型性能较差。LDA 主题模型依靠统计特征,由于涉案新闻的特殊性,LDA会出现主题重要性不一致的问题。TextRank 算法是基于图模型的,在构建文档集合中句子的关联关系上有明显优势,但是该方法没有首先进行句子重要性筛选,应用在涉案领域容易受到非话题关键词的高频词的影响,所以在ROUGE-2 和ROUGE-L 指标上有明显的不足。DPP 模型的各项指标均比之前的对比方法要好,该模型通过行列式点过程选择具有代表性的样本,利用胶囊网络过滤掉含有重叠词较少但是语义重复的句子,在去除重复特征方面效果较好,但是该模型缺少端到端的表示学习,会造成误差的积累,效果仍有待提高。RL-MMR 模型效果相比本文模型之外的对比模型,取得了不错的效果,但对比本文模型,RL-MMR 引入的软注意进行句子排名的方式并不完善,没有话题关键词信息的指导,排名高的句子也会出现非话题关键信息。

本文模型引入句子重要性评估模块后,过滤掉大量与关键信息无关的句子,并且将重复特征与突出特征进行了平衡,最终选择的句子的得分不会偏向于任意一种特征,从而达到了最好的效果。与基线模型相比,本文模型的ROUGE-1 值提升了1.44~6.47,ROUGE-2 值提升了0.96~6.34,ROUGE-L值提升了0.91~6.42,这也验证了本文提出的基于压缩空间句子选择的涉案新闻话题摘要方法的有效性。

3.5 消融实验分析

为了验证本文提出的话题摘要模型中各部分的有效性,将主模型消融为主模型去除句子重要性评估、主模型去除突出特征和主模型去除重复特征3个子模型,评价指标均使用ROUGE 值计算,最优结果用粗体表示,主模型和简化后的模型性能比较结果如表4 所示。

表4 简化模型性能比较

从消融实验的结果可以看出,去除模型的句子重要性评估模块,各项指标效果最差,ROUGE-1 值下降了6.28,ROUGE-2 值下降了6.32,ROUGE-L值下降了7.71。这是由于去掉该模块后,模型输入的句子集合未经过滤,含有较多的非关键信息的词语,而且文档集合编码器模块对于过多的句子编码会进行硬截断,对于话题内容的描述不够精确,与参考摘要的差异较大。模型去掉突出特征后,效果比去掉句子重要性评估模块效果稍好一些,ROUGE-1 值下降了4.47,ROUGE-2 值下降了3.53,ROUGE-L值下降了5.94。因为模型虽然提取到了含有话题关键词的句子,但是去掉了突出特征后,模型提取的摘要句子中的信息不具有代表性,同样不能很好地描述话题内容。模型去掉重复特征后各项指标下降最小,ROUGE-1 值下降了3.73,ROUGE-2 值下降了2.42,ROUGE-L值下降了3.77。这是由于模型保留了突出特征的计算模块,提取到的句子包含较多的代表性信息,但是去掉了重复特征,提取的句子集合会含有大量的重复信息,虽然关键信息多了,但是生成的摘要仍然不是最好的摘要,这也从侧面印证了本文模型的有效性。

3.6 不同摘要长度实验分析

为了验证模型生成不同长度的摘要对ROUGE指标的影响,即验证模型是否有较好的适应性,本文设定生成4 种不同长度的摘要进行对比,实验结果如表5 所示。

表5 生成不同长度的摘要性能比较

从表5 中可以看出,当生成的摘要长度为50和100 时,模型的各项指标效果最差,模型性能下降明显,这是由于生成的摘要过短会造成大量的相关信息丢失。当生成的摘要长度为150 时,模型接近最好的性能,长度为200 时达到最好。这是由于构建数据集时,为各个话题簇编写的人工参考摘要在测试集中的平均长度在178 左右,生成的摘要越接近参考摘要的长度,与参考摘要的共现词组和最长字符串数量就会越多,模型的性能效果就越好。

3.7 实例分析

为了直观地验证本文模型的效果,通过实例分析对比了本文模型和部分基线模型生成的话题摘要的效果。以涉案话题“西安奔驰女车主维权案始末”生成的话题摘要为例子,如表6 所示。

表6 话题摘要实例分析

从表6 中的实例结果可以看出,LEAD-3 方法生成的话题摘要容易提取到文档集合开头部分的引言等与话题无关的信息,非常依赖文档的排列顺序;TextRank 方法生成的摘要容易受到非话题关键词的影响,且生成的摘要句子不够连贯,出现了明显的句子重复信息;RL-MMR 模型比上述两个对比模型效果要好很多,很少出现重复的句子,但是由于缺乏话题关键词的指导,某些非重要的句子也被赋予了高排名。本文提出的话题摘要模型相比上述模型提取到的摘要句子,包含了话题的全部关键词,且信息具有代表性,没有出现重复描述的句子,得到的话题摘要质量较高,在本文的研究任务上具有优势。

4 结语

本文针对话题簇中文档搜索空间较大,以及存在较多与话题关键信息无关的句子的问题,提出了一种基于压缩空间句子选择的涉案新闻话题摘要方法。通过句子重要性评估模块提取包含话题关键词的句子,利用双线性映射函数平衡句子的突出特征和重复特征进行句子评分,实现与话题重要信息相关的句子的抽取。此外,基于构建的涉案新闻话题摘要数据集以及人工编写的参考摘要,通过各种实验证明本文提出的话题摘要模型可以抽取出既有代表性信息又不重复的关键句子,生成的摘要具有较高的质量。

在未来的工作中,将探索大规模话题摘要数据集的处理工作,在大规模数据集预训练模型上进一步提高生成的话题摘要的质量。

猜你喜欢

文档特征模块
28通道收发处理模块设计
“选修3—3”模块的复习备考
浅谈Matlab与Word文档的应用接口
离散型随机变量的分布列与数字特征
有人一声不吭向你扔了个文档
抓特征解方程组
不忠诚的四个特征
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
集成水空中冷器的进气模块