APP下载

基于查询的新闻多文档自动摘要技术研究

2019-05-24王凯祥

中文信息学报 2019年4期
关键词:文档权重向量

王凯祥,任 明

(中国人民大学 信息资源管理学院,北京 100872)

0 引言

在人工智能技术日新月异、互联网技术飞速发展、人们信息需求不断提升的今天,信息传播渠道丰富多样,人们每天都会接收大量的信息,从这些海量信息中找出自己所需信息,需要花费大量的时间和精力。自动文本摘要技术的出现,可以帮助人们节省大量阅读时间,在相同的时间内获取更多的有效信息。基于查询的自动文本摘要技术可以对用户感兴趣的、主动查询的内容进行摘要,更加有针对性地满足用户的信息需求,方便用户更快更准确地获取到所需的内容,提高阅读效率,提升阅读体验。

自动文本摘要方法主要有两大类: 生成式(abstractive)和摘取式(extractive),生成式需要在语义理解的基础上,在词语级别上生成摘要。摘取式是通过分析文本统计特征、潜意语义特征等,在句子或段落级别上生成摘要。其中摘取式摘要方法从方法技术上分主要包括基于统计信息、基于机器学习、基于主题模型、基于图模型等方法。

基于查询的自动摘要技术主要在通用自动摘要算法基础上,针对面向查询的特点,对相关技术进行了适用性改进。在基于图模型的自动摘要方法上,使用流排序算法可以计算加入查询节点后,权重在图中传播后的各个节点的权重。Cai和Li在流排序的基础上,增加了主题层的排序[1]。Canhasi[2]基于PageRank构建了在句子、查询句、段落、文档、框架五个层面的图模型,进一步提高了模型效果。超图模型可以使传统的图模型结构连接超过两个句子,降低复杂度。Xiong和Ji[3]结合主题模型获得主题分布,使用超图模型获得词与主题、句子与句子的主题分布,通过节点增强和随机游走模型对句子进行排序。Zheng等在此基础上增加了概念层[4]。在基于聚类的自动摘要方法上,在根据句子或词语之间的相似度对句子进行聚类时,会加入语义信息[5]和多种特征[6-7],提高相似度计算的准确率和聚类效果,其中聚类方法的改进也会提升摘要效果。Naveen和Nedungadi使用PHA-Clustering Gain与K-Means结合方法改进了聚类方法[8]。Yang[9]基于HLDA并结合n-gram模型,提出了一种考虑上下文关系的主题模型。聚类方法与图模型的结合在多文档摘要中表现较好。Sun等[10]在聚类之后构建两层图模型,通过寻找最优路径的方式提取摘要。

在基于机器学习的自动文本摘要方法上,通常通过提取与查询语句相关的特征[11],如句子位置、长度、与查询句子的相似度、TF-IDF等特征[12-13],以优化摘要结果。随着标注数据的增多和深度学习的发展,神经网络模型在生成式摘要的应用上逐渐增多[14-16],但其在语义可读性上的表现有待提高。

词语的向量表示是通过相关模型将每个词语转换成唯一的特征向量,Mikolov等针对词语的分布式表示[17],提出了通过神经网络语言模型获得其分布式向量表示的Word2Vec方法,可以通过词之间的距离来判断它们之间的语义相似度,该方法在词向量降维、语义分析、相似度计算等方面均有较好的表现。本文使用Word2Vec的方法计算词语之间的相似度,进而得出句子相似度。

句子的选择通常需要满足三个条件: ①所选句子对文摘信息量的增加贡献度尽量高;②使文摘的信息冗余度尽量低;③所选句子数量满足摘要对句子或词语数量的限制要求。最大边界相关法(maximal marginal relevance,MMR)[18]可以从候选摘要句子集中选择出句子权重高同时使摘要集冗余度低的最优句子,满足摘要句选择的要求[19]。

1 基于查询的自动文本摘要

本文基于查询的新闻多文档自动摘要方法的设计,从主要流程上包括数据集的获取、文档预处理、句子权重及时序权重系数计算、句子相似度计算、句子选择几个部分,具体流程如图1所示。

图1 基于查询的新闻多文档自动摘要设计流程

1.1 句子相似度计算

本文使用gensim工具包中的Word2Vec训练获取的词向量计算句子相似度,由于对于某个检索条件下的新闻文档集,其各个文档及文档中句子的相似度很高,使用词向量模型可以更加准确地区分各个词语之间的语义差别。词向量模型的训练结果得到的是每个词语的向量值,将这些向量映射到维度空间中,就得到了词向量的空间模型,词语之间的相似度值可以使用两个词语在空间模型中的余弦相似度表示[20],如式(1)所示。

其中:wa、wb表示词向量,n表示词向量的维数,wak表示wa向量的第k维的值。wbk表示wb向量的第k维的值。

句子是由一个个词语组成的,所以句子之间的相似度可以在词语相似度的基础上计算得到。我们知道两个句子中相似的词语越多其相似度应该越高,当两个句子完全一样时其相似度为1。同时为了避免长句子的相似度过高,减弱长句子在词语数量上的优势,这里采用先求和再求平均数的方法,计算词语相似度的平均值。因此两句子相似度计算,如式(2)所示。

其中,sim(si,sj)表示句子si与句子sj的相似度,wi表示si中的词语,wj表示sj中的词语,cos (wi,wj)为wi,wj两个词语的向量空间余弦相似度,Lsi,Lsj为si,sj中包含词语的数量。

1.2 句子权重的计算

本文在句子权重的计算中主要考虑以下五部分的因素。

(1) TF-IDF得分。词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。其计算如式(3)所示。

(3)

其中,ni,j是该词wi在文件dj中的出现次数,ND表示语料库中的文件总数,N{j:wi∈dj}表示包含词语wi的文件数目。在计算句子的TF-IDF得分时,为了避免长句子的得分偏高,使用句子所包含词语的TF-IDF平均值来表示句子的TF-IDF值,如式(4)所示。

其中,weighttfidf表示句子的TF-IDF得分,Ls表示句子长度。

(2) 位置权重。由于新闻文本结构的倒金字塔特性,整篇新闻的最核心内容往往会放在首段或者首句进行说明。通过对大量新闻文章的调研发现,新闻文章为了吸引读者兴趣,使用首段首句引出后面所要表达的核心内容,在首段中首句之后的句子仍然表达的是总结性的内容,所以此权重计算如式(5)所示。

(5)

(3) 与标题的相似度。新闻文章的标题通常会以最凝练的语言概括整篇文章的主要内容,所以句子与标题的相似度,可以体现出该句子与文章主要内容的相关程度,如式(6)所示。

其中,s为句子,T为标题。

(4) 与查询的相似度。查询语句体现了用户所要了解的信息范围,句子与查询语句的相似度越高表示该句子更有可能是用户想要阅读的内容,如式(7)所示。

其中,Q代表查询。

(5) 线索词权重。线索词是指“总而言之”“总的来说”等概括性的指示词语,包含线索词的句子通常是对其他文章内容的总结,会包含更多的信息,在权重设置上应给予更高权重:

句子权重由以上五个部分组成,为了平衡各部分权重得分的分布,为每部分权重引入了权重系数,该权重系数由两部分组成: 归一化系数和经验权重。如式(8)所示。

其中归一化系数ε是通过计算已知文档集上五种权重的分布,对其进行归一化后得到的系数,经验系数α是根据实验分析,调优后的参数。

句子最终权重值为权重系数与各部分权重值得乘积之和,即:

Wgroup(s)=λtfidfweighttfidf+λposweightpos+

λtweightt+λqweightq+λxweightx

(9)

其中,λ为各部分的权重系数,Wgroup为句子s五个权重要素结合后的组合权重值。

1.3 时序权重系数

新闻报道的一大特点是讲求时效性,同时较新的文章会包含以前的新闻事件的介绍;用户在搜索某个新闻内容时通常也是为了获得最新的新闻进展。所以较新的新闻内容更符合用户的信息需求,在计算句子权重时应考虑新闻时效的影响。

由于摘要结果是在句子维度上对句子进行的选择,所以对时间区分的维度应该也在句子维度上,即要确定每个句子所对应的时间。通过对大量新闻文章的句子时间的分析发现: 新闻文章的段落较短,同一段落的句子往往只表达一层含义或一个观点,在未出现时间标识词时,往往表示同一时间。本文提取句子时序特征的流程如图2所示。

图 2 句子时序特征提取流程

由于新闻文章的时效性,在提取摘要时,距离现在越远的句子,其权重应该越低。同时为了避免因句子间隔时间不等导致的权重波动问题,这里采用的是相对时间,也就是句子在时间排序上的位次,位次越靠前权重值越高。λtime为时序衰减系数。

由此,对文当中任意一个句子s的权重值如式(10)所示。

对比三种形式的衰减函数,在标注数据上,选择不同文摘比例上的F值如图3所示,其中α取默认值1。

图 3 不同衰减函数效果对比

从图3中可以看出,三条曲线随着文摘比例的增大而增大,这是由于人工摘要的句子数是一定的,当摘要比例增大时,机器摘要的正确句子数则会逐渐增加,准确率和召回率也随之增加。通过对比可以发现指数型的衰减函数,在时间序列的处理上有更好的效果。

在15%文摘比例下,对于常数型、线性型、指数型衰减函数,选择不同经验系数α取值的F值对比,如图4所示。

图 4 不同参数下常数型、线性型、指数型衰减函数F值对比

从图4中可以看出: (1)对于常数型衰减函数,其参数大小对句子权重的相对大小没有影响,所以F值不随其变化;(2)对于线性型、指数型衰减函数: 当系数α逐渐增大时,F值逐渐变高,这是由于当α过小时,衰减函数的取值与常数型接近,不能体现出时序衰减的特性;当α继续增大时,则会使时间较新句子权重偏大,使摘要集里时间较新的句子增多,导致F值降低;(3)经过调优后可以看出指数型的最大值要大于线性型的最大值,所以指数型衰减函数要优于线性衰减函数。

2 实验过程与结果分析

2.1 数据准备

研究的文本对象是中文新闻文本,研究的主题是基于查询的自动文本摘要,当前在中文领域没有适合本研究主题的标注语料集,同时为了结合使用的实际情况,采用基于新闻网站搜索引擎结合语句查询的方法,通过爬虫抓取查询结果文档,组成文档集。实验选取的新闻网站为光明网,一是由于光明网的搜索结果中会包含其他的新闻平台的内容,检索结果更加全面;二是和百度、谷歌等搜索引擎相比又能得到更加纯粹的新闻报道。

2.2 数据预处理

数据预处理的过程,主要包括文本数据结构化、分词、去停用词等步骤。由于抓取的新闻文档是非结构化的纯文本形式,需要将其结构化为包含时间、位置等属性信息的标题、段落、句子。同时网页新闻的开头通常会包含报道来源等信息,在进行文档预处理时需要删除掉这些和新闻内容无关的信息,避免在进行语义分析时产生影响。

词向量的预训练方法采用Python语言中的gensim工具包进行训练,由于所使用的训练语料对模型的训练结果影响较大,这里选用的是中文维基百科的语料库(800MB)和搜狗中文新闻语料库(1.2 GB),使用的语言模型是CBOW模型,使用5个词语构成的窗口,构建128维词向量。最后经过训练得到每个词语对应的128维向量表示,例如,词语“地铁”的向量表示为: (0.670 164,0.562 339,…,0.734 66)。

2.3 句子权重及权重系数计算

在句子权重计算过程中,根据预处理后的结构化文本,计算每个句子的五部分权重,各部分权重系数由两部分组成: 经验系数α和归一化系数ε,如式(11)所示。

各个权值的归一化系数ε的计算方法为:首先计算整个文档集中该权重的平均值,则归一化系数ε为平均值的倒数,这样可以使得经验系数α是与权重取值范围和分布无关的系数,同时可以通过经验系数α看出各个权重的重要程度。

由于句子权重包括五种权值及权重系数,不能通过单一的F值来优化各个系数,这里采用类梯度下降的方法,人工优化确定各个系数。以TF-IDF权重值系数的确定为例:

(1) 首先取TF-IDF的权重系数为默认值1。

(2) 根据此系数,生成机器摘要。

(3) 计算机器摘要所有句子的TF-IDF权重平均值A和人工摘要的所有句子的TF-IDF权重平均值B。如果A小于B则调大权重系数,反之则调小。

(4) 重复(2)~(3)步骤。

同理可以调整优化其余参数的取值。最终得到各个权值的系数。

2.4 句子选择及摘要生成

摘要的核心是要从原文句子中选一个句子集合,使得该集合在相关性与多样性的评测标准下得分最高,在句子选择的过程中,就需要避免选择包含重复信息过多的句子,这里采用MMR的方法,如式(12)所示。

scoreMMR(si)=

(12)

其中,si表示第i个句子,wsi代表的是si的权重,而sim(si,sj)代表的是冗余性,通过不断迭代计算,每次选出一个最优的句子。具体计算逻辑如下:

calculate similarity between each sentence

save the similarity value

for each sorted sentence

calculate MMR

select sentence of the max MMR into summary

if length of summary enough

stop

else

continue

在句子排序上,根据每个句子所在文档和在该文档中的顺序,将已选为摘要句的句子按照同一文档、出现的先后顺序进行排列。为了增加用户的可读性,同一文档的句子组成一个段落,同时根据文档时间对段落进行倒序排列。最终摘要结果示例如下:

2.5 实验结果分析

为了保证实验结果的稳定性,对于评测数据中的同一份文档集摘要,分别由三名专家在句子维度上独立标注出人工摘要,表1是评测数据的统计信息。

表 1 评测数据概况

由于人工摘要是在句子维度上生成的,通过对每个句子进行编号,人工标注数据集则可用相应数字表示,表2为各个数据样本下,对三份人工摘要进行Pearson相关性检验结果,其中S1、S2、S3分别表示三位专家的摘要。

表2 评测数据相关性检验结果

由表2可以看出,三位专家在各个数据样本上的相关性均大于0.6,具有较强的相关性,对于句子数量较多的样本,由于数量的影响,相关性较其他数据样本略微低。

目前对自动文本摘要的评价方法主要有两种: 内部评价法和外部评价法。其中内部评价法是比较客观的,将系统生成的自动文本摘要与专家摘要采用一定的方法进行比较是目前常见的文摘评价模式。

摘要质量的评价方法采用自动摘要领域广泛使用的ROUGE指标,ROUGE是一种基于召回率的自动评价方法,通过比较自动文摘中包含的基本语义单元数目在专家文摘中的数目多少来衡量[21]。ROUGE有五种不同的评价指标: ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S,ROUGE-SU。根据本文的研究内容和文本特点,选择ROUGE-2、ROUGE-3、ROUGE-L、ROUGE-SU4四种具体的评价指标。

在评价过程中,对比的方法有: (1)ST-SUM: 本文方法生成的结果;(2)TF-IDF: 基于TF-IDF计算句子权重,选择摘要句的方式;(3)TextRank: 基于图模型TextRank的方法[22];(4)LDA: 基于LDA主题模型,使用KL散度计算句子相似度的方法;(5)NY-SUM: 不使用语义相似度;(6)NQ-SUM: 不使用与查询句相似度权重;(7)NT-SUM: 不使用时序权重系数生成的系统摘要。

在每个评测样本上,对每种摘要方法分别计算相应的ROUGE得分,图5为每种摘要方法的ROUGE得分在三份人工摘要上的平均值。

图 5 实验评测结果

为了验证本文方法与其他方法具有显著性差异,在ROUGE每个指标上分别进行各摘要方法与本文方法的显著性检验。表3为检验结果的P值。

表3 各摘要方法与本文方法的显著性检验结果

续表

从以上结果的分析可以看出: 基于本文的方法在ROUGE-2、ROUGE-3、ROUGE-L、ROUGE-SU4指标上均要高于其他方法,得分稳定性较高;从显著性检验结果可以看出本文方法与其他几种方法具有显著性差异,说明该方法得到的摘要与人工摘要的标准更加接近,质量更好。通过与NT-SUM方法的对比可以看出,本文提出的基于时序特征的权重衰减系数对于提高摘要质量是有效、可行的;通过与NQ-SUM结果对比可以看出,本文方法使用的基于查询的相似度权重计算方法,得到的结果更能符合用户的查询需求;通过与NY-SUM、LDA的对比可以看出,不使用相似度计算的NY-SUM方法得分要低于本文方法和基于LDA的方法得分,同时基于LDA的得分仍低于本文方法,可见在文档集内容相似程度比较高的情况下,使用基于Word2Vec的空间余弦相似度计算方法仍有较好效果。

3 结语

本文针对用户日常阅读需求较高的新闻文本,提出了一种基于查询的新闻多文档自动摘要方法,该方法同时考虑了新闻文本的倒金字塔结构、时效性等特点,对相似度计算、句子权重值分布等进行改进,使得摘要质量得到提升。同时结合用户在阅读新闻过程中对最新事件的关注度更高的特点,对句子权重增加了时间序列上的衰减系数,使得距今时间越近的句子权重越高。通过实验对比分析,本文提出的方法在人工摘要上的评分和用户调研打分上都有较好的表现。但本文仍存在一些不足,在相似度的计算中,没有考虑语义相反的情况,对于语义相反的句子,其相似度会高于其他类型的句子。在查询意图的分析上,当用户输入查询语句查询时,应分析用户真正的查询意图,以使检索得到的文章、查询语句与句子相似度的计算等部分更加准确。

猜你喜欢

文档权重向量
浅谈Matlab与Word文档的应用接口
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
向量的分解
有人一声不吭向你扔了个文档
聚焦“向量与三角”创新题
权重常思“浮名轻”
为党督政勤履职 代民行权重担当
Word文档 高效分合有高招
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线