APP下载

文本摘要问题中的句子抽取方法研究

2012-06-29张龙凯王厚峰

中文信息学报 2012年2期
关键词:语料修正因子

张龙凯,王厚峰

(1. 北京大学 计算语言学教育部重点实验室,北京 100871)

1 概述

随着电子文本数量的剧增,快速获取文本信息的需求越来越强烈。作为浓缩文本信息的技术,自动摘要可以扮演重要的角色。自动摘要的宗旨是为用户提供简短的文本表示。在保留尽可能多的原文信息的同时,形成尽可能短的摘要。对于一个理想的抽取式摘要而言,具有三个基本特征: 源自文本、保留重要信息、长度短[1]。

按照摘要源自的文本个数,可分为单文本摘要和多文本摘要。按照摘要的方式,又分成生成式摘要和抽取式摘要。本文研究单文本、抽取式摘要问题。在抽取式摘要中,从文本中选取代表性句子是难点所在。IBM的Luhn在1958年提出一种基于高频词的方法,将高频词列出并给包含这些高频词的句子打分,得分高的句子被认为是摘要句[2]。Baxendale则引入句子位置作为判断句子重要性的一种特征,该特征被后来大部分机器学习算法所借鉴[3]。Edmundson整合了Luhn和Baxendale的方法,并在科技文献中取得了较好的应用效果[4]。Kupiee, et al.在1995年提出一种基于朴素贝叶斯算法的方法,在Edmundson的基础上增加了句长等特征[5]。同样使用朴素贝叶斯算法的还有1999年Aone, et al.,其中考虑了TF-IDF等多个特征[6]。同时期的还有1999年Lin的方法。不同于朴素贝叶斯算法的独立性假设,Lin采用决策树算法并取得了较好地效果[7]。2001年Conroy和O’leary提出一种基于隐马尔可夫模型的方法,由于隐马尔可夫模型有较强的独立性假设,该方法仍存在不足[8]。Osborne于2002年提出一种基于最大熵模型的方法,结果表明,通过增加先验概率,该方法优于基于朴素贝叶斯模型的方法。

同时,在基于机器学习的文本摘要中,对代表性句子的选择大多将句子作为分类问题。本文考虑了句子之间的依赖关系,将摘要句的提取过程看作一个序列标注问题。基本思想是,将文本看作是句子的序列,句子是序列中的一个点。如果某个句子出现在摘要中,则标为“在”,否则,标为“不在”。利用“带标”的文本集合,可以训练一个序列标注模型。由于条件随机场(CRF)属于全局优化的序列标注模型,本文采用CRF模型标识句子,这一想法与Shen的思想不谋而合[9]。他们也使用了基于条件随机场模型的序列标注方法选择句子,并在英文测试语料上有着较好地效果。但是中文本身与英文有着较大的差异,例如,中文句子不存在大小写,并且中文句子与英文句子的线索词语不同。此外,本文研究主要针对新闻文本,在新闻报道中,时间、数值、地名、人名等实体信息都是十分重要的信息,标题也含有丰富的内涵,需要特别关注。也就是说,针对中文文本,需要进一步考虑中文的特点选择特征,而特征的选择是运用CRF模型的一个重要因素。另外,据我们所知,目前并没有使用CRF模型进行中文摘要的相关工作。

同时,根据我们对于中文新闻文本的观察,摘要通常远远短于原始文本,因此,原文本中的大多数句子都将被排除在摘要之外。这样,训练的模型会倾向于将句子标为非摘要句,从而使得算法效果较差。本文进一步引入了修正因子来平滑这一现象。

接下来的几部分详细介绍了本文所采用的思路。第二部分主要介绍特征的选择。第三部分对本文所采用的模型做详细介绍。第四部分介绍了实验,并且同已有方法做了对比,测试表明,本文所述方法有着较好地效果。

2 特征选择

一个句子是否被抽取作为摘要句,受多个因素的影响。总体上可以分成两类,其一是句子自身,其二是上下文信息。这里,我们称为单句特征和关联特征。

2.1 单句特征

单句特征是指句子自身体现出来的特征,不涉及上下文因素。本文使用的单句特征包括以下几种。

句子长度。过长或过短的句子通常较少地出现在文本摘要中,本文在计算句子长度时首先过滤掉停用词,然后以词为单位计算长度。通过对语料观测后,本文最终选取最长与最短长度的阈值分别为36与5。

特定线索词语。一些特殊词所在的句子被选入摘要的概率要大于其他句子,如 “表示”。我们称这类词为摘要句线索词。统计表明,有26%的句子含有线索词。本文利用这些词作为判断摘要句的标记。

位置特征。位置是一个重要特征,特别是在新闻语料中。一般而言,文章的首段和尾段以及段落的首句和尾句相比而言更为重要。文献[9]着重考虑了首句和尾句信息。本文采用了是否在首段、是否在段首、是否在段尾、是否在前二段的位置特征。

高频词。高频词是指在文章中出现频率较高的词,一般而言,词频越高,词的重要程度越大,所在的句子也可能更有代表性,但虚词例外。本文在利用停用词表进行过滤处理之后,再度量高频词。

数字、时间及专有名词。命名实体经常成为文章的焦点。本文在选择句子时,也使用了相关特征,包括数字、时间以及专有名词。

2.2 关联特征

一个句子是否选为摘要句,除了自身的特征外,也受到上下文的影响。关联特征是指影响摘要句选择的上下文信息。本文使用了以下几种关联特征。

与标题的相似度。标题包含了文本的重要信息,句子与标题相似度越大,则通常更可能出现在摘要中。

与其他句子的相似度。同高频词原理类似,该特征可以看作是寻找“高频句”,计算公式见式(1)。

(1)

sim(i,j)为句子i与句子j的相似度,计算公式见式(2)。

(2)

其中Si为组成句子i的词集。

与前后两句的相似度。句子与周围句子的相似度在一定程度上反应了句子在局部的重要性。相似度计算公式同式(2)。

3 实现算法

3.1 CRF模型

条件随机场(Conditional Random Fields, CRFs)模型是一种判别模型,其主要模型思想来源于最大熵模型。CRF模型是在给定观察序列的前提下,计算整个标记序列的概率。CRF模型可以较好地解决序列标注问题,在词性标注、命名实体识别、语块分析中都得到了很好地应用。

在CRF模型中,令表示待标记的观察序列,表示对应的标注序列,则条件概率的计算方法见式(3)。

(3)

Ψc为对应最大团的势函数[10]。在Linear-chain CRF中,势函数Ψc的形式见式(4)。

(4)

为归一化因子,计算公式见公式(5)。

(5)

其中为特征函数。

3.2 特征函数

在上面第二节已经描述了特征模板。在模型使用中,本文使用了二值特征值,通常定义为由输入变量x以及输出变量y的函数f(x,y),举例如下:

其中,φ(x)表示x的特征模板,在x中成立时,则为真(取值1)。

3.3 修正因子

文本摘要中句子的数量远少于原文本中句子的数量,这样,被选句子的特征出现频率将会偏低。在使用序列标注时,原文本中的句子也倾向于不被选择,从而导致实验结果中准确率较高而召回率较低的现象。

本文在CRF基础上,引入了修正因子。于是一个句子s究竟是“在”还是“不在”,便由式(6)决定。

label(s)=arg maxc∈Cadjust(c)P(c|s)

(6)

其中adjust(c)为类别c的修正因子,P(c|s)是由CRF模型计算出的类别c的条件概率。由于原文本中的句子要么被抽取,要么不被抽取,只需要将原文中的句子标记为“在”和“不在”两个标记之一即可,这样,adjust(在)=1-adjust(不在)。

通过统计发现,在我们使用的训练语料中摘要句数不超过三句的比例高达98.7%,这样,越长的文章其句子越容易被标记为“不在”。考虑这一因素,本文采用式(7)计算修正因子。

(7)

其中x表示某个文本,Length(x)文本的长度,即文本所包含的句子数。

4 实验评测

4.1 实验语料

训练以及测试的语料来自网易新闻。我们从网易上采集了大量带“核心提示”的新闻文本,核心提示可以看成摘要。在采集后,对其进行适当处理,最终得到17 610篇新闻文本作为实验语料。所作的处理主要是剔除摘要句较少的文本。

此外,我们还发现,在“核心提示”中的有些句子并非完整地出现在原文之中,有的做了修改,有的由不同句子拼接而成。也就是说,“核心提示”并不完全是抽取式摘要,我们对这种情况做了剔除处理。为了判断是否完全对应,本文使用了基于字的最长公共子序列的算法实现核心提示中的句子与原文句子的对齐,以保证其正确性。

所有17 610个新闻文本平均分为五部分,采用交叉验证方法评测,四份用于训练,一份用于测试。

4.2 评测准则

为评价摘要效果,本文采用准确率、召回率和F值三个标准来衡量,其中以F值为最重要的指标。这三个指标的计算公式如式(8)。由于语料中摘要句按照原文出现的先后顺序出现在摘要中,因此语序并不是评测要求。

(8)

其中:

P: 准确率;

R: 召回率;

a: 在摘要中、同时被标记为摘要句的句子数;

b: 在摘要中、但是没有被标记为摘要句的句子数;

c: 不在摘要中、但是被标记为摘要句的句子数。

4.3 实验设计

本文实验分为两组。第一组使用基本的线性CRF序列标注模型,该方法为文献[9]中所提到的方法,但是考虑到中英文文本摘要问题的差异性,所采取的特征为更适合中文文本摘要的特征。该算法同时与之前有文献所采用的两种方法,即朴素贝叶斯和最大熵两种分类模型作为对比。第二组在线性CRF基础上,增加了修正因子,并将实验结果与无修正因子的方法做对比。

4.4 实验结果

表1列出了第一组实验的结果。朴素贝叶斯模型、最大熵模型、线性CRF模型均在同样的训练数据和测试数据下做的实验。为了令对比更为公平可信,朴素贝叶斯模型与最大熵模型在方法上继续采用已有论文的方法,特征基本采用了与CRF模型相同的特征,但是考虑到这两种模型与CRF模型的差异,所采用的特征不包括与前一句的标记有关的特征。

表1 不同模型下准确率、召回率以及F值

表1显示,CRF模型的综合效果(F值)好于其他两种模型,但召回率不如朴素贝叶斯模型。我们观察标注的结果发现,当文本过长时,摘要句分布过于分散。位于文本中部的句子其位置特征相对较弱,容易造成误判。因而文本长度对实验效果有着重要的影响。我们对实验语料统计发现,在语料中,50%的文本长度超过10句,20%的文本长度超过21句。文本越长,句子抽取效果相对越差。

基于上述分析,本文进一步通过引入修正因子来比较了各项指标的变化。

图1显示了不同修正因子下准确率、召回率以及F值的变化曲线。图中横轴所示为标记为拒绝为摘要句的修正因子(下面简称“修正因子”)。从图中可见,随着修正因子的增大,准确率升高,这是因为越趋向于拒绝,未被拒绝的句子更可能为摘要句。但从图中也可以发现,随着修正因子增大,尽管准确率提高了,但是召回率随之降低,并在修正因子取0.45之后,F值也会下降。因此,确定合理的修正因子也是一个重要的问题。

图1 不同修正因子下准确率、召回率以及F值的变化

表2比较了根据式(7),不加修正因子以及增加修正因子对交叉验证的实验结果的影响。

表2 有无修正因子各项指标对比

从表2中可以看出,采用了适当的修正因子后,F值与无修正因子相比提高了4.2%。总体来看,适当增加修正因子可以在一定程度上提高F值,具有更好的效果。

5 总结

本文所提出的方法是作者在总结已有的文本摘要算法后做的一个初步尝试,取得了较好的结果。但是仍有许多值得改进的地方。比如考虑到文本长度的影响,增加修正因子以提高相应指标,虽然对实验效果有一定的提高,但仍有改进余地,今后可以考虑多种因素的修正因子。此外还可以考虑到增加全局信息,不少实验已经表明,增加全局信息在许多序列标注问题上有较好的改进效果。

在训练及测试语料方面,本文依赖于网易新闻所提供的新闻数据。由于时间仓促、数量巨大,标注过程中难免会有疏漏,这都是今后可以改进的地方。

[1] Dipanjan Das,Andre F.T.Martins. A survey on Automatic Text Summarization. Literature Survey for the Language and Statistics II[J]. 2007.

[2] Luhn, H. P. The automatic creation of literature abstracts[J]. IBM Journal of Research Development, 1958,2(2):159-165.

[3] Baxendale P. Machine-made index for technical literature-an experiment[J]. IBM Journal of Research Development, 1958,2(4):354-361.

[4] Edmundson H. P. New methods in automatic extracting[J]. Journal of the ACM, 16(2):264-285. 1999

[5] Kupiec J., Pedersen J., Chen, F. A trainable document summarizer[C]//Proceedings of SIGIR ’95, 68-73, New York, NY, USA. 1995.

[6] Aone C., Okurowski M. E., Gorlinsky J., et al. A trainable summarizer with knowledge acquired from robust nlp techniques[J]. In Mani, I. and Maybury, M. T., editors, Advances in Automatic Text Summarization, 71-80. MIT Press.1999.

[7] Lin, C.-Y. Training a selection function for extraction[C]//Proceedings of CIKM ’99, New York, NY, USA. 1999: 55-62.

[8] Conroy J. M., O’leary D. P. Text summarization via hidden markov models[C]//Proceedings of SIGIR ’01, New York, NY, USA. 2001:406-407.

[9] D. Shen, J.T. Sun, H. Li, et al. Document Summarization using Conditional Random Fields[C]//Proceedings of IJCAI, 2007:1805-1813.

[10] Kschischang Frank, Frey Brendan J., Loeliger. Hans-Andrea: Factor Graphs and the Sum-Product Algorithm[J]. IEEE Transactions on Information Theory 47 (2001), No. 2, 2001: 498-519.

猜你喜欢

语料修正因子
Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
修正这一天
因子von Neumann代数上的非线性ξ-Jordan*-三重可导映射
一些关于无穷多个素因子的问题
影响因子
影响因子
合同解释、合同补充与合同修正
软件修正
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用