基于关键体词抽取的韩国语自动文摘

2019-08-05刘伍颖

中文信息学报 2019年6期

王琳, 刘伍颖

(1. 上海外国语大学贤达经济人文学院，上海 200083; 2. 广东外语外贸大学语言工程与计算实验室，广东广州 510420;3. 广东外语外贸大学网络空间内容安全工程技术研究中心，广东广州 510420)

0 引言

在当前大数据时代，海量语言信息带给人们的是信息过载，这使得信息的稀缺性大大降低，而人们时间的稀缺性大大提高，信息的价值不只是语言文字的数量，更重要的是关键信息的浓度。为了应对信息爆炸，人们很早就提出了利用计算机程序提取文摘的想法，迄今发表了很多高效的自动文摘算法文献[1]。自动文摘主要采用计算机程序把文本文档压缩成篇幅较短的文摘，并尽可能在文摘中保留原文档的关键信息。自动文摘技术能够帮助人们在有限的时间内全面把握语言大数据的中心内容，因此再次成为自然语言处理的研究热点。在本轮自动文摘研究热潮中，突出了非通用语言特色。对非通用语言自动文摘技术的探索能够丰富自然语言处理理论，提高多语种信息处理的效率，带动低资源语言的形态、句法、语义分析等基础研究，推动人工智能技术的进一步发展。

1 相关工作

回顾相关研究历程可知，人们早在1958年就已经提出了自动文摘这个概念[2]。早期的自动文摘算法主要采用文档的自然结构信息(标题、段首句、段尾句等)来估算句子的重要程度，再组合关键句子形成文摘。从1987年到1997年持续召开的MUC (Message Understanding Conference)学术会议就包含自动文摘研究。

1993年底在德国召开了第一次以自动文摘为主题的国际研讨会(Summarizing Text for Intelligent Communication)。1995年国际期刊Journal of Information Processing and Management出版了Text Summarization专刊[3]。上述两个标志性事件掀起了自动文摘研究的第一次热潮，从1996年到1998年持续进行了SUMMAC (TIPSTER Text Summarization Evaluation)评测。

接着，各种各样的有监督文摘算法[4]被提出，它们根据文本文档和相应的人工文摘学习出句子重要性特征，摘要时根据模型判断候选句子。几乎同时，还有很多半监督[5]和无监督[6]文摘算法也被提出，例如，基于质心句子发现的无监督文摘算法就是其中一种有效的方法。从2000年到2007年持续召开了DUC (Document Understanding Conference)学术会议。再后来，人们转而关注多文档文摘[7]研究，同时追求精炼和综合能力。通常多文档文摘能够涵盖多篇文档的中心内容，而且这些文档之间往往是主题相关的[8]。从2008年至今持续召开了TAC(Text Analysis Conference)学术会议。

经过近60年的发展，自动文摘研究从关键技术探索到实用系统研制，基本遵循从规则方法到统计方法，再到混合方法的研究路径。实用文摘系统在许多领域得到广泛应用，充分体现了自动文摘的价值。近年来，自动文摘研究再掀热潮，研究焦点从单语言向多语言转变[9]，很多的自动文摘算法是针对非通用语言的[10]。随着当前东北亚安全形势以及经贸全球化的迫切需求，韩国语自动文摘研究受到越来越多的关注。不过迄今为止，韩国语自动文摘算法还比较稀少[11]，而英语、汉语等自动文摘研究相对成熟，可供参考和借鉴。因此，本文主要围绕韩国语自动文摘这个科学问题，从韩国语主要的体词和谓词出发，深入探索一种高效的解决方法。

2 关键体词抽取与文摘算法

2.1 总体框架

图1 总体框架

根据当前韩国语文摘的实际应用需求，我们提出如图1所示的总体框架。给定一个韩国语文本文档，首先，根据文档的自然结构进行段落切分，接着，对每个段落通过依次扫描句子终结符进行句子切分。完成上述两步预处理后，词性标注模块对每个句子进行词汇切分并给每个词汇标上词性。基于关键体词抽取的韩国语自动文摘方法(图1❶)根据词性标签对全词进行体词过滤，并将全部体词输出至关键体词抽取模块。然后，关键体词抽取模块统计词频[12]排序体词，并根据预设的TopN值提取前N个高频体词作为关键体词。最后，自动文摘模块根据包含关键体词的数量挑选信息丰富的句子组成文摘。在句子挑选过程中还可以附加MMR(Maximal Marginal Relevance)策略生成文摘，也就是奖励关键句子的同时惩罚与之冗余的句子，使得有限的文摘篇幅能够容纳更多的关键信息。

韩国语句子当中最主要的成分是体词和谓词，包括表1所示的16类体词和5类谓词[13]。我们认为韩国语体词主要传递语义信息，而韩国语谓词更多地担负句法框架功能。因此基于关键体词抽取的韩国语自动文摘方法能够捕获更多的关键语义信息。为了验证这一假设，我们在总体框架中平行设计了基于关键谓词抽取的韩国语自动文摘路径(图1❷)，通过对全词进行谓词过滤和关键谓词抽取，挑选句子生成文摘。此外，我们还增加基于关键词抽取的韩国语自动文摘路径(图1❸)，通过从全词中抽取关键词再进行自动文摘[14]。

表1 体词和谓词类别标签

2.2 算法

我们认为关键词抽取和自动文摘的真正区别仅仅是目标信息的粒度，关键词抽取的目标是词汇粒度，而自动文摘的目标是句子粒度[15]。关键词抽取相当于词汇粒度的文摘，而自动文摘则相当于句子粒度的“关键词”抽取。由于句子粒度较大，重现率相对词汇而言较低，所以通过重现率较高的关键词汇抽取入手，再扩展至关键句子的判定是我们算法的核心思想[16]。

根据上述总体框架，我们设计实现了一个桥接关键词汇抽取和自动文摘的算法——基于关键体词抽取的韩国语文摘(Key-Noun-Extraction-based Korean Summarization, KKS)算法，如图2所示。其中有两个预设参数Ratio和TopN，Ratio表示希望达到的文摘长度占原文档长度的比，摘要时可以通过最终文摘字节数除以原文档字节数计算实际占比，TopN表示前N个高频体词。整个算法主要包括7个功能函数(ParagraphPartitioning,SentenceSplitting,POSTagging,NounwordFiltering,KeynounwordExtracting,Summarizing,MMRSummarizing)。其中NounwordFiltering函数能够过滤出16类体词。该算法时间开销主要包括三个循环的时间，图2第7行循环时间仅仅正比于原文档文本长度，而图2第17行和第23行循环时间也只和预设Ratio值相关，通常是一个相对较小的浮点数。该算法没有其他的耗时操作，这样的时间复杂度对于实际的韩国语文摘应用是可以接受的。为了对比研究，我们还在总体框架下，参照图2算法设计实现了基于关键谓词抽取的韩国语文摘算法和基于关键词抽取的韩国语文摘算法。

图2 基于关键体词抽取的韩国语文摘算法

3 实验

3.1 评价与语料

实验采用经典的ROUGE (Recall-Oriented Understudy for Gisting Evaluation)评价方法，其中ROUGEk表示自动文摘和人工文摘间的k元召回率[17]。最终报告ROUGE1、ROUGE2、ROUGE3和ROUGE4的数值，并据此评价实验结果。

实验采用我们构建的语料。首先，从互联网上抓取了11个韩国语期刊的PDF格式的文档。接着，利用程序抽取每篇文档的文摘和正文组成纯文本格式的实验语料。尽管PDF格式到纯文本格式的抽取并非完美无缺，但适当增加人工干预能够达到较好的效果。最终，构建出包含8 298篇纯文本文档的KorSummBank (V1.1)语料。表2给出了具体的源刊和文档数。

表2 源刊文档数

实验运行时从5到95梯度设置TopN值，并分别运行我们实现的体词文摘、全词文摘和谓词文摘3个文摘器，再加上MMR策略，最终得到6组运行结果。此外，我们还实现了一个单纯的结构文摘器用于对比。

3.2 结果与讨论

KKS算法的实验结果如表3所示。我们发现体词文摘方法的性能随着TopN值从5增加到55而逐渐提高，随着TopN值从55增加到95而逐渐回落，当TopN值等于55时，四项ROUGE指标(ROUGE1=0.215 8, ROUGE2=0.086 0, ROUGE3=0.048 3, ROUGE4=0.033 3)达到最佳性能。我们还发现增加MMR策略之后，相应的ROUGE1指标有明显提升，例如当TopN值等于55时，体词文摘方法的ROUGE1结果是a0.215 8，而体词+MMR文摘方法的ROUGE1结果提高了0.012 5，是0.228 3。不过其他三项指标则略有下降，而且它们的最优值也漂移到TopN值等于35时，这主要是因为语言结构的灵活性造成的。表3的实验结果表明MMR策略能够提升KKS算法的ROUGE1性能。

表3 体词实验结果

表4给出了全词实验结果。我们发现随着TopN值的递增，全词文摘方法的性能都逐渐提高。当TopN值等于95时，全词文摘方法的四项ROUGE指标(ROUGE1=0.198 7, ROUGE2=0.082 5, ROUGE3=0.047 0, and ROUGE4 =0.032 3)达到最佳性能。当TopN值等于95时，全词+MMR文摘方法的ROUGE1指标最优，而其他三项指标则漂移到TopN值等于85时达到最优。对比表3中相同TopN值的数据可知: 采用全词提取关键词，文摘性能反而有所下降。我们还可以发现MMR策略对全词文摘方法的ROUGE1和ROUGE2指标都有改进，全词+MMR文摘方法的整体性能不及体词+MMR文摘方法的。