面向多文档集合的文摘萃取系统研究
2015-08-15李翀
李 翀
(北京吉利学院理工学院,中国 北京102202)
1 国内外专利查询及研究开发情况
国际上对多文档自动文摘的研究主要是面向英语信息的处理,在该领域比较著名的方法是美国哥伦比亚大学Goldsdein提出的基于MMR(Maximal Marginal Relevance)的多文档自动文摘方法;美国密歇根大学Redev提出基于质心的多文档自动文摘方法;美国罗格斯大学Boros提出的基于聚类的多文档自动文摘方法。与此同时,一些多文档自动文摘系统也被开发出来。比较有代表性的系统有:(1)美国哥伦比亚大学的多文档自动文摘系统Newsblaster。其研究主要针对新闻领域,可以对每天发生的同主题新闻进行摘要,目前该系统达到了每天上万人次的访问记录(现正在向多语种方向发展)。(2)美国密歇根大学研究开发的WebInEssence。这是一个个性化的基于Web的多文档自动文摘和内容推荐系统。(3)美国南加利福尼亚大学的信息科学研究所开发的原型系统NeATS,也是一个比较有名的多文档自动文摘系统,主要用于新闻领域。
由于多文档自动文摘中潜在着巨大商机,一些企业和公司也在从事相关的研究,如:微软多次参加了DUC会议并取得了不错的成绩,表明其对自动文摘技术研究的重视;Vivisimo公司也都在进行这方面的研究。
国内的研究工作大多集中在单文档自动文摘方面。国内研究者针对汉语特点进行了不懈的努力,在汉语自动文摘的研究中取得了一定的成就。比较有代表性的工作有:哈尔滨工业大学刘挺教授基于篇章多级依存结构构建了HIT2863II型自动文摘系统。北京邮电大学钟义信教授在“全信息”(包括了语法、语义、语用三个层面)理论指导下自动建立了面向计算机病毒方面的Glance系统、面向新闻报道的News系统、以及面向神经网络学习算法领域的Ladies自动文摘系统。东北大学姚天顺教授和香港城市理工大学联合开展了“中文全文自动摘要系统”的研究,该系统采用脚本知识表示,通过与用户交互获取文摘。
2 拟采取的研究方法和技术路线
多文档的自动文摘可以分为两步,首先在文档集合中选择候选的文摘句子,然后去除掉候选文摘句子集合中的冗余的句子。本研究的主要任务是第一步,下面首先介绍候选文摘句子抽取的研究方法和技术路线,其次介绍去除冗余句子的方法。
2.1 候选文摘句子抽取
Wan提出使用关键词和句子的关系同时进行关键词抽取和文章摘要[16],本研究受Wan的工作启发,提出使用文档集合中四种类型实体和实体间关系进行句子抽取及排序的方法。在文档集合中,最小的单位是词语(W),词语的集合组成句子(S),句子集合组成文档(D),文档集合组成文档集(Ds),而主题(T)是由文档集合中相似度较高的词语组成,可以通过聚类算法产生文档集合中的主题。四种类型的实体包括文档集合中的词语、句子、主题和文档。建立的异构关系网络图中不仅包括同种实体之间的关系,而且包括不同类型实体间的关系,本研究所提出的自动文摘模型中,句子的重要度不仅取决于与它相连的句子连接数目和重要度,而且取决于与它相连关键词、主题、和文档的连接数目和重要度,实体间的关系。由于句子的重要度综合考虑了多种类型实体之间的关系,因此本研究所提出的模型可以更加合理的计算句子重要度并最终对它们排序。
本研究所提出的模型基于以下假设:
假设1:如果一个句子(或词语、主题、文档)被重要度高或数目较多的其他句子(或词语、主题、文档)所连接,那么这个句子应当具有较高的重要度。
假设2:如果一个句子被较重要的文档包含、或者与较重要的主题相似程度大、或者包含较重要的词语,那么这个句子应当具有较大的重要度。同理文档、主题和词语的重要度也分别由与它相连的其他类型的实体所决定。
假设1类似于PageRank算法的思想,利用同构实体之间的关系进行重要度的传递,而假设2类似于Hits算法的思想,将各种类型的实体分别看作权威和中心。本文所提出的方法试图在一个模型中融合PageRank和Hits模型的思想。
2.2 去除冗余句子
本系统采用MMR算法进行冗余句子消除。该方法的大致思想为:根据重要度的大小逐句选择文摘句,在逐步选择句子的时候,同时考虑句子和已选择句子的信息重叠度及句子本身的重要程度,选择那些自身权值较高,而且与已选择句子的信息重复量较少的句子。按照这种方法,就可以既可以保证文摘中的句子重要程度都比较高并且文摘的冗余度较低。它选择句子的准则就是选择那些自身权值较高,而且和已选择句子的信息重复量较少的句子。
3 市场和应用需求分析
多文档摘要可以作为单独的系统使用,按照用户定制的规则从用户感兴趣的网站上获取信息、生成简要的文摘提供给用户,既可省去用户直接在网站上浏览的大量时间。目前的很多研究就是在这个应用上进行的。
多文档摘要也可以应用在信息检索领域,它可以对信息检索的结果进行处理,将内容相似的网页进行归纳和摘要,将摘要结果返回给用户。假如目前的信息检索给的前30个结果可以划分为5个主题,但是由于搜索弓|擎的排序规则,使得其中一个主题包含的10篇文章全部出现在第一页,而用户感兴趣的主题出现在第二页甚至更后面,那么使用信息的效率将会大大降低。如果我们对这30个文章的5个主题分别进行摘要,把5个摘要返回给用户,那么用户可以很快在第一页上找到与自己感兴趣的内容。这样就可以在检索结果的第一页中包含更多更丰富的信息,从而很好地提高了海量信息的使用效率。
话题监测和跟踪TDT(Topic detection and tracking)是多文档摘要的另一个应用,即根据用户感兴趣的主题内容从网络信息中不断发现与其相关的文本信息并与原有信息进行汇总,生成趋势发展分析报告等提供给用户使用。此外,在特定领域上多文档摘要技术也具有广阔的应用空间,如科技文献摘要、股票论坛的摘要汇总、国家安全部门对非法信息的监控等等。简言之,多文档摘要技术有着巨大的需求和应用前景,这些正是推动其发展的强大动力。
[1]Jade Goldstein,Mark Kantrowitz,Vibhu Mittal,Jaime Carbonell.Summarizing Text Documents:Sentence Selection and Evaluation Metrics[C]//Proceedings of SIGⅡ099,Berkeley,CA,1999:121,128.
[2]Dragomir R.Radev,Hongyan Jing,Malgorzata Budzikowska.Centroid-based Summarization of Multiple Documents:Sentence Extraction,Utility-based Evaluation,and User Studies[C]//ANLP/NAACL2000 Workshop,Seattle,Washington,USA,April 2000,21-29.
[3]http://newsblaster.cs.columbia.edu/[OL].
[4]钟义信.自然语言理解的全信息方法论[J].北京邮电大学学报,2004,27(4):1-12.