内容自动摘要系统的研究

2019-05-10刘思佳华南师范大学计算机学院

数码世界 2019年4期

刘思佳华南师范大学计算机学院

引言

当今社会经济迅速发展，多平台的信息形成爆炸之势，信息已成为人们生活中必不可少的一部分，而文献数量也成指数地增长。只有经过信息的筛选和浓缩，才能合理地运用这些信息。摘要在帮助读者从整体上了解文章的主要内容有着重要的作用，可以帮读者筛选出原始文章中主要内容的主要语句，从而帮助读者快速地掌握信息,以便将所需材料进行准确定位。文章内容和篇幅过乱过长，要想摘要能够精确的总结文章内容，工作量之大可想而知，并且有些文章对摘要的要求很高，结合现在信息爆炸的现状单纯依靠人工来编制，那么远远跟不上现在的发展。因此进行自动化摘要的研究就应运而生。

1 新技术的发展

随着信息样本的不同,该信息样本所包含的信息量也是不同的，为了能够全面地反映信息样本的所有主题内容，又不产生信息冗余，就要求根据具体信息样本,动态地确定结果摘要的长度。据此，很多的研究者提出了一种动态确定摘要长度的算法，从具体样本中循序渐进地抽取出其所包含的所有主题句，这些主题句的集合构成了该信息样本的主题思想。然后，再根据主题句的数量确定摘要的长度。确定摘要长度的计算量是相当复杂的，为了准确有效的降低计算的维度从而使后续算法的计算量大幅度减少，提出了用互依赖模型提取关键词的方法。关于这种研究方法动态确定摘要的方法没有成立专门团队，但有很多人已经投入研究相关算法。与基于内容的自动摘要系统相比较，基于内容和主题词的自动摘要方法将文章与内容分析相结合的方法可以明显的提高摘要的质量，摘要的连贯性和流畅性都有良好的提高。

2 自动摘要涉及的模型和算法

2.1 互依赖模型

自动摘要中的重要步骤是关键词的提取，为了使关键词提取的更为准确，使工作的计算量相应减少，现在出现了互依赖模型进行工作的预处理，将其N-gram 相结合来循序渐进地确定关键词。

互依赖模型中定义两个变量χ和η之间的互依赖为：

其中，两个变量出现的频率分别用F(χ) 和F(η)表示，F(s)是两个变量共现的频率，两个变量χ 和η 之间互依赖的取值范围为[0,1/4 ×logL)，L 是样本长度。当将MD模型应用于自动摘要时，所有这些频率均从需要摘要的文档中直接获得。基于以上的模型关键词直接来源于源文档，不需要字典的支持，这样更加准确的表达了知识。在模型中的每一篇文档信息都是有限的，经过处理后的关键词的数量也是有限的，从而最终得到的维数不高。相关参数的确定将依据后续的算法。

2.2 自动确定摘要长度的方法

当前，文本的自动摘要首先会预先安排摘要长度，在限定范围内进行摘要，这样导致文章内容是零散的，无法形成连贯的篇章体现不了文章的主要意思，甚至不与原文的意思产生背离。现在的技术无法避免这种缺陷，因此很多研究者想到根据摘要的内容进行文章摘要长度的自动确定，期望实现文本不同，自动确定的摘要长度不同且都是有效信息。

输入：一篇待提取摘要的文档；n-gram的n值；MD 的上界μ1和下界μ2；投影计数下限值δ；词频的上界δ1和下界δ2。

输出：最终摘要的长度L num；原文中词语的频率表W和原文中有意义词的集合U。

3 关键词提取方面的新的研究方案

在现在关键句提取的方法之中，一般步骤是提取关键词后根据关键词定位文章中的句子，按先后顺序把句子组合成一篇文章，内容逻辑顺序在这种方法的试用下没有了参考意义。于是这种方法知识简单的句子组合，表达的意思往往不通顺，因果关系无法体现。针对这个问题，很多研究人员也提出了解决方案，根据词语与句子的相关度进行解决。相关度又涉及了很多方面，如：词形相关度、句长相关度、距离相关度。

4 句子的相似度向量模型适用于自动摘要

利用句子和段落的相似度来抽取句子，这种研究很早之前就有人着手进行。通过迭代计算句子间的相似度，然后根据句子间的相似度计算句子所包含的信息量，再从中选取包含信息量最多的一组句子作为文摘。首先将句子进行聚类，假设包含越多句子的类，句子就越重要，然后每个类抽出若干句子作为文摘，通过表示句子的向量间的Cosine值得到句子的相似度计算。以上提及的这些都需要通过句子间的相似度作为参考，所以句子间的相似度要怎么计算成了首先应该解决的问题，而相似度的计算结果也会对最终结果产生重要影响。