一种基于英文网页描述性信息的摘要算法
2015-11-07郭培胜
郭培胜 张 燕
一种基于英文网页描述性信息的摘要算法
郭培胜 张 燕
本文给出了一种基于英文网页的描述性信息(context)的摘要算法。该算法改进了提取描述性信息的方法,用HtmlParser工具提取所有符合条件的描述性信息。对描述性信息集进行预处理后,讨论了如何解决描述性信息集的相关性问题,并通过实验结果对比分析了本摘要算法中混合法和聚类法的性能。
网页自动摘要技术是利用计算机从网页的文本中抽取句子或利用网页的特点得到网页内容的缩减版本,据此预先了解网页的内容,并判断是否有必要浏览网页全文从而节省浏览时间的一门技术。本文第一部分描述描述性信息获取和预处理技术,第二部分详细介绍该摘要算法,第三部分对实验结果进行分析,最后第四部分是结论。
获取描述性信息及预处理
网页来源是通过在搜索引擎工具(如Google)的搜索框中搜索得到的,得到源网页之后,采用HtmlParser工具和eclipse编程软件,先匹配目标网址,找到其所在的节点,然后得到其父节点的内容,也即得到了描述性信息。但描述性信息集里还是有大量的噪声。所以首先去掉换行,去掉多余的空格等,作为预处理的第一步。并依次通过去重、去掉只包含了目标网页的标题和网址、考虑描述性信息的大小原则和停用词原则,得到经预处理后的描述性信息集。
算法
经预处理后得到的描述性信息集可能存在如下两个问题:
1.得到的描述性信息部分地概括了网页的内容,即片面性问题;
2.得到的描述性信息与网页相关,但是没有概括网页的内容,即相关性问题。
本文主要研究相关性问题。
在描述性信息集中,定义一个描述性信息为相关描述性信息(reference context),定义描述性信息集D 中描述性信息S 的话题度为T( S, D)。
下面是解决相关性问题的两种算法。
混合法
描述性信息S 与文本C中句子的话题相关度能用广义满意度来衡量,如公式(1):
混合摘要算法如下:
计算描述性信息S与目标文本中句子的话题相关度。根据1)的结果对描述性信息排序;
选择具有最高的话题相关度权值的描述性信息作为摘要。
聚类法
当目标文本的文字信息太少时,不适合用目标网页的文本作为输入信息,也不适合采用算法一来找出最能描述网页内容的描述性信息。这里选择层次聚类算法。
首先选择一个相似函数,相似度量用经典的余弦相似度。让S1和S2分别由向量〈w1i,...,wi
N〉和〈w1k,...,wNk〉代表。相似度值公式(2)如下:
设定摘要的最大长度为l ,描述性信息集为:S={Si}i=1..N。
以下是聚类法的步骤。
指定每个句子的类,定义每两个类{Si}和{Sk}的相似度Sim( Si, Sk)。找出最接近的两个类并合并,这样使总的类数减一。计算每一个旧类和新类的相似度。这里把两个类的描述性信息之间的相似度值求平均作为两个类的相似度值。
图1 改进后的混合法与改进前的混合法的相似度值比较
图2 改进后的聚类法与改进前的聚类法的相似度值比较
反复步骤2)和步骤3),直到所有类都聚为大小为N的一个类,或者最相似的两个类之间的相似值小于给定门限α(0≤α≤1)。
去除只有一个元素的类。
根据类所包含的描述性信息的个数来降序排列类,得到{C1,...,Cp}。
对每个类Ci运用排序函数f。这里采用基于网页内容的摘要算法的Lexrank算法来对同一类的描述性信息进行排序,找出权值最高的描述性信息作为摘要。
当i〈min(l, p)时,认为Ci是排序函数f 的最大值。
实验结果分析
下面分析摘要算法中混合法和聚类法的性能。比较文献中的未改进的混合法与本文的混合法的结果,主要比较两种算法与理想摘要的相似度,该相似度用计算单词频率和余弦相似度来完成,比较结果见图1。
通过图1可以看出,与改进前的方法相比,改进后的混合法与理想摘要的相似度值更高,说明改进后的方法生成的摘要更接近理想摘要。也证实了改进后的混合法中用HtmlParser工具得到更多的质量较高的描述性信息集的必要性。
比较文献中的未改进的聚类法与本文的聚类法的结果,方法同上,比较结果见图2。其中未改进的聚类法的排序函数采用平均TF-ISF方法。
通过图2可以看出,与改进前的方法相比,改进后的聚类法与理想摘要的相似度值更高,说明改进后的方法生成的摘要更接近理想摘要。同图1一样,证实了改进后的聚类法中用HtmlParser工具得到更多的质量较高的描述性信息集的必要性,也反映了在处理相关性问题时采用Lexrank方法比采用平均TF-ISF方法能得到更好的描述网页内容的描述性信息作为摘要。
结束语
本文提出了一种基于描述性信息的摘要算法。针对预处理后的描述性信息集存在的相关性问题,分别对传统混合法和聚类法进行了改进,对比实验结果表明改进后的方法生成的摘要更接近理想摘要,对网页摘要算法研究有一定的参考价值。
10.3969/j.issn.1001-8972.2015.23.011