APP下载

基于标题与文本距离的网页去噪算法的研究

2014-09-01苏秀芝

摘要:使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。

关键词:网页去噪 STU-DOM 词共现

0 引言

随着计算机技术的迅猛发展及计算机广泛应用于社会生活的各个领域,我们正步入一个信息化的时代。目前学界对网页数据的应用研究很多,例如WEB数据的深度挖掘、不同的搜索引擎等。从技术上来看网页数据包含各种内容,如广告、导航等,然而对于不同的研究,没必要包含所有的内容,本文将通过计算标题与文本距离来实现网页去噪。

1 相关基本概念解析

STU结点:

该结点从基本理论上来说,只是一种语义文本单元。在具体应用过程中,STU结点和块之间是一一对应的。

STU-DOM树:

STU-DOM树是由经过添加描述语义的DOM树而生成的。

块:

在HTML网页中,根据网页不同特点而划分出的不同区域,这些不同的区域,就称之为块。

解析:

将HTML文档转化为DOM树的过程称之为解析。

局部阈值:

由块内链接和内容决定,其计算公式

LocalCorrelativity(STUi)= (1)

LinkCount(STUi)=LinkCount(STUcij) (2)

ContentLength(STUi)=ContentLength(STUi)(3)

其中,STUcij表示STUi的第j棵子树,LinkCount(STUi)是STUi的linkcount属性值。

词共现:简单来说,它指的是在不同的两个网页文本中,相同的词汇共同出现,通常可以用这个相同词汇出现的频率来分析文本相似度的高低。

2 算法描述

在本论文使用的网页正文信息提取系统中,共计包含如下五个步骤:HTML解析、HTML分块、语义分析器、剪枝器、正文提取器。

第一步:HTML解析。在这个过程中,主要是找到HTML与DOM树的映射关系,并在这种映射关系确定的前提下,按照正确的方法,STU树与DOM树之间的精确结合。在这个过程中,需要使用解析器(Html Parser),解析器在这一步的主要功能是解析HTML文档,在顺利将HTML文档解析后,才可以将其转化为DOM树。

第二步:HTML分块。与第一步不同的是,在这一步的主要过程中,要使用到分块器,通过分块器来实现对语义分析器的调用,然后再向节点添加语义的基本属性,同时还需要把DOM树转化为STU-DOM树,让添加语义的节点作为STU结点。这一基本过程,在分块后给节点添加的语义信息模式如下图1所示。

第三步:语义分析器。这一步要对语义信息块中的非链接文字总数和链接总数进行精确计算,在此基础上,在STU-DOM中对应子树中的非链接文字总数和链接总数,分别用contentlength和linkcount属性表示。

第四步:剪枝器。这一步用到的是递归算法思想,依照这种算法思想,进行粗剪枝。

局部阈值为Lcm,如果LocalCorrelativity(STUi)>Lcm (取值为>0.03),则对其进行剪枝。

图2 网页提取算法流程

第五步:正文提取器。算法思想:用递归方法提取TABLE或DIV标签下的文本结点的内容,通过计算标题与结点词共现频率及文本间相似度实现正文内容的提取。

设文本一中所包含的词语为{t1,t2,…,ti…,tn}。则文本一可用一个n维向量W={W1,W2,…,Wi…,Wn}表示。

3 实验结果

为了有效测试本方法的性能,设置两组测试。

第一组实验:利用上述方法对网页(图3)进行有效信息的抽取,结果如图4所示。

图3 网页实例

第二组实验:本组实验的实验对象,是YQ-CCT-2006-

03的部分语料,在该实验中,局部阈值取值为0.03,文本相似度取值为0.1。这是经过实验评估后,获得较好的效果。

提取结果如下:

图4 网页提取结果图

准确率=正确提取的网页数/总网页数

表1 网页提取实验结果

从以上的实验结果可以得知,这种基于标题与结点词共现频率及文本间相似度的网页去噪方法,能够很高效的提取网页正文内容。其还具有完整的保存网页主题内容这一优点,在进行的实验中平均准确率达到了94.9%,平均处理速度达到了14.8s/网页。

4 结束语

随着Web的迅速发展,许多研究如信息检索、数据挖掘等由传统领域转到了Web上。面对充满了噪音的网页,如何去除网页上的噪音对于提高信息检索、网页分类的研究效果至关重要。实验结果显示,本文提出的方法,有效去除网页噪音,保留了正文内容。

参考文献:

[1]S Gupta,G Kaiser,D Neistadt. DOM-based content extraction of HTML documents.In:Proc of the 12th International World Wide Web Conf.New York:ACM Press,2003.207-214.

[2]王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主体信息自动提取[J].计算机研究与发展,2004,42(10):1786-1792.

[3]赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):143-145.

[4]丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(6):175-177.

作者简介:

苏秀芝(1981-),女,山东日照人,助教,硕士,研究方向:数据挖掘。endprint

摘要:使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。

关键词:网页去噪 STU-DOM 词共现

0 引言

随着计算机技术的迅猛发展及计算机广泛应用于社会生活的各个领域,我们正步入一个信息化的时代。目前学界对网页数据的应用研究很多,例如WEB数据的深度挖掘、不同的搜索引擎等。从技术上来看网页数据包含各种内容,如广告、导航等,然而对于不同的研究,没必要包含所有的内容,本文将通过计算标题与文本距离来实现网页去噪。

1 相关基本概念解析

STU结点:

该结点从基本理论上来说,只是一种语义文本单元。在具体应用过程中,STU结点和块之间是一一对应的。

STU-DOM树:

STU-DOM树是由经过添加描述语义的DOM树而生成的。

块:

在HTML网页中,根据网页不同特点而划分出的不同区域,这些不同的区域,就称之为块。

解析:

将HTML文档转化为DOM树的过程称之为解析。

局部阈值:

由块内链接和内容决定,其计算公式

LocalCorrelativity(STUi)= (1)

LinkCount(STUi)=LinkCount(STUcij) (2)

ContentLength(STUi)=ContentLength(STUi)(3)

其中,STUcij表示STUi的第j棵子树,LinkCount(STUi)是STUi的linkcount属性值。

词共现:简单来说,它指的是在不同的两个网页文本中,相同的词汇共同出现,通常可以用这个相同词汇出现的频率来分析文本相似度的高低。

2 算法描述

在本论文使用的网页正文信息提取系统中,共计包含如下五个步骤:HTML解析、HTML分块、语义分析器、剪枝器、正文提取器。

第一步:HTML解析。在这个过程中,主要是找到HTML与DOM树的映射关系,并在这种映射关系确定的前提下,按照正确的方法,STU树与DOM树之间的精确结合。在这个过程中,需要使用解析器(Html Parser),解析器在这一步的主要功能是解析HTML文档,在顺利将HTML文档解析后,才可以将其转化为DOM树。

第二步:HTML分块。与第一步不同的是,在这一步的主要过程中,要使用到分块器,通过分块器来实现对语义分析器的调用,然后再向节点添加语义的基本属性,同时还需要把DOM树转化为STU-DOM树,让添加语义的节点作为STU结点。这一基本过程,在分块后给节点添加的语义信息模式如下图1所示。

第三步:语义分析器。这一步要对语义信息块中的非链接文字总数和链接总数进行精确计算,在此基础上,在STU-DOM中对应子树中的非链接文字总数和链接总数,分别用contentlength和linkcount属性表示。

第四步:剪枝器。这一步用到的是递归算法思想,依照这种算法思想,进行粗剪枝。

局部阈值为Lcm,如果LocalCorrelativity(STUi)>Lcm (取值为>0.03),则对其进行剪枝。

图2 网页提取算法流程

第五步:正文提取器。算法思想:用递归方法提取TABLE或DIV标签下的文本结点的内容,通过计算标题与结点词共现频率及文本间相似度实现正文内容的提取。

设文本一中所包含的词语为{t1,t2,…,ti…,tn}。则文本一可用一个n维向量W={W1,W2,…,Wi…,Wn}表示。

3 实验结果

为了有效测试本方法的性能,设置两组测试。

第一组实验:利用上述方法对网页(图3)进行有效信息的抽取,结果如图4所示。

图3 网页实例

第二组实验:本组实验的实验对象,是YQ-CCT-2006-

03的部分语料,在该实验中,局部阈值取值为0.03,文本相似度取值为0.1。这是经过实验评估后,获得较好的效果。

提取结果如下:

图4 网页提取结果图

准确率=正确提取的网页数/总网页数

表1 网页提取实验结果

从以上的实验结果可以得知,这种基于标题与结点词共现频率及文本间相似度的网页去噪方法,能够很高效的提取网页正文内容。其还具有完整的保存网页主题内容这一优点,在进行的实验中平均准确率达到了94.9%,平均处理速度达到了14.8s/网页。

4 结束语

随着Web的迅速发展,许多研究如信息检索、数据挖掘等由传统领域转到了Web上。面对充满了噪音的网页,如何去除网页上的噪音对于提高信息检索、网页分类的研究效果至关重要。实验结果显示,本文提出的方法,有效去除网页噪音,保留了正文内容。

参考文献:

[1]S Gupta,G Kaiser,D Neistadt. DOM-based content extraction of HTML documents.In:Proc of the 12th International World Wide Web Conf.New York:ACM Press,2003.207-214.

[2]王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主体信息自动提取[J].计算机研究与发展,2004,42(10):1786-1792.

[3]赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):143-145.

[4]丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(6):175-177.

作者简介:

苏秀芝(1981-),女,山东日照人,助教,硕士,研究方向:数据挖掘。endprint

摘要:使用STU-DOM这种网页提取技术,在实际操作过程中,在对不含超级链接的网页噪音进行判断时,准确性较低,同时,这种技术也不能有效处理DIV、TABLE标签中的正文信息。这是一种效果比较差的网页去噪技术。本文针对STU-DOM树在提取网页过程中出现的相关问题,比较分析当前几种常见的技术方法,在此基础上使用合适的技术升级扩展STU-DOM树,通过计算网页标题与结点词共现频率,然后分析文本间的相似度,得到标题与文本距离,实现网页正文提取。实验结果证明,该去噪方法能够有效去除网页噪音。

关键词:网页去噪 STU-DOM 词共现

0 引言

随着计算机技术的迅猛发展及计算机广泛应用于社会生活的各个领域,我们正步入一个信息化的时代。目前学界对网页数据的应用研究很多,例如WEB数据的深度挖掘、不同的搜索引擎等。从技术上来看网页数据包含各种内容,如广告、导航等,然而对于不同的研究,没必要包含所有的内容,本文将通过计算标题与文本距离来实现网页去噪。

1 相关基本概念解析

STU结点:

该结点从基本理论上来说,只是一种语义文本单元。在具体应用过程中,STU结点和块之间是一一对应的。

STU-DOM树:

STU-DOM树是由经过添加描述语义的DOM树而生成的。

块:

在HTML网页中,根据网页不同特点而划分出的不同区域,这些不同的区域,就称之为块。

解析:

将HTML文档转化为DOM树的过程称之为解析。

局部阈值:

由块内链接和内容决定,其计算公式

LocalCorrelativity(STUi)= (1)

LinkCount(STUi)=LinkCount(STUcij) (2)

ContentLength(STUi)=ContentLength(STUi)(3)

其中,STUcij表示STUi的第j棵子树,LinkCount(STUi)是STUi的linkcount属性值。

词共现:简单来说,它指的是在不同的两个网页文本中,相同的词汇共同出现,通常可以用这个相同词汇出现的频率来分析文本相似度的高低。

2 算法描述

在本论文使用的网页正文信息提取系统中,共计包含如下五个步骤:HTML解析、HTML分块、语义分析器、剪枝器、正文提取器。

第一步:HTML解析。在这个过程中,主要是找到HTML与DOM树的映射关系,并在这种映射关系确定的前提下,按照正确的方法,STU树与DOM树之间的精确结合。在这个过程中,需要使用解析器(Html Parser),解析器在这一步的主要功能是解析HTML文档,在顺利将HTML文档解析后,才可以将其转化为DOM树。

第二步:HTML分块。与第一步不同的是,在这一步的主要过程中,要使用到分块器,通过分块器来实现对语义分析器的调用,然后再向节点添加语义的基本属性,同时还需要把DOM树转化为STU-DOM树,让添加语义的节点作为STU结点。这一基本过程,在分块后给节点添加的语义信息模式如下图1所示。

第三步:语义分析器。这一步要对语义信息块中的非链接文字总数和链接总数进行精确计算,在此基础上,在STU-DOM中对应子树中的非链接文字总数和链接总数,分别用contentlength和linkcount属性表示。

第四步:剪枝器。这一步用到的是递归算法思想,依照这种算法思想,进行粗剪枝。

局部阈值为Lcm,如果LocalCorrelativity(STUi)>Lcm (取值为>0.03),则对其进行剪枝。

图2 网页提取算法流程

第五步:正文提取器。算法思想:用递归方法提取TABLE或DIV标签下的文本结点的内容,通过计算标题与结点词共现频率及文本间相似度实现正文内容的提取。

设文本一中所包含的词语为{t1,t2,…,ti…,tn}。则文本一可用一个n维向量W={W1,W2,…,Wi…,Wn}表示。

3 实验结果

为了有效测试本方法的性能,设置两组测试。

第一组实验:利用上述方法对网页(图3)进行有效信息的抽取,结果如图4所示。

图3 网页实例

第二组实验:本组实验的实验对象,是YQ-CCT-2006-

03的部分语料,在该实验中,局部阈值取值为0.03,文本相似度取值为0.1。这是经过实验评估后,获得较好的效果。

提取结果如下:

图4 网页提取结果图

准确率=正确提取的网页数/总网页数

表1 网页提取实验结果

从以上的实验结果可以得知,这种基于标题与结点词共现频率及文本间相似度的网页去噪方法,能够很高效的提取网页正文内容。其还具有完整的保存网页主题内容这一优点,在进行的实验中平均准确率达到了94.9%,平均处理速度达到了14.8s/网页。

4 结束语

随着Web的迅速发展,许多研究如信息检索、数据挖掘等由传统领域转到了Web上。面对充满了噪音的网页,如何去除网页上的噪音对于提高信息检索、网页分类的研究效果至关重要。实验结果显示,本文提出的方法,有效去除网页噪音,保留了正文内容。

参考文献:

[1]S Gupta,G Kaiser,D Neistadt. DOM-based content extraction of HTML documents.In:Proc of the 12th International World Wide Web Conf.New York:ACM Press,2003.207-214.

[2]王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主体信息自动提取[J].计算机研究与发展,2004,42(10):1786-1792.

[3]赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):143-145.

[4]丁宝琼,谢远平,吴琼.基于改进DOM树的网页去噪声方法[J].计算机应用,2009,29(6):175-177.

作者简介:

苏秀芝(1981-),女,山东日照人,助教,硕士,研究方向:数据挖掘。endprint