APP下载

网页去噪算法研究与应用

2018-11-08孙竹君

信息记录材料 2018年11期
关键词:正文噪音网页

孙竹君

(中北大学信息商务学院 山西 太原 030000)

1 引言

伴随着因特网的快速发展、网络日益广泛的应用与社会信息化的大步推进,给自然语言处理的研究带来新的机遇和挑战。Web已经成为获取信息的主要平台,而恰恰日前的网站目录主要是以人工识别归类或电脑自动区分归类来完成,这种方式下文字档案的区分归类、归类体系等很多方面有很多不便于人工识别搜索信息的困难存在。同时,在浏览Web上的网页时,会出现与文档主要内容没有关联的“导航信息”、广告消息栏目等内容,这就可以认为做“噪音”。 网络页面上的“噪音”不单单制约着以网络页面内容信息为基础的Web应用系统的应用开发,而且也带给基于网页超链接指向应用系统很多难题。因此,如何高效准确地从WWW中获取有用信息,如何迅捷精准地查找并去除网络页面上的噪音信息就成了提高Web应用程序整合处置结果精确性的一类重要技术,也是当前信息检索的一项值得研究的工作。

2 开展网页去噪研究的重要性

在网页的处理中应用自然语言处理技术,把网络中的信息进行深入、细致的处理,如何快捷准确的从大量的信息资源中提取所用的各种各样知识,获取人们需要的有效信息,已经成为很多专业人员的研究对象和目标。根据所用用途不同,可以把web中的内容分为两种,一种是浏览器所用的标记信息,另一类是为使用者提供的阅读信息,对于后一类需要处理自然语言。所以,去掉网页中的标记信息就成了运用自然语言处理技术处理网页中的内容的先决条件。自然语言处理技术适用于网页正文,所以,怎样查找并抽取网络页面上的正文内容,进而把它转化为文字文本的技术是连接自然语言处理技术和网络页面内容的纽带。

3 关于网页去噪的算法研究

基于现有技术,可行的网页去噪技术大致分为以下三种。

3.1 基于分块的网页去噪算法。在互联网信息检索方面,一般采用两方面的指标来考评一个Web的检索系统,即完成检索所用时间的长短和反馈检索的相关度,如果噪音去除的技术不够成熟,不能有效地将噪音删除,索引系统就会建立一个噪音目录。从而使得资源树的一些节点出现噪音索引,当完成搜索结果后,反馈给用户的内容相应也会有噪音内容。降低了搜索效率,浪费了宝贵的时间。

基于分块的网页去噪算法,第一步是按照table标签,把整个网页进行分块处理;第二步是进行对数据的统计处理,运用一个模板对生成一个网页集,然后对网页集的内容数据进行统计,出现次数较多且内容松散的一般是广告等等的噪音,需要滤除。大量的研究表明此方法是可行的。

3.2 基于统计的网页正文信息的网页去噪算法。基于统计的网页正文信息的网页去噪算法应用到文摘系统上,可以把网络页面进行文摘处理;应用到文本处理系统中,可以对网页进行自动化的处理和分类。照此,对网络也没的整理处置和对纯文本的处置相同,扩大了之前技术的应用范围。所以,研究网络页面内容提取技术对于把自然语言技术的应用范围拓展到网络页面处理有着非常重大的意义。

3.3 基于网页框架和规则的网页去噪算法。网络页面中的噪音定义其实是该网络页面里面与本页面的重要内容不存在直接关系的区域及具体项目。我们搜索查看的网页大多遵循下图的方式进行对网页排版,不仅符合用户的浏览习惯,而且也是设计者的用意。同时,网络噪音部分(例如作者、广告、版权信息等)大多是存在于那些非主要的地方和比较细长的方式地方,这就使得我们在编辑算法是可以轻易的去除网络噪音内容。如图1显示。

实现此算法依据的规则:

依据通常网页的格式和HTML文档,基本汇总出以下这样启发式的规则:

(1)标签

(2)标签

(3)对于多层嵌套的标签

(4)对于没有标签

4 去噪算法应用方面

以上几种网页去噪的算法,可普遍应用于针对当前互联网信息的处理,这些算法可以较为高效精准地从网页中筛选凝练出主要内容,同时将所谓的噪音除去滤掉,并且过滤这样噪音的精准率比较高。搜索引擎中应用上述算法,可很大程度提升搜索引擎的查找搜索的速度、减少差搜数量和提高检索的精准度和成功率;在分类上运用这样算法,便可以将主要内容从网络页面中的提炼出来,并文本存储到对应文档中,这样的话就能够很快速的使用现有的分类措施实现自动分类处理的效果。不过,以上算法局限性还是不同程度存在的,例如它只能处理有明显的主题正文特征的网页,就像新闻类的网页等等,但是在处置那些综合性内容较多的页面,或者页面中的重点内容不容易区分的,例如重点内容就是一句话的描述,或是图片信息作为主题内容的等等页面,它处理的能力不带为或可以说无法识别处理,因为阈值这种算法里的重要依据是通过不间断地实验,不断的累积,从中得出的,所以说算法阈值的合理性仍然需要在今后的试验中进一步得出结论。

猜你喜欢

正文噪音网页
更正声明
更正启事
基于HTML5与CSS3的网页设计技术研究
噪音,总是有噪音!
无法逃避的噪音
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
噪音的小把戏
白噪音的三种用法
基于URL和网页类型的网页信息采集研究