APP下载

基于XML的Web搜索技术研究

2011-08-15

科学之友 2011年20期
关键词:数据仓库搜索引擎文档

房 屹

(山东丝绸纺织职业学院,山东 淄博 255300)

随着Internet资源的迅速增长,网络资源愈发丰富,传统的基于HTML的搜索技术的准确率水平亟待提高。XML标记语言可以明确的标记多样化的网络信息,通过内容与标记之间的关系准确定位,查找目标。突破了传统意义的全文检索方式,减小了搜索范围,提高搜索的精度与准确度。

1 XML搜索技术

可扩展标记语言(Extensible Markup Language, XML)是互联网联合组织(W3C)创建的一组规范,为了便于网页信息的组织而设计的。XML是一种元标记语言,它以一种开放的自我描述方式定义数据结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系,这样所组织的数据对于应用程序和人类都是友好的、可操作的。所以,XML是一种优秀的数据打包和数据交换的形式。为分析和转换 XML文档,XML还提供了DOM、SAX等技术于实现对XML文档的解析,并提供Xpath、Xquery等查询语言实现对XML文档的有效查询,形成XML搜索技术。

在基于XML的搜索引擎的设计中,对特定结构的XML文档存储网站Web信息,将有关Web页面的内容或超级链接文本以及它们对应的URL分层保存在XML文档中,并通过对XML文档的解析实现信息的录入、更新、修改,最后设计利用XML查询技术的检索器,通过对存储查询信息的 XML文档进行检索,按用户查询字找到对应的Web页面的URL,在用户浏览器端返回其所指的Web页,从而实现基于XML的Web信息搜索。

2 基于XML的Web搜索引擎的设计

2.1 Web信息的集成

建立Web信息集成平台的目的就是为用户提供涉及多个Web信息源的统一查询机制。现在一般有两种方法:虚拟(virtual)方法和数据仓库(warehousing)方法。虚拟方法是基于一个“中间模式”,但数据仍保存在各个参加集成的数据源中,通过各数据源的“包装程序”(wrappers)将数据虚拟成中间模式,用户的查询是基于中间模式,即建立一个虚拟数据库。数据仓库法是建立一个数据仓库,并将参加集成的各个不同的信息源装入数据仓库,用户的查询是基于数据仓库的数据。基于 XML和ASP语言的中间层方法能够从多个不同结构的数据源中集成数据,并以XML文档的形式把这些数据交付给查询用户。

2.2 用户兴趣模型的建立和更新

用户兴趣建模为用户提供个性化信息服务,是信息推荐系统的核心,它代表每个用户的不同信息需求。目前普遍采用的建立用户兴趣模型的显示获取和隐式获取方式都存在一定的缺陷:以关键字的方式提供用户兴趣的用户经常不能准确地表达自己的兴趣;从目标样本文档提取用户兴趣的不能全面发现用户的兴趣;用户主动方式建立兴趣的不能自动更新用户的兴趣。因此本文采用显示和隐式相结合的方式建立用户兴趣模型。先通过用户注册时填写用户兴趣的信息建立起粗略的用户兴趣模型(此部分是可选择的,如果用户认为耽误时间或怕麻烦等也可以不填),然后系统根据用户的浏览内容和浏览行为自动构建准确的用户兴趣模型,并通过对搜索结果的反馈信息更新用户兴趣。这样可在用户没有明确参与的情况下,建立并更新用户兴趣。

2.3 XML数据的查询处理方法

目前关于XML数据的查询处理都是针对专门的XML存储系统,对于底层采用数据库管理系统的情况,则是通过将XML查询语言书写的查询转换为关系#K&语言或OK&语言查询,利用传统数据库系统的查询处理功能来完成用户的查询请求。

该方法与传统数据库中的查询处理类似,大致有以下几个步骤:一是对查询进行语法分析,并将其转换为传统的SQL的形式;二是逻辑查询计划性生成器产生一个逻辑查询计划;三是这个逻辑查询计划可以产生很多的物理查询执行计划,而物理计划由一些物理操作符构成,这些操作符可由查询执行引擎执行。查询优化器通过存储的统计信息和开销模型,从众多的物理查询执行计划中选出一个最优的;四是提交给查询计划执行引擎完成查询,并返回查询结果。

3 基于XML搜索的优点

与基于HTML的搜索引擎相比,基于XML的站内搜索引擎适应了计算机技术的发展需要,它的优点是:①由于 XML文档对内容和结构的良好支持,使搜索引擎脱离了对数据库的依赖,并较好的支持了非结构信息的处理。②与数据库文件相比,XML文件存储容量较小,减小了对存储空间的占用,并有利于提高查询速度。③借助于支持XML的API,减轻了数据录入和管理的人工操作,并易于实现搜索信息的动态更新;实现了Web搜索引擎;实现了对Web站点的全部文本、图片、音频三类数据的索引,并且采用了 XML作为数据存储容器,它能在大量信息的环境下大大节省空间和提高索引的速度。此外,由于 XML文档结构的可扩展性,通过增加新元素和对检索器应用程序进行微小调整,既可容易地进一步扩展搜索引擎查询方式,如按Web页面建立时间查询等。并且,在动态扩展方面,基于XML的搜索引擎也具有独特优势。

4 结束语

本文对现有的XML搜索技术进行了分析,对Web信息的集成、用户兴趣模型的建立和更新、XML数据的查询处理方法,给出了索引的数据结构以及查询的优化算法,使网络信息查询更加灵活简便。

1 陈金森.XML搜索引擎中索引技术的研究[D].燕山大学,2006

猜你喜欢

数据仓库搜索引擎文档
浅谈Matlab与Word文档的应用接口
Chrome 99 Canary恢复可移除预置搜索引擎选项
有人一声不吭向你扔了个文档
基于数据仓库的数据倾斜解决方案研究
世界表情符号日
Word文档 高效分合有高招
探析电力系统调度中数据仓库技术的应用
数据仓库系统设计与实现
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
数据复用在存储数据仓库中的运用