APP下载

网络信息搜索引擎的发展研究

2010-12-31谢安裕

中国新技术新产品 2010年3期
关键词:搜索引擎结构化网页

谢安裕

(广东省梅州市工业学校,广东 梅州 514000)

1 搜索引擎的原理

搜索引擎是对www站点资源和其他网络资源进行组织和检索的一类检索机制。其机制一般包括数据采集和标引机制、数据组织机制、用户检索机制。其中,数据采集机制按照一定规律和方式对网络上www站点进行搜索。并将搜索到的www页面信息存入搜索引擎的临时数据库;搜索引擎的数据组织机制对www页面信息进行整理以形成规范的页面所以,并建立相应的索引数据库,搜索引擎的用户检索机制帮助用户以一定方式检索引擎的索引数据库,以获得符合用户需要的www站点或页面。

2 根据搜索引擎提取数据的方法,可将搜索引擎系统可以分为三大类

2.1 目录式搜索引擎:是一种网站级搜索引擎。目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,一般的搜索引擎分类体系有五六层,有的甚至十几层。先由程序自动搜集信息,然后由编辑员查看信息,人工形成信息摘要,提供目录浏览服务和直接检索服务。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,缺点是需要人工介入、维护量大、信息量少、信息更新不够及时。Yahoo就是这类搜索引擎的代表。

2.2 机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。但是该类引擎返回信息过多,有很多无关信息,用户必须从结果中进行筛选

2.3 元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个预先选定的独立搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。元搜索引擎的搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

3 搜索引擎的局限

因特网搜索引擎的结构及工作方式的缺陷,没有一个搜索引擎包含的WWW页超过了全球总WWW页面的16%,而对因特网资源的覆盖面还明显下降,也受限于数据库更新的速度,可能导致搜索引擎有价值的信息。

搜索引擎自动巡视软件在搜集因特网信息时,通常要将网页内容全部或部分下载到本地,然后才能进行索引处理,下载的页面中有许多无用或暂时的信息,影响索引速度,也浪费系统通信资源。各种搜索引擎使用的检索符号和对检索式的要求不一样,给用户检索带来了困难。搜索引擎的局限性还主要表现在信息丢失、返回过多无用信息及信息无关等方面。造成现状的原因在于传统搜索引擎队要检索的信息仅采用机械的关键词匹配,缺乏知识处理能力和理解能力,即使搜索引擎无法处理用户看来非常普通的常识性知识,更不能处理个性化知识,因地区不同的区域性知识,因领域不同的专业性知识。

还有原因在于整个检索过程中,客户端的计算机知识起着一个终端的作用,强大的运算能力和存储空间无法发挥作用,就造成以下的问题:搜索结果很难精确匹配;无法对检索结果进行提炼;无法对不同的搜索引擎的结果进行综合比较与提炼;搜索引擎使用方法不同造成用户理解和使用困难;搜索结果手工下载效率低下;增加用户的网络通信费;搜索结果中的匹配文档不可能快捷地下载。

4 搜索引擎发展趋势

智能搜索引擎:智能搜索引擎是结合了人工智能技术的新一代搜索引擎,它使因特网信息检索从基于关键词提高到基于知识或概念,并对知识有一定的理解和处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别及机器翻译技术等。比如在表单中输入的问题,返回的答案,这样就要把所有的问题全部添加到数据库中,每当用户提问的时候,数据库将会在数据库中检测查询结果,百度知道就是把用户的问题和正确答案添加到数据库中了,当你在知道中查询答案,那么将会检测到相关的词汇。智能搜索引擎实现数据挖掘、知识发现、智能代理等。智能搜索在研究机器翻译(MT)的领域中,使用户可以用母语搜索非母语的网页,并以母语浏览搜索结果。检索机制:垂直化专业领域搜索、关联式的综合搜索、检索结果自动聚类。垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。垂直搜索引擎的应用方向很多,比如企业库搜索、供求信息搜索引擎、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索……几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎关联式的综合搜索。关联式综合搜索,就是这样一种一站式的搜索服务,它使得网民在搜索时只需输入一次查询目标,即可在同一界面得到各种有关联的查询结果。这项服务的关键在于有一架构在XML基础上的整合资讯平台自动聚类可对检索结果进行自动聚类并构建树状结构,以构建企业知识地图、检索者快速定位所需信息。应用中可实现对新闻稿件或大数据量文档的自动聚类,实现辅助专题制作等。类似方正智思知识管理平台软件那样特色搜索引擎:(包括可视化检索和多媒体信息检索的综合运用)检索结构可视化方法实现检索结果可视化。搜索结果的呈现方式,结果可视化,可以先看到每个网页长什么摸样,再决定是否访问它。多途径的多媒体检索、多种媒体信息库的结合、多特征的综合检索、采用相关反馈和自动标注技术、高维索引技术、用户查询接口实现多媒体信息综合检索在网络信息多样化和网络用户多样化的呼唤下,人们希望在网络上找到更丰富更实用的资源,不再漫无目的地查找,特色搜索引擎便应运而生了。

(1)图像搜索引擎。图像搜索引擎虽然还没有成熟的产品,但是这项研究工作却紧锣密鼓的进行着。据称,美国Purdue大学的研究人员已经开发出了一种新的搜索引擎,这种搜索引擎不再使用关键词文本进行搜索,而是使用图像或者草图进行搜索。不就的将来,用户自己画一幅草图,搜索引擎就可以对数据库进行搜索,并找到所有与草图类似的图像。不过,这要求图像搜索引擎能够快速处理超大容量数据库。这种技术不仅为网民提供了方便,在生物、化学、医学等领域都可能发挥极大的作用。

(2)多媒体搜索引擎。FAST是国外著名的多媒体搜索引擎,很多同类搜索引擎都会引用此引擎的内容。在FAST搜索多媒体文件,可以同时搜索图像、音频、视频等多种格式的多媒体文件,图像支持JPEG、GIF、BMP三种格式,音频支持MP3、Wave、AIFF、RealAudio、MIDI五种格式,视频支持AVI、DivX、QuickTime、MPEG 四种。FAST为每一个搜索结果提供预览和说明,同时还有下载的直接链接,以及该文件所在网站的地址。

(3)搜索在线摄像头监视画面:众所周知,如果要与对方通过摄像头进行连接的话,必须对方同意才可以。但是利用Google却可以突破这个限制,因为它可以搜索网络上未经加密的网络摄像头(机)监视到的画面。

(4)房产地图搜索引擎。房产地图搜索引擎是结合地理信息系统(GIS)、数据库系统(DBMS)和动态Web软件技术开发研制,可以通过智能化地理信息分析查找特定范围内的特定目标。例如用户可以选择购房愿望:价格、面积、户型、房屋布局、地理位置、周边商业、交通、自然环境、小区状况等,在互联网上进行查询。引擎立即会将所有满足条件的房源显示出来,并可以任意放大、缩小、移动房源地图。

总之 ,随着计算机技术和网络技术的不断发展 ,网络检索将逐步朝着简单化、人性化方向发展 ,检索界面会越来越简洁友好。用户可以很容易地进行网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体检索、动态连接、数据挖掘等操作 ,方便、及时、准确地获得所需信息。

[1].徐谦.网络信息检索的智能化趋势[J]图书馆理论与实践2006,2:63-65

[2]柳群英.网络信息检索技术现状及发展趋势[J]情报探索 2005,4:66-68

[3]张兴华.搜索引擎技术及研究 [J].现代情报,2004,(4)

猜你喜欢

搜索引擎结构化网页
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
基于CSS的网页导航栏的设计
基于URL和网页类型的网页信息采集研究
网页制作在英语教学中的应用
网络搜索引擎亟待规范
基于图模型的通用半结构化数据检索
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
10个必知的网页设计术语