浅析网络信息检索技术
2018-05-31李玲
李玲
【摘要】信息时代信息更新速度不断加快,人们能够使用的信息量极其巨大。面对纷繁的信息,如何提取有用的知识是面临的一个非常现实的问题。随着网络应用的深入,网络信息检索技术不断发展,同时也面临着诸多挑战,其总的发展趋势为多功能化和智能化。
【关键词】网络信息 信息检索 搜索引擎
一、引言
当今世界是互联网飞速发展的信息世界,因特网作为传递信息的桥梁,发挥着越来越重要的作用。据中国互联网信息中心2018年1月发布的《第41次中国互联网网络发展状况统计报告》数据显示:截至2017年12月,我国网民规模达7.72亿,网站数量为533万个,年增长率为10.6%,网页数量为2604亿个,年增长10.3%,且仍在以每天百万级别网页的速度增加。网络信息数量的海量化、形式多样化、内容的复杂化使得网络用户如何在信息的海洋中,有效地获取和利用信息与知识变得极其重要。网络检索技术已成为最普遍、最受关注的研究领域之一。
二、网络信息检索技术现状
(一)信息检索概述
信息检索(Information Retrieval),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心是文本信息的索引和检索。在现代人们的认知观念中,人们总是把信息检索与搜索引擎画上等号。但是信息检索并不等于搜索引擎,只不过现阶段搜索引擎是网络信息检索的主要手段。
(二)搜索引擎技术分析
搜索引擎是指利用网络搜索技术对因特网信息资源进行标引,并为检索者提供检索的工具。搜索引擎具有普通检索功能(如词组检索、字段检索)和特殊检索功能(如自然语言检索、多语种检索等)。因为不同的搜索引擎其收集信息的方式、信息覆盖面广度、标引方式和检索软件的具体功能不同,相同的检索在不同的搜索引擎中存在的差异也很大。
(三)搜索引擎类型
(1)索引式搜索引擎,又称为基于Robot的搜索引擎。是利用一個Robot(也叫Spider,Web Crawler或Web Wanderer)的程序自动访问、提取各个网站网页上的信息。如www.altavista.com即为这种检索式搜索引擎。
索引式搜索引擎的特点体现在两方面:一是交互性强,基于客户机服务器模式从客户端获取用户提问,经过转换构造可操作数据库的查询语句,从数据库中查找匹配记录,并通过Web反馈结果;二是检索功能强大,一般可进行词组检索、位置检索、相关词检索等。
(2)元搜索引擎,又称为集合式搜索引擎,是将多个搜索引擎集合在一起,提供一个统一的检索界面。元搜索引擎自身没有实际的数据库来保存网上众多的网站、网页、FTP等信息,而是间接处理其他搜索引擎检索的结果,进行再次筛选评价后统一反馈给用户。
元搜索引擎的特点体现在两方面:一是检全率高,但是检准率不能保障;二是一般元搜索引擎只支持“与或非”的简单操作,因为元搜索引擎连接的站点各自拥有自己的一套检索语法,故若想统一结构具有较大难度。
(3)目录式搜索引擎(Directory或Catalog),是指由人工发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或其他分类依据建立主题树分层目录,并将采集筛选后的信息分门别类地放到各大类或子类目下,在Web界面上呈现错落有致的上下级关系,用户通过层层点击,逐步缩小范围,最终满足用户的查询需求。
目录式搜索引擎的特点体现在三方面:一是比较适合主题浏览,一般主题检索都为检索用户的查找提供有价值的提示;二是检准率较高,因为该搜索引擎介入了人工来评价网站内容,因此搜索结果准确率较高;三是检全率有限。
三、网络信息检索技术瓶颈及发展趋势
(一)网络信息检索技术的瓶颈
(1)图像音频视频检索。信息化社会的今天,图文并茂的多媒体信息已逐步成为Web信息的主流。如何对图像特征进行准确提取,使用精准表达方式表达图像特征是图像检索待解决的问题。
(2)汉语自动切分。语词是信息表达的最小单位,是信息检索技术中匹配的基本元素。汉语字词之间没有分隔符,而对信息资源的标引与对用户检索输入的“理解”都必须进行正确的语词切分,语词切分已成为全文检索技术的瓶颈。
(3)搜索引擎缺陷。目录式搜索引擎采用人工干预技术,信息分类不规范,信息遗漏不可避免;站点、网页信息内容经常变化,现有搜索引擎在信息维护、网络及站点负载方面存在很大不足,索引数据库大但检索查准率低。
(二)网络信息检索技术发展趋势
(1)网络检索智能化趋势。从某种程度上说,科技发展的目的是为了满足人们的“懒惰”习性。同样,用户希望用简单的检索步骤获取高效准确的检索结果。网络检索顺应用户这一要求,通过模拟人脑的思维方式,分析用户自然语言表达的检索请求,进行快速高效的信息检索。其中较有代表性的如FSA、Eloise和FAFinder,通过模拟传统检索服务的咨询来获取相关的检索数据。
(2)网络检索多样化趋势。网络检索多样化表现在网上检索信息、检索工具及其服务的多样化。多样化趋势具体表现在:网络检索信息的形态多样,包括文本信息、声音、图像和动画等。目前,已有高性能的语音识别系统和人脸图像识别系统相继问世,相信随着科技的高速发展,该类系统将会越来越普及,帮助人们进行网上检索。
(3)网络检索个性化趋势。网络检索个性化包括网络站点提供内容的特色化和服务的个性化。各网站针对不同用户需求提供有特色的服务内容,用户可以利用检索工具以自己喜欢的方式来检索信息,以提高检索的效率和质量。