网络信息检索及其发展趋势研究
2018-06-02毕欢
毕欢
摘要:在网络技术、计算机技术快速发展背景下,网络信息检索的价值日益凸显,该文就从网络信息检索特点、检索方式、检索的效果、检索的基本技术、检索所用工具出发进行研究,分析了网络信息检索所面临的局限、日后发展方向以及发展趋势。
关键词:网络信息检索;技术;发展趋势
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)10-0008-02
在信息数字化水平日益提高背景下,庞大的数字信息与人们获取信息之间产生的矛盾越来越突出,只有不断研究网络信息检索方法手段,找到更先进的检索途径,才能够消除二者之间的矛盾,让人们可以更好地利用网络信息,因此,现行社会背景下,分析网络信息检索技术及其发展趋势具有一定的必要性。
1网络信息检索原理
网络信息检索是指人们通过网络接口软件,借助相关终端设备,在网络上获取信息资源的方式。通常情况下,进行网络信息检索时,会根据用户所提供的查询要求,利用相应检索工具,从网络信息数据库中搜出与用户需求相匹配的信息资料,随着信息技术与网络技术的发展,网络信息检索原理也在发生着一定的变化。
现阶段我们所使用的网络信息检索模型主要有以下几种:一是向量空间模型,在该模型支持下,会将网络信息数据库中的文档作为独立向量詞条来看,针对不同词条,重要程度会为其赋予一定权值,通过将词条与该词条权值作为坐标系中坐标轴和坐标值,使得词条可以组建出文档向量空间,文档成为坐标系中的一个点,当用户需求该文档时,借助向量空间模型就会转化为向量空间中矢量问题,此时更准确的定位用户所需求信息,提供的信息内容匹配度较高;二是布尔逻辑模型,该种模型相对简单,且匹配较为严格,因此在网络信息检索时也更加常用。在该模型运转时,常用的逻辑运算有逻辑非、逻辑与以及逻辑或,这就使得最终所获得内容要么与查询无关,要么与查询相关度十分高。三是模糊逻辑模型,该模型是根据贝叶斯概率原理提出的,其主要依据了文档与词条之间的内在联系,通过利用词条与文档之间、词条与词条之间的概率相依性开展检索。在进行网络信息检索过程中,通常会运用不同检索方法与不同结构模型,但是最终都会根据用户要求达到相应的检索目标,在实际检索过程中,往往会将上述三种模型进行有效混合,以便检索效果达到最佳。
2网络信息检索方式
现阶段进行网络信息检索时,主要采用了两种方式,分别为Web检索与非Web检索。
(1)Web检索,该种检索方式主要检索对象为Web信息,同时,该种方式也运用了Web,在该种检索方式支持下主要有搜索引擎与浏览器两种检索方式,其中搜索引擎方式主要是指借助Internet所提供的公共信息检索服务Web站点,进行网络信息分析、理解、提取以及处理,通过形成相应的数据库,并没用户提供检索平台,使得用户在输入自己想要获取的内容时,能够进行关键词匹配,词组匹配以及短语匹配,快速在数据库中调取出相应信息。而浏览器检索方式,主要是指用户可以在进入Internet后,就可以通过浏览器进入Web界面,此时用户可以访问浏览器中的数据库。
(2)非Web检索方式,该种方式检索对象主要为非Web资源,像Usenet、FTP、Telnet、Gopher等,所使用的检索工具也为非Web工具,主要有广域信息服务器工具、文件检索服务器工具、Gopher工具等,其中用户在利用广域信息服务器工具时,可以获取到多个图书馆联机目录,通过该工具所提供的几百个数据库,进而对自己所要信息进行检索。文件检索服务器工具是一种基于命令的信息检索工具,在该工具支持下,用户可以对网络上已经实现共享的文件进行有效检索。利用Gopher工具为用户提供服务时主要采用了菜单式界面,通过为用户提供检索系统与文件查询系统,使得用户能够以文件或目录的形式获取到服务器中所有有关信息。
3网络信息检索的效果
目前在对网络信息检索效果进行评价时,主要采用了输出格式、查全率、收录范围、查准率等几个指标,其中查准率与查全率最为重要。
查准率指在网络信息检索过程中,所检出与用户需求有关的文献在所有检出文献中所占的比率。而查全率是指在网络信息检索中,所检出与用户需求有关的文献量与所有系统文献库中相关文献总量的比率。以上两项评价指标可以有效评价出检索系统检验效果,若上述两数值均相对较低,则说明网络信息检索效果不佳,反之则说明网络信息检索效果好,但是由于在实际操作过程中查全率的提高会在一定程度上限制查准率,因而二者会呈现出一定矛盾性特点。
输出形式指在进行网络信息检索时所检出相关信息的表达形式,通常情况下会有全文、文献号、文摘等几种。当检索后所输出的信息内容越多时,更容易用户获取自己所需的信息,也更便于用户浏览。
输入范围则指网络信息检索所用数据库的收录范围,当数据库涵盖内容多收录文档数据资料多时,在一定程度上,则可以为用户提供更多有价值的信息,反之则会限制网络信息检索效果。
4网络信息检索的基本技术
现阶段网络信息检索主要由以下几项基本技术支持:⑴信息推拉技术,该技术主要包含两部分,分别为信息推送技术与信息拉取技术,其中信息推送技术主要是将网络中所拥有的信息主动推送给用户,而信息拉取技术则是通过了解用户需求,在用户主动查询数据库中,为用户拉取出相应的信息,该技术可以提高检索针对性与检索效果。⑵Web挖掘技术,在信息技术快速发展背景下,当前网络中所存在的信息量也不断增加,虽然这会造成用户利用信息与海量信息之间发生矛盾,导致用户信息利用困难度有所提升,但是该技术通过利用新的挖掘手段,使得用户对某方面信息提出需求后,可以得到深入挖掘,并获取更精准的信息。⑶信息过滤技术。使用信息过滤技术,可以在对各种信息进行加工与处理的基础上,筛选出可靠性高、价值高的信息,保证用户能够在大量的网络信息中筛选出与自己需求紧密相关的信息。⑷自然语言处理技术,由于自然语言相对模糊,且具有一定的灵活性,因而计算机在理解与处理时难度更高,但是在应用自然语言处理技术后,网络中所拥有的信息更为全面,为网络信息检索提供了有力支持。
5网络信息检索的重要工具
目前在进行网络信息检索时,主要应用了搜索引擎这一工具,其具有检索效率高的优势,受到广大网民的欢迎,因而也成为当前使用频率最高的网络信息检索工具。根据不同搜索引擎特点,按照用户查找途径,对搜索引擎进行分类时,可以分为基于分类目录的搜索引擎,基于关键词的搜索引擎,以及综合式的搜索引擎。
在运用搜索引擎这一工具时,利用了数据组织机制、数据采集和标引机制,以及用户检索机制,不同机制在检索过程中发挥着不同的作用,但其核心目标均为为用户提供准确网络信息。随着信息技术,计算机技术的快速提高,互联网的广泛普及,搜索引擎在短短几年之间已经实现了从单一功能到多元功能的有效发展,且现阶段网民主要应用的搜索引擎数量也逐渐减少,可见,现阶段所用的搜索引擎功能日益强大。
6网络信息检索所面临的局限
虽然现阶段所用的网络信息检索技术与工具为人们搜集信息、利用信息提供了较大的帮助,但是由于网络信息资源特点,以及检索工具局限性,导致现阶段网络信息检索仍然面临一定的局限。
第一,在文本信息检索方面的局限,其主要体现在网络信息标引准确度不高上,这就使得在进行网络信息检索后,检准信息与检全信息时存在着较多的问题,部分用户在检索过程中发现自己所检索出的信息标题与内容并不相关。与此同时,进行文本信息检索时,还存在搜索引擎查全率不高的问题,这就导致网络信息检索效果相对较差,用户可以在海量信息中中获取并利用的信息十分有限。除此以外,在文本信息检索过程中,还存在着检索方式有限、检索查准率不高,以及检索对象数据结构单一等几方面问题。第二,在进行多媒体信息检索时存在局限,虽然现阶段已经出现了声音、图像、视频等检索技术,但是尚未有任何搜索引擎能够更好的解决多媒体信息检索,这就影响了用户利用多媒体信息,降低了网络信息利用率以及其存在价值。
7网络信息检索未来发展方向及趋势
尽管目前网络信息检索仍然存在着一定的局限,但随着人们对信息需求的增加,相信未来网络信息检索会朝向以下方向及趋势发展。
第一,检索机制的完善与检索效果的提升方向发展。一方面,有关人员会提出更加专业的搜索引擎,通过保证该引擎面向某一特定专业领域,使得该专业人员在运用该引擎检索相关信息时,查全率与查准率能够得到提升。另一方面,在社会分工更加细致的基础上,也会保证数据库所拥有信息更具有针对性,保证在检索过程中,有关技术可以得到更精准的使用。与此同时,检索效果也会朝向综合性方向发展,通过将多网站内容整合到一起,使得用户在进行网络信息检索时能够在同一界面中得到各种有关的查询信息。
第二,朝向可视化效果方向发展。现阶段,在进行网络信息检索后,通常会获取到列表式的检索结果,虽然这会为用户提供关联度大小顺序,但是无法实现与用户之间的交互,也无法对检索结果之间关系进行说明。因此,从该角度来看,实现检索结果可视化有助于用户快速定位自己所需信息,在未来有很大的发展空间,从另一角度来说,改善信息检索呈现方式也是提高人们观察信息、利用信息效果的重要途径。
第三,智能化检索的发展方向。造成当前传统检索技术存在较大局限的主要原因是:该种检索技术无法了解人的实际检索请求,此时所提供检索服务个性化程度并不强,而实现智能化检索,则可以通过检索技术与人工智能的有效结合,更真实的模拟人脑,从而准確了解用户检索需求,并为用户提供个性化服务与个性化需求。
8总结
总之,目前网络信息资源越来越多,要想在海量资源中找到自己所需要的信息是一件具有挑战性的工作,这就使得网络信息检索备受重视,虽然目前网络信息检索工具已经为人们搜索、利用网络资源提供了极大便利,但是仍然存在着一些局限,相信在众多信息专家努力下,会不断完善与改进网络信息检索手段与方法,在网络信息检索方面取得更大的突破,促使人们可以在网络中获取更多丰富生活的知识。