APP下载

语义网环境下搜索引擎检索结果的优化

2016-06-08刘雨亭

安徽文学·下半月 2016年5期
关键词:搜索引擎优化

刘雨亭

摘 要:本文从用户角度分析了传统搜索引擎检索结果的不足,提出在语义网环境下可以从注重分析用户提问的语义关系、扩展检索方式、改变爬行策略、优化检索结果界面等方式对传统搜索引擎的检索结果进行优化。

关键词:语义网 搜索引擎 检索结果 优化

一、引言

随着信息时代的到来,人们更依赖于通过搜索引擎来获取所需信息。然而Internet上资源类型多样,内容丰富,信息量越来越大,传统搜索引擎的结果已经不能满足用户的需求,局限性开始显现:它侧重于从用户提问中抽取关键字(词)进行查询并返回与关键字(词)相关的链接,忽略了从语义角度分析用户提问;它对检索结果按一定的排序算法进行排序,但并不是所有的检索结果都是按照相关度进行排序,所以有时候用户需要的内容在前1-2页找不到答案[1]。

早在1998年万维网联盟的Tim Berners-Lee就提出了语义网这一概念。它是对Web的补充和扩展 [2]。它在国外已有很大的发展,其中最显著的一项便是语义搜索引擎的出现,其典型代表有面向任何主题的Kngine和专注于食品、烹饪、食谱的Yummly。我国各大高校都纷纷学习研究并利用该技术更好地实现智能化。

从国内外研究现状来看,语义网已经被人们逐渐认识并运用到很多方面。本文在对传统搜索引擎检索结果分析的基础上提出语义网环境下搜索引擎应朝着理解用户提问的语义关系、提高检准率、提供多种检索方式、检索界面简洁等更利于用户使用的方向发展。

二、传统搜索引擎检索结果分析

传统搜索引擎是定期收录和整理网络信息,按照关键词查询并返回结果的网络信息检索工具 [3]。它经历了较长的发展时期,以百度,google为典型代表。由于搜索引擎的主要作用是收集、整合、标记Web上的各种资源进而方便用户查找,那么我们将从用户角度对传统搜索引擎的检索结果进行分析。

(一)检准率

检准率是指检出的相关文献数量占检出的文献总量的比率。传统搜索引擎的检准率相对较低。因为传统搜索引擎针对用户提问进行查询时,重点在分析该提问中的关键词,并根据关键词进行检索,很少分析该提问式中的语义关系,所以常常导致在检索结果的前2页[1]很少有满足用户需求的信息。查询结果的冗长和不相关会直接导致用户使用该搜索引擎的积极性。

(二)重链率

重复链接率是指检索结果中重复内容占全部结果的百分比。该指标越低说明检索结果越好 [4],进而导致在其检索结果中经常会出现不同资源标题、不同URL和不同描述项等指向同一结果,这样不仅浪费用户的时间也影响用户对检索工具的再次利用。

(三)空链率

空链接率是检索结果中检索结果为空或者检索结果无法链接占总全部检索结果的百分比。在当前搜索引擎检索结果中用户无法直接判断当前链接是否正确,需要点击进去之后才能确定当前链接是否为空链,尤其是空链的内容恰好是用户需要的内容,这种情况下会影响用户对该搜索引擎的使用。

(四)检索结果的权威性

检索结果的权威性和正确性与信息发布者的权威性和专业度有很大关系。在平时检索中若是对概念性的词进行检索我们会青睐于百度百科、维基百科等,再比如当我们要查“郑州大学情报学2015考研参考书目”时,虽然从其他网站上也能查到相关信息,但我们却更相信由郑州大学官网发布出来的信息,所以若其他网站也整理了相关信息最好是能标注信息的原始出处并附上链接,这样会提高当前网站的可信度。

(五)检索结果展示方式

传统搜索引擎一般地会将查询结果以链接和简要描述形式返回以便用户在简单的描述中判断检索结果的相关性进而点击链接进行查看,但对是否是死链以及该链接的网页具体内容是否与前面链接重合等都无法进行判断,所以以链接形式返回的检索结果在某种程度上也潜藏了问题。

三、语义网环境下的优化措施

通过对传统搜索引擎的检索结果分析得到,那些基于关键词匹配和排序算法的搜索引擎在检准率等方面已经出现了很多问题,所以在当前语义网技术已得到较快发展的知识经济时代,从语义网角度对搜索引擎检索结果进行优化已有了较强的必要性和可行性。当前国外已经有了13例典型的语义搜索引擎,语义搜索引擎是通过对网络资源进行语义标注以及对用户查询请求进行语义处理,实现语义推理和精确、全面的检索[4]。借鉴国外已有的成功案例,在语义网环境下主要通过以下方面对传统搜索引擎的检索结果进行优化:

(一)注重理解用户提问的语义关系

首先传统搜索引擎可以利用OWL2(Web Ontology Language)[5]描述Web上的信息资源,理解并分析资源间的语义关联,建立相应的知识图谱,从而使得搜索引擎针对用户提问进行检索时扩大检索范围并深度挖掘信息。

同时注重理解用户提问的语义关系,而不是单纯的对该提问式进行分割抽取关键词,这方面我们需要借助语义技术来实现,在充分理解用户提问的基础上,搜索引擎便可采用基于知识和统计的方法遍历知识图谱并计算出答案。

(二)语音搜索

传统搜索引擎大都提供简单检索和高级检索,但随着互联网的普及,搜索引擎的使用者已经从专业人士扩展到普通大众,同时,随着人们搜索习惯的改变,语音搜索已经成为一种大众普遍接受的方式,而传统搜索引擎主要是通过分析用户输入的内容进行检索,而不支持语音搜索,所以,随着语音搜索功能的扩展,传统搜索引擎已不再能满足人们的需要。阿密特·辛格尔说“搜索引擎的三个主要功能将需要改进,搜索将需要:答案,对话,预测”[6]。故而传统搜索引擎也需有支持语音搜索的功能。语音搜索这种功能在国外已有的语义搜索引擎中已有应用,比如在Congnition中语音问“为什么要接受LASIK手术?”“LASIK手术的程序有哪些?”语音导航员一边解答,一边在网页上显示回答的内容[4]。

(三)检索结果显示简洁直观

传统搜索引擎将查询结果按链接形式返回,用户需要根据该链接的简要描述判断是否进入该链接,并且该链接的网页内容是否与前面链接内容重合、是否为空链都要进一步点击之后才能确定,这在某种程度上浪费了大量时间。

借鉴语义搜索引擎的特点,语义网环境下传统搜索引擎可以将检索结果直观化,在结果页面上直接显示结果,这样减少了链接的次数,也方便用户直观地获取信息;语义网环境下传统搜索引擎也可以将检索结果可视化,以用户能够理解的图表形式显示出来,这样可避免用户从大批文字中分析答案而占用较长时间;语义网环境下传统搜索引擎的检索结果页面应干净整洁,过滤掉广告、垃圾信息。

(四)优化爬行策略

当前Web上信息内容丰富,更新频率不一致,各种信息间呈网状多样联系,这种情况给搜索引擎搜集网上信息资源提出了更严苛的要求。在语义网环境下,搜索引擎应更加注重分析各种信息资源间的关系,从深度挖掘信息。在这方面搜索引擎可以优化爬行策略,针对每个网页信息都能找寻它的最初链接,这样既可以提高当前网页的可信度,也分析了各网页间的关系,增强搜索引擎内部信息的关联度也便于更深层次分析信息,更好地为用户服务;当然搜索引擎也要根据各类型网站的更新频率设置相应的爬行时间和次数,以便能在第一时间内收集归纳新的信息,方便用户查询。

参考文献

[1] 王渊.面向用户的搜索引擎检索结果评价[J].河南图书馆学刊,2007,27(4):74.

[2] Berners-LeeT,Hendler J,Lassila O.The semantic Web [J].Scientific American,2001,284(5):28-37.

[3] 赵夷平.传统搜索引擎与语义搜索引擎服务比较研究[J].情报科学,2010,28(2):265-270.

[4] 郭卫宁,司莉.国外语义搜索引擎调查与分析[J].图书情报工作,2013,57(23):121.

[5] 曾新红,吴鹏,林伟明. OWL2 Web本体语言入门. http://nkos.lib.szu.edu.cn/OWL2/OWL2PrimerSimplifiedChinese.htm.

[6] 胡祝.搜索引擎的最新进化[N].电脑报,2014-4-21(13).

[7] 张海涛,高松.搜索引擎检索结果的网页组织及其优化策略[J].情报科学,2006,24(6):900-903.

[8] 苏明明,宋文.基于本体的语义搜索引擎解决方案与研究新进展[J].现代图书情报术,2008(11):24-28.

[9]语义网. http://baike.baidu.com/link?url=P7TLysay0heBDC4WuYCOH7f1ORSpnKJSRopNco6KngTmb8dNtd-lJfVXpn1 Wkkeq8KpcjP6StZTE-GyM99F2FK.

猜你喜欢

搜索引擎优化
优化问题设计
Chrome 99 Canary恢复可移除预置搜索引擎选项
营商环境五方面持续优化
世界表情符号日
优化英语课堂教学策略的探索
促进学生认识发展 优化初中化学复习
CAE软件操作小百科(30)
网络搜索引擎
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌