搜索引擎检索结果网页组织技术与优化策略研究
2016-02-13徐昊,曾驰
徐 昊,曾 驰
(信阳职业技术学院数学与计算机科学学院,河南 信阳 464000)
搜索引擎检索结果网页组织技术与优化策略研究
徐 昊,曾 驰
(信阳职业技术学院数学与计算机科学学院,河南 信阳 464000)
随着信息技术的不断发展,互联网已经成为人们生活当中的重要组成部分。人们在需要寻找各种信息时,只需要打开网页,在搜索引擎当中输入相关的关键词就能进行相关信息的搜集,在较短的时间内搜索到自己所需要的信息。大部分人都广泛地使用搜索引擎这种工具,但是大部分人对搜索引擎检索结果的组织原理并不是十分清晰,无法有效选择自己所需要寻找的答案。在本文当中,笔者针对现阶段的搜索引擎技术进行了分析,并分析了其中的不足,同时还对搜索引擎的组织技术进行了优化,最后总结了如何提供搜索引擎搜索排名的相关策略。
搜索引擎;检索结果;网页组织技术;优化策略
我国自20世纪90年代开始,信息技术开始高速发展,同时在最近几年当中,随着移动互联技术以及无线通信技术的不断发展,网络信息资源已经成为人们最重要的信息资源。大部分的人都采用搜索引擎搜索自己所需要的信息,但是从现阶段的搜索引擎的具体技术方面来看,在对信息资源的分类方面还存在着较大的问题,其组织还不够完善,信息产品存在着较大的不合理之处。具体看来,主要存在于信息搜索的精准度存在着一定的问题,智能化程度较低,从而导致搜索引擎在信息的组织方面存在着一定的问题。
因此,如何提高用户在网络当中信息搜索的精准度,已经成为现阶段网络搜索技术的重要研究内容。笔者通过查阅大量的文献,发现现阶段如果要提高用户信息搜索的效率,首先必须要开发智能型的搜索工具,同时还应该对检索结果的组织机构进行完善。在本文当中,笔者研究的内容主要集中在后者当中。搜索引擎在进行检索结果的组织当中往往是以web资源的特征为重要依据,即海量的信息。用户每进行一次搜索,搜索引擎往往需要检索约50亿个网页,而返回的结果往往高达几十万,而用户不可能对所有的信息进行一一判断。因特网上信息的生产目的、内容、过程包罗万象,这与传统联机检索系统的信息供应商和数据库生产者所提供的专业、系统、完整的信息源截然不同。
一、搜索引擎检索结果的组织技术
在搜索引擎技术当中,对搜索引擎的搜索效果进行评价的最重要依据就是搜索结果的组织技术。从搜索引擎还没有真正诞生开始,已经有无数的专家与学者对搜索引擎的结果组织技术进行了大量的研究。归纳起来,现阶段的研究内容主要有以下几个方面:第一,搜索引擎第一定律,其主要内容是搜索关键词的词频以及位置。第二,搜索引擎第二定律,即网页间的超链接分析。第三,Northern Light的智能技术,即通过智能技术进行检索结果的组织,同时最大程度地贴近用户的搜索目标。第四,根据网站当中超链接的点击数量来对网站的重要性进行评价。
(一)搜索引擎第一定律
在搜索引擎发展的初始阶段,对于信息的搜索是基于全文的,往往通过对信息当中词频的统计确定与搜索内容的关联性,即用户如果在搜索引擎当中输入一个关键词,搜索引擎就会对出现该词的词频较高的文章进行检索,同时对其重要性进行判断,在此基础之上对该关键词平时的使用程度进行加权处理,最后再根据计算的结果将相关的信息排列组合起来。相关性则是指搜索关键词与搜索结果当中网站的匹配程度,搜索引擎在进行关联度判断时采用的方法是“匹配—位置—频次”原则,即网站当中所出现的词语与用户所输入的关键词的相似度越高,出现的概率越大,则其关联度就越大,从而使得其在搜索结果当中所出现的位置也就越靠前。
(二)搜索引擎第二定律
在搜索引擎的发展历史当中,人气质量定律是较为重要的一种定律,也即搜索引擎第二定律,也就是超链接分析技术。超链接分析技术的原理是科学文件的索引机制,也就是说谁的文章被引用的次数越多,谁的文章的价值也就越大,这篇文章就是一篇好的文章。这种原理被运用在搜索引擎当中也就是说,一个网站如果被链接的次数越多,其人气就越旺,价值也就越高。对链接的文字进行分析,就可以对搜索结果进行排名。搜索引擎第二定律就是在这样的背景之下诞生的,根据搜索引擎第二定律的相关内容,关联性也不仅仅是与词频有关的,超链接分析对关联性也具有较大的影响。所谓超链分析, 是指当从网页A链接到网页B时, 则认为“网页A投了网页B一票”。此种技术就是根据网页的得票数来评定其重要性的。
(三)Northern Light的智能技术
Northern Light创造性地将定向文件夹搜索技术运用到搜索引擎当中,对搜索结果进行分类。在Northern Light的智能技术当中,其结果页面被分为两个不同的部分,在页面的右边列出了不同的搜索结果,而左边则是Custom Search Folders。同时,所有的检索结果也被分为几个不同的类别,在分类的过程当中,主要是依据不同的主题、信息来源以及语言对其进行分类。用户如果点击不同类型的文件夹,则所有的命中结果都会在右边的文件夹当中显示出来。而在左边所有的下一层的文件夹都会被显示出来,通过这种逐级搜索的方式,所有的结果必然都会显示出来。
二、搜索引擎检索组织技术所存在的问题,即优化对策分析
(一)搜索引起检索组织技术所存在的问题分析
根据搜索引擎第一定律的相关规定,搜索引擎会对网站当中的字词与句子进行检索,并与用户所输入的关键词进行对比与分析,从而确定关联度。但是互联网是一种开放的环境,在互联网当中,所有人都可以自由地发布许多信息,这种情况往往会导致两个具有相同词频的网页在质量上却具有很大的差异,而根据搜索引擎第一定律的相关规定,这两个网站在排名上确实较为接近。基于此种情况,许多网站为了提升在搜索结果当中的排名,都纷纷为自己的网站添加大量的关键词,但是搜索引擎对于此种现象并不能更好地进行分辨,从而导致搜索的质量存在着严重的问题。
而搜索引擎第二定律则存在着下列的不足:第一,完全根据超链接分析尚不能从更深的层次上计算网页的权重。根据最新的数据统计资料显示,现阶段我国大部分知名网站的主页、技术文件和部分著作的目录网页都具有极高的人气,但是还存在着大量的普通网页并不具有较高的人气。笔者进行进一步的研究发现,载有大量文章的许多网站并没有在外部被超链接所连接,而在网站的内部往往也仅仅存在一个超链接。这就必然导致如果仅仅根据超链接对网页计算权重是不合理的,必须要采用一定的措施对网页的附加权重进行分析。第二,许多网页为了提高网站的点击率,往往会在较为敏感的部位添加许多与网页内容完全没有任何关联的词语,从而使得人们在搜索的过程当中使自己的网页会被搜索出来,并被用户所点击。但是,大部分的搜索引擎对此种现象并不能很好地识别出来。一般情况下,搜索引擎所提供的搜索结果都达到数十页,从而给用户带来了较大的负担,因此,搜索引擎需要对自己的搜索结果进行细分,将部分结果隔离开来。
在点击率方法上也存在着一定的不足,在同一关键词的检索过程结果当中,一个网页的URL如果被点击的次数越多,则搜索引擎判定该网页的重要性越大。但是在实际的网络当中,由于存在着许多文不对题的现象,从而导致这种判断并不能完全反应出网络P的重要性。
(二)搜索引擎组织技术的优化处理
在上文当中,笔者论述了搜索引擎组织技术所存在的问题。基于此种情况,笔者进行了大量的研究之后提出了一种关于网页级别的评价与优化模型:
W(IRC)=f[PR,R(P),C(P)]
在上式当中,W是指经过加权计算之后网站P的等级。而通过超链接分析所得出的网站P的等级则如下所示:
PR=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))在上式当中,网页的重要性判定是通过对网页当中超链接的点击率为基本依据。同时,对上面两个公式进行分析之后我们发现,在该模型当中,网页的重要性与相关性是由其所包含的关键词词频、位置、外向链接的数量、用户对该网页的超文本链的点击率综合决定的。
三、搜索引擎检索结果排名优化策略总结
(一)对网站的关键词进行优化
通过上文的论述我们可以发现,现阶段大部分的搜索引擎在进行搜索结果的排名时都会根据网站的关键词与关键词的密度进行判定,如果用户所输入的关键词与网页的关键词存在着较大的联系,则该网站就会被搜索引擎判定为高关联度的网站,该网站的等级就越高,在搜索结果当中的排名也就越靠前,因此,在网页当中应该充分认识到关键词的重要性,对网站的关键词进行合理的利用与布局。即在进行网站关键词的确定时,要充分利用一切可以利用的条件,对关键词进行组织与优化,尽量避免采用重复或者叠加的方式增加网站的关键词。同时,关键词的排列尽量符合语法特点,能够形成较为通畅的语句,从而增加网站的吸引力。而从页面角度进行分析,我们可以将关键字分布在网页标题元、网页描述关键字元、正文标题、正文内容、文本链接、ALT标识当中。
(二)网站内部链接的优化
根据超链接分析的相关内容,如果网站当中的内部网页被搜索引擎收录了,则该网站就会被计一分;如果网站存在着许多内部网站被搜索引擎所收录的话,则该网站的分值就必然更高。基于此种情况,如果我们希望网站获得更高的分值,从而使得在搜索结果的排列当中具有更靠前的排名,我们需要对网站的内容进行进一步的完善,同时创建大量的内部网页,并逐步提高内部网页的丰富程度,并尽量使得内部网页可以被搜索引擎所收录。
(三)友情链接的优化
搜索引擎在对网站的超链接分析时,如果网站具有较多的连接入口,但是在网站内部却并没有超链接导向其他网站,搜索引擎也会将这种网站判定为没有价值。因此,我们可以在网页当中添加必要的超链接,为用户提供更具有指导意义的其他网站,同时也可以提高自己在搜索结果当中的排名。
(四)增加网站的相关性
首先,在网页的标题当中加入关键词,并进行加粗处理,这对提高网站与搜索关键词之间的相关性具有非常重要的意义;其次,我们还可以对网页的超链接当中的关键词进行加粗处理,从而使得相关性得分进一步加大。
当前阶段,由于网络当中存在着海量般的资源,搜索引擎虽然能够帮助用户获得一定的信息,但是在精准度方面也存在着一定的问题。同时,用户检索的关键词与网页之间的相关性也受到多种因素的影响,从而使得搜索引擎检索结果的组织技术具有较高的复杂性。因此,对网页的重要性与相关性进行分析具有非常重要的意义。在本文当中,笔者首先分析了现阶段搜索引擎检索结果组织技术所存在的问题,并进一步总结了优化策略,希望能对我国的搜索引擎技术的发展有所帮助。
[1]陈涛,林杰.基于搜索引擎关注度的网络舆情时空演化比较分析——以谷歌趋势和百度指数比较为例[J].情报杂志,2013(3):7-10,16.
[2]付志超.基于Map/Reduce的分布式智能搜索引擎框架研究[D].武汉理工大学,2008.
[3]李贵林,杨禹琪,高星,廖明宏.企业搜索引擎个性化表示与结果排序算法研究[J].计算机研究与发展,2014(1): 206-214.
[4]张卫丰,徐宝文,周晓宇,许蕾,李东.元搜索引擎结果生成技术研究[J].小型微型计算机系统,2003(1):34-37.
[5]杨丹波.应用Web数据挖掘的主题元搜索引擎设计与实现[D].清华大学,2009.
[6]王晓丹,胡乔迁.信息检索中元搜索引擎结果选择策略[J].哈尔滨商业大学学报(自然科学版),2008(4):467-470.
[8]李红梅,丁振国,周水生,周利华.元搜索引擎结果合成算法[J].北京邮电大学学报,2008(5):78-81.
[9]张辉,谢科,庞斌,吴辉.一种基于关键特征的搜索引擎结果聚类算法[J].北京航空航天大学学报,2007(6):739-742.
[10]种梅,刘方爱.元搜索引擎中的成员选择和结果合并策略研究[J].计算机工程与设计,2007(21):5125-5127.
[11]张俭恭.扩展元搜索引擎(EMSE)的系统设计[D].中国科学院研究生院(文献情报中心),2002.
[12]张立彬,翟清剑,刘才华,何杉.山寨搜索引擎的技术特点及其发展趋向研究[J].情报科学,2010(3):470-476.
TP
A
1673-0046(2016)12-0173-03