APP下载

专业搜索引擎搜索结果融合算法研究

2011-10-20杨国霞郝志杰

河北科技大学学报 2011年4期
关键词:查全率搜索引擎页面

郝 伟,杨国霞,郝志杰

(1.防灾科技学院灾害信息工程系,河北三河 065201;2.河北科技大学信息科学与工程学院,河北石家庄 050018;3.沧州职业技术学院信息工程系,河北沧州 061001)

随着互联网为代表的信息网络飞速发展,以光速传播的信息资源呈爆炸性增长和累积。如何在快速增长的浩如烟海的信息海洋中通过计算快速有效地搜索需要的信息成为人们关注的问题。由于各搜索引擎的算法和机制不同,同一检索请求在不同搜索引擎中的查询结果也不尽相同,因此,用户往往会对多个搜索引擎进行检索,这就增加了用户的工作量,元搜索引擎正可以解决这一问题。但是对于专业用户来说,使用普通的元搜索引擎检索信息时,得到的多数网页是没有用的。因此,建立专业化的元搜索引擎具有通用搜索引擎所不具有的优势,更符合时代的要求。

1 关键技术分析

1.1 元搜索引擎技术分析

元搜索引擎(meta-search engine)是指在统一的用户查询界面和信息反馈形式下,共享多个搜索引擎的资源库为用户提供信息资源检索的系统,也就是对多个独立搜索引擎的整合、调用、控制和优化利用。在用户检索时,元搜索可以根据提交的检索请求,调用各独立搜索引擎进行搜索,并对检索结果进行汇集、去重、排列等优化处理后,以统一格式在同一界面集中显示[1-2]。

根据元搜索引擎工作原理分析,得出其中需要解决的如下问题[3-4]。

1)独立搜索引擎的选择 目前存在的独立搜索引擎很多,元搜索引擎需要选择哪些独立搜索引擎直接关系着搜索结果质量的好坏。在搜索引擎的选择中,需要考虑技术方面的问题包括:在使用独立搜索引擎时,建立的索引集不可得,而且经常会发生变化;其次,独立搜索引擎使用的技术也有所区别。因此,建立元搜索引擎需要在搜索结果的质量和网络资源消耗之间作个权衡。

2)检索条件转化 独立的搜索引擎是直接对用户的查询条件进行处理,而元搜索引擎是将收到的检索请求发送给独立搜索引擎,并且在发送之前需要将检索请求转化成各个搜索引擎能处理的格式。因此,元搜索引擎要考虑针对不同的独立搜索进行请求转化处理。

3)结果融合 结果融合是元搜索引擎的最核心问题。独立搜索引擎检索的标准和排序算法各不相同,如何将所有搜索引擎的反馈结果整合成一个单一的结果列表,客观地综合参考各搜索引擎的相关性评价,在最后结果中精确地体现相关性和重要性,是非常复杂和值得研究的问题[5]。

1.2 PageRank算法

PageRank算法的基本思想主要是来自传统文献计量学中的文献引文分析。PageRank算法认为:如果一个页面被一个重要链接所指向,那么此页面所指向的其他链接的重要性也相对提高。因此,PageRank将页面的链入数加以考虑计算页面的PageRank值,链入数越多的页面其PageRank值也越高。PageRank算法是建立在随机冲浪者模型上的。具体来说,假设冲浪者跟随链接进行了若干步的浏览后转向一个随机的起点网页又重新跟随链接浏览,那么一个网页的价值程度值就由网页被这个随机冲浪者所访问的频率所决定。PageRank计算公式如式(1)所示:

其中:PR(u)为页面u的 PageRank值;u为1个页面;B(u)为指向页面u的集合;PR(v)为页面v的PageRank值;Nv为页面所指向的外链接总数;c为规范化因子,取0.85。

1.3 rtf算法

在信息检索中,为了实现检索目标,需要对检索策略进行修改、扩展和完善。相关反馈是一种自动查询扩展方法,对于检索词也提出了多种排序算法[6]。Harman基于概率模型及Haines和Croft基于推理网络模型研究了大量检索词排序算法,其中rtf算法和rtf*idf算法还可以用作推理网络概率模型中的检索词权重计算公式。

rtf算法的基本思想为检索词在相关文献的集中出现频次的均值s(tk)。其计算公式如式(2)所示:

其中:s(tk)为检索词出现的频次均值;R为相关文献集合;tf为检索词在文献中出现的频次;为检索词在整个文献集上的总出现频次。

rtf*idf算法的基本思想为检索词在相关文献集中出现频次的均值rtf与检索词逆文献频率idf相乘。idf部分用于调整同时在相关文献和不相关文献中出现的检索词的排序权值。其计算公式如式(3)所示。

其中:|D|为文献集合的大小;|Dtk|为包含检索词的文献数量。

2 专业搜索引擎算法的实现

2.1 重复搜索记录的去除

元搜索引擎在提取了各个独立搜索引擎的结果之后,把提取出来的标题、摘要、URL等分别存储在各个列表中。不同独立搜索引擎的搜索结果有所重复,因此,去除搜索结果中的重复数据是非常必要的,其算法流程如图1所示。

图1中:N为独立搜索引擎的个数;RecordI为第I个独立搜索引擎的记录个数;I为独立搜索引擎的循环参数;J为独立搜索引擎记录个数的循环参数。

2.2 融合后结果排序的算法改进

在对搜索结果进行去重之后,需要对这些搜索结果进行排序,然后显示给用户。搜索结果的排列顺序直接影响用户对查询结果的满意程度。第1代搜索引擎是根据索引页面与查询词的相似性来排列其返回结果;以Google为代表的第2代搜索引擎开创了基于页面间链接分析的页面重要性评价方法,其核心内容为PageRank算法[6]。

对于专业搜索引擎来说,具有很强的领域针对性和很强的检索准确性。PageRank算法只考虑了页面之间的链接关系,没有考虑查询词所出现的位置、次数以及是同义词或相关词等。因此,需要对该算法进行进一步的改进。

在改进的算法中,除了考虑页面之间的链接关系,还要考虑根据查询词所出现的位置和次数、是否为查询词的同义词或为查询词的相关词[7]。其中查询词出现位置和次数的权重值函数如式(4)所示:

图1 搜索结果去重流程图Fig.1 Chart of search result about removing redundant

其中:M为查询主题的集合;N为查询主题在网页中出现位置的集合;αql为关键词q在位置l中出现的次数;为关键词q在位置l出现时的权重。

考虑到搜索结果的速度问题,选用rtf算法作为检索扩充词的权重值算法,计算公式如式(5)所示:

其中:f(tk)为检索词出现的频次均值;R为相关文献集合;tf*ik为检索词在文献中出现的频次;df′k为检索词在整个文献集上的总出现频次。

则计算公式可改为

3 算法实验与分析

3.1 实 验

采用改进的PageRank算法进行专业搜索引擎的设计,可以改善搜索结果的排列顺序,更符合用户的需求,体现出专业搜索引擎的专业性和准确性。在PentiumⅣ 的CPU,2GB内存;Windows XP操作系统,IE7.0的浏览器;100MB局域网的环境下,分别使用独立搜索引擎和专业搜索引擎对关键词“自燃倾向性、煤的有机显微组分、煤的显微构造、煤化作用、岩石组构”进行搜索,其结果如表1、表2所示。

表1 搜索引擎搜索时间比较Tab.1 Comparison of some search engines on search time s

表2 搜索引擎搜索结果个数比较Tab.2 Comparison of some search engines on search result篇

3.2 结果分析

3.2.1 检索时间的分析

煤地质学搜索引擎的设计采用元搜索引擎与垂直搜索引擎相结合,独立搜索引擎之间采用并行接口,则在理论上该搜索引擎的反应时间应该满足式(7)。

其中:T(Sn)为搜索引擎Sn完成搜索的时间;flagn为搜索引擎Sn被用户选中的状态,被选中为1,未被选中为0。

在实际情况中,元搜索引擎的反应时间与用户所选中的独立搜索引擎的个数成正比,用户选用的独立搜索引擎越多,返回的检索结果就越多,需要整合结果的时间就越长。

通过表1可以看出,煤地质学搜索引擎的检索速度满足了式(7)的要求,虽然有一些时间延迟,却是在用户的容忍度范围内的。通过对一些重复结果的去除、整理,相对缩短了用户查看信息的时间,从某种程度上说,提高了查询的效率。

3.2.2 信息查全率的分析

查全率是用来评价元搜索引擎的又一重要指标。信息查全率是指系统在进行一次检索时,查询到相关文献的能力[8]。其理论计算公式如式(8)所示:

其中:p为搜索引擎的查全率;NR为被检索出来的相关文献数量;NT为所有相关文献的总量。

对于独立搜索引擎来说,由于网页抓取程序覆盖范围和更新频率的不同以及搜索结果排序算法的不同,导致对于同一个查询请求,不同的独立搜索引擎会有不同的搜索结果,这样导致了只使用一个搜索引擎的用户将会遗漏许多有用的结果。曾有实验研究表明,在Google、百度和雅虎3个搜索引擎第1页结果的重合率为2.54%,前两页结果的重合率为2.20%;从漏检率来看,百度为63.32%,Google为61.85%,雅虎为61.63%[9]。上述数据可以得出元搜索引擎与独立搜索引擎相比具有很高的查全率。

煤地质学搜索引擎的结果是综合了多个独立搜索引擎的返回结果而得,在信息的查准率方面是具有绝对优势的。但是从搜索用户体验的角度考虑,通常情况下,用户不会将所有的搜索结果一一查看。从CNNIC发布的“2009年中国搜索引擎用户行为研究报告”中可以了解到:56.6%的用户只看搜索结果前2页的内容,查看前3页的用户数量下降到10.3%,愿意查看3页以上内容的用户只有8.7%,如果搜索结果不是数十页的话,差不多会有10%的用户可以看完全部结果[10]。在这种情况下,为了提高用户查看搜索结果的概率,煤地质学搜索引擎只提取独立搜索引擎的前100个结果进行整合、排序。但是,为了体现搜索结果的全面性,该系统可以为用户提供没有经过处理的各独立搜索引擎的其他结果。

从实验结果表2可看出,煤地质学搜索引擎给用户提交的结果与其他独立搜索引擎相比,数量大大减少,但是,这些结果的数量是在用户能够全部查看的范围内,所以说搜索结果的查全率相对提高了。

从以上2个方面来看,煤地质学搜索引擎与独立搜索引擎相比都有很大的提高,从总体设计和出发点来说,都是非常有价值的,但是由于该系统还处于初级开发阶段,对于以上提供的量化数据只是初步的实验结果,只能进行定性的分析,不能作为定量分析之用。

4 结 语

搜索结果的排序是查询的最直观结果,原始的PageRank排序算法只考虑了Web页面之间的超链接分析,而忽略了Web页面的内容,从而导致分析结果出现主题漂移等问题,在此提出了一种基于PageRank算法的改进型结果排序及结果融合算法,提高了搜索结果的准确性。在实际环境测试中,笔者提出的算法比独立搜索引擎具有更好的搜索结果相关性,为煤地质科学工作者提供了面向煤地质学领域的便捷、准确的专业化信息检索工具。

[1] 龚蛟腾.元搜索引擎研究[J].情报杂志(Journal of Information),2004(10):77-78,81.

[2] 吴小兰,汪 琪.元搜索引擎研究综述[J].图书情报工作(Library and Information Service),2009,53(9):46-49.

[3] 李广建,黄 崑.元搜索引擎及其主要技术[J].情报科学(Information Science),2002,20(2):175-179.

[4] 陈 晶.元搜索引擎实现技术[J].情报杂志(Journal of Information),2005,24(5):79-81.

[5] 张立岩,吕 玲,王井阳.基于最大熵算法的全文检索研究[J].河北科技大学学报(Journal of Hebei University of Science and Technology),2009,30(2):112-115.

[6] LANGVILLE A N,MEYER C D.Deeper inside PageRank[J].Internet Mathematics,2003,1(3):335-380.

[7] 侯贵宾,曹卫东.一种面向自然语言表达的不确定时态数据的建模方法[J].河北科技大学学报(Journal of Hebei University of Science and Technology),2010,31(5):463-467.

[8] 海 涛,郑 玲,江 娟.垂直搜索引擎中数据采集的主题相关性算法研究[J].中国电力教育(China Electric Power Education),2007(S1):108-109.

[9] 王益明,刘 菲.中文搜索引擎的搜索结果重合率研究 [J].情报学报(Journal of the China Society for Scientific and Technical Information),2009(3):374-381.

[10] 中国互联网络信息中心.2009年中国搜索引擎用户行为研究报告[EB/OL].http://research.cnnic.cn/html/1253600840d1370.html,2009-09-22.

猜你喜欢

查全率搜索引擎页面
刷新生活的页面
海量图书馆档案信息的快速检索方法
基于词嵌入语义的精准检索式构建方法
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
基于Lucene搜索引擎的研究
网站结构在SEO中的研究与应用
几种页面置换算法的基本原理及实现方法
搜索引擎,不止有百度与谷歌
基于Web的概念属性抽取的研究