Web搜索引擎设计原理与发展方向探究*

2011-08-15宋婷婷

湖北科技学院学报 2011年12期

关键词：查全率分词搜索引擎

宋婷婷

(福建农林大学软件工程学院，福建福州 350002)

Web搜索引擎设计原理与发展方向探究*

宋婷婷

(福建农林大学软件工程学院，福建福州 350002)

阐述了Web全文搜索引擎的工作原理及其性能指标，指出当前Web搜索引擎存在精度偏低、用户体验不理想、商业氛围过浓等问题，提出搜索引擎未来发展的方向.

搜索引擎;Web;发展

引言

20世纪90年代初，阿帕网正式实现商用，全球范围内的计算机互联网开始形成，使得世界各地的距离拉近，然而人们更多的通过电子邮件进行互联网通信.人们需要一种平台，所见即所得地反映所需的信息，1993年W3C提出的Web平台宣告诞生，此后，Web这词几乎成了互联网的代名词，人们通过网页可实现真正意义上的网际冲浪.此时，Web的数量也在迅速增长.据统计，1998年互联网上的Web页面已经达到了2600万个，到了2000年就突破了10亿，到了10年后的2008年更是达到了1万亿个页面.

但是，此时的Web已经不像它诞生时那样精炼，而是充满了冗余数据，解决该问题的途径就是建立互联网搜索引擎，实际上搜索引擎几乎是伴随着因特网一起诞生的.

目前已存在的搜索引擎大致可以分为三类:全文搜索引擎、目录搜索引擎与元搜索引擎三种.其中技术要求最高的是全文搜索引擎，它需要包括信息抓取、分词、索引、搜索等几个重要步骤，当前，大部分的搜索引擎研究都是围绕着全文搜索引擎来开展的.

1 全文搜索引擎原理

1.1 信息抓取

信息抓取是由Spider(网络蜘蛛)来实现的，Spider只是段程序，能够从起始页面顺着超链接访问其他页面，互联网上的页面就是通过超链接上的URL构成了一个网状的集合，因此，Spider从一个或一组URL开始，访问该URL并进行本地索引，同时记录该URL所指HTML文件中所有新的URL锚链(anchor);然后再以这些新的URL为起点，继续进行该站点内的爬行，直到再没有满足条件的新URL为止.通常搜索引擎会生成多个信息采集Spider，自动根据初始搜索列表和一定的搜索策略去WWW站点搜集文档，同时把所经页面内容保存在数据库中，便于建立索引.

1.2 信息的分析、存储

对由Spider搜集的文档，从搜索引擎服务器中提取出表达文档的特征信息，为了使开发出来的系统能够实现模糊查询，还须分析建立关键词的近义词库.另外，超级链接分析在Web结构挖掘中处于核心地位，我们必须分析出每一个页面的出度、入度，便于后面页面重要性权值的计算.对网页提取特征信息后，由定义的DTD生成该网页的XML文档，通过其中的自定义标签来记录信息.

1.3 信息的索引

在搜索引擎中需要根据页面内容建立索引，提高搜索引擎的效率，因为对于海量的数据来说，使用Like语句这样的匹配方法来查询，其速度是十分低下的.另外，为进一步提高检索效率，在建立索引之前，我们必须对页面中的内容进行分词处理，它是通过分词器来进行的，比如，将“中华人民”，分割成“中华”、“人民”，根据这些切分好的词汇，构建索引，当然要实现例子中所展示的精确分词效果，还需有个分词词库来协助完成工作.

1.4 信息的查询检索

通常，搜索引擎都会有个Web界面，通过该界面上的浏览器控件，用户可填入所要查询的关键词并将信息通过控件提交给引擎服务器.此时，服务器端就会根据用户所提交关键词访问数据库，迅速地根据之前建立的索引找到跟主题相关的页面及其附属信息，此即信息检索.

1.5 信息检索结果排序

如果不讨论Web结构挖掘，通常情况下信息排序只考虑用户查询的关键词在页面中出现的次数，次数越高的，排名越前.要是考虑Web结构，还须分析这些页面的出度，入度，让被其他页面链接次数最多的页面(即权威页面)排在最前，这就需根据一定的算法规则(如PageRank、HITS)分析，计算出结构的权值，根据这些权值进行排序.

1.6 信息的用户接口输出

信息的输出即将前面生成的结果用Web界面的形式传递给用户，它是搜索引擎本次查询工作的终点，终端用户由此获得查询结果，同时评价该搜索引擎的性能.

2 搜索引擎的主要性能指标

2.1 召回率——查全率

搜索引擎的召回率指的是搜索引擎的检索结果中与主题相关的页面数除以当前整个网络Web环境中与主题相关的页面数所获得的比值，这个指标衡量的是搜索引擎的查全率.

由以上的定义，要想获得当前搜索引擎的查全率，显然条件是非常苛刻的，因为网络环境中随时可能产生新的与主题相关的页面，也可能删除原有的页面，页面数量千变万化，这就使得我们根本无法掌握网络的现有状态，也就无法进行计算，因此查全率只能在规模较小而且相对比较稳定的网络中，进行一个大概的估算.而对于Internet这样的广域网，人们根据多目标优化的思想提出了一种新的概念——相对查全率.

相对查全率不再以整个网络环境的相关页面数作为参照物的，而是以若干个搜索引擎中的最优与最差对象作为参照物进行相对的比较，这样就使得整个计算有章可循.

2.2 精确度——查准率

搜索引擎的精确度是指在搜索引擎的检索结果中与搜索主题相关的页面数除以检索到的全部页面数所得到的比值，这个指标衡量的是搜索引擎的查准率.

要提高精确度，就要注重所建立索引的合理性，也和分词系统的工作效率密不可分，当然一般情况下，也和用户的查询关键词的准确性有关系.

3 当前搜索引擎存在的问题与其发展方向

3.1 搜索引擎存在的问题

(1)精确度偏低

由于互联网中的页面数量大，而且变化也大，因此抓取页面本身就是一个难度很大的工作，接下来，由于搜索引擎上的分词(特别是中文分词)存在偏差，以及所使用的链接分析算法的缺陷，这一系列因素导致了人们在搜索的时候发现搜索的结果和预期存在相当程度上的偏差.

(2)搜索结果没有进行有效组织，处于混乱、无序的状态，无法给用户提供良好的搜索体验.

这方面的缺陷主要是由于没有使用合理的页面权威度权值来进行页面排序，使得与主题相关度较低的页面出现在输出结果的前列，如今，关于页面权值分析的算法主要有HITS、PageRank以及两种算法的改进形式，其中一部分已经在实际系统中使用，但是更多的还处于实验室评测研究阶段.

(3)商业气氛浓重，人为地采用竞价排名，干扰正常搜索结果输出

一些国内的搜索引擎为了商业上的利益，直接或者变相使用竞价排名机制，这种机制在市场经济的今天自然无可厚非，但那是从经济学、社会学角度讨论，而从用户角度来说，这明显影响到他们的正常搜索活动，因为任何人都不希望搜索到的结果中充斥着各类广告等无用数据，另外，从Web挖掘技术的角度来看，这也很明显与其研究方向背道而驰.

3.2 搜索引擎的发展方向

3.2.1 提高搜索引擎的智能化水平

在现有搜索引擎的搜索模式下，用户要解决一个问题，需要把这个问题的关键字输入搜索引擎中，再搜索引擎返回与这个问题相关的页面，但此时用户并没有马上获得问题的解决，而是需要通过人工分辨查找信息内容是否符合用户要求，智能化水平低下，为了克服关键词检索和目录查询的缺点，现在已经出现了自然语言智能查询.用户可以用口语化的提问输入问题，如“Who is Washington?”.搜索引擎在对提问进行语法结构和语义的分辨，智能地添加关键字进行检索，从而直接给出提问的答案，或形成若干个可能的问题，让用户进行选择后获得结果.

3.2.2 确定搜索引擎信息搜集范围，提高搜索引擎的针对性

搜索引擎的另外一个方向是发展垂直主题搜索引擎.人们平时常用的搜索引擎都是横向的，而对于某个专业的专业人员来说，他所需要的是跟该学科方向紧密相关的信息，比如:企业管理人员，搜索“ASP”希望获得的信息是和“Application Service Provider(应用服务提供商)”相关的信息内容，但是在通用的横向搜索引擎搜索所获得结果大量与“Active Serve Page(动态服务页)”相关的计算机Web开发的知识，这就是问题所在，因此发展垂直主题搜索引擎是十分必要的，通过垂直主题搜索引擎不仅可以给用户提供专业方向(如:股票、天气等)的信息检索而且提高了搜索引擎搜索效率和用户的信息利用率.

3.3.3 多媒体搜索

随着搜索平台的不断完善，现有的许多搜索引擎已经不仅像其最初时那样只提供纯文本的检索，还推出了图片、视频等多媒体信息的检索功能，但是，我们必须意识到，这图片、视频等信息还是基于文本内容的，搜索引擎只不过是搜索图片、视频所在页面的文本来获得相关的多媒体数据.那么，如果用户碰到这样的问题:在他的计算机里存放着一首钢琴曲的音频文件，但是他并不知道这首曲子的名字叫什么，那么这时，他就需要一个搜索引擎能够把这个音频文件当成搜索主题，在网络中查找与该文件相符的音频，并查找到这段乐曲的名字，这实际上就是一个逆向的过程，原先我们是通过文本查找到音频，现在要根据音频查找的文本，而后者才是真正意义上的多媒体搜索，它的搜索主题不再只是文字，而是各种多媒体的编码.然而，现有的多媒体检索大部分还处于在研究开发阶段，还面临着许多困难，比如:数据量大、编码解码以及匹配的时间消耗等，尽管如此，多媒体检索必然要在将来占据信息检索的重要地位.

3.2.4 支持Web2.0标准的页面搜索

近几年，业内在Web开发技术上取得了很大的进步，Web已经由原先的B/S模式，向着富客户端模式RIA的方向发展，即Web2.0，在这种全新的环境下，用户可以在浏览器中获得本地桌面般的界面体验.RIA系统的开发工具也比传统的Web开发丰富得多，Flex、Ajax等技术都能够进行开发.但是，无论开发手段如何丰富，整个系统还是要以浏览器作为载体来运行，而开发工具的不同，导致系统结构已经不再是单一的HTML语言，在这前提下，传统的基于HTML超链接的搜索引擎蜘蛛程序无法正常地发现这种新的页面，必然造成主题信息的大量流失.因此，搜索引擎对RIA系统信息的支持，也是现在搜索引擎需要研究的方向，毕竟，Web2.0是Web发展的一种趋势.