APP下载

搜索引擎的差异研究——基于百度与Google对比的视角

2014-03-29潘桂宁李伶思张倩男

赤峰学院学报·自然科学版 2014年8期
关键词:查全率搜索引擎网页

余 波,潘桂宁,李伶思,张倩男

(1.广西民族大学 管理学院;2.广西民族大学 图书馆,广西 南宁 530006)

1 搜索引擎发展现状

1.1 主要搜索引擎简介

百度是全球最大的中文搜索引擎,也是国内最大的商业化全文搜索引擎.它致力于向人们提供“简单,可依赖”的信息获取方式.百度搜索引擎自如的可扩展性和采用ASP(APPLICATION SERVICE PROVIDER)商业服务模式是它的两个最鲜明的特点.可扩展的搜索技术保证用户最快最多地收集网络信息,构建大规模索引库.在国际互联网届,百度目前是世界上唯一一家在不具备搜索引擎支持动态网页的情况下,成功解决了动态网页的索引与收集问题的网站.

Google目前被公认为是全球规模最大的搜索引擎,提供了简单易用的免费服务,是一个功能十分强大、网络信息资源非常丰富的搜索引擎.Google现已拥有30多亿网页,支持30多种语言检索,包括中文简体和中文繁体,并有中文Google网页.全世界平均每天上网人次高达1.5亿,Google约搜索4,285,199,774张网页,提供网站、图像、新闻组等多种资源的查询,其中包括35个国家和地区的语言的资源.

1.2 百度搜索引擎特点

百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序.门户网站只需将用户查询内容和一些相关参数传递到百度搜索引擎服务器上,后台程序就会自动工作并将最终结果反馈给网站.

先进的“链接分析(Link Analysis)技术”:超链分析就是通过分析链接网站的多少来评价这个被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前.百度搜索引擎将传统情报学中的引文索引技术同Web中最基本的东西——“超级链接分析”的技术相结合,在查找的查全率、查准率、更新时间、响应时间等方面与其他技术相比都有很大的优势.自如的可扩展性:百度搜索引擎自如的可拓展性是它最鲜明的特点之一.百度搜索引擎可以承受所有高峰的负荷而不会在性能方面有任何偏差.对于超过6000万的网页,检索一次的本地平均响应时间小于0.15秒.ASP商业服务模式:百度的客户主要针对的是门户网站,而不是最终的网络用户,所以百度采用了国内最为流行的ASP商业服务模式,当终端网络用户通过门户网站输入查询请求的时候,数据将会传输到百度的搜索引擎服务器上完成查询任务,再通过百度数据传输协议将答案传回到门户网站界面,从而完成整个搜索过程,这个过程的时间在0.5秒以内.

1.3 Google搜索引擎特点

Google搜索技术所依托的软件可以同时进行一系列的运算,且只需片刻即可完成所有运算.而传统的搜索引擎在很大程度上依赖于文字在网页上出现的频率.Google使用Page Rank技术检查整个网络链接结构,并确定哪些网页重要性最高.然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关.在综合考虑整体重要性以及与特定查询的相关性之后,Google可以将最相关最可靠的搜索结果放在首位.

特有的Page Rank技术:Page Rank是Google评价一个网站质量高低的重要标准,通过对由超过50000万个变量和20亿个词组组成的方程进行计算,PR能够对网页的重要性做出客观的评价.更新和收录速度快:Google搜索引擎收录新站一般在十个工作日左右,是所有搜索引擎中收录较快的,而且更新也比较稳定,一般一个星期都会有大的更新.并且Google搜索引擎所搜索的内容及时性强,言论也相对自由些,还可以搜索很多国内看不到的新闻.重视链接的文字描述和链接的质量:链接的文字描述就是做链接用的文字,这个文字对Google排名起一定作用,因此我们建议如果网站要做某些关键词,在交换链接时要用这个关键词做链指向你的网站,链接的质量与链接网站的权威性以及与你站是否相关有关系,权威越高你站获得的排名越好.超文本匹配分析:Google的搜索引擎同时也分析网页内容,但是并不采用单纯扫描基于网页的文本的方式,而是分析网页的全部内容以及分区、字体及每个文字精确位置等因素.同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果.Google检索技术使得用户可以获得较高的查全率和查准率.

2 百度与Google搜索引擎的比较

Google是世界上最大的搜索引擎,通过对200多亿网页信息的整理,每天为世界各地提供1.5亿次以上的网上信息查询服务.百度是全球最大的中文搜索引擎,拥有超过10多亿的中文网页数据库,每天响应超过亿次的网络信息搜索请求.

2.1 高级检索比较

百度提供的高级搜索语法有:intitle—把搜索范围限定在网页标题中,site—把搜索范围限定在特定站点中,inurl—把搜索范围限定在url链接中,双引号和书名号—精确匹配.

如果对百度各种查询语法不熟悉,可以使用百度集成的高级搜索界面,可以方便的做各种搜索查询.百度还支持对某个地区的网页进行搜索.进入高级搜索,进入地区搜索,选中希望查询的地区,就可以在该地区搜索了.我们还可以根据自己的习惯,改变百度默认的搜索设定,如每页搜索结果数量,搜索结果的页面打开方式等.先进入高级搜索,然后点击下方的“点击此处进入个性设置”,就可以进行设定了.

Google提供的高级检索功能包括:可以将检索结果局限在一个网站上;可以排除某个特定站点的网页;可以对网页以及检索结果页面的语言类型进行限制;可以检索链向某一个网页的所有页面;可以检索与某一个网页相关的所有网页.Google的特有高级搜索语法还有:related,cache,info.

2.2 图像搜索比较

图像搜索是通过搜索图像文本(关键词)或者可视属性,为用户提供网络上相关图形图像资料检索服务的专业搜索引擎系统.将搜索引擎细分为两大类:输入图片名称或内容相似的关键字检索;上传与搜索结果相似的图片或图片URL搜索.

在用户界面的方面,百度的界面一打开就是以白色为主色调,蓝色字体显得相当简洁,实用性较好.在百度首页,点击“图片”链接,就可以进入百度的图像搜索界面,默认的是“全部图片”.涉及面非常广,界面清新,便于人们更加清楚的找到自己想要的图片.Google的图片检索界面显得更为简洁,Google图像搜索的工作原理是利用网络蜘蛛(Smart Spider)技术,通过分析页面上图像附近的文字、图像标题以及许多其他元素来确定图像内容,并确保在搜索结果中首先显示质量最好的图像.Google在检索框中加上了按照图片搜索的功能,用户可上传图片进行搜索,同样也可按关键词进行检索.

在高级检索方面,百度的图片高级检索里有输入关键字,站内图片,还有个性设置,功能分类简洁明了.Google的图片高级选项中分的更加细致,如图片尺寸的选择:大尺寸,中尺寸,图标,以及多少像素,分的很细.图片的颜色可以选择黑白图片或全彩图片.在限制网站方面,用户可以只显示特定站点或域内的图片.在使用权限方面,用户可以选择未经许可过滤的图片、标明可供使用的图片、标明可用于商业用途的图片、标明要修改后方可使用的图片、标明要修改后方可用于商业用途的图片.

2.3 百度vs Google排序方式比较

百度搜索引擎应用的核心排序技术是“超链分析”技术.“超链分析”是通过分析链接网站的多少来评价被链接的网站质量,保证了用户在百度搜索时越受用户欢迎的内容排名越靠前.Google应用了多项排序技术,其中最核心、最关键的是Page Rank技术(网页级别)和“超文本匹配分析”技术(Hyper text Matching Analysis).根据网页之间的链接结构,Page Rank技术对网页的重要性进行客观的评价,并将网页的Page Rank值应用于检索结果的排序.Google在排列其检索结果时,都会考虑每个网页的Page Rank值,将重要的、高质量的网页排在结果列表的前面.因此Google将Page Rank算法“超文本匹配分析”技术结合在一起.一般的搜索引擎仅仅考虑检索词出现的次数,而Google还在此基础上分析关键词的字号、字体以及关键词在网页中出现的精确位置,并且对该网页的邻近网页(包括链入网页和链出网页)的内容加以分析.

2.4 检索结果比较

在规模、内容及更新时间方面,百度收录的大更新时间是每月11号和26号,特别是26号,更新幅度最大,K站也是最多的.小更新时间为每周四,更新时刻都在凌晨4点.一般凌晨4点更新,对网站流量都没多少影响,百度对网站的关键字搜索进行重新调整之后,才会有流量上的大的变化.

在查全率方面,Google收取了大概200亿的英文搜索页面,覆盖了英文网页数据量的60%到70%,用户满意度能达到60%到70%.互联网上中文网页有效数量大致在100亿到150亿之间,而百度和Google收录的中文网页量都在40亿到50亿之间,因而,百度和Google的中文网络资源查全率一般只能达到30%-40%.对西文网络信息资源查全率进行研究,百度不及谷歌,在中文网络资源查全率方面,Google的查全率也明显高于百度.

在查准率方面,查准率是衡量网络信息检索质量的标准.搜索引擎的查准率体现在两个方面,一是搜索引擎对垃圾网页的抗干扰能力,二是搜索引擎对检索结果的排序能力,它主要取决于搜索引擎采用的排序算法的优劣.为了形象、直观地对比Google和百度的检索效果,笔者选择了2组搜索词来测试两种搜索引擎的检索性能,结果是Google的查准率强于百度.

3 结语

综上所述,不难看出百度和Google这两种搜索引擎都是目前比较出色的搜索引擎,它们各具特色.Google的检索功能强大、灵活,尤其是支持多种字段检索、特定文件类型检索以及网页推荐功能,并可以按用户的习惯设置检索界面;百度更注重服务的本地化,更多地融入了中文检索的特点,信息更新更快一些.目前搜索引擎的发展日新月异,在很多地方还有待于完善和提高.搜索网站需要加强对自身数据库更新的速度,为用户提供更全面、更丰富、更准确的信息.相信在不久的将来,百度和Google对自身不断完善和进步的追求,也一定会为广大用户带来更大的福音,并且引发一场真正的搜索引擎的革命.

〔1〕马丽.百度与谷歌差在哪?[J].法人杂志,2009(02):96.

〔2〕李志明.谷歌、百度、读秀三大中文图书搜索引擎比较及启示[J].图书馆工作与研究,2009(08):64-66.

〔3〕李兰燕,徐军英.“谷歌”、“百度”与图书馆的关系[J].中华医学图书情报杂志,2010(04):22-23+64.

〔4〕罗贤春.中小企业电子商务三流整合研究[J].商业研究,2006(04):196-198.

〔5〕王知津,潘颖.中文搜索引擎商业模式比较:以百度和谷歌为例[J].图书馆工作与研究,2012(11):4-11.

〔6〕姚明,余波,刘孟.基于知识地图的广西文化信息资源开发构想[J].湖北第二师范学院学报,2013(09):130-132.

〔7〕罗贤春.网络信息市场交易模式研究[J].情报杂志,2004(02):96-97.

〔8〕李洪心,李婷.中外搜索引擎比较——百度与Google[J].中国信息界,2005(19):19-22.

〔9〕罗贤春.交互式信息查寻的全信息分析[J].情报理论与实践,2006(03):335-337+273.

猜你喜欢

查全率搜索引擎网页
海量图书馆档案信息的快速检索方法
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
基于临床领域本体的语义信息检索模型研究
网页制作在英语教学中的应用
网络搜索引擎亟待规范
基于Nutch的医疗搜索引擎的研究与开发
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌