APP下载

主流中俄文搜索引擎核心技术分析与比较研究

2012-04-29颜素莉

计算机时代 2012年1期
关键词:搜索引擎本土化百度

颜素莉

摘要从本土化角度分析了中又搜牵引擎百度与俄又搜索引擎Yandex的核心技未及其特点百度基于特有的中又分词技术,Yandex依赖于独一无二的俄语词型变化处理技术。通过具体的查询实例对两者进行分析比较,指出了各自的优缺点。

关键词搜索引擎,百度,Yandex,本土化

中图分类号TP399文章编号A文章编号:1006-8228(2012)01-03-03

0引言

百度公司(WWW batdu aom)创立于1999~1212月,由两位北京大学的毕业生李彦宏和徐勇先生在美国硅谷成立。“百度”一词来源于辛弃疾脍炙人口的词句“众里寻他千百度”,象征着百度对中文信息检索技术执著的追求。

百度搜索引擎是目前全球规模最大的中文搜索引擎。高效的数据收集系统,智能化中文语言处理系统、智能化相关性算法和搜索结果排名技术、本土化语言等特点使百度成为中国最受欢迎、影响力最大的中文网站和搜索引擎技术供应商之一。

Yandex公司(www yandexm)成立于1997年。早在1990年创始人阿卡季弗洛日和阿卡季勃可夫斯基一起创建了Yandex的前身Arkadla。“Yandex”一词俄语含义是“3 hI KB o index”(语言索引),英语含义是“Yet Another indexer”(还存在另外一种索引)。

Yandex搜索引擎是俄罗斯使用率最高最流行的搜索引擎,也是东欧地区最普及的俄文搜索引擎之一。Yandex最大的特色是“M p n o r”,即俄语词型变化的处理,以及关于查询关键词相关性的精确算法,如计算关键词在文档中出现的相对频率、关键词串问的距离等等。

根据Alexa官方网站2011年最新数据显示,在全球网站流量排名中,Google位居第一,Bmdu位居第五,Yandex位居第二十二位。在国内百度与Yandex的网站流量均居领先地位。

1本土化核心技术

百度与Yandex搜索引擎都属于本土化搜索引擎,而Yandex同时兼有门户网站的功能。两者-个很明显的共同点,就是它们都充分体现出本土化语言特点,比较符合本土用户的搜索习惯。中文和俄语分别是世界上最复杂的语言之一。中文的特点在于独特的文字形式,词与词之间没有明显的分隔,而俄语最大的特点就是单词形式多变,一词多义现象非常普遍。这些特点使得查询搜索异常困难。但同时也正是因为百度与Yandex都很好地把握了本土语言的特点,保证了搜索的高效性和结果的微准确性。

1.1百度的中文分词技术

分词技术是中文搜索引擎特有的一种技术,也是充分体现中文本土化信息搜索优势的核心技术之一。在中文语法中,词汇以字为单位,多个字组成一个词,而词与词之间是没有空格的。分词,又叫切词,就是将由多个连续的字组成的关键词或句子重新按指定的算法分割成若干个有独立含义的字或词。中文词汇的组合非常灵活多变,容易对文字的理解上产生歧义。如,对关键词“从小学毕业”,可以切分为“从小/学/毕业”,也可以切分为“从/小学/毕业”,根据这两种不同的切分结果,返回的查询结果也会是迥然不同。因此,分词的准确性将直接决定了搜索引擎的查询结果。

目前中文分词的算法主要有三大类,基于字典的分词技-术、基于统计的分词技术和基于规则的分词技术。其中基于字典的中文分词技术占主导地位。基于字典的算法又分这么几种正向最大匹配法,逆向最大匹配法,双向最大匹配,语言模型方法,最短路径算法等等。

实例1、输入一个很经典的分词测试关键词“毛泽东北京华烟云”。该关键词包含了人名和电视剧名两个专用名词。其中容易引起分词歧义的是“毛泽东”和“东北”,“北京”和“京华烟云”。

该关键词可能存在的分词组合有1、“毛泽东/北京/华/烟云”。2、“毛泽/东北/京华烟云”。3、”毛泽东/北/京华烟云”。百度返回的排名较前的搜索结果是最后—种“毛泽东/北/京华烟云”。而事实上最后—种查询结果也最符合用户的查询要求。

实例2、输入一个容易引起分歧的关键词“生强大小”。可能存在的切分组合“生/强大/小”和“生/强/大小”两种。根据百度返回的搜索结果,排名较前的部分关键词是1)“强大小生”。2)梦幻四“大小生强烈”要求修改手部动作3)“大小”。其中关键词“大小”出现的频率最高。

查询结果分析

(1)百度分词能够很轻易地识别人名或专用名词。因此可以猜测百度采取了至少两个词典,一个是普通词典,一个是专用词典。而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。如实例1,分词切分的步骤分别如下①毛泽东,北京华烟云,②毛泽东/北/京华烟云。

(2)百度基本上不关注关键词出现的位置顺序,凡是出现关键词中任意单词的网页都会被搜索到。如实例2,输入“大小”和输入“小大”的结果是完全一样的。而且其中返回的—个搜索结果竟包含了关键词“大小生强烈”。

(3)几种算法基本上是混合使用。上述实例证明,百度采用的分词算法优先级排序如下首先查询专用词典(如人名,影视剧、地名等),将专有名称切出(实例1中先将专用名词“毛泽东”解析出来,剩下了字符串“北京华烟云”,)。其次,剩余部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。如果不一致,则输出最短路径的分词结果。如果切分长度相同,则选择单字最少的那一组切分结果。如果单字也相同,则选择正向分词结果。以此类推,最终将经过切分重新组合过的查询结果返回给用户(实例1中最后切词是“北,京华烟云“,说明是反向最大匹配的分词结果)。

技术是一种专门针对俄语词型变化的处理技术,有点类似于中文特有的分词技术。俄语的形态非常的丰富、语法形式繁杂,一方面俄语的多义现象非常突出,容易引起理解分歧,另一方面正是由于这种严谨繁杂的语法形式,使得基于俄语的搜索引擎的查询结果变得更加准确和复杂。Google的搜索算法能将输入的关键字在网页中匹配,却无法查找到内容相同但文字不同的俄文网页,而Yandex则能找到Google无法找到的俄文网页。Yandex正是借助于这种无与伦比的俄语形态学创建了海量数据库的俄语词库,并开创了智能化的俄语词性变化处理技术。

目前Yandex基于的俄语处理算法主要侧重于对关键词语法多义的分析和查找。比如,因名词变格形式的交叉现象(以一结尾的阴性名词的二、三、六格均以一H结尾等类似情况)导致的词法多义情况的分析。俄语动词陈述式单数第二人称具有表示某个具体人的行为和泛指一切人的行为的双项语法功能。再如,词汇兼类现象的分析俄语常见的兼类词有形、名同形(如),代、名同形(如),数、名同形(如),疑问词、关联词、连接词同形(如),形动词同形容词同形,疑问词同副词同形等等。

Yandex提供的俄文查询语言非常丰富,至少有15种查询

语言和11种特殊限制查询语言(包括几种基本的通用查询语言)。

实例1、应用查询语言“”,如(输入双引号)。查询的结果和双引号里面的内容格式完全保持—致。该功能和百度的“《》”很相似。

实例2、应用查询语言!,如默认情况下,系统搜索关键词的所有形态,利用符号”只能搜索指定形态的关键词,既包括单词和单词。如果输入关键词。则查询结果仅包括单词。

实例3、应用查询语言fI。同样是关键词,结合不同的查询语言查询的结果完全不一样。如输入关键词ⅡeH b。搜索与关键词e H b相关的所有单词形态,包括ⅡH H,Hm,H e M等六个单数形式变格单词,同时还包括和关键词Ⅱe T b有关的所有变形单词。输入关键词Ⅱen n。仅仅搜索与关键词Ⅱe H b相关的所有形态,包括Ⅱn H,Ⅱ,ⅡH e M等数个相关的变形单词,但不包括关键词Ⅱe T b及与其有关的所有变形单词。

实例4、应用查询语言~。如q a n~Ⅱa n T e M。搜索与关键词q a n相关的所有单词但排除与单词Ⅱa n r e M相关的所有单词。

实例5、应用查询语言$。如”Ⅱp H 6 b1Ⅱ Ⅱ0 c 0Ⅱ”。查找与双引号里面完全符合的,并且忽略单词p H 6 bI n和Ⅱo c oⅡ中间的任何单词或句子。

在如此强大的查询语言辅助下,俄语由于词形变化多端的问题造成查询困难的问题可以得到有效解决。同时,用户在关键词的选取上更加灵活自由,搜索系统返回给用户的查询结果也更加准确和完整。

2百度与Yandex的主要功能的比较分析

(1)对其他外文网页的搜索,Yandex占有明显优势。比如在Yandex网页中输入任意中文单词,返回网站的查询结果基本上准确。这说明Yandex搜索引擎已经具备能够区分中文单--词的功能,而且也基本掌握了中文分词的技术。而在百度网页中输八俄文时查询结果非常不如人意。百度是按照中文分词的算法来切分俄文,将俄文单词+个分割开,自然查询结果不准确了。但是在搜索英文时却没有类似问题,这说明百度在对其他外文网页的搜索技术上还有待提高。

(2)在支持多语种翻译的辅助功能方面,实例证明Yandex占有优势。目前Yandex支持7种语言的单词翻译。百度目前仅支持中英互译,显然在词典翻译功能上有待扩展。

(3)在双方的搜索主页面布局上各有秋千。百度的主页面风格和Google很像,简明大方。而Yandex的主页面整体风格也很明朗干练,不过更接近于门户网站的风格。但是Yandex有一个优点很吸引客户,就是它提供了一种新的技术(基于算法“c n e m n n c x”)根据网站访问客户的IP地址迅速判读出所在国家或区域,然后直接在主页面上方显示出与来访客户国家有关的搜索信息,如国家名称,首都,天气预报,并罗列出与客户国家相关的热点新闻和相关联的链接。这种设计方法非常的贴心,也很方便。可以让外国访客通过该网站了解本国的一些其他信息。

(4)在对混合语言的关键词网页进行搜索时,两者的效果都不尽人意。这说明虽然百度和Yandex在推广本土化语言的搜索服务技术上有很大的创新和突破,但是在国际化的推广服务方面还是远远不够的。这一点他们都必须向Google学习。Google在国际化推广业务上做得非常出色,迄今已经推出了支持88种语言检索的网站,并向很多国家提供了基于Google核心技术的搜索引擎服务,网站域名形式普遍统一为“wwwgoogle”加上国家顶级域名(如俄罗斯,www google m)。

(5)百度是全球最大的中文搜索网站,是专门提供中文信息的专业搜索引擎,因此在提供搜索信息方面功能非常强大,内容也非常丰富,基本上搜索引擎网站上有的功能它都有,如,社区搜索、移动搜索、娱乐游戏以及专门的图片、音乐搜索等等。在这一点上Yandex可能会逊色一点,因为它同时兼备搜索引擎和门户网站的功能,因此不能像百度或谷歌一样专门主攻搜索引擎这个领域的技术。

3结束语

可以看出这两种引擎各有特色,双方都致力于发展本土的搜索引擎技术并成绩斐然。根据Alex官方网站显示,除了谷歌,全球能够把本土化搜索引擎技术做好做大的国家似乎并不多见。但是在支持多语种页面检索功能时,两者的查询结构都不甚理想。双方在多语种检索,提供跨国际化搜索服务方面都还很薄弱,还需要相互学习和借鉴。

猜你喜欢

搜索引擎本土化百度
Robust adaptive UKF based on SVR for inertial based integrated navigation
诉前强制调解的逻辑及其本土化建构
美乐家迎来本土化元年
百度年度热搜榜
论电视节目的本土化
网络搜索引擎亟待规范
百度医生
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
百度“放卫星”,有没有可能?