APP下载

基于个性化订制与跨语言搜索技术的网络信息服务平台

2018-09-26

计算机应用与软件 2018年9期
关键词:多语种主题词搜索引擎

乌 宝 贵

(中国电子信息产业发展研究院 北京 100048)

0 引 言

经过几十年的发展,因特网(Internet)现已成为一个海量信息资源库。概言之,网络信息资源特点有三:一是信息的分布式存储,因特网上的信息分散存储在数以千万计的各类网站服务器中。二是信息的更新频率高,网上信息每时每刻都在发生着变化,每天新增的信息达到EB数量级。三是信息的多媒体性,网上信息的载体多种多样,既有一般的数字、文本,也有大量的图片和音、视频。如何从诺大的网络信息资源库中寻找到适合具体需求的信息,是一个尚未彻底解决的问题。

因特网信息检索大致经历了三个阶段:第一阶段,因特网发展早期,网上的资源类网站比较少,人们采取直接浏览相关网站的方式查找信息,可称之为“网站浏览信息检索”方式,效率极低。第二阶段,随着网上资源的迅速增加,雅虎(Yahoo)率先推出导航式信息搜索服务,将因特网上的网站进行“树形”分类,引导用户沿着某一信息类别分支逐层找到目标网站,一定程度上提高了信息搜索效率,可称之为“导航式信息检索”方式。第三阶段,搜索引擎的出现,为人们从因特网上查找信息提供了很大便利。人们只要在搜索框中输入要查寻信息的主题词,搜索引擎就可以返回相应查询结果,供用户取用,可称之为“搜索引擎信息检索”方式。然而,当下普遍使用的百度等搜索引擎,在功能上还存在许多局限,难以完全满足人们的需求。局限一:单一语言信息检索。搜索引擎的搜索范围一般局限于与检索主题词所使用相同语言的网站,而不能实现以一种语言输入主题词,而检索时进行跨语言内容检索。比如:用中文输入检索主题词“云计算”,搜索引擎搜索的范围局限于包含中文“云计算”内容的相关网站,而不能自动扩展至包括英文“Cloud Computing”以及其他语种的网站。局限二:被动式信息检索。搜索引擎只有当用户发出检索请求时,才被动地响应检索所需信息,然后把结果反馈给用户,而不能根据用户需求搜寻信息,并主动推送给用户。局限三:缺乏个性化服务能力。搜索引擎不能根据用户的个性化需求为用户提供订制化信息服务。这三大局限,降低了搜索引擎信息检索的完整性、主动性和个性化服务能力。

本文提出一种基于个性化定制、跨语言搜索及主动推送服务的网络信息服务平台,可以突破以上三大局限,弥补当下一般搜索引擎的不足,更好地满足人们网络信息检索的需要。

1 需求分析与功能设计

对于一些普通的、浅层次的网络信息需求,目前通用的搜索引擎尚能够基本满足要求。但是对于一些专业人士(比如:科研人员、情报搜集人员等)而言,其信息需求还有更高要求。主要是:

(1) 个性化服务 希冀信息服务平台能够根据不同用户的信息需求,为其提供个性化的信息服务。比如,某一工程科研人员与某一医学专家,他们因为从事的专业领域不同,对信息的需求也绝然不同。好的信息服务平台应能根据不同用户的个性化需求,有针对性地为其提供信息服务。

(2) 跨语言搜索 在信息搜索时,系统接收的检索条件可以一种语言表达,而在检索执行时,系统自动将检索条件扩展、转化为多种语言。比如:用中文提交检索词“云计算”,搜索引擎搜索与“云计算”主题相关的信息之前,先经多语种翻译引擎将中文表达的“云计算”检索词自动翻译成英文、法文、德文、日文等语种(根据用户需要)的相对应检索词,然后再以每种语言表达的检索词为条件,在相应语种网站范围内执行网络搜索,由此将搜索范围由原来单一语种搜索扩展至多语种信息搜索。并且,系统得到搜索结果后,再将不同语言的搜索结果经过二次转换,翻译成与检索字所用语言相同的结果,返回给用户。

(3) 主动推送服务 系统的搜索行为不是等到用户在检索框中输入检索条件后才执行,而是根据事先用户订制好的搜索条件,不间断地执行网络搜索,且将搜索结果不断地主动推送给用户。

由此可见,一个更高级的网络信息服务平台,除了具备目前一般搜索引擎功能外,还应能满足以上三个服务需求,具备个性化服务、跨语言检索和主动推送信息三大功能。

2 系统原理与逻辑架构

本文提出的新网络信息服务平台的实现原理是,将个性化订制技术、多语种机器自动翻译技术、跨语言搜索引擎技术和主动推送技术相结合,研制出一种新的网络信息服务平台。该平台的系统逻辑结构如图1所示。

图1 系统逻辑结构图

从图中可以看出,新的网络信息服务平台主要由用户界面及服务引擎两大部分构成。“用户界面”是用户使用系统的桥梁,为其提供个性化订制、信息检索条件输入、搜索结果信息展示等服务。“服务引擎”是系统的核心,主要由“个性化主题订制子系统”、“多语种机器自动翻译子系统”、“跨语言网络搜索引擎”及“主动推送服务子系统”几大部分构成。其中:

• 个性化主题订制子系统负责处理用户的个性化订制请求。用户通过信息订制页面选择“主题词+信息源网站+刷新频率”的方式,告知系统其信息需求,系统将所有用户的个性化订制进行结构化处理,生成单语种订制数据库。

• 多语种机器翻译子系统负责根据用户在订制阶段选择的语种,将其输入的主题词翻译成其他语种对应的主题词,生成“多语种订制数据库”。

• 跨语言网络搜索引擎负责根据多语种订制数据库库的搜索需求,不间断地进行跨语种网络搜索,并将结果进行分类、排序等处理,生成多语种搜索结果库。

• 主动推送服务子系统负责经多语种机器翻译子系统进行了二次翻译(即将不同语种的搜索结果翻译成与个性化订制主题词所用语种相同的结果)的单语种搜索结果库内容主动推送给订制用户。

整个信息服务流程可描述为以下五大步骤:

(1) 个性化信息需求订制 用户通过信息需求订制页面(见表1),填报(或者编辑修改以前的)信息需求订制表并向系统提交。最基本的信息需求表包括:序号、主题词、信息源地址、检索语言、刷新频率等项目,其中:序号由系统自动生成;主题词由用户根据自己的个性化需求设定,数量上没有限制;信息源地址是指用户让系统重点关注的网站地址,一个主题词可以对应多个信息源。用户也可以不指定信息源,搜索引擎网络爬虫按照既定的搜索策略寻找与主题词有关的信息。填报需求表时,设定的该主题词需要检索的语言种类,是机器翻译引擎将主题词翻译成其他语言的依据。如果不设定语言种类,系统默认只检索主题词所用语言范围。设定刷新频率是告诉系统查询结果推送及显示频率,可以有多种选择,如以分钟为单位。如果不设定,有新的信息搜索结果时,系统将及时推送给用户,并刷新结果显示页面。

表1 用户信息需求订制表

(2) 机器翻译引擎将主题词翻译成多语种主题词 用户提交信息需求表后,多语种机器自动翻译引擎将表中的主题词翻译成相应语言表达的主题词,生成新的多语种主题词表。此时,用户提交的主题词表中的一个主题词可能对应多个新的不同语种表达的主题词。

(3) 搜索引擎进行多语种信息搜索 跨语言网络搜索引擎根据新的主题词表进行网络信息搜索,并对搜索结果进行分类、标引和排序,生成多语种搜索结果库。

(4) 多语种翻译引擎将搜索结果进行逆向翻译 多语种翻译引擎根据主题词表,将搜索结果进行语言逆向翻译,生成与用户提交的主题词表语言相同的单语言搜索结果库。

(5) 将最终结果推送给用户 用户通过信息显示页面,可以看到不同主题词的搜索结果。对于经过翻译的搜索结果,如果需要,用户可以点击源文档地址(信息展示页面提供的原始文档网络地址),进一步浏览相关语言原始文档。

3 关键技术

实现提供个性化订制、跨语言搜索及主动推送服务的网络信息服务平台,必须了解和掌握以下关键技术:

(1) 个性化订制技术 个性化订制是系统的基础功能,采用关系数据库技术即可实现。主要是处理好用户与主题词、主题词与信息源网址、主题词与相关语种的“一对多”关系。用户界面应尽量设计得简洁易用,最好用填写(或修改)需求信息表的形式完成需求订制。

(2) 主题词多语种自动机器翻译技术 将用户以一种语言(如汉语)表达的主题词通过机器翻译引擎自动翻译成其他语言(如英语、日语、德语等等)表达的主题词,是本系统实现跨语言网络搜索的前提。技术难点是如何保证用户提交的原主题词与翻译生成的其他语言主题词在语义上保持一致。造成此种困难的原因是,不同语言词汇之间的“多对多对应关系”以及目前的自然语言处理技术还不能完全解决语义的理解问题。构建系统时,采用权威的“双语词典”及先进的机器翻译引擎是提高主题词翻译准确性的关键。

(3) 跨语言网络搜索技术 实现跨语言网络搜索有两条途径:一是自行开发一个能支持多语种的网络搜索引擎,难度非常之大;二是通过“元搜索引擎”技术实现跨语言网络搜索,经验证明这是一条比较可行的技术途径。所谓“元搜索引擎”,是一种调用其他独立搜索引擎的引擎,是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”,或“搜索资源”,整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”,元搜索技术是元搜索引擎的核心。

(4) 多语种文档机器翻译技术 实现对跨语言搜索得到的多语种文档进行自动化的机器翻译,途径也有两种:一种是自行研发多语种文档机器翻译系统,对源文档进行翻译;另外一种是将技术成熟的机器翻译系统融入本系统平台,通过API调用机器翻译系统完成不同语言的翻译工作。“Google翻译”目前支持多达数十种语言的双向翻译,其利用统计算法及大数据处理、人工智能等技术,大大提高了翻译的准确率。本文建议采取第二种技术途径解决多语种文档自动翻译问题。

(5) 信息主动推送技术 从因特网上获取信息的方式有两种。一种是利用Google和百度等搜索引擎,在检索框中输入查询条件,搜索引擎将搜索结果返回给用户。从用户角度看,这种方式是把信息拉向“客户端”,称为“拉(Pull)”的方式。另外一种与之对立,是“推(Push)”的方式,如本文提出的个性化信息订制和系统主动推送模式。“拉(Pull)”和“推(Push)”技术对用户来说都是信息获取技术,但二者存在着根本的不同。以Pull技术为核心的信息拉取技术,在信息获取时,用户必须时刻处于主动地位,也就是说,用户必须参与信息获取的整个过程。而以Push技术为核心的信息推送技术,在信息推送过程中,服务器始终处于主动地位,用户却处于被动地位。“拉(Pull)”与“推(Push)”的根本区别是:相对一次会话,Pull由客户发起,主动方是客户;Push由服务器发起,主动方是服务器。与Pull技术相比,Push技术不仅获取信息的效率高,费用低,而且及时性强。Push技术能够通过一定的技术标准或协议,把用户感兴趣的信息,按照用户的要求及时、主动地推送给用户。用户收到信息后,还可以离线浏览。

4 结 语

本文将个性化订制、多语种机器自动翻译、网络跨语言搜索及主动信息推送技术相结合,提出了一种新的网络信息服务平台的系统架构,为网络信息搜索及个性化信息服务平台的构建提供了一种新的参考模型。事实上,如果将多语种机器自动翻译和跨语言网络搜索技术应用于人们惯常使用的百度等搜索引擎(可称之为“即时搜索引擎”)中,也可以大大提升这些搜索引擎的检索效率和服务质量。将基于个性化订制和主动推送服务的搜索引擎与即时搜索引擎相配合,就可以比较好地满足人们各种不同的网络信息检索需求。

另外,随着大数据和人工智能技术的发展与不断成熟,并在搜索引擎中合理加以应用,就可以在个性化、智能化网络搜索引擎方向上作出功能更加强大的网络信息服务平台,让因特网上的信息资源充分发挥其应有的价值。

猜你喜欢

多语种主题词搜索引擎
语联世界,言通天下
藏语称谓在多语种史料中的行用路径与语义演变
Chrome 99 Canary恢复可移除预置搜索引擎选项
世界表情符号日
智能传感器的智慧战略,新技术创造新价值
中国国际广播电台“ China ”系列 多语种移动客户端上线
取消公文主题词的真正原因是什么?
从英语硕士到法国博士——我的留学规划和多语种学习之路
公文主题词消失的原因浅析
基于Lucene搜索引擎的研究