APP下载

多语言数字图书馆及其研究浅析

2013-04-11张彦文

河南图书馆学刊 2013年9期
关键词:主题词表馆藏数字

张彦文

(桂林电子科技大学图书馆,广西 桂林 541004)

1 引言

多语言数字图书馆是具有一种语言以上馆藏资源,或者能够提供单一语言馆藏的多语言查询访问的数字图书馆。尽管多语言数字图书馆的大量工作还侧重于可行性研究、原型系统开发、设计方案和建设规划,但也已有投入运行的多语言数字图书馆系统[1]。含有50 种语言的儿童文学馆藏的国际儿童数字图书馆(International Children’s Digital Library,ICDL)于2006年4月投入使用。联合国教科文组织(United Nations Educational,Scientific and Cultural Organization,UNESCO)和美国国会图书馆(United States Library of Congress)共同运营的世界数字图书馆(World Digital Library,WDL),具有西班牙语、英语、中文、葡萄牙语、俄语、法语和阿拉伯语等7 种语言查询功能,于2009年4月21日开始创建,中国国家图书馆是WDL 的合作伙伴。Europeana 是提供48个欧盟国家及许多研究机构图书馆资源网络访问、语言种类达35 种之多的多语言数字图书馆,于2008年11月开始创建。由海地、阿鲁巴、巴哈马群岛、伯利兹、牙买加、委内瑞拉、波多黎各、美国佛罗里达大学等36 家单位联合创建的加勒比海数字图书馆(The digital library of the Caribbean,dLOC),馆藏有中文、英语、德语、法语、西班牙语、意大利语、日语、丹麦语、约鲁巴语、希伯来语、阿姆哈拉语、拉丁语等语言的加勒比海文化、历史和科研资料。在线经济学家(Economists Online)是由20 余家欧盟成员国大学和研究机构联合创建的专业性质的多语言数字图书馆。它提供了英语、德语、法语和西班牙语共四种语言的查询,馆藏为具有这四种语言表述的学术论文索引、文献全文和经济数据库等。虚拟艺术史典藏(The Virtual Catalogue for Art History)artlibraries.net,提供多个欧洲艺术学院和研究院的书目记录(或艺术史数据库)的集成检索。为了达到欧洲范围全面合作并服务于国际艺术史团体,合作伙伴将扩展至英国和斯堪的纳维亚半岛、其他南欧和东欧的欧盟国家的科研机构和学院。

多语言数字图书馆是数字图书馆的一种新的拓展形式。元数据记录翻译、多语言主题词表、实验系统、原型系统开发、用户中心研究等都是多语言数字图书馆的研究热点。文章对此进行讨论。

2 跨语言信息检索

多语言数字图书馆的重要特征在于具备两种或两种以上不同语言的信息查询。为了达到此目的,需要跨越语言障碍实现不同语言表述下信息需求(查询提问式)和内容(文献资料)的匹配。从跨语言信息检索角度讲,跨越语言障碍有多种方法。可以将提问式翻译成文献资料的语言,可以将文献资料翻译成提问式的语言,也可以将提问式和文献资源翻译成中介语言表述。

元数据记录翻译方法是多语言数字图书馆研究中提出的一种新的翻译方法。Lee 等在开发中文、日语、韩语、英语信息资源收集的主题词网关服务IPL-Asia(Internet Public Library Asia)中,将多语言表述为元数据规范Dublin Core 和IEEE LOM 记录,元数据记录用XML 编码、存储和显示,实现了多语言的元数据记录翻译。该方法无需翻译整个文献资源,元数据记录翻译会提高系统的效率。这种方法尤其适用于仅具有条目或元数据描述的图片和其他非文本馆藏。同源词(两种语言共享的词汇,如:专有名词)匹配是解决多语言障碍另外一种方法,这种方法适合于具有相同语言字母系统的情形。翻译知识对于各种翻译方法的实现有非常好的助推作用,这些知识可以来自于多语言词典、本体和机器翻译系统,也可以对文本语料库进行统计分析来抽取。Larson 等对加州大学图书馆的上亿条编目进行术语翻译创建了一个可以定制的多语言词典。对于多语言内容和域符(标题、主题词等)的信息资源,Clinchant 和Renders 对传统语言模型方法进行扩展,将目标馆藏文献资源定义为元词汇的一个概率分布(元词汇是英语、法语和德语三种语言词汇的并集),这样每一个馆藏文献就对应唯一的索引。对于某源语言的查询提问式,通过元词典(含源语言自身),即每一个词汇在源语言中的概率转移矩阵,构造该查询的多语言模型,进而实现目标文献的多语言模型的比较。

数字图书馆系统的信息资源组织和管理有赖于自身的知识组织系统,它包括分类表、主题标目、标准档、语义网络、本体等。关键词和主题词是信息资源的重要索引词。关键词出自于书目记录或信息资源全文,主题词则是编目人员或主题词专家对馆藏的加注,后者提供了高质量的信息资源访问接入点。多语言主题词表是多语言数字图书馆中创建和组织这些知识所必需的组织系统。Schiel 等定义了一个矩形多语言主题词表,给出了其构造的三个步骤:利用单语言词典,抽取一个或多个文献的术语,并确定抽象概念(半自动索引);生成一个或多个矩形;对已有多语言主题词表最优插入新的矩形。这一多语言主题词表的半自动创建方法,允许用户交互式剔除歧义。Yang 等给出了自动构造跨语言主题词表的一种关联约束网络方法,所得到的跨语言主题词表可以将查询从一种语言扩展到其他语言,从而实施用户跨语言搜索。此外,该跨语言主题词表可用于建立不同语言文本分类项的关联以支持跨语言文本分类。多语言主题词表的其他相关研究工作有:Calvanese 等阐述了多语言主题词表中的概念在查询处理中的逻辑关系。Nikolai 等给出了多语言异构主题词表的一种集成框架。这些主题词表可用于检索中的索引和浏览。在医学领域,Lu 等开发了医学主题标目MeSH 的中文翻译,以对中文用户提供医学网站的访问。Smits 等对能否得到复合各种结构的单一公共本体进行了探讨,结果发现创建这样一个结构是不现实的。Sheridan 等从法律领域的平行语料库自动创建了一个相似性主题词表。尽管该结构不是一个严格意义上的主题词表,高度相关的多语言术语组能够较好地扩展多语言术语的单语言查询。Monroy 等通过一个多语言词汇表和一个本体,实现了多语言信息资源的混合翻译。

3 实验系统及测评

与多语言数字图书馆相关的多语言信息访问研究的共性问题是:应用案例评价;更多语言和媒体类型的扩展研究;实际开发中的经验提升。系统研究人员通过构建实验系统来研究和验证所建立的方法。始于1997年的文本检索会议TREC(Text REtrieval Conference)就开始了跨语言评价,专门用来研究跨语言信息检索评价的会议是始于1999年的亚洲语言信息检索评测会议NTCIR(NACSIS Test Collections for IR),以及2000年开始的跨语言评价论坛CLEF(Cross-Language Evaluation Forum)。CLEF使用欧盟国家语言,所开展的工作愈来愈贴近现实和实际。长期的评价研究获得了大量的可供未来研究参考的科学数据。Agosti 等建议创建一个以所有这些数据为馆藏的数字图书馆。系统评价对研究人员来说是个挑战,激励人们开展更加专门和深入的研究。多语言数字图书馆开发团队更乐意于语用评价,因为几乎不需要修改系统,研究结果就可以直接进入应用。

查询提问式翻译是跨越语言障碍的常用方法之一,也非常适合于多语言数字图书馆。Wang 等给出了一个查询提问式翻译系统,该系统可连接到任何单语言(中文或英语)内容数字图书馆。该系统通过挖掘网页来翻译词典未出现的术语(新术语、专用名词)。尽管研究人员认为该系统具有非常好的应用前景,但是目前还没有出现在任何实际应用系统。Bosca 和Dini 开展了另一项查询提问式翻译研究,所开发的系统采用多种方法来扩展查询提问式的术语,CLEF 测评结果表明:该系统表现出了良好性能。Clinchant 和Renders 在CLE 测评F 实验中力图应用多语言查询提问式翻译来获得多语言文档(含有一种以上语言的文档),但是并没有看到改善检索结果的迹象。相关方面的研究工作还有:Braschler 和Ferro 开展了两种翻译方法(查询或记录)的选择及其复合的可行性研究。Kanazawa 等进行了查询翻译技术的实验研究。Yang 等对主题词表自动构建的两种算法进行了研究,并同早期技术进行了比较。Azzopardi 等给出了一个生成模拟已知项查询的模型,并开展了实验研究,其实验系统优于实际人工查询,可用于系统测试和用户查询行为模拟。

多语言数字图书馆研究的另一条途径是对欲建立的最终系统开展原型研究。Smits 和Friis-Christensen 开展了不同本体集的原型实验研究,验证了方法的不可行。Larson 等利用原型系统,基于大型图书馆藏目录的数据挖掘,创建了一个多语言概念影射资源。Bamman 对将结构信息(如:XML 标签、章节信息)从源文档转换为目标(翻译)文档的一种方法进行了测评,该方法可以达到更高准确度。Ferber测评了一个基于文档标题自动加注主题词的系统,该系统采用了一组含有手工加注主体标目的文档用以确定新文档的叙词,结果表明了方法的可行性。

大量的多语言数字图书馆研究似乎都是从系统角度开展的。尽管如此,也有一些以用户为中心的研究工作。Bilal 和Bachir 开展了国际儿童数字图书馆儿童用户的两方面相关研究。第一项研究是测评界面设计;第二项研究是观测儿童主体搜索,通过小组会谈调查研究主体信息搜索行为。Stafford 等对双语言主题词表界面Searchling 进行了定性研究。通过“15个用户执行3 项结构化任务”实验设计,测评了系统对查询表述的辅助作用。Cousins 研究了访问门户对用户的影响。Clough 和Sanderson 对其跨语言图像检索系统通过两项搜索任务开展了用户实验研究。

多语言数字图书馆的大量研究出自欧盟,原因在于国家间的协作是欧盟的基础,跨语言信息交流是他们日常生活中必不可少的部分。为此,欧盟实施了一系列的相关研究计划。欧盟CACAO(cross-language access to catalogues and online libraries)计划实现了用户在线编目的跨语言信息检索,用户可以通过一种欧盟国家语言提问查询,检索出其他欧盟国家语言的文本资源。这一多语言体系结构集成到了后期的欧盟数字图书馆项目Europeana。DELOS卓越网络(DELOS Network of Excellence)计划着力于数字图书馆的全面研究,开发了数字图书馆相关的几乎所有技术。DelosDLM 就是其中的技术之一,它是一个支持多语言的模块化数字图书馆管理系统。欧盟LAURIN 计划创建了数字化多语言报纸剪贴的数字图书馆。报纸文章通过多语言词典来搜索查询。MultiMatch 计划开发了一个多语言多媒体文化遗产的搜索引擎。Rastko 计划实现了塞尔维亚文化馆藏的访问。MTIR 是一个中英文信息检索系统,它使用双语言词典和翻译系统来实现查询提问式翻译。多翻译选项通过术语协同出现信息来消除歧义。检索出的文档利用机器翻译进行翻译。由于系统设计目的在于Web 用户,机器翻译基于网页标签来实施。该系统采用了HTTP 协议,便于集成到Web 应用,能够实现双语言在线搜索。

SPIRIT(Syntactic and Probabilistic Indexing and Retrieval of Information in Texts)是上世纪80年代开发出的一个单语言、英语和法语双语言系统,目前扩展为跨语言系统。该系统中,采用重描述规则将源语言查询提问式表述为所有可能的目标语言查询提问式,通过文献汇编实现所翻译查询的消歧。Eurovision 是一个跨语言图片检索系统,它利用机器翻译将查询翻译成英语,并用来查询图片的英语图注说明。SIS-TMS 是一个词典管理系统,允许用户存储和访问多个多语言词典。跨语言信息检索有时通过多语言词典实现源语言到目标语言转换,SIS-TMS对此就非常有用。SyDoM 是一个多语言文档系统,它使用多语言本体来确定文本索引中术语的选取。

4 结语

多语言数字图书馆是数字图书馆的未来发展方向。作为信息资源与信息技术的融合,多语言数字图书馆研究涵盖了多语言信息资源管理、多语言数字图书馆门户、多语言信息检索、多语言元数据描述、多语言问答系统、多语言文本挖掘、多语言信息翻译、多语言主题词表、多语言知识组织等诸多领域。这些研究工作的开展需要计算机、图书馆学、艺术学、语言学、自然语言处理、智能科学以及信息处理等多学科的支持。

多语言数字图书馆的现有数目还不多,但是其数量正在不断增长。创建一个多语言数字图书馆往往需要不同地区、不同国家、不同组织和不同领域专家的协同合作。建立和健全多语言数字图书馆系统创建中的合作机制及规范,具有非常重要的意义。

[1]Anne Diekema. Multilinguality in the Digital Library:A Review[J]. Electronic Library,2012(2):165-181.

[2]Kazuaki Kishida.Technical issues of cross-language information retrieval:a review[J]. Information Processing & Management,2005(41):433-455.

[3]吴丹,李瑞芬.跨语言信息检索技术应用与研究进展[J].情报科学,2006(9):1435-1440.

[4]Van Oudenaren J. Connecting the World,Responding to User Needs[J]. Information Outlook,2010(14):10-12.

[5]Lee W,Sugimoto S,Nagamori M,Sakaguchi T,Tabata K. A subject gateway in multiple languages:a prototype development and lessons learned[C]. Proceedings of the 2003 international conference on Dublin Core and metadata applications:supporting communities of discourse and practice——metadata research & applications,2003:1-10.

[6]Larson R R,Gey F,Chen A. Harvesting translingual vocabulary mappings for multilingual digital libraries[C]. Proceedings of the 2nd ACM/IEEE-CS joint conference on Digital libraries.2002.

[7]Clinchant S,Renders J-M.(2009)Multi-language models and meta-dictionary adaptation for accessing multilingual digital libraries[C]. Proceedings of the 9th Crosslanguage evaluation forum conference on Evaluating systems for multilingual and multimodal information access.2009.

[8]Schiel U,Sousa I M S F D. Interactive indexing of documents with a multilingual thesaurus[C].Effective databases for text & document management.IGI Publishing,2003.

猜你喜欢

主题词表馆藏数字
馆藏
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
《〈汉语主题词表〉构建研究》
博物馆的生存之道:馆藏能否变卖?
知还印馆藏印选——古印篇
答数字
数字看G20
介绍两件馆藏青铜器