多语言知识组织系统互操作方法研究
2016-06-17钟秋原
●钟秋原 司 莉
(武汉大学 武汉 430072)
【资源·共享】
多语言知识组织系统互操作方法研究
●钟秋原司莉
(武汉大学武汉430072)
[摘要]在已有的知识组织系统互操作的研究背景下,从多语言的角度分析了多语言知识组织系统互操作中存在的三种语言障碍:语种障碍、语义障碍及概念缺失,并结合这些障碍对多语言环境下实现知识组织系统的互操作提出建议:先选择语种并进行正确翻译,再结合映射和中介词典这两种方法实现互操作。参考文献12。
[关键词]多语言知识组织系统互操作
1研究背景
知识组织系统是人类用来表达、组织人类知识的各种语义工具的统称,可以帮助人们更好地理解、获取各类知识。据已有研究,知识组织系统按其结构、功能及对概念关系的揭示程度,可分为三类[1-2]:
第一,词汇列表(term lists):规范文档(authority files)、术语表(glossaries)、地名辞典(gazetteers)、字典(dictionaries);第二,分类与归类(classifications and categories):系统分类表(classification schemes)、归类表(categorization schemes)、知识分类表(taxonomies);第三,关系列表( relationship lists):叙词表(thesauri)、语义网(semantic networks)、知识本体(ontology)。笔者认为标题表(subject headings)应归入到关系列表这一类。
知识组织系统互操作是指不同知识组织系统之间的兼容互换,即在不同的分类表、叙词表、本体等知识组织工具中实现兼容互换[3]。在目前国内外已开展的43项知识组织系统互操作研究计划中,有19项互操作研究项目涉及两种以上的语言,占互操作研究项目的44.2%[4]。在上述19项项目中,互操作的实现主要采用了以下方法:映射,如建立《中国农业叙词表》与AGROVOC多语言叙词表之间的映射;翻译/转译,如对MeSH(美国国家医学图书馆标题表)进行翻译;创建多语言叙词表,如GEMET项目创建的通用环境多语言叙词表;转换/中介词典,如Renardus以DDC作为中介词典,将参与该项目的各信息机构所使用的分类法映射到DDC上;元叙词表,如一体化医学语言系统项目(UMLS),广泛收录生物医学概念、术语,并通过语义网络建立概念及术语间的关系;连接,如MACS项目,在德语(SWD)、英语(LCSH)、法语(RAMEAU)三种不同语言的标题表之间,建立标题词的对等连接关系,并存储进连接资料库,实现跨语言检索。这些多语言知识组织系统互操作计划与项目为我们开展本研究提供了借鉴。
2多语言知识组织系统互操作存在的主要障碍
语言障碍是实现多语言知识组织系统互操作的主要障碍。在互操作时,需要明确不同语种的各种概念的内涵和外延。首先不同语种间要进行翻译与转换;其次,语言中一词多义的现象以及对事物认知的不同使得不同语种的知识组织系统中所包含的概念在内涵和外延上不一定完全等同;再次,由于思想文化的差异,在某一知识组织系统中存在的概念在另一个知识组织系统中可能并不存在,即知识组织系统中概念的缺失。
2.1语种障碍
不同语言之间进行知识组织系统互操作时,会产生翻译和理解上的困难,涉及的语种越多,翻译中遇到的困难就越多。如CARMEN、Polish Project、Merimee、CAT/AGROVOC、SAB/DDC等多语言知识组织系统互操作研究计划只涉及两种语言,在语言的转换上只需转换一次即可,但在HEREIN、MACS、Renardus等互操作研究计划中均含有3种及其以上的语言,AGROVOC和GEMET项目中则分别涉及16种和22种语言,语种种类的多样为知识组织系统之间语言的翻译、转换增加了困难。
2.2词义障碍
(1)一词多义。一词多义是各种语言中普遍存在的现象,某个词在不同的语言环境下存在特别的意义。如汉语中“本体”一词,翻译成英语为“ontology”,但它既可以指哲学领域中的本体论,也可以指信息科学中的本体,两个概念是有所区别的。在知识组织系统中如果不能正确判断多义词的词义,就无法准确把握词汇表中的概念,不利于互操作的实现。
(2)概念外延的不同。这种不同在分类法中具体体现为类名涵盖范围的不一致。如《日本十进分类法》和《中图法》的大类中,都含有综合性图书一类。两部分类法的综合性图书类下都包括了丛书、百科全书、论文集、选集、年鉴、连续性出版物等类目,但《日本十进分类法》中还将图书馆学、新闻学、书目学包含其中。
2.3概念缺失
知识组织系统能反映出知识的特点,这种知识文化的差异在此也能得到体现,其具体表现为在某种语言的知识组织系统中存在概念缺失的现象。笔者以图书馆分类法为例,选择了分别使用英语、日语、汉语三种不同语言的《美国国会图书馆分类法》、《日本十进分类法》与《中国图书馆分类法》在哲学类下的伦理学类进行比较,比较结果如表1[5-7]:
表1 《中图法》与《NDC》、《LCC》伦理学类目对照表
表1中首先列出《中图法》中伦理学类下的相关类目,再将《日本十进分类法》与《美国国会图书馆分类法》中与之相应的伦理学类目列于其后,仅在某一分类法中存在的类目则单独列出。类目对照结果显示,《中图法》中的伦理学类目在《日本十进分类法》和《美国国会图书馆分类法》中可找到相关类目对应。三种分类法中仅存在于某一分类法中的类目为《日本十进分类法》中的156武士道和157报德教、石门心学两个类目以及《美国国会图书馆分类法》中的BJ1298-1335 Evolutionary and genetic ethics(进化伦理学、基因伦理学)、BJ1392 Totalitarian ethics(极权主义伦理)和BJ1395 Feminist ethics(女性伦理学)三个类目。该结果体现了三个国家的文化差异。武士道精神,报德教、石门心学都是源于日本的主流思想文化,因此,较其他国家而言,日本对该类文化的记载、研究更多,在分类法中则单独列类;而在中国与美国,该类文化并非其主流,相关文献则分散在日本文化或日本历史等类目中,从而造成类目的缺失。在《美国国会图书馆分类法》中单列出的伦理学类目Evolutionary and genetic ethics(进化伦理学、基因伦理学)、Totalitarian ethics(极权主义伦理)和Feminist ethics(女性伦理学)也属此种情况。
3多语言知识组织系统互操作的实现
3.1选用一种语言作为各语种转换的标准
互操作过程中,当语种只涉及两三种的时候,可以做到相互翻译。但当涉及的语种数量较多时,就需要以一种语言作为转换标准,翻译时进行一次语言转换即可。选择语言时,既要考虑到各知识组织系统的语种情况,也要考虑该语言的应用范围。若在进行互操作的多个知识组织系统中,以某种语言为主,则可选择该语言作为标准。若各知识组织系统使用的语言种类零散,其语言选择过程可经过以下两个步骤:首先,确定需要进行互操作的知识组织系统使用了哪几种语言;其次将知识组织系统所使用的语言和各种语言的使用情况相结合,对语言进行选择。乔治·韦伯曾对世界各种语言的使用情况进行排名,按使用国家数目,其排名如下[8]:
由表2可以看出,英语是使用国家数目最多的语种,而在已有的19项多语言知识组织系统互操作研究计划中均涉及英语。结合语言的实际使用情况和在知识组织系统中的运用,在包含有英语的多语言知识组织系统互操作中,可以选择英语作为各语种的转换标准。若参与互操作的知识组织系统中不包含英语,则可在知识组织系统使用的所有语种中选择使用国家数目较多的语种作为转换标准。
表2 语种排名
3.2以直接映射的方式实现互操作
直接映射的基本思想是:先确定不同分类法类目映射时存在的概念关系,再由专家判断分类法类目之间的关系,并以二维表或其他格式保存[9]。在多语言知识组织系统互操作中,由于存在词义障碍,需对不同语言的知识组织系统中的概念内涵和外延有准确的理解。在已有的对术语映射的研究中,基于词形、结构、语义三个层次实现词表映射,代表了当前术语映射实现的主流思想[10]。多语言环境下,词形存在的差异较大,可以结合结构和语义两个层次理解概念的内涵。在建立不同词汇之间的对等关系过程中,可在结构上先缩小词义范围,再借助各类专业词典确定该词在概念中的确切含义。缩小词义范围的步骤如下:首先确定该概念所属的专业领域,确定后再根据其类目等级、属种关系逐层缩小词义范围,直至能选择出恰当的词义为止。在概念的外延上,不同的知识组织系统之间如有差异,可以对有差异的部分所属的专业领域进行比较,判断能否在其它概念外延上重合。
3.3以中介词典的方式实现互操作
在已有的多语言知识组织系统互操作项目中,映射作为实现互操作的一种常用方法,在其他互操作方法如中介词典、元叙词表、多语言叙词表中也有体现。在进行互操作的知识组织系统的数量较多的情况下,可以选择具有代表性的知识组织系统作为中介词典,并与映射方法相结合,以减少互操作过程中的复杂性。选择中介词典时应考虑到被选知识组织系统的应用范围,其应用范围越广,互操作成果的使用范围也就越广。《杜威十进分类法》(DDC)是国际范围内使用最为广泛的通用分类法。在国外许多不同分类语言互操作项目中,均选择DDC作为中介词典进行映射,其互操作项目一般分为通用分类法与国家分类法、学科分类法分别映射的互操作[11]。Renardus项目就是以DDC作为不同分类法的交换语言,将其他分类法作单向映射,由此实现互操作。在国内,《中国图书馆分类法》是使用最广的分类法,因此,也有研究提出以《中图法》电子版为核心,编制一个国内外分类法对应兼容系统[12]。
选定作为中介词典的知识组织系统后,可将其作为一个词汇控制的标准,与其它参与互操作的知识组织系统对照,若其它知识组织系统中存在的概念在作为中介词典的知识组织系统中有缺失,则可根据与该概念相关文献的多少以及应用范围的大小决定是将该概念增补进选定的知识组织系统中还是将该概念映射到与其相关的外延更大的类中。
4结语
笔者就如何实现多语言知识组织系统互操作这一问题分析了互操作过程中在语言方面存在的三个障碍:语种障碍、语义障碍、概念缺失。结合这三种语言障碍提出了多语言知识组织系统互操作的建议,即在多语言知识组织系统的互操作中选择一种语言作为语种转换标准,再结合映射和中介词典这两种互操作方法使之得以实现。但研究中还存有不足之处:研究中对异构的知识组织系统间的互操作缺少分析,如分类法与叙词表等不同结构的知识组织系统在多语言环境下进行互操作时,除了语言因素外,对是否需要优先考虑以某种结构的知识组织系统作为中介词典等问题还需进一步探讨。
参考文献
[1]李育嫦.网络数字环境下知识组织体系的发展现状及未来趋势[J].情报资料工作,2009(2):45-48.
[2]张剑,宋文.数字图书馆的知识组织系统[J].图书馆理论与实践,2005(5):11-12.
[3]王景侠.知识组织的工具及其语义互操作方法体系[J].数字图书馆论坛,2013(5):41-45.
[4][11]胡滨,吴雯娜.国内外知识组织系统互操作模式及方法研究[J].情报科学,2012(9):1291-1297.
[5]中图分类号查询[EB/OL].http://ztflh.jourserv.com/html/645.html.[2015-03-20].
[6]日本十进分类法[EB/OL].http://ja.wikipedia.org/wiki/日本十進分類法.[2015-03-20].
[7]LIBRARY OF CONGRESS CLASSIFICATION OUTLINE[EB/OL]. http://www.loc.gov/aba/cataloging/classification/lcco/lcco_b.pdf.[2015-03-20].
[8]George Weber. Top Languages: The World’s 10 Most Influential Languages[J]. Language Today,1997(2).
[9]戴剑波,侯汉清.图书分类法映射系统设计原理——以《中国图书馆分类法》和《杜威十进分类法》为例[J].情报学报,2005(3):229-303.
[10]薛春香,乔晓东,朱礼军.KOS互操作中的术语映射研究综述[J].现代图书情报技术,2010(2):31-36.
[12]贺定安.建立以《中图法》电子版为核心的国内外分类法兼容系统[J].图书馆,2003(6):31-33.
(刘平编发)
Research on the Methods to Realize the Interoperability of Multilingual Knowledge Organization Systems
Zhong Qiuyuan Si Li
(Wuhan University, Wuhan, Hubei 430072, China)
AbstractUnder the background of the existing research on the interoperability of knowledge organization systems, the thesis analyzed three kinds of obstacles from the perspective of multilingual:the obstacle from the different kinds of language, semantic and the omission of concept, and then made some suggestions on the realization of the interoperability: first, choosing a kind of language; second, giving an accurate translation; third, using mapping and intermediary dictionary methods to realize the interoperability. 12 refs.
KeywordsMultilingual. Knowledge organization system. Interoperability.
[中图法分类号]G250.7
[文献标识码]A
[文章编号]1003-7845(2016)03-0043-04
[作者简介]钟秋原,武汉大学信息管理学院硕士研究生;司莉, 教授,现在武汉大学信息管理学院工作。
[收稿日期]2015-05-22