叙词表概念映射研究
2015-12-30陈辰
陈辰
叙词表概念映射研究
陈辰
叙词表概念映射可满足用户深层次的概念检索需求。区分术语映射和概念映射的不同,从现实情况出发,提出基于ISO标准对其映射类型进行扩展使用的方法。结合叙词表映射实验,对概念映射方法进行探析。
叙词表映射 概念映射 映射类型 映射方法
叙词表映射[1]是知识组织体系互操作技术中的一种,它是为两个或者多个词表的术语建立映射关系,以在词表之间实现自动的转换和连接,从而实现不同检索系统间的“一站式”主题检索。叙词表概念映射不同于术语映射,它从满足用户概念检索需求出发,达到语义概念层次的映射,从而提高系统的互操作水平。
1 概念映射与术语映射的区别和联系
相关机构和研究人员对术语映射与概念映射尚未做明确区分。但笔者认为,《ISO25964-1——叙词表和其他叙词表互操作:信息检索用叙词表》将过去基于术语的改为基于概念的词表组织结构,而且更关注概念、以及概念间的联系,正是反映了用户具有概念检索的需求。叙词表映射为满足用户此需求,也需对概念映射和术语映射进行明确界定,探究两者的不同,以明确哪些方法可达到概念层次的映射。笔者认为从映射程度上划分,叙词表映射分为术语映射与概念映射。
1.1 术语映射
术语映射指词形不同而词义相同的词语之间的映射,它只涉及术语间的语义对等关系,而不涉及概念间的等级和相关关系。笔者将术语对等映射概括为两种情况:一是从词形学角度分析是同一个词,但是由于单复数形式、全称和简写、大小写、译文、标点差异、首字母缩写等原因造成词形不规范的映射情况,这些语法表现形式不一致而语义一致的词可视为等价映射;二是词形完全不一致但是词义相同,如异形同义词间也是等价映射。对等关系既可只用一种“等价映射”类型表示,如使用EM(Equivalence Mapping即等价映射,简称EM)表示,也可对“等价映射”进行细化,如全称和简写术语的映射类型可表述为“FT/AB”(Full Term和Abbreviation,全称和简称对等),单复数间的映射表示为“Si/pl”(Singular和plural,单数和复数对等)。
1.2 概念映射
概念映射是在术语等价映射基础上,进一步实现概念间等级和相关关系的映射。相对于术语映射,它是更深层次的映射,即达到术语语义对等映射层次后,映射尚未结束,还可与其他术语进一步建立等级、相关等概念映射关系,实现多映射。比如,一体化医学语言系统(Unified Medical Language System,简称UMLS)[2]项目中,其超级词表的建立运用四级结构模式,即通过“元词-词串-术语-概念”四个不同层面,逐层映射来最终达到概念层次的映射,而不满足于只达到术语层面的映射。
2 基于ISO标准的叙词表概念映射类型分析
实施叙词表概念映射,首先要确定映射类型。《ISO25964-2——叙词表和其他叙词表互操作:与其他词表的互操作》[3]提出的概念映射包括三种类型:等价映射、等级映射和相关映射,以及三种映射程度:精确对等、非精确对等和部分映射,三种映射类型下又包含进一步细化的映射类型,如图1所示。
图1 ISO25964映射关系类型
ISO是国际标准,基于利于数据交流、共享和重用的考虑,推荐使用此映射类型,以便日后的互操作。标准具有抽象性,而叙词表具体映射过程中的关系类型却要复杂很多,所以一方面要结合ISO标准的映射类型,另一方面在使用时要进行适度扩展,以满足现实映射的需要。笔者以Chaplan和Neville提出的映射类型为例探讨如何扩展使用ISO提出的三种映射类型。表1是整合分析情况,映射类型一栏代表ISO标准,带有圆圈数字标志的代表Chaplan[4]提出的映射类型,不带圆圈的数字代表Neville[5]提出的映射类型。结果显示,除Chaplan“无匹配”没有ISO的对应映射类型外,其他类型都是ISO映射类型的扩展。扩展分析过程涉及的归类定义与说明如下:ISO映射类型分为等价映射、等级映射和相关映射三大类。
(1)等价映射分为简单映射和复合映射,简单映射根据映射程度又分为精确映射和非精确映射,“精确映射”包括语法一致和语法不一致两种情况。语法词形完全一致,词义也一致的属于“精确简单的等价映射”,词形不一致,比如单复数、连接符等不同,而词义相同,笔者也将其列为“精确简单的等价映射”;而组合匹配由于语义上与原有词不完全对等则归于“非精确等价匹配”中。需说明的是,表1括号中有“需进一步判定映射类型”的标识,为便于统计分析,这些映射类型暂时列入表1的相应位置,但需要进一步进行语义分析,才可以判断其映射类型,如可能是限定词、同形异义词和异形同义词等情况。
(2)等级映射根据词表固有的关系分为属种、实例、整体与部分三种,“通用词匹配”属于等级映射范畴。
(3)相关映射主要是概念层次的映射,指在语义上有关联的词间关系,其中反义词匹配归属相关映射。
笔者将ISO映射类型与Chaplan和Neville提出的映射类型进行对比分析,发现在现实中使用ISO映射类型作为标准,并结合具体映射情况对ISO进行扩展使用的方案是可行的。ISO标准的使用不仅有利于日后数据的重用和共享,通过对标准进行扩展使用,还可更好地满足现实需要,因此笔者建议在实施映射时,可使用等价、等级和相关三种映射类型,并根据需要对其进行扩展。
表1 ISO,Chaplan与Neville映射类型的扩展分析表
3 叙词表概念映射方法
3.1 单映射和多映射
在映射方法上,术语映射一般采用“单映射”,即只允许和目标词表某个术语建立一种映射关系;而概念映射则建立起“多映射”,可和目标词表多个术语建立多个映射关系,以更好地体现概念和概念间的关系。比如,Earthquakes EM Earthquakes,只建立精确等价映射关系,属于单映射;Earthquakes EM Earthquakes,同时Earthquakes BTM Geological hazards,既有精确等价映射,又有上位映射,属于多映射。(BTM表示上位映射,是Broader Term Mapping的简称)。CAT(农业叙词表)到联合国粮农组织AGROVOC词表的映射项目[6]中允许“多对一”和“一对多”的映射,即允许CAT的多个词映射到AGROVOC上,也允许一个CAT词映射到多个AGROVOC词上,实质是允许建立“多映射”关系。
3.2 映射构建的影响因素
叙词表构建映射关系应首先考虑应用需求。概念映射是多映射,它挖掘概念间的深层映射关系,可满足用户概念检索需求;而术语映射只要求建立两术语间的对等映射关系,不能满足用户深层次的检索需求。此外,映射的建立还要考虑检索系统的效率。将多映射关系应用于检索系统时,需要系统对多映射关系进行多层展示和自动转换,这不仅需要系统能对映射关系进行直观展示,同时也要保证映射数据转换的速度和效率,因此多映射关系对系统有更高的要求。
3.3 建立多映射类型的方法
3.3.1 参考已有映射关系类型
(1)在精确等价映射关系基础上可考虑建立多映射。为词形相同或相似的术语建立精确等价映射关系,尚不能满足用户概念检索需求,尤其是相同学科或者同一检索系统两词表间的精确等价映射基本不会对检索结果有显著影响,所以需在此基础上进一步建立等级或者相关映射等多映射关系。
(2)等级映射一般建立单映射关系,即以“最邻近”为原则,建立最近的上位、下位映射以保证映射数据的质量。
(3)不宜建立多次相关映射,因为相关关系在语义上不对等,如果建立多次,会造成语义上的失真,影响映射数据质量。要根据目标词表相关映射词与源词表对应的映射词的语义相关度而定,相关度大的可建立多映射关系。两个词是否具有相关关系以及具有多大相关度,其确定并无统一标准,为不影响映射数据整体质量,相关的映射不宜过多。
3.3.2 根据词表本身结构和语义层次关系
词表的结构影响映射的构建,词表有多种结构关系和层次,可根据映射继承性原则[7]建立多映射关系,具体方法见表2。以Life Sciences Thesaurus(Subjects)(生命科学叙词表)第4版作为源词表,Aquatic Sciences&Fisheries Abstracts(ASFA)Thesaurus(Subjects)(水科学和渔业文摘叙词表)第3版作为目标词表进行映射实验,表中NTM表示下位映射(Narrower Term Mapping,简称NTM)。
表2 据词表结构确定多映射关系示例
3.3.3 特殊映射关系的建立方法
除以上两种映射方法外,笔者在实验过程还发现几种特殊映射关系的建立方法与规律,现结合实验数据进行说明。
(1)精确等价映射基础上的多映射关系。精确等价映射主要涉及词形精确匹配、词形规范匹配和同义词匹配等,是同一概念不同表达术语间的对等映射关系。如果还考虑与其他概念建立映射,需要在此精确等价映射基础上建立多映射关系。
①词形精确匹配,是指词形、词义完全相同的两个术语建立匹配关系,在此基础上再构建进一步的映射关系,比如:
Bacterioplankton EM Bacterioplankton (第1层)
Bacterioplankton EM Bacteria+Plankton (第2层)
②词形规范匹配,是指语法表现形式不一致而语义一致的两个术语建立匹配,在此基础上构建进一步的映射关系,即在全称与简称、单复数、有无连接符术语、词缀不同、翻译、全称和首字母缩写等匹配的基础上建立进一步映射关系,例如简写与全称等价映射基础上的进一步映射关系:
N.M.R.EM Nuclear magnetic resonance (第1层)
N.M.R.BTM Spectroscopy(第2层)
③同义词匹配,是指词形不一致,而语义相同或相似的两术语间建立匹配,在此基础上构建进一步的映射关系,比如:
Ranging behavior EM Range action (第1层)
Ranging behavior BTM Behavior(第2层)
Ranging behavior RTM Home range (第3层)
其中,RTM是Related Term Mapping的简称,表示相关映射。
(2)反义词对基础上的共同上位概念。“反义词对”通常是同一事物或者同一现象的两个相反属性。用户在检索“反义词对”时往往希望获取其对应上位类——共同现象或事物的信息,所以有必要建立“反义词对”及其共同上位类映射关系,比如:
[Abiotic factors RTM(反义)Biotic factors] BTM Environmental factors
Abiotic factors与Biotic factors是Environmental factors的两个相反属性,Environmental factors是两者的共同上位类,故建立上位映射关系。
(3)词义不完全组配上的多映射关系。组配映射分为并列组配和交叉组配,组配既可完全代替源词表术语的语义,也可能不能实现语义上的完全对等,这时可在组配映射基础上建立进一步概念映射关系,比如:
Bacterial artifical chromosomes BTM(Bacteria+chromosomes)
Bacterial artifical chromosomes(细菌人工染色体)在目标词表的组配关系为Bacteria+ chromosomes(细菌染色体),该组配尚不能完全代表源词表映射词的语义,源词表映射词的实际含义比目标词表中的映射词要广,因此应在组配基础上建立与源词表映射词的上位映射关系。
以上几种特殊的映射关系会出现在多数映射项目中,具有共性和典型性,所以被单独总结出来,希望为日后的映射项目提供参考。
4 叙词表概念映射实施方案
第一,需明确叙词表映射只有达到深层次的概念映射,才能满足用户概念检索需求。通过建立概念间的等价、等级和相关映射关系,检索系统才能基于这种底层的映射数据和关系,自动为用户提供相应检索词的等价词、上下位词和相关词提示,从而实现真正意义上的扩展检索,进而提高用户的查全率。
第二,叙词表映射类型的确定是开展映射工作的前提。各个词表在词形、词义和结构上的差异使两个词表间建立完全的精确对等匹配是不可能的,所以要根据词表本身的特点以及实际需要来确定建立何种映射类型。ISO提出的等价、等级和相关映射类型比较抽象,未对现实中的何种映射关系属于该三种映射类型做出明确规定,很难直接在实际映射项目中使用。Chaplan与Neville提出的近30种映射类型,比较全面和具体,但难免会有冗余或者重合定义的情况[8]。据此,本文通过将两人提出的映射类型在ISO映射类型中做扩展分析,以寻求最佳映射类型的确定方案。根据分析结果,基于映射数据共享、重用的考虑,笔者建议使用ISO映射类型,并在此基础上根据实际需要对该映射类型进行扩展使用。
第三,叙词表概念映射方法从实施意义上讲是映射确定的过程。笔者根据叙词表映射实验,探讨了映射构建的影响因素和建立多映射类型的方法。相关机构和人员在建立多映射关系时,应考虑映射数据的实际需求与应用系统的效率等影响因素。
映射的实施方法,一方面可参考已建立的映射类型实施多映射,另一方面也可根据词表本身的结构关系和语义关系,推断并建立多映射关系。此外,笔者还总结几种特殊映射关系的建立方法,如精确等价基础上的映射关系,反义词对基础上的共同上位概念和词义不完全组配上的多映射关系建立等。总之,叙词表概念映射工作相当繁杂,以上只是概念映射的部分实施方案,并没有涉及映射的整体工作流程。除此之外,概念映射还涉及映射规则、映射数据质量检测和映射数据的应用等,还需要进行进一步的研究与探讨。
[1]ZengM L,Chan LM.Trends and Issues in Establishing Interoperability Among Knowledge Organization Systems[J].Journal of the American Soiety for Information Science and Technology,2004,55(5):377-395.
[2]UMLSreferenceManual[EB/OL].(2009-09-09).[2014 -03-01].http://www.ncbi.nlm.nih.gov/books/NBK 9684.
[3]ISO 25964-2:2011.Information and documentation——Thesauri and interoperability with other vocabularies——Part 2:Interoperability with other vocabularies [S/OL].(2012-10-31).[2014-05-26].http://www. iso.org/iso/catalogue_detail.htm?csnumber=53658.
[4]Chaplan M.A.,Mapping Laborline thesaurus terms to Library of Congress subject headings:Implications for vocabulary switching[J].Library Quarterly,65(1):39-61.
[5]H.H.Neville.Feasibility study of a scheme for reconciling thesauri covering a common subject[J].Journal of Documentation,1970,26(4):313-336.
[6]Liang A C,Sini M,Chang C,et al.The mapping schema from Chinese agricultural thesaurus to agrovoc[C] //Proceedings of the Fifth Conference of the European Federation for Information Technology in Agriculture,Food and Environment and the Third World Congress on Computers in Agriculture and Natural Resources.Vila Real,Portugal:EFITA/WCCA,2005.
[7]陈辰.叙词表映射语义判定和自动推理规则探析[J].图书情报工作,2014,58(2):126-131.
[8]Mcculloch E,Macgregor G.Analysis of mapping types for terminology services[J].Journal of Information Science,2008,34(1):70-92.
Research on Concept Mapping of Thesaurus
CHEN Chen
Concept mapping of thesaurus can meet users’needs for deep concept retrieval.This article discusses the distinctions between concept mapping and terminology mapping.Based on ISO standard,it proposes the extension use of the three mapping types.Then,it makes a detailed analysis on the methods of concept mapping.
thesaurus mapping;concept mapping;mapping types;mapping methods
格式 陈辰.叙词表概念映射研究[J].图书馆论坛,2015(1):37-42.
陈辰(1986-),女,硕士,任职于河北金融学院图书馆.
2014-07-14