CLC与LCC类目同现映射方法研究
——以图情领域为例*
2019-12-23徐烨,肖明
徐 烨,肖 明
0 前言
《中国图书馆分类法》 (Chinese Library Classification,CLC)是我国图情单位普遍使用的综合性分类法;《美国国会图书馆分类法》(Libraryof Congress Classification,LCC)是美国国会图书馆编制的综合性等级列举式图书分类法,也是世界上最重要的分类法之一。随着国内各图书馆不断购置大量的英文图书,如果对这些英文图书进行分类时仅依靠人工判断,将会花费大量的人工成本,且工作效率很低。因此,实现中文词表与英文词表之间的互操作,将是解决有效检索和利用英文图书的重要途径。
词表间的互操作主要通过建立类表之间的映射来实现,可细分为3种类型:直接映射、间接映射和同现映射[1]。直接映射是指直接在不同的受控词表之间建立语词和分类号的匹配关系,主要依靠人工来判断类目之间的映射关系;间接映射是指利用计算机计算类目语义相关度来确定匹配类型;同现映射是基于书目数据库的映射,是指通过统计同一元数据集中表达不同主题的语词或分类号同现频次,计算语词和分类号之间的相关度,从而实现类目匹配。目前国内外对词表之间的映射研究都有一定探究[2-3]。
国外对词表之间映射的研究开展得早一些。1987年瑞典皇家图书馆通过直接映射实现《瑞典图书分类法》(SAB)和《杜威十进分类法》(DDC)的映射[4],主要是将DDC中的部分表翻译成瑞典语,再人工将其进行关联,并保存在数据库中,以实现二者之间的映射。1995年,纽约州立大学设计一种面向对象和基于框架分析的专家系统,将美国《数学主题分类表》(MSC)和DDC进行了映射[5],并将映射关系细分为8种类型:精确匹配、不匹配、专指到泛指、泛指到专指、多对一、循环映射、上位映射、下位映射。2001年欧盟发起Renardus项目[6],实现DDC与各国分类法及专业分类法之间的映射。用户可以通过Renardus对各国门户网站进行检索,再根据映射结果来实现各国信息门户按DDC 类目进行显示。
国内对词表之间映射的研究集中在DDC 与CLC之间,以及《国际专利分类法》(IPC)与CLC之间的映射上。其中,针对DDC与CLC之间的映射研究开展得更早一些。戴剑波等[7]分析了DDC 与CLC 之间相互映射的可行性、映射实现模式、自动映射的实现原理,并且对比分析DDC与CLC之间的差异,提出实现间接映射的原理及可行性。杨眉等[8]采用直接映射和同现映射相结合的方法,对DDC与CLC中的化学工业领域类目进行研究分析,总结出映射过程中所存在的问题,并且提出了相应的解决方案。赵冬梅[9]运用统计学的方法对DDC与CLC中的数学类目进行了差异性分析。贾君枝等[10-11]提出了DDC与CLC之间的类目映射原理与方法,并对类目自动映射进行了较为系统的研究,提出了实现自动映射的各种算法。李珂等[12]采用直接映射的方法对DDC与CLC之间的农业科学领域类目进行映射研究,并对映射结果进行统计分析。国内研究人员针对IPC与CLC之间的映射研究相对较少一些。周林志等[13]提出基于词汇相似度建立IPC与CLC之间映射的方法,其主要目标是要解决专利数据库使用率低和降低专利数据的孤立程度。
综上所述,国内针对词表之间互操作的研究集中在DDC与CLC之间的映射上;在映射方法研究方面则主要采用直接映射法。基于此,本文首先分析CLC 与LCC 类目映射的可行性,然后以图情领域为例,采用一种基于书目记录的CLC与LCC类目同现映射方法来实现类目间的映射,并分析该方法的优缺点,最后对映射结果中一对多的映射关系进行讨论。
1 CLC与LCC类目的比较
1.1 CLC的类目特征
《中国图书馆分类法》(CLC)是由国家图书馆《中国图书馆分类法》编辑委员会编制的综合性分类法[14]。CLC以马克思列宁主义、毛泽东思想为指导思想,以辩证唯物主义和历史唯物主义为编制依据,以学科分类和知识分类为基础,强调类目的完整性、类目体系的平衡性,以及知识覆盖的全面性。如果从宏观结构上分析,则CLC是由编制说明、基本大类表、基本类目表(简表)、主表、附表(通用复分表),以及字顺索引、使用手册等部分组成;如果从微观上分析,则CLC的类目是由类号、类名、类级、注释、参照等部分组成。除主表外,CLC宏观结构还包括附表、索引、使用手册等组成部分,其微观结构则包括类号、类名、类级、注释、参照等组成部分。CLC力求简明,易懂易记,不仅适应了我国图书资料分类实践的需要,而且为我国图书资料统一分类编目创造了便利条件。
1.2 LCC的类目特征
《美国国会图书馆分类法》(LCC)是美国国会图书馆在其馆长普特南(G.H.Putnam,1861-1955)主持下,根据该馆藏书所编制的一部综合性等级列举式分类法[15-16],主要有7 大特点:第一,实用性强。它专门为美国国会图书馆排架使用而编制,从类目安排到号码配置,都处处考虑了该馆藏书的实际需要。第二,类目详尽,多达20多万个,是世界上类目最多、篇幅最大的分类法。第三,它不仅可以适用于综合性图书馆,而且适用于专业图书馆。第四,它及时反映了新学科和新主题情况。美国国会图书馆设有专门部门来管理LCC,根据馆藏变化来及时修订类表,并且按季度编印发行《LCC的补充和修改》,及时报道LCC类号的修订信息。第五,其各大类分别独立编制,出版时间和版本并不统一,也没有统一的编制体例以及通用复分表和总索引。第六,它基本上采用的是顺序标记制,故其类号简短,但类号不能表达类目之间的等级关系,且助记性较差。第七,应用广泛。目前,LCC号码已被应用到美国国会图书馆发行的印刷卡片和机读目录,以及美、英等国出版的图书在版编目数据中。除了美国国会图书馆以外,LCC还被美国许多高等学校图书馆、专门图书馆以及美国以外的一些国家的图书馆所采用。
1.3 CLC与LCC类目特征比较:以图情领域为例
CLC和LCC在图情领域的类目设置方面存在很大差异,如表1所示。
表1 CLC与LCC在图情领域的类目设置比较
由于篇幅所限,表1中只罗列出这两部分类法中的部分类目。在图书馆学领域,CLC罗列到四级类目,LCC只罗列到三级类目;在目录学领域,LCC只罗列到二级类目。从表1中还可以看出,CLC与LCC在图情领域上的类目设置有很大不同。例如,在CLC中,“图书馆事业、信息事业”是G大类下的三级类目,而应该与之对应的“Bibliography.Library Science.Information Resources”则是Z 大类,属于一级类目。CLC与LCC在类目设置上的差异性是巨大的,从而为实现二者之间的映射带来了较大挑战。从整体上分析,造成这种差异性的主要原因是中外文化上的差异。CLC的类目设置相对侧重于图书整理;LCC则相对偏重于图书馆的社会性,即更侧重于图书馆的利用。如果单从图情领域的类目设置上来分析,则这种差异性主要体现在两个方面。
一是对图情学科理解的差异性。例如,LCC中的“General Bibliography”“National Bibliography”“Subject Bibliography”和“Personal Bibliography”虽然与CLC中的“G257 目录学”有一定的关系,但是主要还是对应到CLC中“Z8 图书报刊目录、文摘、索引”二级类目下的“Z81/86 各种图书目录”“Z81 国家总目录”“Z88专科目录”“Z86个人著作目录”等三级类目中。
二是设置类目等级体系的差异性。在整体结构上看,CLC将整个图情学科设置在“G2 信息与知识传播”之下,并将“图书馆事业、信息事业”与“新闻事业”“博物馆事业”“档案事业”等并列起来;LCC 则将“Bibliography.Library Science.Information Resources”单独设置成Z大类。此外,CLC将“图书馆学”“情报学”“文献学”“目录学”等均设置为“图书馆事业、信息事业”的下位类,而将“图书馆学、情报学”与“目录学”视作同位类;LCC 则将“Libraries”与“General Bibliography”设置为二级类目,并将两者视为同位类,且将“Library Science.Information Science”设置为“Libraries”的下位类。
在图情领域类目设置上,CLC与LCC存在明显的差异,具体类目分布情况见表2。从表2中发现,在图情领域,CLC共有186个类目,从三级类目横跨到七级类目。其中,五级类目和六级类目共占类目总数约78%;LCC共计有72个类目,从一级类目横跨到五级类目。其中,三级类目、四级类目、五级类目共占类目总数约91.7%。CLC类目设置更多,而LCC的类名则相对较长一些,它通常会使用两个及两个以上的词语组合作为类名。
表2 CLC与LCC在图情领域的类目分布差异
2 基于书目记录的类目同现映射方法
2.1 原理
中美两国在文化环境、分类原则、分类等级等方面存在诸多差异,导致CLC 与LCC 在类目设置上存在着明显的差异性。如果采取直接映射方法,则需要人工判断类目的语义、功用等不同层面,将会耗费大量的人力成本。目前,国内外在映射方法研究方面大多集中在间接映射方法上,但间接映射方法往往忽略类目本身的复杂语义,从而导致其映射效果不佳。本文提出了一种同现映射方法,该方法主要是利用已经由国家图书馆工作人员标注好的中英文图书的书目数据,较好地实现了CLC与LCC的类目映射。
同现映射是以书目数据库中的书目记录作为基础,通过统计同一元数据集中表达不同主题的语词或分类号的同现频次来计算语词和分类号之间的相似度,从而实现类目映射。在本文中,笔者首先选用图情领域中英文图书的书目数据作为数据源,共计包括2506条书目记录;然后根据这些书目记录计算CLC 下的某一类目与LCC 下的某一类目的相似度,实现了CLC 与LCC 的类目映射。
2.2 具体算法
2.2.1 相似度的计算
郑丽萍给出了如下类目相似度定义[17]:
其中,Sim(A,B)表示类目A与类目B的相关程度,其取值范围在0和1之间;d1和d2均表示类目下的书目记录;O1和O2均表示需要映射的分类法。当Sim(A,B)=0时,表示类目A与类目B是完全不相关的;当Sim(A,B)=1时,表示类目A与类目B是完全相同的。
具体计算相似度的方法有很多,在需要映射的两个分类法中,利用类目下的具体书目记录对类目间的相似度进行计算。笔者采用Jaccard系数来计算相似度。该系数的计算公式为:
2.2.2 算法步骤
根据上述计算类目间相似度的公式,可以用分类法中类目A和类目B的具体书目记录来计算其中,P(A,B)表示一条书目记录既属于类目A又属于类目B的概率;表示一条书目记录属于类目A但不属于类目B的概率;表示一条书目记录不属于类目A却属于类目B的概率。
以计算P(A,B)为例,基于书目记录的类目同现映射相似度计算方法如图1所示。
图1 基于书目记录的类目同现映射相似度计算方法
具体算法主要包括6个步骤。(1)将分类法O1的书目记录数据集U1,分成属于类目A的数据集和不属于类目A的数据集(2)将这两个数据集中的书目记录分别作为正反样本,采用机器学习方法来进行训练,最终得到关于类目A的学习器L。(3)将分类法O2的书目记录数据集U2,分成属于类目B的数据集和不属于类目B的数据集(4)使用学习器L对数据集中的书目记录进行分类,分成两个数据集同样地,将数据集分成数据集(5)将分类法O1和分类法O2的位置调换,重复上述步骤,同样可以分成数据集和(6)根据上述结果,分别计算P(A,B),的值:
根据上述Sim(A,B)的公式,即:
计算得出类目A与类目B的相似度,再根据相似度的取值,判断类目A与类目B能否建立映射,从而实现CLC与LCC之间的类目映射。
3 实验结果
3.1 基于书目记录的类目同现映射方法的应用
笔者根据上述方法,将CLC 与LCC 这两部分类法中有关图情领域的类目进行了映射。下面以CLC中的“G252.6 参考咨询”类目和LCC 的“Z711-711.95 Public Services.Reference Services”类目的相似度计算为例来加以说明。首先,对CLC 中“G252.6 参考咨询”类目的书目记录进行样本训练。由书目记录可以计算得到:再对LCC 中的“Z711-711.95 Public Services.Reference Services”类目进行分类,同样可以计算得到:同理,可以计算得出的值。由于本例中CLC与LCC下的书目记录个数是相同的,故N(U1)=N(U2),计算得出的值是相同的。最后,根据前文提及的相关公式,计算得到Sim(A,B)的值:
同理,可计算出其他类目之间的相似度,见表3和表4(按从高到低进行排序)。
从表3和表4看出,相似度的值存在两极分化现象。在表3中,类目“G252.6参考咨询”与类目“Z711-711.95 Public Services.Reference Services”之间相似度的值要明显高于类目“G252.6”与其他LCC类目之间相似度的值;在表4中,类目“Z711-711.95”与类目“G252.6”及类目“G252”之间相似度的值要明显高于类目“Z711-711.95”与其他CLC类目之间相似度的值。因此,LCC中的类目“Z711-711.95”,可与CLC中的类目“G252.6”和“G252”进行映射,并形成一对多的映射关系。从直接映射角度来看,LCC中的“Z711-711.95 Public Services.Reference Services”类目的类目名为组合类目,可将其翻译为“公共服务和参考咨询服务”,它可以与CLC中的“G252.6 参考咨询”类目和“G252 信息资源服务”类目确定映射关系。通过比较“Z711-711.95”类目与“G252.0”类目、“G252.1”类目、“G252.6”类目之间的相似度大小,就可以发现相邻同位类类目之间的相似度存在着明显的区分度。因此,上述基于书目记录来实现类目同现映射的方法是可行的,也与直接映射的结果关联起来,映射效果较好。
表3 CLC“参考咨询”类目与LCC部分类目间的相似度
表4 LCC“Public Services.Reference Services”类目与CLC部分类目间的相似度
虽然相似度的值存在着明显的两极分化现象,区分度较大,但是计算得出的相似度的值并不高。其主要原因有以下3 点:(1)正如上文所述,CLC与LCC类目结构的差异性较大,所以在书目记录中,同属于CLC 类目与LCC 类目的书目记录数量与属于CLC 类目但不属于LCC 类目(或者不属于CLC类目但属于LCC类目)相比,相对较少;(2)类目间存在一对多的映射情况,LCC的类目名经常由多个词组成,导致其映射到CLC的类目上时,种类较多;(3)书目记录中存在一些分类不合理的书目记录,例如,将关于图情领域的国外书籍直接分到“G259 世界各国图书馆事业、信息事业”类目下,并未对其按内容进行分类,尽管这批书目记录数量较小,但也在一定程度上影响了相似度的计算。
3.2 基于书目记录的类目同现映射方法的结果分析
采用上述方法对CLC 与LCC 中图情领域的类目进行同现映射,最终得到的部分同现映射结果(存在一对多的情况)如表5所示。
从表5看出,映射结果存在一部分一对多的映射情况。从实验结果分析可知,LCC 中的“Z711-711.95 Public Services.Reference Services”类目与CLC中的“G252信息资源服务”“G252.6 参考咨询”类目的相似度较高,且与其他CLC类目的相似度存在明显的区分,所以判定其为一对多的映射关系。从类目名称分析,LCC中的“Z711-711.95 Public Services.Reference Services”类目是由多个词组成的组合类目,所以极有可能是一对多的映射关系,这与实验结果符合。但也存在实验结果与类目名称分析结果不相符的情况,例如,“G255.72 微缩资料”从类目名称分析结果上看,应与“Z691-692 Special Classes of Materials Including Manuscripts,Maps,Microforms,Serials”类目产生映射,但从实验结果看并没有(见表5),原因是“G255.72 微缩资料”的书目记录仅有4 条,相似度较小。所以,判断一对多的映射结果时,除了依据相似度的大小,也应对类目名称进行分析,尤其要注意由多个词组成的组合类目。
表5 CLC与LCC中图情领域类目同现映射的结果(部分)
如果从类目名称进行分析,并且采用人工翻译方法来完成直接映射,则其结果与表5所示的同现映射结果相差不大。但是,其中的少部分映射结果会存在以下3种不足:第一,部分类目无映射,其主要原因是该类目下书目记录数较少。例如,表5中的“Z662-664”类目下书目记录数仅为8条;第二,部分类目映射不全,其主要原因是该类目下的书目记录分布不均匀。例如,表5中的“Z691-692”类目,该类目下与“G255.75”类目相关联的类目较多,而与“G255.72”类目相关联的类目较少;第三,部分类目映射存在错误,主要是因为国内图书馆在对国外图书进行分类时,本身就存在着错误分类的情况。
综上所述,从本次实验的整体情况来看,基于书目记录的类目同现映射方法可以为实现CLC与LCC之间的互操作提供依据,还会对实现分类法之间的自动映射有所帮助。但是,需要特别注意的是,同现映射结果的好坏会严重依赖于书目记录的数量和质量。
4 结论
鉴于CLC与LCC这两部分类法在分类角度、整体结构等方面存在着明显的差异性,所以国内鲜有研究CLC 与LCC 之间的映射。笔者在本文中提出了一种基于书目记录的类目同现映射方法,从而实现了CLC 与LCC 之间的类目映射。与直接映射法相比较,笔者提出的方法不仅更加节约人工判断所引发的成本,而且映射效果相对更好一些,可供CLC 与LCC 之间互操作的实现参考借鉴。同时,需要特别注意的是,该方法仍然存在两个不足:第一,该方法依赖于书目记录。书目记录越多,则类目映射的效果就会越好;第二,该方法忽略了类目之间本身可能存在的语义关系,仅通过相似度来定义映射关系,显得比较片面。因此,笔者下一步的研究打算从类目的语义层面、功用层面、书目记录等其他多个角度出发,综合考虑类目之间的映射关系,最终建立起更加合理、更加完善的类目映射规则。