中文名称规范文档与VIAF共享问题分析
2018-03-19胡媛
胡媛
关键词:中文名称规范文档;VIAF;共享
摘要:在信息技术不断发展的过程中,我国图书馆对规范控制也从以往的独立模式慢慢转向合作模式。因为不同国家之间的图书馆规范文档在形式方面存在较大差异,因此,实现不同成员库信息资源共享逐渐成为协作规范控制工作的重要内容。文章通过构建中心式模型,对我国不同成员馆数据库中规范文档进行整合,并且探讨了中文名称规范文档与VIAF共享的方式,以期为中文名称规范文档与VIAF共享工作提供一定帮助。
中图分类号:G250文献标识码:A文章编号:1003-1588(2018)02-0111-03
1背景
在互联网技术不断发展的过程中,网络逐渐渗透到人们生活中的各个领域,也使规范文档拥有更为广泛的来源,且规范文档种类不断增加。规范文档储存于各个机构之中,而且各个机构所拥有的资源既存在一定重复,又有一定差别,其所采用的数据组织形式同样存在一定差异,导致大量且分散的异构数据很难得到利用,也在很大程度上影响到名称规范文档的进一步发展。基于用户需求而言,现阶段互联网的现有组织形式无法满足用户逐渐深化的数据需求。在数字化环境下,图书馆的信息资源除了包含大量纸质信息资源,数字信息资源所占的比例不断增加,互联网信息数据的数量呈几何式增长。而对于信息资源急剧增加的问题,各机构应当采取一定的方法,对不同機构相对分散的信息资源进行整合,确保目前名称规范所包含的信息更加丰富,从而可以更加准确地对同名记录加以区分,而且还能对不同的对象所对应的同一资源加以集中,确保用户在信息资源检索过程中能够更加快速、准确以及便捷,有效地提升查全率[1]。不同机构应构建相应的共享机制,可以对相关主题信息资源进行整合处理,从而显著降低冗余信息数量,为用户提供更加清晰和全面的信息结构。
2影响中文名称规范文档与VIAF共享的要素
2.1编目规则
不同机构会结合自身情况编制出相应的编目规则,作为编目过程中的参考标准,各个机构依照制定的相应标准,将相关信息资源通过规范方法完成著录工作。不同编目机构采用的著录规则存在较大差异,而且著录规则相对较多,不同的著录规则之间也存在一定差异。著录规则主要包含AACR2、西文文献著录条例、中文文献编目规则、FRBR、FRAD、ICP及RDA等。现阶段,国际上不同组织与机构之间已开展广泛合作,而且不少组织及机构开始在其所使用的规范文档里添加一些中文字段,极大地促进了中文名称规范文档共享范围的进一步扩大。然而,还有很多地区的编目组织及机构在开展著录工作时采用的规则有所差异,其中包含的中文字段具体位置以及对应功能均有所不同,导致在信息资源共享的过程中存在较大阻碍。对于著录款目工作而言,《中国文献编目规则》将主要的款目全部取消,目前我国目录体系里的一些书名信息、著录信息以及主题信息等还处于分离状态,而且不同款目信息间也不存在主要、次要的区别。但是,在AACR2以及《西文文献著录条例》之中,由于西欧各国存在一些多款目字典式目录,且一直沿袭自己的编目习惯,现在依旧保留了主要款目。在进行著录过程中,AACR2相关要求更为严格,其中替代顺序以及优先级别等均有非常严格的规定,能够确保开展著录工作时更加精准。而由于我国图书版权页面里含有相对多的信息,《中国文献编目规则》把图书的版权页面以及书名页面并列作为编目工作的信息来源,但是没有将二者所对应的优先顺序加以说明。而从表目的具体形式来看,二者均含有主体信息以及附加信息,但是各个国家在进行名称的表达方面有着一定差异,特别是在附加信息之中,更是存在相对大的不同[2]。
2.2数据元素
与名称实体存在一定的关联性,除去名称实体所对应名称之外的一些信息均称为数据元素,FRAD将数据元素认定为名称实体所对应的属性。当记录信息达到相应规模以后,便会产生非常多的同名实体记录,而用户在进行信息检索的过程中就容易产生混淆。在名称主体的标目信息中,数据元素是极其关键的内容,进行信息匹配时一般将其当作名称附加信息,以确保各个名称主体能够被更为准确地区分开来。通常,数据元素包含两种类别,一是性别信息、生卒信息、民族信息及籍贯信息等,二是学科信息、专长信息以及职业信息等,前者属于名称主体所对应的自然属性,而后者属于名称主体所对应的社会属性。现阶段,在进行附加信息的选择过程中不论采取何种方式,都不能构建出统一的标准,但是人们逐渐形成了一个共识,即将生卒信息当作最主要的匹配信息,要是不能获取到生卒信息,或是生卒信息较难确认时,则再考虑采用其他信息作为主要匹配信息[3]。在具体的应用过程中,我国的国家图书馆以及CALIS一般采取加入关键词或者是加入学科信息的方式,对相同人物名称加以区分,如张三(化工)、张三(酒店管理)等。不过,采用这种形式对不同人的名称进行区分的过程中同样会产生两个问题:第一,在选用区分信息的过程中主要受到人为因素影响,而且大部分区分信息都是编目人员通过推断获得的,相关信息表述无法达到非常精确的要求,使相同领域中一些相似的学科极易出现混淆。第二,即使加入区分信息,在一些情况下也无法确定名称主体的具体身份,这样极易导致数目信息发生连接错误的问题,同时还会导致用户在信息检索过程中更加困难。对于相同名称的不同人物进行区分的过程中,数据元素选择是极为重要的,其会在很大程度上影响名称规范文档的质量。不过,现阶段数据元素相关规范依旧存在一定的不足,各机构应当不断加以完善。
3中文名称规范文档与VIAF的共享
VIAF将各个国家权威的文档进行匹配以及连接,同时把不同类型的文档加以分组处理,产生对相同实体进行描述的记录合集,并且将这一合集当作相应实体的权威记录,其中含有该实体存在一定差异性的各种名称信息。现阶段,我国在数据源规范方面拥有一定的基础条件,国家图书馆规范数据库的相关记录在近几年得到了极大的增长,同时能够实现信息的共享,也为中文名称规范文档和VIAF实现数据共享创造了条件。而要想实现和VIAF之间的信息共享,需要对中文名称文档进行规范,构建信息更为全面以及规范的文档数据库。
3.1中文名称规范文档的构建
在中文名称规范工作方面,我国内地和台湾地区还没有建立统一标准。2000年,由国家图书馆、HKCAN、CALIS以及台湾汉学研究中心共同构建了中文名称规范数据库,不过其所应用的具体模式仍然是不同机构独立构建数据库,借助于网络平台实现信息共享,该方式属于较为简便的分布式信息共享模式。不同机构进行信息的收集以及数据库建设已经趋于成熟,但不同机构间的互联性相对较差,具体使用的格式以及规范都有一定差异,仅采取数据匹配的方法容易导致查全率偏低等问题的产生。同时,不同机构在进行信息更新时未能同步完成,所以,当采用分布式信息共享模式时,怎样确保信息成果得到更好地共享还有待进行深入研究。
3.1.1模型构建。由于我国图书馆领域不同机构在进行数据库建设过程中基本上都是独立建库,因此我国需要构建相应的机制,确保不同机构之间可以实现信息共享。目前,中文名称规范数据库能够完成联机查询工作,但在信息交互过程中仍然存在一些问题。笔者采用中心式模型,构建基于客戶机/服务器的多馆中心链接,构建相应的中心数据库,而成员库包含我国各个名称规范库,具体模型见图1。用户在进行信息检索的过程中,得到的结果为不同数据库间的数据整合信息。构建完整且系统的中心数据库,将不同机构中的数据库进行链接,数据信息的描述内容含有简体、繁体、英文以及拼音等不同形式,各个成员库只是从中心库读取相关数据信息,但不能修改中心库的数据信息。当用户需要进行信息检索时,无论采取哪种方式都可以检索到中心数据库包含的信息,确保实现信息资源的共享。而不同成员库可以对机构内部数据库加以修改,并且修改行为可以实时体现在中心库。
3.1.2名称标目以及功能字段。由于各个机构所采用的标目选用规则有所差异,因此,采取更为适宜的标目以及功能字段,可以确保用户在信息检索过程中拥有更高的查全率以及查准率。依照名称规范记录具体状况,同时参照各个机构的名称规范文档,笔者得出完整的名称规范文档应当包含的信息(见图2)。在标目选择过程中,各个机构因为自身的编
目背景以及文化的不同,采用的原则同样有所差异。例如,北京大学图书馆在进行标目的选择过程中,会将《辞海》里所包含的名称当作规范标目优先选用,或是将具有较高权威性的工具书里的翻译姓名当作标目。而香港地区基本上都是根据国外的数据源进行套录,并且在这一过程中尽可能维持源数据不变。因此,在规范标目的选取过程中,各机构要尽可能采用人们知晓的名称作为标目。规范标目包含的内容包括个人名称以及附加成分,其中附加成分通常含有个人生卒信息、性别信息以及民族信息等。由于生卒信息以及性别信息等均为个人的自然属性信息,因此其拥有更高的稳定性以及精确性。在附加信息中,通常采用的附加信息均为个人自然属性信息,如VIAF中鲁迅的个人名称规范标目是“100$alu,Xun,$d1881-1936”。
3.2完成与VIAF的共享
VIAF属于一种虚拟文档,而完整的文档依旧储存于不同成员库中,同时各个成员库之间形成相互链接,一些权威数据经由OAI协定,利用服务器设备在不同的成员库之中抽取相关数据并完成数据的匹配。在构建中文名称规范文档之后,各机构应当接着完成与VIAF的共享工作。VIAF能够为所有的实体分配所对应的ID,如VIAF为李白所分配的ID为108725426,不同文章中的实体利用特定ID进行链接。OCLC提供能够让用户进行下载的数据集合,大部分信息结构属于聚类结构形式,聚类信息集合本质上属于中枢—发散式模型,中心为一个个人名、地名等,采用发散方式与VIAF成员库中对应的概念资源进行链接,在链接时可以利用FOAF(Friend-of-a-Friend)词汇表中的foaf:focus。不同的成员馆都会采用各自的方式对名称实体加以描绘,而且所有的记录均指向VIAF中所包含的唯一的URI。
4结语
在规范控制领域中,中文名称规范控制是极为重要的内容,而只有对我国目前所拥有的名称规范数据进行整合才能确保有效地控制名称规范,才能为中文名称规范文档与VIAF共享提供可靠的基础保障。
参考文献:
[1]陈辰,王璐,郝晓雪,等.语义化人名规范文档建设探索[J].图书馆论坛,2017(10):1-6.
[2]王瑞云,贾君枝.中文个人名称规范记录的实体匹配与聚簇[J].国家图书馆学刊,2017(2):79-86.
[3]崔春,毕强.虚拟国际规范文档(VIAF)项目进展[J].图书情报工作,2014(6):129-134.
(编校:崔萌)