语义化人名规范文档建设研究*
2018-01-28郝晓雪王凯艳王雪峰
陈 辰,王 璐,郝晓雪,王凯艳,王雪峰
0 前言
规范文档的概念在图书馆编目领域由来已久,《新编图书馆学情报学词典》中将规范文档定义为“图书馆编目或者书目记录中所使用的保持标目(姓名、统一题名、丛编题名和主题)一致性的程序”,该程序将规范文档应用于新增文献并将其加入馆藏[1],该定义代表图书馆界对规范文档的一种经典认识。刘炜等[2]认为用具体的做法去定义规范文档,无法抽象规范控制的实质,基于情报检索概念理论,提出规范文档是通过记载概念与概念表达(即语词和符号)之间的关系来建立规范概念空间的过程。概念上的深化认识为语义规范文档的进一步研究奠定了理论基础。
此外,立体化描述模型的出现为人名语义信息表达提供规范。国际图联(IFLA)于1997年推出《书目记录的功能需求》(FRBR)报告,2009年推出《规范数据的功能需求》(FRAD),提出利用实体-关系的概念模型描述书目及规范数据,此模型允许规范记录的多元关系表达。Pedro等[3]则利用FRAD建立和描述不同类型的记录关系,并将其作为结构模型,设计了自动规范控制系统——AUTHORIS。刘炜等[4]认为FRBR第一次将“文献”之外的“人”作为“资源”,“资源”在网上的可标识性决定了它的可规范性,因此可简化网络资源的规范控制问题。郝嘉树[5]指出FRAD扩充了FRBR第二组实体(责任者)的概念模型,利用实体关系模型描述责任者与其他实体的关系,改变了MARC格式扁平化、线性和单一的形式。由此可见,FRBR和FRAD为立体化的描述人的语义信息提供了一种全新方式。
资源描述与检索(RDA),是适应于数字环境下资源著录与检索的全新标准。RDA对“人”的属性和“人”的关系进行规范,不仅提供人的全方位描述信息,还对人的笔名、化名和曾用名等关系进行了说明,它丰富的语义信息和关系描述为科研人员描述体系建设提供思路。RDA注册依语义网和关联数据应用而设计,元素集采用资源描述框架(RDF)注册,意在成为取代MARC格式的元数据标准[6],因此,它的实施将极大地促进语义技术在图书馆的应用。以上概念、模型和标准对于语义规范文档建设思路的形成具有重要影响。
1 传统规范文档的困境
1.1 人工处理的高成本问题
规范文档作为图书馆的特色服务,其建立、维护过程是异常复杂的。针对高成本的现实,图书馆界通过规范文档的共建共享减少人工成本,如美国国会图书馆(LC)牵头的“名称规范合作计划”(NACO)、欧洲的15家机构合作开展的“国际规范资料库合作建制计划”(LEAF)。国内也成立了“中文名称规范联合协调委员会”,以此推动规范文档的共享进程。但是由于不同图书馆依据不同的编目规则及格式进行规范著录,再加上网上信息交换协议等系统技术上的限制,也并不是所有国家和机构都能部署相同水平的技术和人力资源进行合作编目[7],导致规范数据共享的规模和范围有限。利用自动化名称消歧技术进行人名规范也可提高效率,艾森豪威尔图书馆通过贝叶斯相似度模型,利用注释、作品信息、生卒年等信息作为姓名区分依据,建立自动名称规范控制系统[8]。French等利用聚类算法来创建规范文档[9],Galvez等利用有限状态算法进行名称匹配研究[10],杨欣欣等提出一种基于最大最小原则的改进的K-means算法来进行人名消歧[11]。但是计算机自动算法不能完全保证匹配上的正确性,因此还需要人的参与和交互。
1.2 规范控制对象的扩大
当前学术产出成果类型多种多样,如果只是将规范控制对象放在专著作者上,显然不能满足当前的科研管理需求。科研绩效评估、成果管理、人才评价、科研决策等都需要对科研人员进行准确、唯一的识别,需要对科研人员的论文、专利、研究报告、科研数据等多种学术成果类型进行准确、全面汇集。而据OECD Data统计[12],1000名中国大陆人员当中大约有2个人是科研人员。如此多数量的普通科研人员需要进行规范控制,无疑增加了图书馆规范工作的范围和任务。
1.3 应用格式上的限制
MARC格式的规范文档,在图书馆等同质环境下会发挥较好的作用,但是会限制在图书馆之外领域的扩展和应用,导致了资源利用和共享程度很低。那么既能兼容、识别、转换MARC格式数据,又能以更加开放的格式对各类规范数据资源进行描述和编码,以便于其他机构自由参考引用这些规范数据资源,是未来规范数据应用格式的变革方向。图书馆传统规范文档如果不利用信息技术进步取得进展,还一味地模仿目录卡片时代的做法,将使规范控制面临更大的困境[13]。语义网、关联数据的出现,为传统规范文档走出困境带来了契机。
2 语义网环境下的规范控制工作及趋势
2.1 语义网环境下的规范控制工作
刘炜等认为随着语义标准规范的不断完善和发展,尤其是用以表达语义的RDF模式及其扩展(如SKOS、OWL),以及以RDF数据模型为基础的“关联数据”技术等的日益成熟,为网络时代的规范控制提供原生解决方案[14]。OCLC主导开发的基于Schema.org的书目资源描述扩展——Schema书目扩展(Schema BibEx)[15]和由美国国会图书馆开发的BIBFRAME[16]书目数据格式,都在力争成为关联数据化的书目标准,这也无疑会影响未来规范文档的结构与内容。
由OCLC、德国国家图书馆和美国国会图书馆等机构发起[17]的“虚拟国际规范文档”(VIAF)项目,也很快意识到图书馆独有的MARC格式限制了非图书馆机构来获取和使用这些规范数据资源,唯有开发一种更加开放、互动、非排他性的规范控制方案才能走出困境。因此,VIAF记录已发布为RDF关联数据,并且目前已是关联数据云图中的最大的名称规范数据集。此外,大英图书馆、德国国家图书馆等一大批国家图书馆也将其国家书目发布成了关联数据。
作为芬兰FinnONTO基础设施的组成部分,相关学者基于FOAF、Relationship和BIO词汇,使用ULAN中的角色和国籍属性进行描述,定义了一个用RDF/XML格式描述人和组织的本体[18],并在此基础上构建人物和组织机构仓储——ONKI People,为用户提供分面语义和可视化检索,提供人名消歧服务[19]。Kurki等则在ONKI:91-People的基础上,将它的语义化规范数据,重用在语义门户网站上[20]。
FOAF、SKOS、Dublin Core等语义描述词汇出现,它们强大的互联性和简单性使得多数用户和拥有不同技术水平的机构进行管理和创建语义规范文档成为可能。Amed等开发了基于Drupal的自动化规范文档转换软件,它结合Dublin Core、SIOC、SKOS和FOAF等语义词汇,利用关联数据规则将规范数据进行标准化处理[21]。
当科研人员唯一标识符数据以RDF形式表示出来,将会对传统规范控制产生变革性影响,因为它只需要编写一组RDF三元组即可实现规范数据的自动更新。Jane等人还具体以实例形式探讨如何将书目描述和期刊作者标识符之间建立RDF链接,并且指出利用RDF格式将期刊作者连接到多种唯一标识符上的现实也将不远。OCLC的“WorldCat发现服务API”提供RDF形式的书目数据,其中包括实体URIs,这将利于在RDF发现层面实现规范控制[22]。
针对现在同一科研人员拥有多个唯一标识符的现实,Roberts认为挑战是在保持维护每个研究者的多个身份基础上,如何映射、交叉连接不同研究者标识符系统,以及学科或者机构知识库作者的记录,从而构建一个研究者的关联数据名字空间[23]。Hawkins等研究通过利用RDF技术将规范数据进行表示,使得计算机能够更加有效地处理规范数据,从而使得网上更多的用户受益[24]。Violeta Ilik展示了如何利用开源工具——Karma数据集成工具和VIVO,将规范数据表示为RDF格式,突破MARC格式固有的局限和弊端[25]。陈金星等[26]提出利用语义Web技术对责任者各种名称标识进行规范控制的设想。郝嘉树[27-28]等讨论了规范数据的语义描述与开放关联思路。胡小菁[29]认为BIBFRAME2.0中规范类被取消,不代表规范控制重要性的下降,而是资源唯一性的确认始终是关联数据的基础。
2.2 人名规范文档的发展趋势
本文通过梳理传统规范控制研究与语义环境下的规范控制的理论与发展进程,认为现有规范控制研究特点主要体现在如下几方面:从研究对象上看,对图书馆收藏的专著作者的规范多于期刊论文作者、基金申请者等普通科研人员的规范;从研究方法上看,如何利用图书馆编目原则与标准规范的研究多于利用语义关联技术的规范控制研究;从研究成果看,语义规范文档建设研究散见于个别作者论文和研究报告中,缺乏集中的、系统化的研究成果。基于已有的研究成果,本文认为人名规范文档建设研究将呈现如下发展趋势:人名规范文档的应用范围扩大到除图书馆书目控制以外的其他领域;人名规范文档格式从基于MARC格式向基于关联数据化格式方向转变;人名规范文档从数字字典列表式向揭示丰富语义关系的深度发展;人名规范控制从事后组织规范文档到提前分配唯一标识符进行干预的方式转变。
3 语义化人名规范文档含义初探
语义网重要特点是使用统一资源标识符(URI)来识别资源(物理实体和概念),其唯一性可通过使用DNS系统进行保证。其他的资源描述属性以机器可读结构化形式(如RDF语言)进行表示,使用社会公认的共同词汇对事物进行描述[30-31]。
语义规范文档通过将关于人的规范记录转换成基于RDF语义形式的记录,实质是建立有关人的关联数据,这样的规范文档可能将不再有文档的概念,因为原有的字符串将被相关的URLs替换。具有基于全局唯一的URI和相互关联的各类RDF语义信息是其主要的特点。语义规范文档与传统规范文档相比,除能唯一标识人物身份外,还可以作为被其他应用程序进行调用和重用的内容资源库。这些语义规范记录成为网络数据的组成部分,可以被相关内容链接和重用,并可使用标准协议(如SPARQL查询)进行查询。语义规范文档的“语义”除了具有网络可以理解识别的语义描述机制外,还有另一层含义:融入科研管理过程,包括科研机构、科研基金、科研成果、学术论文、科研合作等在内的科研语义信息,通过关联数据机制建立这些科研语义信息间的链接互联,实现整个科研管理过程的语义化管理。
4 构建语义化人名规范文档的主要问题
4.1 人的唯一标识符
关联数据环境下的规范文档,用唯一识别符代替统一标目是一种趋势,理想状态是为每个科研人员建立全球唯一、持久的标识符系统,由唯一标识符连接科研人员的描述数据,并且这些数据使用RDF等语义形式表示。
使用唯一标识符对“人”进行唯一标识,也是目前国际上较为流行的做法。图书馆传统做法是选取“首选名称形式”作为标识,但是不同单位和不同国家因为语言文化背景不同,可能选择不同的“首选名称形式”,那么同一人可能具有不同的首选名称形式,所以在进行信息资源集成时面临匹配上的困难。虽然VIAF通过匹配算法将同一实体不同规范文档进行聚合,但也不能保证完全的精确。此外,首选名称形式可能由于编目规则的变化或其他原因发生改变,如果与书目系统相关联,数据的更新问题也非常棘手。因此,使用唯一标识符取代“首选名称形式”作为人的网络标识是未来趋势。人的唯一标识符是“人”的描述,而不是“名称”的替代。人的唯一标识符便于聚合和跟踪科研人员的各类科研信息。Bibframe规范类的取消正是考虑到该情况。
目前已有各种人的唯一标识符出现,Swan[32]按标识符的来源和范围,将作者标识符系统划分为5类,分别是相关标准的国际性行动和项目(如ORCID、ISNI、VIAF和OpenID)、国家层面的标识符(如荷兰的DAI和巴西的Lattes Platform)、出版商专用的标识符(如Scopus ID和Researcher ID)、基于学术的或者项目(如arXiv公共作者标识符)、图书馆系统或者专用信息系统(如 CSHL Authority Name Ontology)。
Smith-Yoshimura等[33]指出,如此多的人员标识符系统,同一人员在网络环境下会不可避免的拥有多个IDs,造成唯一标识符的“不唯一”,因此如何对当前人的唯一标识符进行规范控制,对人员的信息进行有效集成,是语义规范文档建设面临的主要问题。
当前国际上还没有一个全球性的通用唯一标识符解决方案,但是包括图书馆在内的信息服务组织已经意识到唯一标识符“各自为政”的现象给信息集成带来的巨大障碍,于是出现了ORCID、ISNI等国际性合作项目与标准规范,甚至有人[34]指出由于OCLC管理和参与VIAF、ISNI、WorldCat Identities、Cooperative Identities Hub等多个名称标识符项目,因此最有可能成为全球性的唯一标识符分配和管理系统。OCLC与康奈尔大学、哈佛大学等7所机构进行的“人物实体查询试点项目”即是研究如何将表示同一人物实体的标识符项目进行映射互联[35]。
而本文认为,即使未来出现全球性的“权威的”责任者唯一标识符,也不是一种唯一标识符系统一统天下,而应该是多种唯一标识符共存且互联的局面。这就需要进行标识符系统的集成或者互操作研究,通过不同标识符系统的连接和映射,保持和维护每个研究者的多个身份,通过建立集中仓储,分配“超标识”作为URI,并作为连接各类标识符系统的统一的关联数据名称空间。
4.2 人的附加描述属性(数据元素)
不管“首选名称形式”还是“唯一标识号”,都不能进行人名上的识别,需要人的描述属性及其他信息对人进行进一步区分。该问题对应于规范文档中标目附加信息的选择问题。贾君枝等[36]指出,附加属性的选择是区分人物的关键因素,但是人的附加属性仍然存在不规范性,需进一步进行研究。国际上普遍认为生卒年信息是区分同名作者的有效做法,但是从用户的角度看,并不是一种理想方式,因为用户并不清楚人员生死的确切年份,尤其是对于非名人的普通人员而言。关于人名识别,国家图书馆使用学科领域进行区别,但是由于学科著录的不规范,给人名识别造成进一步的混乱和困难。曹宁[37]将人的属性分为自然属性和社会属性,附加成分的选择应该在同时考虑编目员和用户需求基础上,进行社会属性和自然属性的合理权衡。
关于人的附加描述信息,本文认为在语义规范文档中由于人的唯一标识符的普遍使用,名称规范甚至不具有区分功能,而是转移为以人为中心的语义关系的揭示,并以此为基础提供各种资源聚合服务。对于何种属性能够唯一识别,或者哪种属性对于唯一识别人所起作用的大小问题,显得不太重要,重要的是要具备哪些关键的基本描述属性,用以在各个人名系统之间的互联提供匹配参考。
4.3 人的语义描述规范
构建网络环境下的人员信息描述规范,制定语义描述标准,是解决人名规范控制的基本思路。当前环境下,科研人员语义描述标准既可以是本体,也可以是元数据标准,因为本体和元数据标准没有明确的界限,本体简单化为关联数据,元数据标准语义化成为关联数据。它们都是结构化的词汇,用以明确定义某一概念或者概念之间的关系,且作为“语义层”来传达数据的含义。Fenner等认为现在阻碍关联数据在学术领域推行的主要障碍是缺少这样的语义描述规范,或者对现有的语义描述规范普及应用的较少[38]。
科研人员作为科研管理过程中的一种角色,在对人进行科研规范的同时,离不开科研管理过程的控制。欧洲研究项目公用信息格式(CERIF)[39]作为科研信息领域的行业标准,通过两个补充资源:CERIF本体和CERIF语义词汇逐步开放为关联数据。CERIF实体框架围绕“人”“组织单元”“项目”三个实体单位展开,分别用foaf:person,foaf:organization和foaf:project表示。
研究管理信息联盟推进标准(CASRAI)[40]的数据字典(未公布为正式机读本体)也可映射到CERIF规范中,它目前包括1765个术语,121个对象、1036个属性,10个属性值列表。另外,还有两个和CERIF兼容的OWL-2语言编码的本体项目,SCoRO[41]和FRAPO[42],前者是关于“学术贡献和作用”的关联数据,后者是关于“资助者,研究管理和项目本体”。
利用语义网技术搭建的科研人员学术交流网络——VIVO,以及语义网上用于描述人及其相关属性的词汇语义规范——FOAF,都是当前有关科研人员语义规范控制标准,这些词汇或者标准支持网络环境下不同字段间的语义连接,它们不是孤立存在,而是相互复用、兼容的关系。RDA注册将其中涉及“人”这一实体的元素和概念等,以关联数据(RDF)的形式进行发布,作为丰富的语义信息描述集和规范的语义形式化表达,可以成为关联数据环境下科研人员语义描述规范。
关于人的语义描述,要尽量复用和扩展已有的词汇规范,这些词汇规范是以关联数据形式存在的受控词表,如VIVO、FOAF、CASRAI、vCard,并且在网络环境下进行了语义标识,复用其语义信息作为信息交换的协议,不仅能支持不同系统中相关词汇的语义链接,解决不同系统的互操作,而且还可以使得数据的更新变得简单有效,这样使得生成可控可管的规范记录成为可能。此外,根据实际需要,还可以扩展一些私有的属性来更好地满足特殊描述需要。
5 结语
现实中存在着重名和一人多名等现象,给信息著录、信息检索、人才评价、成果管理、科研决策等工作带来严重困扰。当前网络环境的开放性、共享性和语义互联性等特征,需要我们重新审视科研人员规范文档本质和功能,要求它不仅能够唯一识别科研人员,还能多视角、综合性支撑对人员管理过程,因此,比图书馆传统规范提出了更高地要求。语义规范文档符合网络环境下的人名规范控制需求,是未来规范文档的发展趋势。当前,语义规范文档的实现途径即为关联数据化的规范文档,其中,人的唯一标识符互操作、合理选择人的附加描述属性以及有效复用当前的语义描述规范是构建语义规范文档面临的主要问题,也是需要进一步深入研究的问题。