Web2.0环境下的自规范及其对个人名称规范维护工作的启示
2016-10-09郝嘉树
郝嘉树
Web2.0环境下的自规范及其对个人名称规范维护工作的启示
郝嘉树
我国名称规范维护工作存在着困扰,基于其产生的原因,通过研究自规范相关应用ORCID、FOAF和Wikipedia得到启发:或许可以基于自规范改进个人名称规范维护模式、利用开放语义资源丰富个人名称规范数据并拓展名称规范数据的功能。表1。参考文献8。
自规范ORCIDFOAF名称规范维护模式RDF数据
1 引言
我国个人名称规范数据存在标目形式多样、不完整数据量大和重名等问题,这给编目员在维护和挂接规范数据时选择和甄别标目带来较大障碍,需要人工逐条分析、比对和辨别。个人名称规范的维护和控制工作,消耗了编目员较多的时间和精力,而其发挥的作用却很有限,形成了较大的反差。
造成以上问题主要有两方面原因。一是完全由编目员承担名称规范数据的维护工作。在海量数据、难以获得相关信息和不了解作者的情况下,完全由编目员承担数据的维护工作,出现规范记录不完整、张冠李戴等现象难以避免。因此,探索新的名称规范维护模式是关键所在。二是规范数据所选取的信息主要来自于受编文献、网络、工具书、期刊、电话、邮件和交友软件等。其中,电话和邮件是主动式获取渠道,能根据数据需要向著者取得指定信息,但是费时费力,沟通成本比较高;其它信息源大多是被动式获取渠道,可获取的内容完全取决于信息源的非规范性提供,容易导致信息缺失。因此,寻找低成本高效率的信息获取方式是另一关键所在。
然而,目前我国的应对策略主要是通过完善规范格式和制定编目规则来提升数据质量,尝试联合多机构通力解决数据的共享和重用。这些做法在一定程度上能控制数据质量和扩大数据规模,但作用十分有限。因此,我们需要借助现代化的技术和模式来寻求高效的信息获取方式以提升数据质量,改变工作模式以提高数据维护的效率,从而真正发挥名称规范区分、汇聚等功能。Web2.0技术注重用户的交互行为,用户在Web2.0网络环境中广泛参与内容生产、信息组织、数据交流与共享,甚至提供相关服务,并催生了分众分类法、博客、简易信息聚合(Really Simple Syndication,RSS)等新的方法和媒介。因此,我们或许可以借助Web2.0的机制、特性和优势,通过著者用户的参与来解决当前名称规范维护中的问题和困扰。
2 基于Web2.0的自规范机制
Web2.0的兴起和应用创造了全新的信息空间。它把复杂的技术移至后台,将互联网的主导权交给个人,仅有简单规则的约束,从而充分调动了用户的积极性,使其广泛参与内容的生产、信息的组织、数据的交流与共享,甚至提供相关的服务,如博客、简易信息聚合和社会网络服务(Social Network Service,SNS)等。Web2.0的出现衍生了相关应用,如原传统的分类法和主题词表由专门机构组织构建和维护,Web2.0环境下的自组织(self-Organization)则由网络用户自发生成分类体系和标签词,像Social Tagging(社会化标签)和Wikipedia(维基百科)分类体系。在名称规范中,Web2.0环境下出现了个人科研管理、个人展示等应用及平台,它们有明确的目标和应用边界。在其运行过程中,由著者用户自发地在相关平台中进行个人的描述,完成对个人名称及其他相关信息的生成和完善;同时,网络社会中的其他用户又对其进行识别、认证和完善,这种行为模式是随机和分散进行的,但又协同地实现了对同一个人名称的规范。相较于传统的名称规范由编目人员构建和维护, Web2.0环境下的自规范则由著者用户对个人名称进行唯一标识,并揭示和完善人的事实信息及其相关的社会网络,典型应用有ORCID(Open Researcher and Contributor Identifier,开放研究者和贡献者标识符)、FOAF(Friend-of-a-Friend,朋友的朋友)、Wikipedia和Pubmed Author ID(Pubmed数据库作者标识符)等。因此,本文将Web2.0环境下无需外界指令,由著者用户自发、分散和协同地实现个人名称及其他相关信息的生成和完善,以及不同人辨识的过程称为自规范。
基于Web2.0技术的平台搭建了良好的技术框架,架构中蕴含支持自规范的机制和功能,如ORCID和Scopus Author ID(斯高帕斯数据库作者标识符)等自动为个人分配唯一标识符;并制定运行规则约束众多参与者的行为以保证内容的真实性和准确性,如Wikipedia为用户制定建设Wiki站点的规则,记录和封存破坏者的IP等;另外,Web2.0内嵌模板圈定了用户对人描述和揭示的内容,如FOAF和CNO(CSHL Name Ontology,冷泉港实验室姓名本体)用事先定义好的属性或模板对人物的描述进行约束。
通过自规范生成的内容客观性强。由著者用户创建的本人信息是一种“自我申明”,是作者和科研产出者对自我的真实反映。排除恶意欺诈,该种模式下申明的内容是客观的。例如,FOAF的目标之一是寻找兴趣相同的人或合作伙伴,因此创建的内容“天然”准确。除此之外,创建的内容在Web2.0技术支持下由网络用户协同纠错和认证,从而实现自规范。如用户编辑Wiki条目,通过Wiki平台进行信息的生成、整合、组织与纠正,最终形成在线大型百科全书,其正确性同《大英百科全书》不相上下[1]。
3 自规范相关应用
3.1ORCID
ORCID作为作者标识符(Author Identifier)的一种,用以解决出版界和其他系统中作者姓名混淆和识别问题[2]。它源自汤姆森路透集团和自然出版集团2009年在英国剑桥召开的第一次名称标识符高峰会议,用以消除作者名字歧义相关问题,后得到广泛关注。并于2010年正式成立ORCID组织,2012年开始提供服务,我国也于2014年由中国科学院文献情报中心创建推出iAuthor实现中国科研产出者和ORCID的对接。近年来,作者标识符得到快速发展,如arXiv、Pubmed、Elsevier和Google Scholar Citation等都开发了各自的ID,这种只局限在某一范围或系统内的做法削弱了作者标识符辨识度。ORCID除了通过注册平台为作者提供唯一标识,还在兼容性和互操作方面进行尝试,建立与各系统作者标识符的关联,同时免费向全球学术界开放并提供服务,不受国家和语言限制,这种扩大使用范围的做法才能起到辨识不同作者的作用。
ORCID是一种自下而上、由著者用户主导的自规范模式。同VIAF、ISNI等自上而下发起、由专业人员和系统集中构建的模式相比,ORCID则是由著者用户自己生成和完善个人的相关信息,辨识同名异人和同人异名,最终完成著者名称的规范。此外,ORCID还进行真实性认证,即通过社会化网络中的人员和机构等对个人身份进行识别、确认和完善。该行为由不同用户分散、协同地完成著者名称的规范,也属于用户自规范的一种。
ORCID自规范后分配由16位码组成的标识符。与名称标识相比,ORCID的标识符可解决由重名、别名、翻译、更名等造成的作者名称歧义问题; 同时,真实性认证使得ORCID平台包含的姓名、所在机构、发表文献情况、研究兴趣、教育程度、工作单位和开展项目等信息,可用来完善名称规范数据附加成分、单纯参照和信息附注,提高个人名称规范数据质量。
3.2FOAF
FOAF是网络用户用已定义好的RDF(Resource Description Framework,资源描述框架)词汇表形式化的描述“自我”及相关的社会网络,其本质为描述个人的简单本体。它由Dan Brickley和Libby Miller于2000年创建,遵循W3C体系,最初只描述个人,后扩展到各类群体,如机构和地点。FOAF描述词汇历经10次更新,最后于2014年确定下来不再更改[3]。
FOAF是Web2.0环境下自规范的典型应用。由于名称规范制作中各信息源的局限性,有关人的信息获取并不容易,FOAF通过UGC(User Generated Content,用户创造内容)形式挖掘存在人头脑里的有关人的事实信息,通过相关服务的开发吸引用户自己创建或制作有关个人的数据;而用户出于自身目的(如寻找类似项目的合作人和兴趣相同的人等)利用FOAF事先定义好的属性约束进行个人描述,创建的内容“天然”客观和规范。
FOAF文档可被计算机读取、理解,一经发布便可进行搜索和处理。FOAF用RDF Schema定义的词汇(标签)来描述个人及其相关属性(信息项),形成FOAF文档,同时计算机通过这些词汇理解和处理FOAF文档。在揭示个人属性的词汇中,用foaf:mbox即邮箱作为识别个人的URI(Uniform Resource Identifier,统一资源标识符)[4];使用foaf:knows表示认识的朋友,通过该标签可以很容易把相关人员和实体关联起来形成社会网络,从而丰富个人规范数据相关参照;另外,FOAF还揭示出个人兴趣爱好、性格特征、工作信息及计划、相关网址等信息,可帮助完善名称规范数据。
3.3Wikipedia
Wikipedia是基于Wiki技术由大众自由创建编辑的网络百科全书,其中包含了大量个人条目,有网络用户发布的各领域贡献者、名人和公众人物等,也有为自己创建的条目。
Wikipedia基于Web2.0平台中用户的协同进行自规范。网络用户可自由在Wikipedia平台创建和修改人物条目,同时用户之间还可以通过作用于Wiki平台间接协同地整合和交互信息,从而避免了由少数人集中构建人物条目的弊端。由网络用户创建内容的形式生成了大量的人物条目,同时条目的准确性会被其他网络用户维护,这种无意识的分散协作增强了Wikipedia的客观性,最终使其正确性同《大英百科全书》不相上下。
Wikipedia中包含的结构和语法为计算机自动收割信息提供便利。Wikipedia有自发形成的分类体系,可用来帮助提取人物类条目;该百科为各类实体定义了模板,可高效地为维基条目添加各类信息。其中信息盒以结构化表单的形式对某一类实体的公共属性进行描述,这种结构化格式便于计算机程序自动抽取出有用的知识和信息。如人物的信息盒中包含了其他名字、性别、职业、生卒年等信息[5],可用来补充名称规范信息。Wikipedia允许添加超级链接,使维基条目包含了相关、引用语义关系,可帮助构建名称规范数据的相关参照。
4 自规范对个人名称规范维护工作的启示
4.1基于自规范改进个人名称规范数据维护模式
针对难以获得相关信息和不了解作者的事实,我们或许可以借鉴Web2.0环境下自规范的相关应用,使用UGC进行个人名称规范的维护工作。自规范应该规避难以让用户理解的MARC格式,以网络平台界面的形式,通过著者参与挖掘其头脑里有关人的事实信息来新建、修改和补充个人记录的模式来维护个人名称规范数据。
(1)构建自规范平台
新建平台还是与已有系统进行合作,是开展自规范工作模式首先需要论证和探讨的问题。新建平台可以获得第一手资源,并可根据自身业务及战略需要设计、调整平台信息架构。除需资金和人力支持外,新建平台最大的难题在于自身的影响力和用户参与的驱动力。如果只从维护数据的角度考虑,难以提高用户粘性,除非有行政约束。与已有系统开展合作,可以借助其影响力实现预期目标,并节省资金和人力;但由于其目标和应用边界的限定,未必能满足名称规范维护单位数据维护的需要,并存在支付费用或开放、共享数据等问题。维护单位需要根据自身资源情况和各方面条件,选择开展自规范方式。
对于新建平台,在系统业务运行方面要设计基于Web2.0技术并面向作者的友好型界面,对已有的名称规范记录采用真实性认证,通过自我或社会化认证实现规范记录的识别、确认和完善;若没有著者用户对应的名称规范记录,可根据系统内嵌模板完成记录新建。在用户参与的驱动力方面,一是要为作者提供有用服务来增强粘性,例如方便个人科研管理,发现合作者等;二是通过技术手段和友好型设计降低用户参与的复杂度,如同名规范数据的显示要便于用户辨识,尽量采取客观形式填写内容。另外,与出版界、科研机构、学术界等开展合作。这些机构团体都存在对科研产出者准确识别、名称消歧、作者与出版物精确关联的需要,利用这些切合点带动更多的科研产出者参与个人名称规范数据的自规范。
对于与已有系统的合作,要衡量合作系统的应用边界能否实现对名称规范数据维护的需要,如不能满足要提出数据和功能等方面的相关需求与系统方进行协商;要尽量选择影响力大、参与用户多的系统,有利于提高与名称规范数据的匹配率;同时,要了解合作系统的条件和要求,权衡交换条件及对自身的影响,从而选择合适的合作对象。
(2)作者唯一标识符
现行的名称规范记录中,标目通过附加成分加以区分,以生卒年为首选,生卒年相同的情况下再从活动领域、职业、性别、国别等中选其一进行区分,这就会导致标目形式的不统一。由此,在对同名作者进行名称规范维护和挂接时,需要人工逐条查看、分析比对和辨别同名规范档,花费编目员大量时间和精力。
针对以上情况,借鉴ORCID、FOAF等自规范应用,个人名称规范可以采用唯一标识符区分不同作者。使用唯一标识符精准确认资源对象是目前国际常用的做法,如广泛应用于文献领域的数字对象唯一标识DOI、统一资源标识符URI、国际标准书号ISBN等。名称规范记录中虽然有规范记录号,但是该号码只局限在本系统内,不具通用性。采用国际通用的有关人的唯一标识,有助于精确识别作者,若能在个人名称规范中广泛推广和使用,便能大幅提高维护和挂接规范数据的效率。随着作者唯一标识符的普遍使用,名称规范甚至不需具有区分功能,而是转移为以人为中心的资源组织、聚合和相关服务的提供。
4.2利用开放语义资源丰富个人名称规范数据
公开发布的个人RDF数据,如FOAF、SKOS(Simple Knowledge Organization System,简单知识组织系统)、VIAF(RDF/XML)、CNO等,可用于自动发现和收割个人语义信息,丰富本地名称规范数据。FOAF是使用较广的RDF词表,德国PND(个人名称规范文档)和VIAF(Virtual International Authority File,国际虚拟规范文档)等都使用FOAF进行语义化描述,下面即以FOAF为例介绍如何自动发现和收割个人RDF数据。
(1)RDF数据的自动发现
RDF具有开放性和互联性,实体经RDF描述、发布后可被计算机检索,并且可将网络上离散的数据片段自动关联起来发现新内容。在FOAF中,一方面通过foaf:mbox自动整合个人相关信息,即通过URI辨别同名异人,聚合同人异名,并将网络中同一URI揭示的任何信息根据FOAF标签聚合到一起;另一方面,通过foaf:knows与foaf:mbox的结合发现个人的社会网络,foaf:knows将嵌套在其下描述的人(foaf:mbox)与包含该语义标签的人(foaf:mbox)关联,最终形成个人社会网络。
(2)RDF数据的收割
RDF数据具有语义,计算机可以解析其含义,通过语义标签可定向准确找到相关信息。因此,只要将个人RDF数据语义标签和规范记录MARC字段建立映射,计算机程序就能自动将RDF数据收割到规范记录对应的字段中去。根据名称规范记录揭示的个人信息项,在FOAF中寻找与之对应的属性,并将属性对应的标签和名称规范MARC字段及子字段建立映射。FOAF属性与个人规范数据CNMARC的映射如表1所示。
表1FOAF属性对应的个人规范数据CNMARC字段及子字段
CNMARC字段解释FOAF词汇说明重复与否091$aFOAF$bURI开放数据类型FOAF及URIfoaf:mbox或foaf:mbox_sha1sum方便数据定期维护可重复091$aSKOS$bURI与FOAF对应的SKOS及URIfoaf:focus与SKOS搭配使用,帮助指明不同SKOS体系中的个人、地点、团体。可重复120$a编码数据字段foaf:gender区分于“200$c职业行业”唯一200$c附加成分foaf:interest职业、行业可重复200$f生卒年foaf:birthday唯一391$a发表著作foaf:publications可重复391$b开展项目foaf:pastProject、foaf:current-Project可重复391$c工作计划foaf:plan可重复392$a性格foaf:myersBriggs、foaf:geekcode可重复392$b博客foaf:weblog可重复392$c人物肖像foaf:image指向图片库可重复393$a工作单位foaf:workplaceHomepage、foaf:workInfoHomepage可重复393$b学校foaf:schoolHomepage可重复400$a单纯参照foaf:name或foaf:lastName+foaf:firstName、foaf:nick、foaf:yahoo-ChatID、foaf:skypeID、foaf:icqChatID其他形式的名字、昵称及网络账号可重复500$a相关参照foaf:knows相关的人与机构可重复810$a参考数据源URI发布的URI地址可重复
我国名称规范格式中,200字段附加成分$c与300字段个人相关信息并没有进行区分。为顺应当下编目主流趋势,适应RDA规则及新修订的UNIMARC规范格式,也方便名称规范库后续开发利用,建议启用和扩展新字段对个人信息进行结构化处理。其中,启用120字段用于区分200字段附加成分性别与职业;因FOAF多个属性与300$a对应,新增391、392、393字段分别著录个人工作与科研情况、兴趣性格和相关团体信息;新增091字段记录对应语义数据的唯一标识,开放数据处于动态变化中,通过唯一标识定期完善数据。
4.3拓展名称规范数据的功能
未来数字社会的信息组织越来越倾向于“以人为中心”的资源组织[6],同时借助Web2.0平台进行自规范还需要增强用户参与的驱动力,如ORCID、FOAF等都在拓展、开发相关的服务或应用。因此,名称规范功能不应只局限在区分和聚集,而应发现和拓展开发多项功能服务。
功能的拓展有赖于名称规范数据中信息的结构化处理。经过结构化处理的名称规范数据,可以为用户提供以科研产出者为中心的科研信息组织和服务,如科研成果目录生成(经名称规范控制的书目)、与其他系统之间进行科研信息的导入导出以及科研计量分析,基于兴趣(200$c、391$a)为作者推荐相关主题书目,通过开展的项目(391$b)发现合作者等。另外,还能帮助资助机构追踪受资方的科研活动和成果产出[7]、帮助科研机构实现对科研人员与科研活动的有效关联和动态化管理[8]等。
自规范的相关应用有其各自的目标和边界,如不对外开放、资源来源和应用对象不同等造成使用局限。另外,语义网的使用还不普及,这会对实际操作带来一定困难。但这些并不妨碍我们继续探索,因为基于Web2.0的自规范可以提高名称规范维护工作的效率,提升名称规范数据质量,甚至可以改变未来名称规范的使命。
1 GILES J. Internet Encyclopaedias Go Head to Head[J]. Nature, 2005, 438(7070):900-901.
2 What is ORCID[EB/OL].[2015-06-18]. http:
//orcid.org/content/initiative.
3 Dan B, Libby M. FOAF Vocabulary Specification 0.99[EB/OL].[2015-05-23]. http://xmlns.com/foaf/spec/1#term_name.
4 Dumbill E.Finding Friends with XML and RDF[EB/OL]. [2015-06-18]. IBM’s XML Watch,2002. http://www-106.ibm.com/developerworks/xml/library/x-foaf.html.
5 Wikipedia’s Contents: People and Self [EB/OL]. [2015-07-02]. http://en.wikipedia.org/wiki/Portal:Contents/People_and_self.
6 Fenner M. Author Identifier Overview[J]. Library Ideas, 2011(18):24-29.
7 Funders[EB/OL].[2015-07-10].http://orcid.org/organizations/funders.
8 Research Organizations[EB/OL].[2015-07-10]. http://orcid.org/organizations/institutions.
(郝嘉树馆员国家图书馆中文采编部)
Self-Authority in Web2.0 Environment and its Implication for the Maintenance of Personal Name Authority
Hao Jiashu
There are problems in the maintenance work of name authority in China. Based on the relevant causes and studying on related applications like ORCID, FOAF and Wikipedia, the paper gets some revelations: improving maintenance mode of name authority by self-authority, using open semantic resources to enrich personal name authority data, and expanding the function of name authority data. 1 tab. 8 refs.
Self-Authority; ORCID; FOAF; Maintenance Model of Name Authority; RDF Data
2015-08-18