APP下载

语义网环境下书目信息资源的组织——实践方法与发展方向探讨

2015-12-15郭哲敏中国社会科学院图书馆北京100732

图书馆理论与实践 2015年9期

●郭哲敏(中国社会科学院图书馆,北京 100732)



语义网环境下书目信息资源的组织
——实践方法与发展方向探讨

●郭哲敏(中国社会科学院图书馆,北京100732)

[关键词]语义网;关联数据;资源描述框架;资源描述与检索

[摘要]在“语义”为互联网发展主要特征的时代背景下,图书馆的书目数据资源的组织面临着挑战,也迎来了机遇。图书馆凭借其丰富的书目数据资源,通过URI,RDF等互联网发展技术将其数据结构化并借助于资源描述标准RDA将其融入到互联网发展的大环境里去,是实现书目数据大发展、大融合,促进图书产业链发展,提高数据使用效率与准确性的良好途径。文章从实践角度探讨了语义网的时代背景下,图书馆书目数据资源组织的方法与途径,并对未来的发展方向做出展望和分析。

1 Web 3.0 时代互联网发展的时代特征与技术基础

迄今为止,互联网走过了三个具有鲜明特征的发展阶段。Web 1.0时代的特点是“单向交流”,主要指从网络到人的单向信息传输;Web 2.0时代强调“互动交流”,其显著特点在于交流和用户参与,是以网络为沟通媒介的人与人之间的交流;Web 3.0时代则聚焦于“语义”,主要是指从人到网络再到人的交流过程,通过人工智能、关联数据和语义网络的构建等技术实现。

万维网的发明者Tim Burners Lee认为web 3.0时代所有资源被赋予唯一标识,并在资源之间建立起机器可处理的各类语义联系。他指出,元数据是语义描述的基础,因而也是语义网的语义基础。[1]

语义网的主要特征体现在以下几个方面:(1)语义网环境下机器可以理解数据并能够对其进行相应的处理;(2)语义网是基于实体关系和结构化数据的网络;(3)语义网是链接数据的网络。语义网发展之前的互联网,可以说是链接文件的网络,在检索关键词时会产生一堆的HTML文档,跟踪其链接则会转到其它的HTML文档上。语义网环境下书目信息资源的的检索,我们能够得到与一个主题相关的所有信息,甚至包括检索内容中没有涉及到的关键词。比如,搜索“Bill Clinton”,能够找到克林顿的妻子、女儿、学校、朋友的信息,还包括他的演讲稿和作品等。这些关于克林顿的信息,并不是预编好的HTML网页,而是不同来源基于实体关系的数据整合。这种信息检索是在语义网环境下的结构化和关联数据的基础上进行的。

语义网的核心标准和技术主要有:统一资源标识符(UniformResourceIdentifier,URI)、资源描述框架(ResourceDescriptionFramework,RDF)、主题本体(subject ontology)和词汇表(vocabularies)。除此之外,网络本体语言(web ontology language,OWL)、SparSQL协议(Simple Protocol and RDF Query Language,SPARSQL)和简单知识组织系统(Simple Knowledge Organization System,SKOS)也是语义网重要的标准和技术。

统一资源标识符(URI)是对文档、图片、视频、文摘对象或人名等进行引用时所定义的唯一标识。例如:“http://id.loc.gov/authorities/subjects/sh2001000147. html”,这是美国国会图书馆对于2011年911恐怖事件的主题标目的URI。资源描述框架(RDF)是网络上数据交换的标准模型。[2]它采用“资源-属性-属性值”的“主谓宾”结构(或称三元组),提供一种框架容器,并通过XML定义了一套形式化的方法,是机器语义理解的结构基础简单知识组织系统(SKOS)是语义网框架下一种简单知识组织描述语言,用于描述分类法、叙词表、主题标题表、术语表、名称规范档等各类结构化受控词表的结构和概念。[3]主题本体和词汇表都是语义网环境下的词汇描述的规范。SparSQL协议是用于RDF上的查询语言。

2 RDA是图书馆书目数据资源通向语义网的第一步

在语义网环境下,URI提供了对资源的唯一的识别定位,但不能展现资源实体之间的相互关系。图书馆数据与散布在网络上的相关数据的链接,有助于改善传统图书馆编目与目录的资源发现功能。与语义网的构建方式类似,RDA也是基于实体关系。因而,也可以说RDA是图书馆书目数据资源通向语义网的第一步。RDA是在IFLA提出的FRBR(Functional Requirements for Bibliographical Records)和FRAD(Functional Requirements for authority data)两个概念模型基础上提出来的。[4]FRBR和FRAD均是组织书目数据的概念模型。FRBR主要是描述作品、表达、载体表现和单件的概念模型。FRAD在此基础上又做了延伸,涵盖包括个人、家族、团体、作品;内容表达、载体表现、单件;概念、物体、事件、地点等的概念模型。[5]

RDA通过实体关系的描述和揭示,将与书目信息相关的不同表达层次的一系列知识信息串联起来,组成语义网络。比如:威廉·莎士比亚是《仲夏夜之梦》的作者,希修斯(Theseus)是此剧中的一个人物角色,而喜波利达(Hippolyta)则是同剧中的另一个人物角色。语义网能够帮助我们理解上述这四者:莎士比亚-作品《仲夏夜之梦》-希修斯-喜波利达之间的关系。在语义网环境下,检索任意词都能够帮助我们找到其他与此有相关关系的词条。

基于FRBR概念模型的框架下,所有资料形式将会被关联起来以供辨识,包括单件层级资料(如资料出处)、载体表现层级资料(如题名、出版信息)、内容表达层级资料(如内容形式,作品内容的语种)、作品层级资料(如作者、主题标目)。

图1 RDA描述信息的关联[6]

国际编目专家芭芭拉·B·蒂利特(Barbara B. Tillett)认为,未来的书目管理系统,书目数据资源通过注册词表和描述资料集得以反复使用,亦即一次建置,所有人共享和维护。文献数据结构可能以RDF三元组(triples)形式呈现,有些包含URI或其他全球资源标识符号,并以样式表(style sheets)呈现。编目员不需要为作品、表现形式、载体呈现、单件分建四条记录,只要清楚著录资料所属层级及其之间关系,系统便会将这些资料加以处理并完美呈现在使用者面前,从而在实现书目相关的文献目录服务与回应参考咨询的问题上发挥更大作用。

RDA的理论框架将给未来的书目管理系统带来更多的机会。对于读者来说,书目之间的结构与关系应该是隐形的,但是读者需要哪些关联信息,都能随时检索调出相应的信息;对于编目员来说,基于各种关联信息各种规范信息链接基础上的书目信息的建设与维护,将使编目工作更为简单和便捷;对于整个数据产业来说,纸本图书书目信息的规范化和大量的纸本图书书目数据与电子书数据的融合,将能够扩大书目数据,规范数据的使用范围,规范网络上数据信息的质量;对于图书的产业链来说,从图书的出版装订,到图书的购买流通,数据共享将会节省更多的人力物力,丰富的数据关联也便于读者在找寻需要的信息时,找到更合适的书,找到更多的电子资源,找到更多类型的资源。要做到这些,首先需要将机器、规范词表、名称等元数据联结起来,达到机器识别的语义层次。除此之外,要将网络上并存的各种形式的电子资源、纸本资源的相关数据统筹整合起来,实现一体化的管理与揭示,才能将语义网环境下书目信息资源充分利用起来,最大地发挥其作用。在RDA框架下,信息对象的内容格式能够被识别。不论是电子书、PDF格式的电子资源、网上课件,还是声音、录像等声像资源,各种形式的电子资源和传统的书目数据在RDA框架下均能够以统一的格式和界面揭示和呈现出来,并能够良好的展示相关资源之间的关系。在未来的关联数据环境下,RDA能够被其他的元数据群组所共享使用。语义网为展现FRBR定义的书目关系提供了精湛的技术支撑;在此基础上,通过构建相互关联的规范数据、建筑元数据之间的关系体系,拓展了书目数据的语义功能。

3 RDA框架下电子资源与传统资源的规范揭示

3.1 RDA框架下电子资源的标识

ISBN是识别不同纸本图书的唯一标识,在图书的采购查重、检索等过程中都是重要的查询工具。国际标准书号管理局(International ISBN Agency)要求电子图书出版者为每一种格式的电子书赋予一个独立的ISBN号。比如:“lit”、“pdf”、“html”、“pdb”等不同格式的电子图书,都要为其单独分配一个ISBN号(见图2)。[7]

图2 不同格式的电子图书ISBN的著录

现在的信息环境下,很多图书馆处于纸本图书与电子图书并存、协调发展的情况,不论是对图书馆的纸本资源与电子资源的统计分析,还是采购查重,都需要对纸本图书和电子图书的ISBN有所区分。一般来说,纸本图书在$a子字段揭示该纸本图书的ISBN号,同时在$z揭示相关的电子资源的ISBN;而电子书在编目时,则在$a字段揭示对应版本的ISBN,相关的纸本图书及其他版本的电子图书的ISBN通过子字段标识符$z标识。

此外,电子资源还需要在300字段、533字段、710字段、776字段和856字段进行信息的补充和完善。电子资源的300字段,在页码前标注电子资源的标识;533字段揭示其电子复制品所在的地址和使用范围;710字段揭示电子资源的创作者;776字段揭示该电子资源对应的印刷资源的ISBN等相关信息。856字段揭示电子资源的链接地址。Ebrary电子图书的856字段,一般揭示两个链接地址。一个是机构内获取资源的链接地址,另外一个是机构外获取资源的链接地址。参考以下示例。

在RDA理论框架下,用文件的内容类型(336字段)、媒介类型(337字段)和载体类型(338字段)来替代了原来的一般资料标识(245字段的$h)。以下以Ebrary电子书为例。

3.2 RDA框架下纸质图书的数据与电子资源的挂接

在RDA框架下,纸本图书若有相对应的电子图书的话,应在其MARC数据的基础上增加其对应的电子资源的地址,以链接同一图书的电子资源和印刷本资源。

纸本书对应的电子资源的揭示方法主要通过增加776字段来实现。776字段标识了其网络版本的作者、书名、出版信息和ISBN号,还有其转换为网络版本的日期标识。

例如:

4 语义网环境下基于关联数据的书目数据资源的组织

关联数据是W3C推荐的在网络上发布、分享和相互联结结构化数据的规范方法,用来发布和链接各种数据、信息和知识。在语义网环境下,关联数据是实现机器识别与知识推送的关键技术。通过关联数据的使用,为图书馆的书目信息、主题规范、人名规范以及图书与期刊的馆藏信息等资源提供连接枢纽,能够使书目数据资源得到更加广泛和更加深层次的利用。

关联数据能够将数据从彼此不连通的数据库中解放出来,通过关联达到数据资源的最大程度的利用、再利用,从而产生新的数据、信息和知识。可以从以下四个角度去理解关联数据:(1)是格式化数据的关联,不是文本的关联;(2)是机器可理解和可处理的数据;(3)是对现有数据的再利用;(4)产生新的资源,然后又被利用、再利用,可无限扩展下去。[8]

从技术上看,关联数据采用RDF(资源描述框架)数据模型,利用URI(统一资源标识符)命名数据实体,在网络上发布实例数据和类数据,从而可以通过HTTP(超文本传输协议)揭示并获取这些数据,同时强调数据间的相互联系以及有益于人和计算机所能理解的语境信息。[9]

图书馆对关联数据的建设和使用,主要体现在书目数据的关联和规范数据的关联。主要有以下特点:(1)可分享(通过URI作为唯一标识,是可信赖的元数据);(2)可无限伸展;(3)永无止境。关联数据没有完成时,任何人都可以从他自己发布的空间添加描述信息;(4)可再利用(各种来源的描述遵循规范化的标准。用户可以对其进行完善、加注等等;(5)国际化。多语种通用,支持多语种的翻译;(6)网上开放;(7)机器可读;(8)格式通用,采用RDF标准(用URI指代名称数据用三段式triples发布),构建关联的RDF。[8]基于FRBR和RDA的MARC记录,是结构化的书目记录,能够使得为书目记录中的每一个描述单元分配一个URI,并通过RDF的三元组结构(主谓宾)来表达每一个对象、属性和关系。

图3 RDF三元组结构展现的著者信息

4.1与书目记录相关的关联数据——以BNB为例

BNB(British National Bibliography linked data)基于英国国家图书馆26万条书目记录,由8000万个三元组组成。BNB包含丰富的链接信息,如VIAF, LCSH,GeoNames和DDC等相关的外部资源。

图4 RDF三元组结构表示著者信息对应的URI

以Inflation in the world economy一书的书目数据为例,这本书有一个唯一的URI标识:http://bnb.data.bl.uk/id/resource/008763682。在互联网环境下输入该地址就可以找到这本书书目数据的具体信息。该书的杜威十进分类法的分类号是332.41,与DDC21的数据相关联。这本书的主题词(Inflation(Finance)--Congresses,monetary policy--Congresses)与LCSH数据关联。作者(Parklin,Michael,1939-,Zis George)与VIAF(虚拟国际规范文档)和BNB规范记录相关联。

4.2规范记录相关的关联数据——VIAF、LC关联数据服务与FAST

(1)VIAF关联数据。虚拟国际规范文档(Virtual International Authority File,VIAF)是一个国际性的规范文档。该项目联合了许多国家图书馆,由OCLC负责运营。项目最初是为连接德意志国家图书馆与美国国会图书馆的规范文档而建的,其目标是连接世界各国的规范文档,使之成为一个统一的虚拟规范文档。[10]该项目的规范记录可在网上免费检索。VIAF不仅包括规范文件的基本类型(如个人名称和团体名称),还包括作品和题名,通过FRBR模型表达。VIAF中的每个条目都分配了URI作为永久链接,使用URI可以唯一标识实体对象及这一数据相关的所有信息。

(2)LC linked data service。美国国会图书馆提供了主题标目和名称规范档的关联数据(网址是http://id.loc.gov/)。在这些关联数据中,为每个词条分配的URI是该词条与其他控制词表相关联的主要途径。同时还提供语义网标准(比如MADS/RDF(Metadata Authority Dscription Schema in RDF)或SKOS(Simple knowledgeOrganization System)的描述数据。

(3)FAST linked data。FAST(Facetd Application of Subject Terminology)是LCSH syntax美国国会图书馆标题语法的简化版本,由美国国会图书馆1998年建立并提供可用于都柏林核心元素集的主题方法工具。FAST也包括WorldCat书目记录中的主题词,FAST提供的信息属于LOD(Linking Open Data)开放的关联数据,因而它对于互联网数据的规范控制和管理是非常有用和有效的。

在我们进行知识获取的过程中,规范词表给我们提供了词条的入口。与此同时,还需要更多的语义信息去理解词条。尤其是名称相同的词条要做进一步的揭示。例如对于个人名称的规范文档,现在的词条包括个人名称,有生卒年的表示,但是关于其他的具体信息仍显不足。在RDA中对著者词条的揭示对其生卒年、职业等信息进行了说明。除此之外,对于研究领域的著者,其研究领域、主要作品等信息也可以进行规范化的揭示,通过规范此表嵌入到自动化系统与OPAC界面中来,实现实时更新。这对于鉴定图书与图书评价也有一定帮助。同时,规范词表与相关主题的知识链接使得OPAC的检索界面具有知识层次,读者获得的不仅仅是简单的书目信息,并还可以获得与此类信息相关的一系列相关主题的信息,实现从基本的书目信息获取到实现深层次的知识挖掘的转变。

5 语义网环境下书目数据建设未来的发展方向

在当前互联网环境下,图书馆用户已不再以访问物理图书馆作为主要的信息来源,而是通过连接到全球的计算机网络寻找信息。与此同时,图书馆将需要做出改变:将图书馆的公共目录从一个独立的数据库的书目记录转换为互联网上高度超链接并可以与信息资源交互的数据集;将图书馆数据集成到图书馆提供用户服务的虚拟工作空间。

针对语义网发展的大趋势,书目数据若要更好地融于语义网的大环境,需要实现以下几点:(1)不同类型、不同格式的元数据间的融合与语义互操作;(2)不同知识单元的资源间的相互无缝链接,使数字图书馆中的各种资源构成一个有机联系的统一整体;(3)无缝链接外部资源,以开放形态为外部所获取。[11]

语义网为改善传统图书馆馆藏书目数据的元数据功能提供了更大的空间。在语义网环境下,RDA理论的不断发展与完善,公开构建的关联数据资源的日趋丰富,让书目数据又重新点燃了希望的生机,也为图书馆人整合数字与传统资源,做好文献信息服务带来更大的信心。

FRBR和语义网是未来图书馆数据建设遵循的正确方向。在语义网环境下,电子资源与纸本资源的融合与规范化格式化揭示,一方面有助于读者实现一体化检索;另一方面,也有助于书目资源的统一再开发;此外,电子资源与纸本资源格式的统一,有助于实现资源的统计与协调。对于图书馆来说,借助于图书馆的自动化系统,将馆藏的数字资源和纸本资源融合起来按照学科、主题等进行细化地统计分析,对于优化馆藏结构、为纸本图书和电子资源的采购提供政策指引,起着非常关键的作用。RDA为电子资源和纸本资源,乃至其他各种形式(视频、图片等)的文献信息资源,提供了一个统一规范化的揭示方法。随着关联数据、规范数据的不断发展和丰富,今后图书馆从事信息组织与编目工作的劳动会越来越轻便。图书馆的数据工作,一方面是规范数据的完善工作,另一方面是“关系”的链接工作。在各种规范数据建立的基础上,工作人员大部分只需将已有的各种规范信息链接联结起来。在图书馆构建的规范数据的基础上,对于网络上的大数据的规范也有一定的作用。书目数据以及图书馆建立的规范数据,具有数据准确、具有较高权威性的特点。在语义网环境下,书目数据格式规范的统一,将会被互联网上更多人群、更多行业使用和利用起来,更好的发挥数据信息的作用。

在语义网环境下,数据的开放性将会越来越得到重视并应用于实践。互联网环境下的“Anyone can say anything about anything”(AAA)原则,同样也适用于语义网环境中的词汇表、元素集和数据集。[12]W3C链接开放数据(Linking Open Data,简称LOD,网址是http://lod-cloud.net)项目提供了关联数据的云图。云图中,中间最大的圆环是开放的关联数据——如DBpedia和BNB(British National Bibliography)。而不开放的数据如DDC(Dewey Decimal Classification)则位于云图的边缘。[13]

目前,图书馆界也为数据的开放做出了各种各样的努力。

(1)RDA为了满足描述语言实现开放性的要求,对编目要求也做了变革。RDA用描述性语言来代替书目标准规范里的各种特殊符号,尽量用直白的语言来描述信息。如使用“pages”、“volume”,而不是使用“p.”“vol.”等代号;使用“approximately”(而不是“ca.”)和“that is”(而不是“i.e.”);使用“unnumbered”而不是将数字置于方括号内。与此同时,RDA中有关角色的词汇,比如著者、编曲者、艺术家等,都通过注册词表的形式公布在网上,所有的RDA资料项目和次级项目、ONIX对内容形式的规定词汇等也均已公布。

(2)规范词表的公开使用。OCLC的术语服务导航服务提供了美国国会图书馆标题表(Libraryof Congress SubjectHeading,LCSH),主题术语的分面应用(Faceted Application of Subject Terminology,FAST)、医学主题标题表(Medical Subject Headings)、小说和喜剧的形式和流派标题表(formandgenreheadingsforfictionanddrama)和图像资料词汇表(Thesaurus for Graphic Materials)等关联数据供图书馆界及其他机构下载需使用。[14]关于个人名称规范的关联数据,可以参考个人名称的虚拟国际规范文档(VIAF),WorldCat身份档网络(WorldCat Identities Network)等。

(3)突破语种障碍,不受语种要求的限制。IFLA提供关于命名空间(Namespace)的研究以供查检所有的FRBR资料项目。Namespace相关的研究报告从version 0.0已经出版到Version 2.0。其2013年8月的最新报告《IFLA:关于RDF格式命名空间的翻译指南》(Guidelines for translations of IFLA namespaces in RDF,version 2.0),[15]通过该指南对RDF从源语言翻译成多种年其他语言进行规范和说明。

6 结语

图书馆丰富的书目数据资源,是图书馆优厚的知识财富。通过URI,RDF等互联网发展技术将其数据结构化并借助于资源描述标准RDA将其融入到互联网发展的大环境里去,并对其进行深层次的语义发掘与语义层次的展示,是实现书目数据大发展、大融合的必然之路。

[参考文献]

[1]刘炜.关于元数据的十万个为什么.上图数字图书馆研究所[EB/OL].[2014-06-05].http://www.libnet.sh.cn/sztsg/fulltext/abc/metaFAQ.pdf.

[2]W3C.Resource Description Framework[EB/OL]. [2014-06-05].http://www.w3.org/RDF/.

[3]Miles A,et al.SKOScore:simpleknowledge organization for the web[C].International Conference on Dublin Coreand MetadataApplications,2005:3-10.

[4]Glenn E Patton.An Introduction to FRAD[EB/OL]. [2014-06-10].http://presentations.ala.org/images/c/c5/Frad_ala_200806_color.pdf.

[5]IFLA Working Group on Functional Requirements and Numbering of Authority Records(FRANAR). Functional Requirements for Authority Data:A Conceptual Model[EB/OL].[2014-06-10]. http://www.ifla. org/files/assets/cataloguing/frad/frad_2013.pdf.

[6]Barbara B Tillett.Looking to the Future with RDA. [EB/OL].[2015-07-6].http://www.loc.gov/today/cyberlc/feature_wdesc.php?rec=4967.

[7]InternationalISBNAgency.E-BooksandISBNs:apositionpaperandactionpointsfromthe International ISBN Agency[EB/OL].[2014-06-05].https://www. bisg.org/docs/isbn_agency.pdf.

[8]Marcia Lei Zeng(曾蕾).探索图书馆文献数据与非图书馆开放关联数据的联结点[EB/OL].[2014-06-10].http://www.lib.ntu.edu.tw/events/2012_new_ service/ppt00.pdf.

[9]王景侠.数据关联与关联数据[J].信息管理,2013(5):15-20.

[10]Rick Bennett,etal.虚拟国际规范文档——连接德国国家图书馆和美国国会图书馆的规范文档[J].国家图书馆学刊,2006(4):87-91.

[11]王薇.基于关联数据的图书馆数字资源语义融合研究[D].南京:南京大学,2013.

[12]IFLA Namespaces Technical Group.Issues of constrained and unconstrained namespaces(working draft)(Version 0.0)[EB/OL].[2014-06-10].http://www.ifla.org/node/5353.

[13]Jung-Ran Park,Lynne CHowarth.New directions in information organization[M].Bingley:Emerald,2013:77.

[14]GordonDunsire,MirnaWiller.Standardlibrarymetadata models and structures for the Semantic Web[J]. Library Hi Tech News,2011,28(3):1-12.

[15]IFLA.Guidelines for translations of IFLA namespaces in RDF[EB/OL].[2014-06-05].http://www.ifla.org/files/assets/classification-and-indexing/namespaces/iflanamespacetranslationguidelines2_0.docx.

[责任编辑]王岗

[收稿日期]2014-12-05

[作者简介]郭哲敏(1984-),女,馆员,研究方向:信息资源组织与信息资源建设。

[文章编号]1005-8214(2015)09-0047-06

[文献标志码]A

[中图分类号]G254.0