APP下载

数字人文环境下异构方志元数据整合策略*

2019-04-16丹,李

图书馆论坛 2019年4期
关键词:方志责任者书目

鲁 丹,李 欣

近几年大规模的古籍整理项目普遍缺乏“互联网思维”,几乎没有考虑借鉴数字人文的思路和方法,没有充分利用信息技术的巨大优势[1]。随着数字人文学科的迅速发展,使得巨量的资料分析、地理空间分析、人员流动轨迹分析成为可能,对方志、家谱、正史等带来了新的研究视角,对其数字化、深度挖掘的需求越来越迫切。数字人文环境下,图书馆必须依托资源优势,将文本挖掘、地理信息系统、关联技术、文本可视化等数字技术应用于特色资源库建设,实现特色资源的进一步开发与利用[2]。方志资源作为特色资源也要受到应有的重视,例如现有方志研究发现系统在切合方志资源特性的资源检索与发现功能上仍有改进空间,如切合方志的地域性,现有的地域浏览是基于文字的地域名链接浏览,若能利用GIS 技术提供可视化地图浏览,资源分布会更加直观,有助于读者快速发现方志资源;在切合方志时代性上,现有的方志朝代划分过于粗略,粒度只能到朝代,若能细分到年号,则能提供更加准确的检索[3]。因此,整合异构的方志元数据,提供一站式服务,通过异构方志元数据的融合、聚类和重组,使方志资源从数据层的揭示与展现转向信息层、知识层的深度服务至关重要。

1 研究现状

1.1 数字人文环境下方志研究现状

方志,是地方志的简称,是记载一定地区(或行政区划)自然和社会各个方面的历史和现状的综合性著述[4]。方志作为我国传统文化宝库中的一块瑰宝,辑存了具有多种功能的经世致用的珍贵历史资料[5]。古代学者对方志史料的开发利用都是建立在手工基础上,他们逐页逐字地在数量浩繁的方志中寻找所需资料,极为费时费力。数字人文研究背景下,应充分利用数字人文的研究成果,将文本挖掘、GIS 技术和可视化技术应用到方志数字化的深度开发中。文本挖掘可以抽取方志中的地名、人名、历史事件等特定信息,以发现各个历史事件随时间和空间的演变规律以及历史人物之间错综复杂的社会关系网[6];GIS 的应用研究为方志史料知识的整理和开发利用提供了一种新方法、新思路,借助地图实现更多方志史料知识的挖掘与揭示,使方志类古籍文献不再是平面的、孤立的资料,而是成为了一个立体的、服务于学术研究和经济建设的文化信息知识库[7]。近年来,部分机构和学者开始将GIS 技术、可视化技术、社会网络分析技术应用于方志的研究。华东师范大学图书馆针对目前馆藏OPAC、部分专用方志资源平台在检索、资源发现技术上缺乏针对性、新颖性,不能很好地满足资源查找需求的现状,通过引入新的GIS、标签云等技术,重新建立地方志发现平台,提供更多与资源特性相关的发现手段,提高了资源的可发现性[8]。上海图书馆开发了“中文古籍联合目录及循证”平台,结合内容分析统计、时空及社会关系分析和可视化工具,实现现存古籍的联合查询、规范控制,并提供学者循证版本、考镜流藏之功用[9]。随着数字人文技术特别是GIS 技术在方志中的应用越来越成熟,数字人文的研究理论日趋完善,数字人文技术对方志研究的影响会更加显著。

1.2 元数据整合现状

元数据为描述数据的数据,是描述、解释、定位或以其他方式使得检索、使用或管理信息资源更容易的结构化信息。在漫长的图书馆编目发展史中,由于资源本身特点或者为揭示同种资源的不同作用而形成了许多不同的元数据标准。元数据标准可以分为数据结构标准(Dublin Core、VRA Core、EAD…)、数据内容标准(RDA、CCO、DACS…)、数据值标准(LCSH、AAT、TGN、DDC…)、数据交换标准(MARC、XML、RDF/XML、JSON…)[10]。不同发现平台会采用不同的元数据采集方法,并应用不同的元数据标准,有些机构会自建元数据标准以更好地组织和揭示数字资源,不同标准的元数据成为资源整合首要解决的问题。目前在整合元数据的基础上提供服务的项目有很多影响力较大的项目,例如欧洲数字图书馆Europeana、美国HathiTrust 数字图书馆等项目。这些项目都是在元数据整合基础上提供服务,并为解决元数据的异构问题研发了各自的方法。Europeana 整合了欧洲3500 多所的档案馆、图书馆、博物馆的资源,提供多达51 971 705 条元数据(包括图书、音视频、美术作品、手工艺品等)供用户检索[11]。在元数据整合的过程中,Europeana 设计了“Europeana Data Model(EDM)”数据模型来兼容博物馆、档案馆、图书馆的元数据标准,将不同标准的元数据映射到EDM 模型上,从而解决资源整合中数据结构不统一的问题[12]。在数据处理的过程中,Europeana 采用“收割整合后的元数据”的资源采集方式,在Europeana 和数字资源提供者之间增加了一个内容聚合器工具,实现了对各数字资源元数据的规范与整合,这样可以对数字资源的规范性、有效性和一致性进行有效控制[13]。例如,Europeana 开发了CARARE 系统,用于处理具有考古价值的历史遗迹、建筑、艺术品、手工制品等有关文化遗产的元数据的映射、丰富、更新等预处理工作。CARARE 根据现有考古学和建筑学的元数据标准,如LIDO、CIDOC CRM、MIDAS,创建了一个领域特定的元数据模式,并将其映射到EDM 上,然后再进行元数据丰富、更新等一系列处理[14];HathiTrust 项目整合120多所高校图书馆的数据,目前包括16 295 881条记录,7 939 735 本书的标题[15]。在书目数据整合的过程中,HathiTrust 项目组要求数据提供方的元数据越完整越好、必须遵循MARC21 著录规范、utf8 编码等标准,并专门开发Zephir[16]。在书目元数据被HathiTrust 采纳前必须先经过Zephir 的处理。Zephir 包含一系列功能,包括对书目记录的采集、更新及一般的管理,并且元数据在经过Zephir 处理时会有一个关于元数据处理情况报告,报告内容包含多少条记录已经处理,多少条记录处理错误等总体情况,同时将错误记录打印出来。经过Zephir 处理的书目元数据,可以直接被HathiTrust 使用。

基于上述文献调研,华东师范大学图书馆在新的异构数字方志服务平台设计时,通过应用GIS 以及可视化等技术,使具有时空特点的方志资源得到了充分的形象化展现,充分借鉴目前服务数字人文研究的基本技术方法。同时,在以下三方面使方志资源的发现和整合能力明显得到提升:(1)通过方志资源元数据RDF 化,实现资源在作品层和单件层面的统一发现;(2)充分借鉴欧洲数字图书馆Europeana、美国HathiTrust 数字图书馆等项目的整合方法,构建整合多来源、异构元数据方案,实现数字方志服务平台的统一发现入口;(3)开发多来源数据采集以及数据规范性检查等工具,实现对元数据整合前的预处理。

2 方志元数据整合意义及整合方法

2.1 整合方志元数据的意义

整合系统的目的是希望为用户提供统一的检索平台,使用户不需要在多个检索系统之间切换,并熟悉多个检索系统操作技能,从而减轻资源获取难度。通过整合方志元数据,提供单一检索点,人文学者通过单一站点可以获取原本需要逐一浏览多个界面才能找到的信息知识,而无需考虑是哪个机构实际提供数字资源、资源的物理存储位置在何处。通过整合来源不同的方志元数据,使得方志资源更加全面、完整、权威,质量更高。只有以正确而完备的典藏和资料库作为基础,数字和人文研究才有进一步合作的可能[17]。在整合方志元数据的过程中,通过引入新的关联书目数据模型,方志资源在互联网上更容易被发现,与外界互联,改变方志元数据原有的封闭状况;在整合方志元数据的过程中,通过对方志元数据拆分、合并等重构工作,特别是对采集来的元数据中题名的拆分,使得原来合订题名下的单部作品可以被快速定位,同时使得检索结果的统计更加准确。在整合后的方志元数据基础上利用GIS 工具,提供“时间轴”“地图”等可视化的方式,为研究者提供可交互的数据,即可展示某一地区的方志分布情况,以及某一时间段的方志成书情况。在整合的平台上,引入众包思想,利用大数据技术、文本分析技术对相应的方志资源内容进行挖掘,为错误的方志元数据提供修改、佐证的依据。

2.2 整合方志元数据遇到的问题

方志元数据是描述方志资源的描述性数据。在20 世纪初,计算机没有普及应用之前,志书的著录信息主要是记录在卡片、图书等纸质载体上的,是将众多的方志目录汇编成方志书目,例如朱士嘉先生编纂的《中国地方志综录》、张国淦的《中国古方志考》[18]。20 世纪下半叶,随着机读目录格式MARC 的普及,方志元数据以CNMARC 著录存在于图书馆自动化系统中。20世纪末,DC 元数据开始兴起,我国科技部科技基础性工作专项资金重大项目“我国数字图书馆标准规范建设”参照DC 的扩展规则,制定了相关数字资源基本元数据规范和专门元数据规范,推出了“地方志描述元数据著录规则”[19]。著录规则的不同,导致元数据规范不一致。目前采集到的元数据来源于图书馆集成系统、图书馆自建库、商业数据库。其中图书馆集成系统中的方志元数据以MARC 存储,由OPAC 导出后,数据最为复杂;商业数据库包括超星、爱如生、瀚堂等的方志,以及CADAL 里的方志元数据多遵循地方志描述元数据著录规则。除著录规则不一致外,由于软件系统的不同,也使得方志元数据不一致,具体有以下问题:

(1)元数据著录不一致。例如OPAC 导出的数据以OPAC“作者-Creator1”“作者-Creator2”“作者-Creator3”表示责任者;中国方志库以“作者-修”、“作者-纂”表示责任者。

(2)元数据粒度不够细致。以古籍文献为核心描述对象的元数据规范,就单个元素的取值来看是非结构化文本,粒度还不够细致[20]。

(3)方志本身存在汇编的问题。汇编作品是指根据选题需要,在不改变原作品内容的前提下,对其进行编排以合集形式呈现的新作品[21]。当单部作品作为汇编作品的部分存在时,在编目时对汇编作品进行集中著录。很多方志是以汇编形式而存在,原有的编目无法直观地表现单部作品与汇编作品关系。从汇编作品中提取单部方志作品,有利于加强对单部方志作品、责任者等实体的描述,更好地实现方志的查找、识别和选择,同时有利于汇集方志所有作品的载体表现形式。

(4)数据重复。由于方志资源被多个系统或多个收藏单位收录,在合并时肯定会存在数据重复问题。

(5)方志元数据著录错误。方志文献浩如烟海,在后世史志中难免出现著录错讹,包括由于地名改变导致的方志名称著录错误、由于著作权归属存在争议导致的方志纂修者姓氏著录错误、由于内容增删导致的方志卷数著录错误等[22]。

2.3 整合方志元数据的方法

为了给人文研究学者提供单一的、资料完备的方志系统,必须解决前文描述的方志元数据问题,包括元数据一致性、重复以及元数据粒度等。针对以上问题,项目组采取了一系列方法。首先从数据提供者处获取数据。其中,对于商用数据库,由于只要是学校购买过相关数据库,则元数据是一致的,因此不需要从各个学校获取元数据;而对于华东师范大学、北京师范大学及上海师范大学等学校的方志元数据,通过数据上传的方式获取不同来源的方志元数据,并存入方志元数据库中。然后根据需要对元数据进行数据拆分、数据查重。最后将原有方志元数据映射到新的元数据方案上,并在整合后的元数据基础上开发平台提供统一检索、GIS 服务、全文浏览等功能。在项目初期,从华东师范大学图书馆、北京师范大学图书馆及上海师范大学图书馆收到的元数据记录条数分别为44880、22183、15326 条,而超星、CADAL、中国方志库、瀚堂典籍库及方正电子书的记录数为9172、6300、3995、884、102 条。通过拆分、合并,最终共采纳了55037 条方志元数据记录[23]。图1是整个项目数据处理及在其上提供服务的流程图。

图1 方志元数据整合处理流程图

2.3.1 选用新的元数据方案

在元数据处理之前,首先需要确定元数据方案。为改变原有的CNMARC 格式著录的方志元数据的繁琐及DC 格式著录的方志元数据的复杂性,达到方志与外部数据的相互关联、互操作的目的,项目组选用了美国国会图书馆的BIBFRAME书目数据格式。美国国会图书馆于2012年启动“书目框架转换行动”,开发BIBFRAME 关联数据模型、词表、应用纲要、编码规范等以取代MARC,使其成为下一代图书馆数据格式,并于2017年6月在Library.Link发布[24]。目前上海图书馆已使用BIBFRAME书目数据将其家谱数据库、古籍善本等发布为关联数据[25-26]。BIBFRAME 的核心书目数据模型是“作品(work)—实例(instance)—单件(item)”,作品反映了编目资源最本质的特征,由作者、语言、和题名决定;实例与出版者、出版地点、出版时间、出版形式有关,是作品的出版形态;单件与存在的位置、书架、条形码有关,它决定了书的获取方式[27]。表1是原有方志元数据与BIBFRAME 书目数据模型的对应关系。

表1 原有方志元数据与BIBFRAME核心书目数据模型的映射关系表

2.3.2 数据拆分

(1)“责任者+责任方式”的拆分。以OPAC导出的数据形式为例,方志元数据是以“责任者+ 责任方式”存储责任者和责任方式。将“责任者+责任方式”分割,“责任者”“责任方式”单独存储,可以准确地展现责任者对于该古籍所负有的实际责任以及不同责任者之间的关系。地方志的著录方式很复杂,参考相关文献并使用词频统计软件获得著录方式库。表2列举了一般的古籍著作方式,实际情况还有多种组合形式,如“编著”“编纂”“增修”“校注”等。

采用“基于字符串匹配的中文分词”来识别“姓名”,具体的元数据切分算法如下:

输入字符串:用数组S=C[0,n]来表示元数据,如:陶元珍著,则n=3;

TYPE_SET 表示著作方式的集合,TYPE_SET={著,作,考订...};

输出:NAME=S[0,j]表示作者名,TYPE=[j+1,n]表示著作方式。

for(j=1;j<0;j++)

if(S[j,n]in TYPE_SET)

NAME=S[0,j]

TYPE1=S[j+1,n]

break

表2 古籍著作方式特征库

(2)汇编作品的拆分。方志汇编情况可以从其主题或附注两个元数据字段里得知:主题字段表明的汇编作品,数据以志书分隔,提取单个题名放入增加的字段“题名—(RealTitle)处理后题名”分隔后提取最后一集的地名作为GIS 的地,年号作为GIS 的时;附注字段表明的汇编作品,根据附注字段,将附注字段作为“题名—(RealTitle)处理后题名”存储。图2是对主题表明的汇编作品拆分示例。

图2 主题表明的汇编作品拆分示例图

2.3.3 数据查重

对方志元数据进行拆分,还需要对方志元数据进行查重。由于同一条记录会被不同收藏单位或不同数据库收录,所以在整合元数据时需进行查重。查重的原则是按照“CALIS 书目号—ISBN+题名—题名+ 责任者+ 出版者+ 出版年”的顺序进行,即首先根据方志元数据CALIS 书目号,如果没有CALIS 书目号,则根据“ISBN+题名号”查重,没有则根据作品的“题名+ 责任者+出版者+出版年”查重。若出现匹配情况,则该记录被认为是重复记录。对于重复记录,选择完整度高的记录作为新记录更新数据库中的原记录,根据实际情况,在馆藏机构或数据源里增加馆藏或来源。如果都不匹配,则认为该记录与数据库中记录不重复,该记录会被插入数据库中。

2.3.4 数据映射

BIBFRAME 是关联数据模型,使用的是“资源-属性-属性值”三元组表达元数据的内容,因此需要将原有的方志元数据转换为新的元数据三元组,除了上述介绍的书目实体(work、instance、item),还有人、时、地、机构等实体,这些都需要从方志元数据中提取,提取后赋予HTTP URI,为属性赋值,描述实体与实体间的关联关系,并以RDF 序列化格式编码,从而实现DC、CNMARC 到BIBFRAME 的转换。

除了数据拆分、查重、映射外,整合的过程中还可对元数据进行校正、修改,通过调用其他平台的API 接口达到直接取用其他资料库数据的目的,从而实现与外部数据的互联。例如通过调用“中国历代人物传记资料库”与“上海图书馆人名规范库”的接口,可以直接查询方志责任者的生平及他的其他作品等情况。

3 数字人文环境下异构方志元数据整合策略

数字人文环境下,作为资料收集主要整理者的图书馆应充分发挥自己的优势,将GIS、文本挖掘等技术应用于资料的整理、收藏中。目前,项目组开发的异构数字方志集成平台已初步完成并已上线,从异构元数据的整合、平台的建设过程得到了以下几点经验。

3.1 使用关联书目元数据方案,实现方志与外部世界的互联

关联数据是第一种可行的语义网表达形式,它采用RDF 数据模型,利用URI(统一资源标识符)命名数据实体来发布和部署实例数据和类数据,从而可以通过HTTP 协议揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人机理解的语境信息。随着语义网和关联数据成为技术发展热点,新兴的元数据标准开始更多地以万维网联盟开发的资源描述框架或网络本体语言等格式发布,其中不乏面向书目应用的词表或本体,包括Dublin Core Terms+Dublin Core(DC/DCT)、Schema.org、Europeana Data Model(EDM)Vocabulary、BIBFRAME[28]。书目数据以关联数据为基本数据模型,意味着书目数据不再像存储于关系数据库中的MARC 数据那样以记录为单位,而是以更小粒度的数据为单位,每个数据单元都是独立的存在,同时又可与其他数据单元建立可被机器理解的关联关系,数据是相互关联且富含语义的[29]。除了选用关联书目数据方案,还可以通过调用其他平台API 共享其他平台的资源。通过调用外部资源的API,不仅可以减少自己的重复工作,还可以实现与外部世界的互联,使得各内容提供者不再孤立。

3.2 最小粒度化方志元数据,为人文学者研究提供支持

方志元数据的粒度不够细,如方志元数据的著作方式、成书朝代、年号、汇编作品等问题。为了更好地利用方志元数据,建议将方志元数据以最小粒度化存储,将有利于方志最大价值的挖掘,为人文学者研究提供更好的支持:对于著作方式的拆分,可以发现不同责任者对于同一本书的不同贡献,进而发现一本书从成书到现在这个历史长河中在不同时期与不同责任者之间的关系,这对于人文学者研究方志的版本变化尤为重要;对于朝代、年号的拆分使得检索的结果的统计、GIS 地图上的显示更加的精确;对于汇编作品的拆分,按照“作品—实例—单件”模型展示,可以揭示作品间的关联关系。

3.3 提供开放平台,允许用户编辑,与人文学者充分合作

由于方志的复杂性,例如成书者众、古今地名变化等问题,使得方志元数据在著录时不可避免地发生错误,因此有必要对元数据进行勘误、考证,这需要专业的方志研究人员、史学家从不同侧面对方志元数据进行验证,以保证其准确性。一方面,整合方志元数据后构建的方志平台以众包的方式允许使用者修改元数据并提交证据,并邀请专家对其进行审校,采纳后修改原来的方志元数据。对用户开放、对用户提供编辑入口,是一般数字人文系统常用的做法,例如台湾历史数位图书馆(THDL)允许用户更正元数据、全文、人地名,管理小组不定期整理,采纳后将新的数据更新于新版资料库中;“莱比锡开放碎片文本序列LOFTS”项目专门邀请熟悉古典文献学、计算语言学、文本传播等相关领域的学者负责对“碎片文本编辑器”中的元数据进行审校[30]。另一方面,虽然目前国内不少图书馆在元数据标准制定、资源管理等方面有一定的经验,但是专业的人文社会科学研究者才是方志资源真正的使用者,他们对于方志资源整合的需求、元数据制定、方志资源的内容分析更有发言权,因此需要加强与人文学者的沟通,在充分合作的基础上不断建设、改进数字方志元数据集成平台。THDL就是台湾大学数位人文研究中心与台湾大学历史系合作建设的一个台湾古契约文书全文资料库。

3.4 使用数据挖掘、内容分析技术实现元数据的创建、修改

随着数字人文学科的不断发展,可以利用大数据、内容分析技术为元数据的创建、修改提供帮助。原有的方志元数据的创建工作局限于个人整理、编目经验,不利于方志资源的发现及利用。数字人文时代,运用文本挖掘技术、内容分析方法,机器可以自动从方志文本中蕴含的事实、知识中统计、分析和推理等,从而实现元数据的自动创建和校验。

4 结语

本文探讨了在数字人文环境下方志元数据的整合。整合方志元数据的目的是为了给人文学者提供统一的方志资源检索、管理、大数据分析、可视化展示和智慧型服务的人文研究环境。方志元数据的整合,首先需要对方志元数据进行清洗,这是一件较困难的工作。本文探究了方志元数据处理中最关键的如数据映射、部分元数据切分、汇编作品处理等的问题。但是仍然有其他问题尚未解决,例如方志元数据中古地名的问题,没有完备的古今地名对照库就无法将某些方志在地图上正确地显示,对于提出的“责任者+ 责任方式”拆分方法尚未考虑责任者姓名中本身含有责作方式的问题会造成方志归属不够准确。以上这些问题的解决,可通过引入众包思想,由专家及用户一起发现问题、修改问题;或可依赖文本分析技术,从方志的全文中找到数据、事实实现对方志元数据的佐证、修改。目前,项目组只实现了方志元数据的处理、整合等,对部分方志全文的OCR 识别、标引和内容挖掘,将是笔者下一步需要探讨的。

猜你喜欢

方志责任者书目
Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
推荐书目《初春之城》
参考文献著录项目
——责任者著录规则(一)
黑龙江民国方志所刊名家墨迹选
嘉绒藏族地区的旧方志编纂
参考文献著录要求
Average Incremenral Correlarion Analysis Model and Irs Applicarion in Faulr Diagnosis
科技期刊中文目次页责任者署名情况调查及分析
本刊邮购书目
200字段责任者项著录的规范化问题