基于CIDOC-CRM的数字人文史料资源语义化知识组织研究*
——以张学良史料资源为例
2019-09-06姚天泓陈艳梅
姚天泓 陈艳梅 刘 革 鲁 超
(东北大学图书馆,辽宁 沈阳 110819)
1 引言
当前,科学研究数据总量的迅速增长已经给各学科领域的学者、研究者带来了巨大挑战,文献资源数据的海量聚集已经超出了人类传统阅读和知识处理能力的范畴,面临着如何有效、合理、科学地处理、辨识、分析和利用大数据集合的问题。随着计算机技术的发展和更多学科领域的交融,人文科学和社会科学研究领域出现了更多借助计算机数字信息技术进行辅助研究的现象,更多的传统信息资源转换成数字化、数据化、文本化知识形态,“从根本上改变了人文知识的获取、标注、比较、取样、阐释与表现形式”[1],形成一种大数据时代的人文社会科学的数字人文研究方法。数字人文表现为围绕人文社会科学领域开展的特定知识对象的数字化存储和应用,以及由此衍生出的相关数据资源的组织、加工、挖掘和应用研究,数字人文使计算机数字化技术和网络技术成为促进人文社会科学研究领域创新、传播的新推手。
张学良是中国近代史和东北大学校史等相关史学研究中重要的历史人物,与张学良个人直接相关的原始资料从1901 年至2001 年跨越时间长达百年,百年间所涉及的史料资源内容丰富且资料类型(体例)多样、文本多语言化、载体形态繁多,既是文化遗产保护的对象,也是史学研究的基础性文献资源。1996年张学良将其个人档案资料悉数交给哥伦比亚大学的善本与手稿图书馆(Rare Book and Manuscript Library)保存,这批资料被定名为“张学良、赵一荻文件与口述资料”(The Peter H. L. Chang and Edith Chao Chang Papers and Oral History Collection),哥伦比亚大学还专门开辟了“毅荻书斋”加以保管[2]。2002 年哥伦比亚大学图书馆又将其整理为55 卷3 万余片缩微胶片,公布于众[3]。2011—2013年,东北大学图书馆对馆藏的这批缩微胶片重新整理编排和分类,将胶片内容转化为可编辑的文本数据形式,经内容校对、著录标引和数据内容数字化,以这批张学良个人史料资源为核心数据基础扩展资料收录范围,构建成“张学良文献库”,提供查询和浏览服务。该数据库对于史学研究者来说,使原始文献资源得以数字化,提供了史料文献的计算机网络化数字形态文献资源检索浏览服务。
大数据环境下,数字人文提倡将数据分析处理能力融合并延伸到人文社会科学研究者的研究过程中,渗透到研究者的研究思维当中。笔者拟在东北大学张学良史料资源数字化工作基础上,借助数字人文研究理念和方法,基于CIDOC-CRM(International Committee for Documentation- Conceptual Reference Model)概念框架模型,从数据描述规范、语义标注等角度进行史料数据资源的语义化知识组织研究。
2 张学良史料资源本体数据的核心属性规范
对于人文社会科学研究者来说,在便捷地根据自己的需求来检索数字化文献的同时,更需要理解信息的语词概念关系和逻辑关系,从而将检索到的片段、碎片化信息关联起来,进而形成完整的信息图像。与其他人文社科领域相比较,历史文献存量庞大,历史文献数据库发展成数字化(digitalization)、数据化(datalization)、文本挖掘(text mining)3种形态。数字化是将文献从物理形态转化为电子形态,数据化是将文献资源转化为可量化分析的数据,编制元数据是主要方法[4]。基于本体的元数据既是可为人所利用、分析的信息资源的语义描述,也是被计算机识别的文献语义标注。元数据所涉及到的概念框架、词表和本体所面向的是资源内容本身的语义化描述和知识组织构建。
当前,国内外面向数字资源描述的相对成熟的各种元数据概念模型、本体模型、元数据标准很多,但尚没有一个统一的规范或标准能够涵盖不同领域的多种要求。在这些较为成熟的框架标准中,CIDOC-CRM 概念参考模型、DC元数据标准和FOAF资源描述框架词表等元数据管理规范,较多地被应用于文化数字资源的保护、管理、利用和开发阶段,在资源存储、资源检索、资源聚合、资源关联与共享方面发挥了较大作用。
CIDOC-CRM 是国际文献工作委员会的概念参考模型,旨在通过提供可映射到任何文化遗产信息的公共的且可扩展的语义框架,实现对文化遗产资源信息的共享和理解,为文化遗产信息资源提供其所涉及的隐性概念、显性概念及其关系的语义定义和结构形式化描述[5]。根据CIDOC,可将CRM的目标定位于实现各种异构文化遗产信息资源之间的信息交换与集成共享,使CRM 成为不同信息系统间交流使用的共用语言。2006 年CIDOC-CRM被国际标准化组织采纳为国际标准,标准号为ISO21127:2006,它的最新版是6.21(October 2015,Published Version)[6]。这个版本定义了94个类(Class)、168个属性(Property),类(Class)也被称为实体(Entity)。CRM 模型以“E+数字”作为序号标识类别(实体),其中处于最上层的实体为“E1 CRM Entity”(CRM实体);以“P+数字”作为序号标识属性。实体是根据CRM 对术语进行定义,类别(Class)是拥有一个或者多个共同特点的一组项目,根据所具有的特点可以分辨所属类别的项目,是某种具备可区别性并独立存在的事物;属性用于定义类与类之间的特定关系,体现了实体的内涵特征,并通过文字描述的范围注释的方式传达出来,属性是实体间发生语义描述关系的链接纽带。
DC 是成熟的描述数字文献的通用元数据标准框架,包含了DCMI 术语和应用纲要。DC 核心元素集有15 个[7]:名称(title)、创建者(creator)、主题(subject)、描述(description)、出版者(publisher)、其他责任者(contributor)、日期(date)、类型(type)、格式(format)、标识符(identifier)、语种(language)、来源(source)、关联(relation)、时空范围(coverage)、权限(rights),可以区分为资源内容描述、知识产权描述和外部特征属性描述3个部分。
FOAF 是一种遵循W3C 体系标准的资源描述框架(RDF)词表,用于描述人、人群、人的活动的特定属性及人与人、人与物间的社会网络关系。FOAF 应用于Web2.0 社交网络中,能针对个人、用户的身份属性信息进行精确化、规范化描述和语义标识。以FOAF词表为基础,可以对史料资源中存在的大量个人属性特征及其与他人或对象间的关系完成历史文献概念框架的语义标注。
上述3个应用成熟的、针对数字资源进行语义描述的元数据集中,DC 元素集主要用于描述网络信息资源,与其他元数据之间互操作性强,适用于对资源的控制和管理进行规范,DC 元素的语义依赖于被描述资源的类型,对于不同的资源类型来说,其元素属性有不同的语义表述[9]。CIDOCCRM 本体是面向对象的语义模型(object-oriented semantic model),主要目的在于落实各类异构文化信息源的集成、交换共享与关联,CRM围绕与资源对象相关的历史事实、人物、时间、地点等信息,将与事件相关的人、物质、非物质等相关知识实体在时空维度中按照属性关系连接起来。与CIDOCCRM 相比,DC 定义的概念和属性较为精简,层次结构简单。在元数据语义关系层面,DC 所有涉及到的属性和类都使用URI进行表述,URI使网络资源标识体系得以规范,体现一种对虚拟空间的标识和事物定位方式,适于进行资源管理和资源控制;CIDOC-CRM以概念间的关系和属性描述作为实体对象的语义描述手段。CIDOC-CRM 作为一种概念框架是专为文化对象信息而设计的一种本体词表,是一种以事件为中心的本体构建方法,在描述与历史事件、历史时空、历史地理信息、政治、文化等背景相关的资源信息方面,对资源对象的发生、发展、演变等动态信息的描述,与DC 相比较,CIDOC-CRM 更适合用于历史资源的语义描述。FOAF区别于DC、CIDOC-CRM 的最大特性是其在对于人的社会网络关系属性的描述,能够促进资源数据集的数据关联。
张学良史料资源的数字人文数据框架是以历史时空对象为研究目标而构建的,与张学良相关的历史文献资源所涉及的内容丰富多样,所涉及的历史人物、历史事件复杂且时间跨度长。考虑资源的学科领域特征、文献关联性、资源的时空特征等因素,综合借鉴和复用现有成熟元数据标准元素,用以构建张学良史料文献的数字化资源的数据本体属性规范标准:即以CIDOC-CRM概念参考模型[8]为基础,结合并参考复用了DC[10]、FOAF[11]等标准框架的相关核心术语属性。
如表1所示,构建的数据标准从资源内容描述和知识产权描述两个角度对张学良史料资源进行揭示。资源内容描述部分基于CRM术语词表中的9 个类别(Class),复用 FOAF 框架词表 FOAF:Agent 属性用以描述与资源对象相关的个体人物、人物集合(机构或组织),复用DC 元素集中DC:Type 和DC:Relation 共两项元素标准描述资源对象的特征类型和资源相关信息,共计由13 个核心属性组成,用以描述资源对象所具有的基本性质和内容特征。知识产权描述部分从既便于揭示资源的知识产权信息,又便于对资源对象进行管理和著录的角度考虑,共设置6 个核心属性,复用了DC元素集5项、CRM术语1个类别。
人物(Agent)属性。人是时空中动作的发出者、事件出现的产生者,因而成为人文社会环境的主体和历史研究领域的核心。在对史料资源进行描述标引和数据管理中,人(Agent)是元数据规范模型中的核心属性。历史时空下的动作发出者不只是个体的人物,也包含以群体人出现的机构、组织、团体等集合体。在进行元数据规范时,复用了FOAF:Agent,使该属性既能描述个人,也扩展到各类人群体。人物(Agent)核心属性继承了FOAF:Agent的规范特性,包含人的性别、出生时间、爱好习惯、年龄、生活状态、社会关系等信息属性,并将对人的事实信息描述标识,以参照和关联的形式与其相关的人物(或群体)联系起来,从而将分散的史料数据资源协同形成知识网络、人际关系网络,完成资源的聚合和数据语义参照。在张学良史料资源中涉及了中国近代史上众多历史人物、团体、组织,例如蒋介石、宋美龄、陈布雷、宋子文、孔祥熙、陈诚、陈果夫、陈立夫、戴笠、端纳、莫德惠、伊雅阁、杨虎城、阎宝航、邵力子、张治中、张群、张大千等国民党官员和张学良的私交好友;中国共产党、陕北红军、国民党、东北军、西北军、军统、西安绥靖公署、东北大学等政党、组织和团体。
表1 张学良史料资源本体核心属性规范[7,12]
类型(Type)属性。史料资源的类型可以按照现有分类体系进行区分和定义,也可以编制受控类型词表来定义与资源特征相符合的划分标准。从目前整理情况看,张学良史料资源类型包含有来往信函、日记、自传、手札、读书笔记、影辑、报纸剪报、宗教资料、证件、证书、字画、体检单等生活档案资料等约计30余种,资源种类较为繁复、多样化。对于张学良史料资源内容的语义揭示,需要考虑对资源内容的语义范畴、功能、种属、聚类层次等方面问题,选择复用DC:Type 作为史料资源的类型(Type)属性规范,既考虑到类型属性值可以灵活采用定制受控词表(或采用既有叙词词表),又能通过URI 提供特定资源的访问机制,起到丰富和关联数据的目的。
事件(Event)属性。历史事件是历史人物在特定时空条件下发生的以及由此衍生的持续的行为和现象。史料资源中围绕张学良及其相关人物、人的集合体发生的事件,既有与中国近代史相关的历史大事件,如“西安事变”“国共合作”“抗日战争”等,也有张学良的心路变化历程、友人交往、宗教信仰、个人爱好、生活琐事等事件。正是这些大小事件构成了历史史实,是历史学科研究的语料源泉。
时间(Time)属性。该属性复用了CRM:Time-Span类(时间范围类),用以定义抽象的时间范围,具有时间的起点、终点和持续演变的范围。时间(Time)属性是事件(Event)属性存在的必要条件,两者息息相关,所描述语义内涵是相辅相成的。由于史料数据资源本身的特性,时间(Time)属性描述的时间常常会是持续的时间范围、某个时期。例如,张学良史料资源的所呈现出数据生命周期和历史发展的时间线是吻合的,资源中围绕人物实体(Agent Entity)张学良展现出的时间跨度、时间演变、时间起点和终点属性正是中国近现代历史发展时期和历史转折的重大节点:第一次直奉战争(1922年4月28日至5月5日)、第二次直奉战争(1924年9月至10月)、皇姑屯事件(1928年6月4日)、东北执政(1928年7月)、东北易帜(1928年12 月)、中原军阀大战(1930 年5 月至10 月)、九一八事变(1931年9月18日)、东北彻底沦丧(1931年—1945年)、西安事变(1936年12月12日)、国共第二次合作(1937年—1946年)、抗日战争(1931年9月18日—1945年8月15日)、囚禁生活(1938年-1990年)、恢复自由(1990年—2001年)[13-14]。
空间(Place)属性。即资源中人物对象行为发生时所存在的位置空间。例如历史事件发生的地理空间或历史人物行为发生时的参照物坐标等。历史研究既注重时间信息研究,也注重人物的地理空间信息研究,两者对于历史学科来说不可或缺。历史时空信息的结合使历史事件(Event)通过时间轴的方式呈现出来,将事件的发生落实到现实空间存在,从而完成历史追踪。张学良史料资源中张学良在西安事变后被幽禁,幽禁地在各个历史时期、历史阶段都各不相同,其空间移动轨迹与历史事件的发生、历史人物的倾向、历史时期的变化都息息相关,张学良的幽禁地在其54 年的幽禁期中大约有15个,不同历史时期各不相同:南京宋子文寓所、溪口蒋宋别墅文昌阁、溪口雪窦山、贵州省修文县阳明洞、贵阳市麒麟洞、贵州息烽县阳郎坝、遵义桐梓县天门洞小西湖、重庆歌乐山戴公馆、台湾井上温泉、台湾高雄市西子湾、台湾台北市北投居所等地,每个幽禁地与不同历史时期(Time)属性都能发生语义关联,从而语义推理出张学良的处境和相关历史事件。
在知识产权描述层面复用了DC: Identifier、DC: Creator、DC: Date、DC: Format、DC: Right5 种本体术语,用以描述资源对象的标识符、资源创建者、资源形成日期、资源的物理格式、资源相关版权声明。复用CRM: Curation Activity 用以描述资源对象的典藏管理相关指示信息。DC 与CRM 两者对史料资源的特征揭示和属性描述各有侧重,DC 元素的语义依赖于被描述资源的类型,复用的DC 五种核心元素能较全面地描述和揭示资源的外部特征,从而实现对资源对象外部特征的记录和长期保存,便于用户的检索和利用。
3 张学良史料资源的语义知识组织举例
张学良史料数据资源所含内容丰富、资源类型多样,在“张学良、赵一荻文件与口述资料(The Peter H. L. Chang and Edith Chao Chang Papers and Oral History Collection)”数据化整理出的信件资源中,大约有150 余人与张学良保持书信往来,信件往来时间从1937年开始。从这些往来信件内容中可以反映出抗日战争时期的政治生态关系、国民党政府高官的人际交往和对当时局势的思想倾向与变化,以及张学良本人的幽禁生活和心路历程。
以张学良来往信件资源为例,选取三封信件:蒋介石来信、邵力子来信、致信宋子文,根据前文所确定的资源核心属性规范标准,对所含知识内容的数据文本做语义本体属性标注,形成如表2、表3、表4所示的语义数据表(表中所列图片来源于东北大学图书馆馆藏“The Peter H. L. Chang and Edith Chao Chang Papers and Oral History Collection”缩微胶片)。
遵循CIDOC-CRM 关于类与类之间的关系定义和本文所建立的核心属性规范,结合史料资源的学科和资源特征做历史人物、事件关系语义推理,揭示知识本体的语义关系所表征的知识组织联系,如图1所示。
表2 信件类资源本体属性语义标注——蒋介石致信张学良
表3 信件类资源本体属性语义标注——邵力子致信张学良
续表
表4 信件类资源本体属性语义标注——张学良致信宋子文
续表
图1 知识本体语义关系
例如:针对本体对象张学良(Agent)可以通过关联的两个Subject 对象:蒋介石致信、邵力子致信,得到与张学良(Agent)相关的历史事件(Event):西安事变、陕甘军事善后、张学良复权案和解决管禁案、国民党五届三中全会。在Subject对象:致信宋子文中出现一个语义关联对象(relation):戴笠,在蒋介石致信(Subject)中也同时出现一个Agent 对象:戴笠,说明“戴笠”与张学良(Agent)的语义相关性较大,历史事实是军统戴笠负责执行对张学良的囚禁。邵力子致信(Subject)中语义关联Event 中宋子文(Agent)伴送张学良(Agent)的夫人于凤至(Agent)到雪窦山(Place),张学良(Agent)因借钱款(Event)事情致信宋子文(Subject),两 个 Subject 中 都 关 联 到 宋 子 文(Agent),表明张学良(Agent)与宋子文(Agent)有个人交往,通过两个Event属性能够推知两人私交密切。
通过对张学良史料资源数据中知识实体(本体)属性和值内容的定义,建立知识内容间的语义关联,达到了使史料资源总的人物关系、时间关系形式化、结构化的目的。用本体语义关系构建复杂的历史人物、历史事件关系,能使研究者获得特定历史人物在特定历史时期、历史事件下的错综复杂人际关系脉络,以及人物行为发生的原因和内在联系。通过语义推理流程,可以从已知的事实推导和挖掘出隐含的知识,借助数据关联和共享机制实现数据更新、重用和共享。
4 结语
参照CIDOC-CRM 模型构建了数据资源的语义本体规范,通过实例演示了资源内容的语义揭示和组织,以期为构建张学良史料资源语义检索、本体数据的存储管理和内容挖掘,实现在异构数据之间的数据关联与共享、语义聚合做有益尝试。通过研究可以看出,数字人文技术和理念给史料资源的保护、整理、管理和应用带来了有益助力,以语义化形式对知识元进行组织和关联,更契合了人们对数据资源的理解方法和认知。