APP下载

数字人文视角下地方名人文献资源的知识组织与关联研究

2022-05-30王梓懿陈晨王湘华

知识管理论坛 2022年5期
关键词:数字人文

王梓懿 陈晨 王湘华

摘要:[目的/意义]从地方名人文献资源建设现状出发,通过数字人文视角探究地方名人多源异构资源知识组织与关联方案,为GLAM机构开展地方人物知识管理与服务提供借鉴。[方法/过程]参照国内外相关名人资源开发思路,提出一套包含异构文献资源内容整理、地方名人资源本体构建、实体与实体关系融合和地方名人资源知识应用等四步骤的地方名人资源知识组织方案,并结合地方名人文献资源特征与人物资源描述框架自建了地方名人文献本体模型CLO。[结果/结论]以湘西诗人田名瑜及其手稿《苦学斋日记》为依托,按照组织步骤并运用Protégé工具实现地方名人及其日记作品的知识组织与关联揭示,验证此套组织方案的可行性与可操作性,在拓宽地方文献开发视角的同时也为民族地区名人知识库的搭建与特色人文服务的开展提供借鉴。

关键词:数字人文    名人文献    知识组织    本体构建    Protégé

分类号:G254

引用格式:王梓懿, 陈晨, 王湘华. 数字人文视角下地方名人文献资源的知识组织与关联研究[J/OL]. 知识管理论坛, 2022, 7(5): 521-538[引用日期]. http://www.kmf.ac.cn/p/312/.

1  引言

如今,数字人文作为智能技术与人文学科的关键枢纽,其涉及的自然语言处理、时空信息揭示、多维知识共现等知识组织与发现手段能够有效推动新文科建设进程,其前沿应用实例也一直是各领域资源开发机构与相关学者关注的要点[1]。而地方名人文献资源作为特定时期与地域文化、艺术、经济与政治演化的文字载体,既是解读地域文人思潮、探究地方历史变革与塑造地方文化形象的重要资料,也是揭示地方社会生活演变、特色民俗技艺、名人交际网络、经济发展脉络、政治交替轨迹和地缘变动局势的记忆宝库[2]。当前,在数字人文技术的加持下许多隐藏的珍贵资源得以重组,随着“家谱知识服务平台”“盛宣怀档案知识库”“李政道数字资源中心”“老科学家学术成长资料库”等开放平台逐渐增多,许多被忽视的名人資源将逐渐被重视。但是,反观湘西土家族苗族自治州等民族地区名人文献资源的开发现状,因受限于人力、物力、财力与影响力等多方因素,其文献资料开发依旧停留在局部整理阶段,所取得的成果数量较少且形式单一,需要借鉴数字人文研究范式来推动其成果产出与领域发展。基于此,本文参照国内外相关名人资源开发思路,结合地方名人文献资源特征,参考中国历代人物传记资料库(China Biographical Database,CBDB)和欧洲共享科研信息协议(Common-European Research Information Format,CERIF)等知识框架提出一套可处理多源异构资源及各粒度知识的组织方案,并以湘西诗人田名瑜档案及其作品为依托,结合ROST、Protégé等工具来完成田名瑜及其未刊手稿《苦学斋日记》的知识组织,并建立“人物+文献”的知识组织与关联框架,为民族地区GLAM(Galleries, Libraries, Archives and Museums)机构名人知识库构建与特色人文服务的开展提供依据。

2  数字人文视域下人物文献资源相关研究概述

通过Web of Science和CNKI数据库可整理与归纳国内外数字人文领域以人物及其作品资源为研究对象而取得的成果,按照研究特征可划分为下述4个方面:

2.1  人物资源再整理

谢嫚按照古代、当代和近代划分及自建元数据方案将女性人物在各时代教育、文化、艺术、经济与科技各领域文献资料收纳入专题数据库,为女性人物个性化知识服务提供了基础[3];刘超林等探索了语言模型和条件随机场条件下历史事件研究的命名实体识别精度,结合220多卷《地方志》资源结构挖掘了文献资料中的核心知识,以挖掘的各朝代地方政府任职的官员信息为基础进行了算法准确度评估[4];赵宇飞以国内外常用知识库人物实体描述规范为基础,提出了符合中文名称信息规范的人物知识聚合框架,为细化人物特征揭示与标注和异源知识链接与共享提供基础[5];韩国学者J. W. Kim 等重新整理了本国新教传教士1880年至1942年通讯信件并实现了文本人格与文本个性的揭示[6];阿根廷学者N. Zorrilla等以早期女性哲学家所留作品与手稿资源为切入点,通过文本内容分析剖析了早期女性哲学家被排除在经典之外的各类因素,并反思了该现象出现的历史缘由与政治背景[7]。

2.2  特藏资源分享与链接

俄罗斯学者Y. M. Lupanova等结合罗蒙诺索夫现有“记忆之地”及“回忆人物”特色资源库建设现状,引入个人日记、手稿与档案等史料资源来添补人物完整形象,并探明了异源数据参与人物形象建设能够有效提升学生群体关注名人生活与经历的兴趣值,在拓展教育视角的同时也能达到“英雄去偶像化”的目的[8];美国学者H. Kun等通过异构数据源、字符抽取技术、WEB应用程序与智能操作门户重塑了“精炼罗马硬币中的罗马历史人物”主题资源库,并以此构建了一套较为完整的数字文化遗产服务系统[9];俄罗斯学者A. Bonch-Osmolovskaya等以托尔斯泰90卷重要印刷版文献为基础,分别对作品、信件和日记3类文本进行了元数据标记、字母标记与日记标记,从而实现了数字门户与语义图索引,并参照DBpedia等开放链接数据库搭建了人物知识库[10];陈志明等提出了一个支持中国历史研究的中国古籍数字人文研究平台(CABDHRP),支持自动文本注释(ATAS)和探索角色社交网络关系(CSNRMT)。平台采用开源机构知识库DSpace作为数字档案系统可实现资源归档和图像与全文扫描,通过JavaScript框架可实现对不同数据库(如CBDB、TGAZ)以及古代文本解释数据源的链接,再结合Neo4j等非关系数据库可实现人物交互知识检索与图谱呈现[11]。

2.3  人物社会网络与空间分布

黄俊杰等提出了由符号图模型和分组算法组成的人物研究框架,并结合中国历史人物传记资料库(CBDB)所形成的人物社会网络架构验证了其框架的有效性与实用性[12];韩国学者H. H. Ji等围绕朝鲜学者徐巨正的亲属关系和政治活动开展人物研究,通过Bubbles等网络可视化软件揭示了影响历史人物关系形成的影响因素,包括国家事务、王室关系、外交局势、政治背景和地域习俗等[13];韩国学者S. Bae应用CBDB资料库、QGIS、Pajek、MARKUS和DocuSky等数字工具生成的时空图与系谱树调研了南宋时期科举状况与演变,并结合陆九渊、朱熹、吕祖谦3人经历与交际面梳理了南宋史学核心人物的社会网络关系[14];徐永明以明代戏曲家、文学家汤显祖为例,参照文献资料与QGIS、CHGIS、ARCGIS等地理信息系统可视化了其游历轨迹,再结合CBDB资料库与Gephi软件揭示了汤显祖、屠隆和汪道昆3人的社会关系[15]。此外,还有学者通过运用CBDB资料库与CCTS(中华文明时空基础框架)发掘宋代官僚家族时空演化的研究[16];整理了宋代学者师承关系并完成人物网系的动态揭示[17];结合家谱梳理了明清进士家族人际交互谱系[18];以《长春县志·长春职官考释表》为基础构建职官领域本体来揭示清代仕人间的细粒度知识关联[19];结合《全唐诗》数字文本探究贬谪诗人社会关系网络与时空演变规律[20]。同时,宋雪雁等也通过Gephi、QGIS、NLPIR和LTP等数字人文工具开展了人名、地名、情感词等实体要素的抽取、链接与可视化,并完成了王世杰日记所载人物网络关系揭示、热点事件空间呈现与情感正负倾向辨析等研究[21]。

2.4  人物资源组织与关联

刘宁静等参照FOAF框架、CBDB架构、上海图书馆名人手稿模型与CERIF资源提出了学术名人知识组织框架,并结合纸质文献、实物与声像资料实现了李政道数字资源中心的初期搭建[22];李贺等通过触发词识别与典型事件筛选,结合历史事件构成元素及参考现有本体复用概念与属性设计了一套基于民国历史事件的本体模型,并依据民国历史数据开展事件抽取、再组织和展示微观社会以验证此套模型的实效[23];姚天泓等以张学良史料资源本体框架为基础,引入CIDOC-CRM概念模型来篩选可复用的基础类与核心属性,通过对信件资源进行语义标注与关系揭示实现了“事件—人物—时空”知识共现,借此提出了一套基于语义技术的知识组织方案[24];韦景竹等以孔子、老子、墨子这3位百家争鸣的核心人物的知识图谱创建为例,探讨了知识图谱在数字人文学科知识组织中的应用价值和实现途径[25],而英国学者A. D. Cheok等通过探索人与计算机之间的自然对话,将自然语言处理技术与机器算法应用于孔子礼教知识和教学建模,并以此开发了一种允许以虚拟和现实交互方式体验孔子教导的知识组织系统。该系统能够让用户直观认识各种非物质遗产全貌,也可通过交互对话测量人物的哲学意图,并生成视角较为新颖的内容与答案[26];牛力等依据名人档案资源记忆单元设计了一套多粒度知识组织方案,并通过重构实体揭示了档案所记录的人物信息与事例背后的人物思想、社会经历与家庭生活等,印证了领域本体模型在全局发现与知识挖掘等方面的价值[27];张云中等以CBDB人物资料库架构和上海图书馆人名资料、古籍资源与地方志文献为基础,参照诗词网站与人物年谱完善了历史文化名人游学足迹知识组织框架,再集合关系数据库系统、Navicat管理系统、D2R转换工具、LODLIVE可视化软件分别进行数据存储、转化发布、浏览查询与图谱构建实现历史名人游学足迹的知识发现[28]。

可以看出,国内外针对名人文献资源相关研究较为集中于上述4个方面,而开展名人文献资源知识组织方案研究的成果较少,围绕地方名人与其作品资源的知识组织研究还未出现,更缺乏相应的知识组织方案与可复用的领域本体模型。基于此,本文通过地方资源开发现状、名人文献资源特征与人物知识框架等设计了一套能揭示地方名人多源异构资源各粒度知识的组织方案,以期在实现文献知识“显隐”印证的同时为地方GLAM机构开展人物知识管理与服务提供借鉴。

3  地方名人文献资源知识组织与关联方案设计与分析

自然语言处理和本体模型构建能将非结构化文本加工为结构化知识,从而实现知识关联和资源共享。由于地方名人文献资源所涉及的手写与印刷资源需要人工校勘,所以,地方名人文献资源组织方案应是一种人机互助形式,需囊括下述几项功能:①可以参照凡例设置(字体、排列、现代标点等)完成语料主题甄别和内容修正; ②可以运用自然语言技术实现名人文献知识(人物、地点、事件、行为、情感等)的实体识别和关系抽取;③可以通过自建本体模型(人物本体、文献本体等)规范领域基础类和属性间关系;④可以结合人文图谱软件(Gephi、QGIS、Cytoscape等)揭示不同粒度知识网络;⑤可以利用图数据库(Neo4j等)存储和查询互联知识;⑥可以应用图谱呈现的知识粒度值辨别组织结果优劣并进行结构调整,以此为地方GLAM机构开展人物导航、语义检索、关联推理和人文发现等知识服务奠定基础。具体设计思路可见图1,下面将对关键步骤进行概况分析。

图1  地方名人文献资源知识组织与关联方案

3.1  异构文献资源内容整理

依据相近体裁出版物凡例设置的规则对名人档案与手稿作品等资料进行整理。在文本数字化前,由于地方名人文献中存在大量的手稿且部分已出现破损,在资源整理前需对破损手稿进行原生性保护以确保后续文本扫描工作的顺利进行。在文本数字化过程中,由于手稿字体、图画和表格等部分存在明显的个人特征,需通过“OCR+人校”模式辅助辨别文本主题和修正文档内容,以此形成较规范、可识别和可增添的电子文档。在文本数字化后,按照“NLP+人校”模式运用LTP平台、NLPIR与ROST等自然语言处理工具辅助研究者完成对文献实体识别与关系抽取的任务,根据文本内容验证抽取要素的准确度、匹配度及完整度,根据背景史料对文本内容进行修正,为后续的知识整理与本体赋值做好准备。

3.2  地方名人资源本体构建

依据整理后资源结构化程度重点筛选与加工半结构化和非机构化文本资源,以CNMARC、DC等元数据标准体系为基础,运用自然语言处理技术(实体识别、关系抽取),从分散无序的名人文献资源中提取主题、人名、地名、事件名、情绪词与风格等不同粒度知识。结合抽取知识的相关性、通用性与识别度以及中国历代人物传记资料库(CBDB)等知识库框架,共同绘制人物术语词表和文献术语词表。根据领域核心概念划分基础类等级、定义与属性并自建本体模型,再通过验证交流补充遗漏类与拓展属性,从而搭建适合地方名人资源组织与开发的本体模型。

3.3   实体与实体关系融合

在完成信息抽取后,不能忽略地方名人非正式出版文献(日记、演讲稿、采访稿等)中遗留的大量非规范性表述内容(绰号、简称、方言等),此类表述所产生的冗余或错误信息既影响人物关系与偏向行为的准确界定,也会降低实例本体清晰度与人文图谱构建质量。基于此,需采用融合手段将多源知识进行消解与消歧。对同义异称的实体与关系可选用相似函数或者推理模型等手段消解共指冲突,对同称异义的实体与关系可结合特指列表和链接系统等方式消除指代歧义,将多源异构知识合并以解决知识匹配与关联困局,为地方名人动态资源管理、“显隐”知识发现以及共享交互平台设计提供依据。

3.4  地方名人资源知识应用

合并后的地方名人文献资源以知识单元的形式按层存储于知识库中,用户可依据需求或目的开展人物导航、语义检索与人文知识发现等工作。如通过资源描述框架(RDF)链接地方人物及相关文献知识库实现人物导航,通过SPARQL、Cypher(Neo4j)等查询语言完成目标知识网络检索,借助逻辑运算与推理机制发掘地方名人资源实例间关联,并结合人文图谱软件从篇章内容、文段情绪、时空网络和交互行为等方面实现特色资源知识发现等。

4  地方名人文献资源解析与本体模型构建

地方名人文献资源开发因受限于人力与物力等因素,多以未整理的手稿形式及待处理的非结构化文本为主。而随着资源开发的演进与文本资源的补充,所构建本体的基础类与属性将逐渐被补充与调整,以文獻资源特征与人物知识框架为基础,结合七步法进行本体模型构建则更容易满足名人资源全周期开发与完善等需求。

4.1  地方名人文献资源特征

地方名人文献资源是GLAM等保藏机构特色资源中相对特殊的门类,由手稿日记、诗歌、讲稿和专著等直接关联文献以及人物传记、小说、家谱和地方志等间接关联文献组成。想运用本体模型将不同体裁、载体和主题的文献以及人物资料组织在一起,既需要辨析名人文献资源特征,也需要参考人物知识框架。地方名人资源特征可概括如下:

(1)资源种类丰富。地方名人资源是记录地域演变、历史变迁、民俗文化与宗教信仰的重要集合,名人日记、诗歌、讲稿等资源也是揭示民族变迁、语言特色、地方风俗与神话的重要依据,名人照片、视频和名人瓷器、石板与木刻等资源也是开展地方文化记忆工程的重要素材。所以,在整理和划分名人资源种类过程中,除了处理以纸质载体为主的文本文献外,还需要关注留声录像(照片、磁带和视频等)和实物(手工品、石刻和雕版等)等其他形式资料。

(2)文本结构复杂。由于名人文献资源大多以手稿形式保藏,不同人物作品在文化背景、行文规范、语言偏好、文段构思与字体字形等方面存在较大差异,受限于机器整理的文本质量,运用算法、机器学习等手段对名人文献资源核心知识进行识别与抽取的准确度并不理想,且容易出现词汇冗余与词义不搭等现象。所以,需要按照设置凡例将待处理文本所涉角色、句法与语序进行人工处理,确保不同时期的文言、白话(口语、书面语)能够转译为统一形式文本来提高语言处理质量。

(3)资源视角广阔。直接关联文献(如名人自撰作品与亲笔记录)可为文献资源组织提供实例资料,而间接关联文献(如名人生平游历与仕途变迁)则为人物知识梳理提供佐证材料。此外,还需要引入参考资料和引证文献来提高人物资源组织方案的适用性,即通过资源中提及的人物、作品等内容来扩充文本体量,通过可参考资源中的诗句、事件等内容来提升文本广度。

(4)主题关系隐蔽。由于名人资源内容繁杂且形式多样,仅依靠自然语言处理技术难以达到高准度异文同题的关系抽取和发掘。所以,针对较为隐蔽的关联主题应以“人物”为基点,深入调研名人背景与解读作品内容,并结合其仕途经历、历史地位、关键事件和个人意趣等情况进行人工判断和筛选,以保障异文同题关系的合理与准确。

(5)资源跨域明显。GLAM虽同属于资源保藏机构,但是对资源研究的侧重点与方向均有不同,涉及图书馆学、档案学、历史学、考古学和计算机学等多个学科领域。因此,在搭建名人资源组织方案过程中应采纳多方意见,组建专业人才小组并运用分工合作的方式来细化各领域资源的知识粒度和关联关系。

4.2  人物资源描述框架

当前,地方名人资源研究领域还未出现可直接复用的人物知识框架与文献知识框架,而了解通用或常用的特色框架能够为湘西地方人物资源知识框架搭建提供线索。参考人物资源描述框架包括:

(1)CBDB资料库。中国历代人物传记资料库以历史人物传记为核心资源,信息描述可划分为入仕途径、社会身份、亲属关联、地区迁移等方面,传记信息结合时代背景及人物社会关系构建了一套较为完整的人物知识组织方案,可为地方人物及相关历史人物的知识分类和属性筛选提供支撑。

(2)FOAF模型。作为线上社区及社会网络用户信息组织与描述的本体模型,其术语词表中常用的13个基础类和55个属性可对用户个体、社会群体、所在组织、个体关系和相关事件等信息进行更全面描述与更深入关联,且可通过RDFSchema与OWL等通用模型进行类与属性的补充与调整。

(3)CERIF管理标准。学术科研信息管理系统中涉及的基础实体、成果实体、设施实体和附注实体能够直观地描述人物参与科研的全周期状况以及揭示其在教育、工作、研究和荣誉等方面信息。

(4)上海图书馆开放数据平台。平台提供了古籍(37个类,160个属性)、家谱(38个类,109个属性)、手稿及档案(44个类,195个属性)、历代人物传记(9个类,35个属性)和人名规范库(22个类,68个属性)等本体词表,可以为地方名人资源中涉及的家谱、手稿、档案和地方志等文献资源的知识元抽取提供指导。

4.4  地方名人文献资源本体模型初建

地方名人资源知识组织的核心步骤在于构建本体模型。而本体模型的构建工作也应围绕名人文献整合与资源结构规范等目的和遵循组织合理、关联有序、标准适应、开放共享、内容详实且富有特色等原则来开展。基于此,本文参照常用本体词表与知识框架,结合湘西地方人物与资源特征并运用七步法来自建地方名人文献资源本体CLO(Celebrity & Literature Ontology),CLO由人物知识框架和文献知识框架两部分组成。关键步骤概括如下:

4.4.1  知识元抽取

对异构资源的内容进行整理后需参考多种本体词表,依据体系标准和ROST软件从电子文本中抽取可概括与规范文献内容的知识元,为后续非结构化文本处理与知识本体初建提供支持。以《凤凰县志》《湘西文史资料》和《凤凰:那些人,那些事》等馆藏地方文献中记载的湘西人物为基础抽取名人知识本体构建所需的人物、教育、工作和成果等概括元素。以《苦学斋日记》和《苦学斋诗稿》等已初步整理的名人文献为基础抽取文献知识本体构建所需的目录、事件、风格、情感和角色等内容元素。在具体人物及文献本体构建时,需按照人物资料完整度与辨析度、文献体裁及内容特征等对核心概念与描述属性进行反复调整。

4.4.2  基础类词表构建

对抽取的知识元进行比较、整理与辨析处理,从中筛选具备通用性、识别性和增添性的知识元并将其纳入术语词表,对界定不完整或者不清晰的基础类(Class)进行补充和调整。分别定义人物知识本体的基础概况(姓名、籍贯、民族等)、教育(就读院校、专业、入学时间等)、成果(文献、日记、诗歌)和工作(机构、职位等)以及文献知识本体的目录(篇数、页数、字体等)、事件(发生地、涉及对象等)、角色(创作者、保藏者、开发者等)、流派(领域、起源等)、风格(对字体、对文献、对人物等)和情感(事件、角色、文献等)等描述类,补充时间(开始时间、结束时间等)和地点(涉及地区、地形等)等通用类。

4.4.3  属性词表构建

运用混合法(自顶向下法和自底向上法)以明确地方名人资源基础类层次与类内部属性。针对基础类等级划分,可依据层次分布和词表概念来构建领域上下位类框架,再通过实例所跨领域和所含知识向上泛化通用类和向下细化描述类,从而保障湘西名人文献资源本体模型整体结构的适用性及揭示要素的全面性。针对属性归类,需根据其描述类的事实进行判断,个体关联到个体为对象属性(op,object properties),对象属性具有说明取值类型的属性且能够揭示类与类间或类与实例间的共同特征;而个体关联数据为数据属性(dp,data properties),数据属性可根据其定类与定序以及离散与连续等特性来优化实例知识组织方案与丰富知识揭示视角。

4.5  本体模型修正

4.5.1  修正规则及概况

本体修正是以初建模型为基础,参照核心概念外延与揭示实例内容进行本体模型基础类调整与属性增减来提升模型匹配度的重要步骤。在本体修正过程中,核心概念外延界定、实例知识粒度细化、本体模型与领域实例匹配度均需根据地方文献领域专家咨询与反馈结果进行判定。以湘西地方名人与日记体裁作品整理现状为基础,从相关性、重要性、调整性和操作性4个维度设计函询问卷,遵循个人经验和独立认知等判别依据(通过=1;不通过=0),让专家分别对各基础类及属性的4个维度进行评价并给予建议。此次本体修正函询专家共15位,收回问卷13份(积极系数为86.7%)。参与专家分别来自图书馆、高校与软件公司。其中,男性7位(53.85%),女性6名(46.15%);本科及以上学历11位(84.62%),其余学历2位(15.38%);高级职称5位(38.46%),中级职称8位(61.54%)。平均从事信息组织、知识管理与数据库构建等工作年限为4年及以上。将专家评价、所提问题及建议进行汇总获得表4,参照建议对CLO进行修正后获得全票通过。

4.5.1  基础类修正

对人物描述明确概况、教育、成果与工作4项大类,以拓宽湘西地方人物知识组织与知识揭示视角。由于人物现有保藏作品多为日记、诗歌与批注等纸质文献,即人物成果部分任務为归纳现有文献成果并进行知识组织与内容揭示。以日记文献为例,将日记从文献类中提出并分别设立日记类与其他文献类,对日记类描述纳入目录、事件、情感、风格与角色5项基础类以全面、细化、深入地揭示文献知识结构;按照日记格式在目录中添加卷数与记录时间,由于日记中存在较多书信交流形式,需在角色类中增加交流角色以标注书信对象。此外,将工作经历中与机构调动相关内容单独归纳为机构(机构名、调动地)和职位(职位名)两项基础类,以细化对人物工作调动与变化内容的组织与描述。在通用类中,根据文献内容扩宽地点相关类描述种类,增设国家(共197个国家)子类以备国际事件涉及对象的标注与描述。

4.5.2  描述属性调整

在筛选人物及文献本体基础类后需要对相关属性进行调整。由于数据属性输入数值主要依赖于文本内容,所以类间调动主要影响的是类的对象属性。在人物描述方面,依据历史背景与个人资料空白内容移除谥号、党派、专长、语言、专业、地形与页数等数据属性,根据拓展资料增加身份、亲属与老师等对象属性。在文献描述方面,根据日记体裁特点移除作品所属流派类中关于领域与起源等数据属性,增加事件类中发生地坐标、涉及国家与涉及地点等对象属性,增加情感类中事件情感属性,在角色类中暂时移除保藏者与开发者等外部属性,增加交往人物、政治人物与历史人物等对象属性。此外,对应筛选与调整的新类增加记录时间、卷数等数据属性。

综上所述,调整后地方名人知识框架包括基础类10个(6大类,4子类)和属性26个(12对象属性,14数据属性),调整后文献资源知识框架包括基础类6个(1大类,5子类)和属性21个(15对象属性,6数据属性)。在表5中省略基础类前缀CLO,其中上标C代表基础类,上标op代表对象属性,上标dp代表数据属性,序号简示实例关系,***代表概况、教育、工作与成果任意类。

4.6  基于Protégé的本体模型编辑与呈现

通过本体模型对地方名人文献资源进行知识抽取、融合与重组,可加速推动特定领域知识由结构化向形式化转换进程。由于构建与修正本体需耗费大量时间且反复迭代完善,应选用常用本体语言及自动化搭建工具来保障与提高本体编辑效率。在本体语言方面,XML、OWL、RDF(S)等語言都是被认定为可共享语义网内容的标准语言;在自动化软件上,Ontolingua、OntoSaurus、WebOnto、Protégé等软件都能够接纳多种描述语言以完成本体模型的开发。其中,Protégé是由斯坦福大学生物医学信息研究中心开发的本体自动化编辑与开发工具,拥有二次开发、扩展模型、插件丰富和支持多语种输入输出等功能,可以为研究者提供一个自定义的开源环境[29]。基于此,此次围绕地方名人文献知识的本体编辑任务以语言OWL和工具Protégé为支撑展开。CLO基础类与属性输入如图2所示:

进入Protégé工具页面,在本体“由虚入实”的过程应首先按照基础类描述术语表在Protégé的“classes”模块中创建人物(CLO_Person)和日记(CLO_Riji)类,再通过“hierarchy”模块按照层级结构逐级添加人物概况(CLO_Person_Bas)和日记目录(CLO_Riji_Lis)等子类,并在“prefix”中增加GLO前缀,完成编辑后可获得图3右侧本体基础类层次结构视图。此外,还可以基础类关系与属性描述术语为基础,依据OWL/XML格式编码对各基础类、对象属性与数据属性进行定义。例如图3中左侧RDF/XML揭示框中就列出了对人物成果(CLO_Person_Ach)、人物教育(CLO_Person_Edu)和人物概况(CLO_Person_Bas)的编码定义。

同时,参照图2将CLO各对象属性与数据属性输入对应的自动化操作栏中,并分别编辑定义域和值域。在“Object properties”模块中输入关于(is_about)、生年(date_of_birth)、生地(place_of_birth)与卒年(date_of_death)等32项对象属性。在“Data properties”模块中添加字(Person_courtesyname)、性别(Person_sex)、民族(Person_ethnicgroup)与就读院校(Person_adschool)等16项数据属性。在定义类和子类以及对象和数据属性后可通过HermiT推理机纠正错误定义与不当关联以完善本体层次结构,也可为准确提取名人知识及其日记元数据和语义内容提供依据。最后在Protégé的“OntoGraf”模块中以“Radial”形式展示地方名人文献资源本体基础类与属性的关系,如图4所示:

5  实例呈现——以湘西诗人田名瑜及《苦学斋日记》为例

实例添加与研究既是本体修正的关键步骤,也是检验知识组织方案适用性以及开展地方文献资源开发的重要方式。而构建以本体为驱动的名人资源知识组织方案也能够充分将异源文献进行结构化整合,并利用属性界定、逻辑推理、语义查询和人文图谱来获取领域细粒度知识与绘制人物关联线索,为塑造地方文化形象以及深入挖掘人物资源内涵提供抓手。

5.1  田名瑜及《苦学斋日记》知识组织

湘西土家族苗族自治州地处湘鄂渝黔四省市交界处,是拥有悠久历史文化与特色民俗、服饰、舞蹈和饮食的少数民族聚居地,诞生了沈从文、熊希龄、田名瑜、黄永玉、彭司勋等一批文化与科学名人[30]。当前,围绕沈从文、熊希龄、田名瑜与黄永玉的研究多聚焦于文献学与艺术学领域,在资源整理与利用方面也更偏重对文本内容的剖析与考证,尚未有学者通过数字人文视角与技术来整合与开发相关名人文献资源。同时,日记作为一种可以直接反映人物所见、所思、所想的文体,其丰富的题材种类与随性的表现方式吸引了古往今来诸多文人墨客、仁人志士驻足赏读。而相较其他体裁文献,日记更容易表现作者自身个性与作者真实境遇,记录的人物经历与事件也具有更自然的生活气息,更具备文献考证、艺术欣赏和思想教育等突出价值。

基于此,本文实例呈现以湘西诗人田名瑜资料及其手稿作品《苦学斋日记》(1961年至1962年)为依托,通过“OCR+人校”模式数字化了相关书本及手稿,结合数据库人物资料及预设凡例完成了异构文献资源内容的整理,运用LTP语义分析平台和NLPIR语言处理系统抽取人物与文献要素,并根据人物概况、教育、工作、成果、机构、身份分类与文献目录、事件、情感、风格、角色、地点分类进行实体要素的划分。在完成要素抽取与分类后,将非规范性表述内容(绰号、简称、方言、错字等)进行了消解与消歧,对文档同义异称的实体如陶渊明(陶潜)等古代人物名与字所遗冲突进行人工消解,对文档同称异义的实体如《诗经》(实指《诗经说略》)消除了指代歧义。将抽取与整理后的489项实例根据预设知识框架导入CLO地方名人文献资源本体模型,并根据人物基础类与日记接触类分别对实例进行对象属性和数据属性赋值,再使用Protégé软件中的“OntoGraf”模块实现地方名人文献资源实体要素分布视图,如图5所示:

5.2  田名瑜人物知识关联分析

由于“OntoGraf”模块显示内容与显示字体页面受限,通过SPARQL查询语言检索“田名瑜”并依据“Grid-Alphabetical”模块形成关联可见图6。图中不同来源的人物知识可以通过自建本体CLO中相同的基础类及相近的属性特征实现知识聚合以及结构化分布,CLO模型也能够较为清晰直观地梳理人物在各个维度的概况与经历并进行知识关联。

在人物概况方面,田名瑜的字(个石)、生年(1890年)、生地(凤凰县)、卒年(1981年)以及身份(南社诗人、土家族诗人、湘西作家与同盟会成员)等知识实现共现。在人物成果方面,田名瑜所著作品(《苦学斋日记》《苦学斋诗稿》《早红词》《湘西四十年大事记》《湘西苗族记》、《诗经说略》《楚游屑录》《残杂诗稿》与《湘西献征》)实现了整合,能够为后续文献内容的组织与关联提供框架。在工作经历方面,田名瑜的任职地及职务(凤凰演讲所所长、文昌阁执教、《沅湘日报》编辑与总经理、湘西护国军秘书、大庸县县长、沅陵县县长、黔阳县县长、第十集团军秘书、湖南省政府秘书、凤凰县县长、湖南省文物保管委员会委员与国务院文史研究馆馆员)也实现了组织关联,能够为人物仕途画像的绘制提供依据。此外,通过亲属与师从属性的关联还能够揭示田名瑜与叔父田星六的多重关系,结合任职地、人物与时间的关联有助于辨析田名瑜在文昌阁执教期间是否教导过著名作家沈从文等。

5.3  《苦学斋日记》知识关联分析

通过SPARQL查询语言检索“《苦学斋日记》”并依据“Grid-Alphabetical”模块形成关联可见图7。图中《苦学斋日记》记载内容根据CLO本体模型可拆分为目录、事件、角色、情感、风格与地点6个类别,各维度知识在基础类及属性特征引导下实现了知识共现与知识关联,能够更为直观地呈现日记核心事件、人物关联与热点地区,也能为进一步演绎人物行为细节、揭示风格评价与推理情感倾向等提供样本。

在本体模型中可以通过设置Inverse functional(互逆)、Transitive(传递)、Symmetric(对称)、Asymmetric(非对称)、Reflexive(自反)等关系推理准则进行知识推理与评估。将本体中已有基础类与属性设置为对应关系,根据基础类与属性已有赋值可推理出新的关联并修改错误关联,以此提升知识关联的精准度。在完成知识推理后,可进一步实现角色、事件、作品与情感的关联。在实现文本知识关联后可看出,田名瑜谈及亲属(纯儿、孚孙、贞孙、宅孙)时,所涉及的高频事件(住院、下乡、送信)多包含关怀情感(关怀备至、牵肠挂肚、嘘寒问暖)。田名瑜谈及交往人物(沈从文与张兆和)时,所涉及的高频事件(题词、寄图、上门)体现了真挚情感(桃李春风与谆谆教诲),进一步印证了田名瑜与沈从文的师生关系。田名瑜谈及历史人物(陶渊明、欧阳修、李白)时,常用诗人作品(《归园田居》《李太白集》)所载诗句与意境来表达对秀丽风光与景秀河山的感慨,也时常用以印证自己所作诗句并抒发情感(悲秋怀人、寄情山水等)。此外,日记所载政治人物(尼赫鲁、肯尼迪、赫鲁晓夫等)与国际事件(中印边境自卫反击战、阿波罗计划等)也形成了情感(无所畏惧、身经百战、不屈不挠)关联。可以看出,通过“角色—事件(作品)—情感”等规则架构进行知识推理能够有效梳理日记各类要素并将其关联聚合,辅助人文学者开展各维度细粒度知识梳理与发现,也可通过频词转换等手段实现人物、事件情感倾向等方面研究。

综上操作,研究以田名瑜及其作品《苦学斋日记》为例,通过异构文献资源内容整理、地方名人资源本体构建、实体与实体关系融合和地方名人资源知识应用4项步骤完成了地方名人资源的知识组织与关联研究,流程简图见图8。后续可根据本体抽取各类要素,应用Gephi、QGIS、Cytoscape等可视化工具开展地点时空网络揭示、文段情绪归类与交互行为分析,还可以将日记内容整合入Neo4j等图数据库,为地名名人文献资源知识库的构建与开放获取服务的开展提供便利。

6  研究总结

开展地方名人文献资源知识组织与关联的目的在于整合异构文献资源、揭示人物及文献知识特征并进一步精化名人文献资源描述准度与粒度。本文以异构文献资源内容整理、地方名人资源本体构建、实体与实体关系融合和地方名人资源知识应用4个步骤为基础,提出了一套开发与利用地方名人资源的知识组织与关联方案,结合地方名人文献资源特征、人物资源描述框架分别将人物知识框架和文献知识框架组合成地方名人文献本体模型CLO。在实例部分,以湘西诗人田名瑜资料及其作品为依托,实现了田名瑜及其未刊手稿《苦学斋日记》细粒度知识检索与特性揭示,验证了CLO本体模型在地方名人文献资源整理与开发领域的可操性与实用性。同时,本研究也探究了数字人文视角下地方文献资源研究与开发的优势,总结如下:①思维互利,优势互补。相较于传统文献学研究思维与方法,數字人文所涉及工具、技术与算法能够将地方文献的“文字”研究拓展为“文字+数据”研究,突破文理壁垒的同时能够将语言描述优势同数理运算优势相结合,实现定性与定量思维的接轨,丰富地方文献研究成果产出形式和产出领域。②视角宽广,结构趋同。数字人文为地方名人文献资源的开发与利用提供了跨学科的应用视角,推动了地方名人多源异构资源的结构趋同与外部异构资源知识互联,在提高资源开放性、利用率与分享价值的同时,为地方文献保藏机构进一步开展知识聚类研究、人文知识图谱绘制以及特色资源知识发现等业务探明了方向。

本研究存在以下不足:地方名人文献资源知识组织与关联方案更偏重于工程化操作,视角较为宽泛;研究对象仅为日记类文献,还需针对其他著作开展实证研究。后续将参照此套方案开展地方名人知识库构建,期盼在实际应用中能够不断调整方案结构、类与属性,为地方名人文献资源的开发与利用提供借鉴和依据。

参考文献:

[1] 刘石, 孙茂松, 顾青. 数字人文[M]. 北京:中华书局, 2019.

[2] 冯晴君. 现代图书馆地方文献工作理论与实践[M]. 北京:中央文献出版社, 2008.

[3] 谢嫚.人物专题数据库的构建及其数据挖掘探索——以中国女性人物专题数据库构建为例[J].现代情报, 2010, 30(6): 49-53.

[4] LIU C, HUANG C, WANG H, et al. Mining local gazetteers of literary Chinese with CRF and pattern based methods for biographical information in Chinese history[C]// Proceedings of 2015 IEEE international conference on big data. New York: IEEE, 2015: 1629-1638.

[5] 赵宇飞. 基于中文名称规范档的人物信息聚合研究[D].太原:山西大学, 2020.

[6] KIM J W. The Role of philosophy of religion in the research of digital humanities: through the experience of building a digital archive of protestant missionary Letters from Korea(1880-1942)[J]. The Journal of the Humanities, 2021, 123(1): 79-105.

[7] ZORRILLA N. The exclusion of early modern women philosophers from the canon: causes and counteractive strategies from the digital humanities[J]. Hypatia-a journal of feminist philosophy, 2022, 37(2): 177-186.

[8] LUPANOVA Y M. M.V. Lomonosovs image in the historic memory of modern youths[J]. Sotsiologicheskii zhurnal, 2017, 23(3): 163-182.

[9] KUN H, JIANFENG Z. A progressive Web application on ancient Roman Empire coins and relevant historical figures with graph database[C]// Lecture notes in computer science (LNCS 11197). Digital heritage. progress in cultural heritage: documentation, preservation, and protection, 7th international conference. Berlin: Springer International Publishing, 2018: 235-241.

[10] BONCH-OSMOLOVSKAYA A, SKORINKIN D, PAVLOVA I, et al. Tolstoy semanticized: constructing a digital edition for knowledge discovery[J]. Journal of Web Semantics, 2019, 59(100483): 1-9.

[11] CHEN C, CHANG C. A Chinese ancient book digital humanities research platform to support digital humanities research[J]. Electronic library, 2019, 37(2): 314-336.

[12] HUANG J, LUO T. Computing Len for exploring the historical peoples social network[C]//Proceedings of 2018 IEEE 6Th international conference on future internet of things and cloud workshops (W-FICLOUD 2018). New York: IEEE, 2018: 95-101.

[13] JI H H, MIN M S, CHEOL C G, et al. Visual analysis on the political orientation of historical characters in the Joseon Dynasty: focusing on Seo, Geojeong[J]. Archives of design research, 2019, 32(1): 147-161.

[14] BAE S. Digital humanities and Song Dynasty research focus on 1163s civil service examination and the social network of LouYue [J]. Journal of Asian historical studies, 2019, 146(1): 157-191.

[15] 徐永明.中国古典文学研究的几种可视化途径——以汤显祖研究为例[J].浙江大学学报(人文社会科学版), 2018, 48(2): 164-174.

[16] 钱超峰, 杜德斌.北宋官僚家族网络的空间结构及其演化: 基于CBDB和CHGIS的考察[J].歷史地理研究, 2019, 39(2): 83-94, 161-162.

[17] 杨海慈, 王军.宋代学术师承知识图谱的构建与可视化[J].数据分析与知识发现, 2019, 3(6): 109-116.

[18] 刘京臣.大数据视阈中的明清进士家族研究——以CBDB、中华寻根网为例[J].北京大学学报(哲学社会科学版), 2019, 56(4): 96-108.

[19] 邓君, 钟楚依, 王阮, 等.清代职官知识组织与关联分析——以《长春县志·长春职官考释表》为例[J].图书情报工作, 2020, 64(17): 18-26.

[20] 霍曉楠. 数字人文视角下《全唐诗》贬谪诗人时空结构及社会关系网络研究[D].长春:吉林大学, 2021.

[21] 宋雪雁, 崔浩男, 梁颖, 等.数字人文视角下名人日记资源知识发现研究——以王世杰日记为例[J].情报理论与实践, 2021, 44(6): 105-111.

[22] 刘宁静, 刘音, 王莫言, 等.数字人文视角下学术名人知识模型构建研究——以李政道数字资源中心为例[J].图书情报工作, 2019, 63(23): 113-121.

[23] LI H, ZHU L, SHEN W, et al. Research on knowledge organization and visualization of historical events in the Republic of China Era[J]. Library trends, 2020, 69(1): 138-163.

[24] 姚天泓, 陈艳梅, 刘革, 等.基于CIDOC-CRM的数字人文史料资源语义化知识组织研究——以张学良史料资源为例[J].图书馆学刊, 2019, 41(7): 35-43.

[25] WEI J, LIU R. An approach of constructing knowledge graph of the hundred schools of thought in ancient China[C]//Proceedings of 2019 ACM/IEEE joint conference on digital libraries (JCDL 2019), New York: IEEE, 2019: 335-336.

[26] CHEOK A D, EDIRISINGHE C, KARUNANAYAKA K. Confucius computer: a philosophical digital agent for intergenerational philosophical play[J]. Personal and ubiquitious computing, 2017, 21(2): 327-343.

[27] 牛力, 高晨翔, 刘力超, 等.层次与空间:数字记忆视角下名人档案的价值挖掘研究[J].档案学研究, 2021, 187(5): 138-144.

[28] 张云中, 孙平.历史文化名人游学足迹知识图谱的构建与可视化[J].图书馆杂志, 2021, 40(9): 81-87, 96.

[29] 王昊奋, 漆桂林, 陈华钧. 知识图谱 方法、实践与应用[M]. 北京:电子工业出版社, 2019.

[30] 中国人民政治协商会议湘西土家族苗族自治州委员会文史资料研究委员会.湘西名人[M]//湘西文史资料 第三十四-三十五辑.湘西:湘西州文史资料委员会, 1994.

作者贡献说明:

王梓懿:提出研究选题,撰写与修改论文;

陈  晨:收集综述文献与整理手稿资料;

王湘华:提供手稿资料,指导研究方案,核查论文内容并提出修改意见。

Research on Knowledge Organization and Correlation of Local Celebrity Literature Resources from the Perspective of Digital Humanities

Wang Ziyi1  Chen Chen1  Wang Xianghua2

1School of tourism and management engineering, Jishou University, Zhangjiajie 427000

2School of literature and journalism, Jishou University, Jishou 416000

Abstract: [Purpose/Significance] Starting from the current situation of the construction of local celebrity literature resources, this paper explored the knowledge organization and association scheme of local celebrities multi-source heterogeneous resources from the perspective of Digital Humanities, so as to provide reference for GLAM institutions to carry out local celebrity knowledge management and services. [Method/Process] Referring to the relevant development ideas of celebrity resources at home and abroad, this paper put forward a set of local celebrity resource knowledge organization scheme, which includes four steps: content sorting of heterogeneous document resources, ontology construction of local celebrity resources, relationship fusion between entities and entities, and knowledge application of local celebrity resources. Combined with the characteristics of local celebrity resource and the character resource description framework, the local celebrity resource ontology model CLO is built. [Result/Conclusion] Relying on Tian Mingyu, a poet in Western Hunan, and his manuscript “Diary of study hard”, the knowledge organization and correlation disclosure of local celebrity and his diary works are realized according to the organization steps and protégé tools, which verified the feasibility and operability of this set of organization scheme. While broadening the perspective of local literature development, this paper also provided reference for the construction of celebrity knowledge base and the development of characteristic humanistic services in ethnic areas.

Keywords: digital humanities    celebrity literature    knowledge organization    ontology construction    Protégé

猜你喜欢

数字人文
图书馆未来的技术应用与发展
数据驱动下的高校图书馆数字人文服务研究
汉传佛教文化遗产数字化建设现状调查与特征分析
数字人文2011—2016年研究综述
数字人文时代公共图书馆经典阅读推广研究
数字人文时代公共图书馆经典阅读推广研究
数字人文目标下图书馆信息服务模式研究
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文