数字人文视阈下方志档案资源数字化组织与建设研究
2022-07-06任常青
摘 要:提取明清两代雄安县志中物产节的诸要素,构建作物领域本体,实现作物物产知识单元语义层面上的描述和组织,将结果以可视化、立体化的方式呈现,展现其背后的地方历史更迭与文化传承。以明《嘉靖雄乘》及清《雄县乡土志》为档案素材,以protege为工具,基于本体理论利用技术构建作物物产类本体,实现对县志档案作物资源的动态可视化展示。以作物物产为例证明本体能够很好地对方志档案中的资源进行数字化组织与可视化展示,并能挖掘方志档案中蕴含的丰富史料,考察其所表现出的不同特征及变迁情况,为我国传统方志档案资源的相关研究提供方法论层次的启发与思考,具有一定的实践意义。
关键词:方志档案;数字人文;本体;可视化
中图分类号:TP39 文献标识码:A文章编号:2096-4706(2022)06-0122-03
Research on the Digital Organization and Construction of Chronicle Archive Resources from the Perspective of Digital Humanities
—Take Crop Materials as an Example
REN Changqing
(School of Management, Hebei University, Baoding 071002, China)
Abstract: Extract the elements of the material festival in the annals of Xiongan County in the Ming and Qing Dynasties, construct the crop domain ontology, realize the description and organization of the semantic level of the crop material knowledge unit, present the results in a visual and three-dimensional way, and show the local historical change and cultural inheritance behind it. Taking Jiajing Xiongcheng in Ming Dynasty and Xiongxian Local Chronicles in Qing Dynasty as archival materials, protege as a tool, based on ontology theory and technology, this paper constructs crop material ontology to realize the dynamic visual display of crop resources in County chronicles archives. Taking crop materials as an example, it is proved that ontology can well digitally organize and visually display the resources in local chronicle archives, excavate the rich historical materials contained in local chronicle archives, investigate their different characteristics and changes, and provide methodological enlightenment and thinking for the relevant research of traditional local chronicle archives resources in China, which has a certain practical significance.
Keywords: local chronicle archive; digital humanities; ontology; visualization
0 引 言
信息资源的语义化,已成为当前互联网发展的一个重要趋势。语义网日渐成为互联网发展的新方向与研究热点,旨在解决互联网松散的异构数据问题,从而使互联网上的信息能够为机器所理解,实现人与机器的交互操作[1]。正是在这一背景下,作为语义网框架中重要组成部分的本体,越来越受到关注。本体对概念及概念之间的关系进行严格的定义,从而确定概念的访问和搜索,能够很好地解决互联网信息复杂的语义关系[2]。目前,本体在各领域已有广泛的应用,但却鲜有作者将本体技术引入传统方志档案资源的研究中。姜赢等将本体引入家谱研究,建立了基于本体的家谱知识图谱模型,实现了关于家谱的常见检索功能[3]。司莉等探究了多语言本体的构建流程,分析了多语言本体的映射方法,基于语义编码的多语言本体映射构建多语言本体,并选取了珞珈山植物为特定领域进行研究,验证了本体在语义研究中的可行性与前景[4]。刘乾凝以都市农业作为资料来源,建立了北京地区面向数字人文的都市农业资源本体体系,从而为都市農业文化知识的组织、传承、保护和共享提供了可能[5]。纵观上述研究可以发现,虽然他们都将本体技术引入数字人文的研究中,并取得了一定的成果,然而以方志档案为语料来源,建立相应的本体,对我国传统文化宝库中具有独特史料价值的方志档案资源进行深度挖掘的研究还相对较少,仅有的一些研究包括知识库构建、地名自动识别模型构建[6]、物产名与别名的可视化[7]等方面,相关领域尚有待进一步探索。5A8DB4EB-735A-4A72-BE36-985E6BA3DD25
本研究正是在此大背景下,以雄安方志档案为语料,以作物物产节为研究对象,采用本体的理论与方法,基于现有成熟的本体构建规范,研究构建了一个开放的、语义表达良好的作物物产领域本体,在本体的基础上予以可视化展示,将传统纸质平面资源转化为立体化、多维化的数字资源,并提供一定的查询检索功能,以便进一步比较明清两代作物物产的基本信息、分布区域以及它们在习性、资源类型上的差异,探究其背后的成因,为方志档案资源的数字化整理与挖掘提供了新的思路。
1 方志及特征分析
2017年4月1日,中共中央决定在河北设置雄安新区,这是促进国家整体发展的重要战略选择,是国家的千年大计[8]。雄安新区的设置预示了我国区域发展战略的新方向,并对我国未来社会的经济发展具有重要的指导意义。雄安新区地处燕赵腹地,历史悠久,有着丰富的文化底蕴,对其背后的历史资源进行深入挖掘,必然会对新区建设规划等诸多方面大有裨益。县志档案作为历史资料,具有原始性与真实性,通过对其进行开发利用,有助于把握那一历史时期的时代脉搏。笔者所获得的雄安县志包括明《嘉靖雄乘》与清《雄县乡土志》两个底本内容。《嘉靖雄乘》是雄县历史上的第一部县志,始撰于嘉靖十一年(1532),历经3个月,始粗成,该志分上下两卷,设十纲,六十五目,此志对雄安方志史的流传有着深远的影响,涵盖风土、田赋、山河、物产、礼制、选举等内容。《雄县乡土志》是刘崇本在光绪三十一年(1905)编修的一部雄县方志。县志历时半年,初具规模,共有十五纲,纲下没有明确的细目,多依年代排列,把许多以前志书的内容掺杂在了一起,整体上显得更为丰富。其内容涵盖历史、地理、道路、户口、宗教、物产等方面的详细说明。二书可说互为表里,可互相比较参阅,利用这些极具地方特色的史料开展研究,具有极强的个案研究价值。雄安县志中的物产一节,内容包括作物、动物、货物三大类别,以物产的品种资源与属性描述为主,对农业史和区域史的研究亦有很高的价值。本研究正是选取该志中的作物物产一节,从中抽取所需数据,进行本体构建,为比较明清两代雄安地区作物属性上存在的差异提供了可能,有助于还原、再现该地区当年的历史面貌。
雄安县志本为繁体字体的无序文本,因而本文对其进行数字化后的首要工作便是化繁为简,并对通篇文本进行格式化处理。经过数据预处理,可以发现雄安县志对于作物物产一节的行文描述是相对规律且结构化的,其将作物进行分段处理,即对每一个作物物产实体的信息描述单独占一段,内容基本由作物名称和属性信息两部分构成。前者为县志官方记载的该作物的正称,后者则是对该物产别名、生长环境、用途等的详细说明。此处以白菜为例,具体的行文结构及段落格式为:
“白菜,古谓葵,晋以来谓之菘。“秋末晚菘”,即白菜也。味淡而美,消食下气,止热避瘴。最宜合姜食,以姜能制其冷气也。其花受蔓菁之花粉,则变为“箭干白菜”,纤维多而味减,如粱之有稂、谷之有莠、稻之有稗也。白菜美在叶,蔓菁美在根,与芥及芸苔皆十字科也。”
2 作物物产领域本体的构建与实现
建立作物本体,首先要构建好作物领域的知识组织体系,主要由两方面的内容构成,分别为作物物产概念体系的构建以及作物物产概念间关系的建立。
2.1 作物物产的概念体系构建
通过深入分析雄安两本县志中对作物描述的文本特点,以及调查研究国内外已有的成熟作物领域本体,本文将作物物产领域类划分为五个部分,具体如表1所示。
2.2 作物物产本体概念间关系的建立
本体的概念间关系,指的是实体间和实体内的属性。据此,本体中的属性可分为两种类型:一种是对象属性,用来描述实体与实体之间的关系,也是连接两个实体的纽带;另一种是数据属性,用来描述实体与其基本数据类型之间的关系。本文构建的作物物产本体主要包括8种对象属性(如“有习性”“分布区域”)和7种数据属性(如“种类”“颜色”)。用OWL语句表达如表2所示,数据属性如表3所示。本体构建过程中涉及的部分代码为:
// Data properties
//
-->
<!-- http://www.semanticweb.org/原文描述 -->
<!-- http://www.semanticweb.org/记载朝代 -->
<!-- http://www.semanticweb.org/once/ontologies/2021/1/untitled-ontology-9/叶 -->
<!-- http://www.semanticweb.org/once/ontologies/2021/1/untitled-ontology-9/名称 -->5A8DB4EB-735A-4A72-BE36-985E6BA3DD25
<!-- http://www.semanticweb.org/once/ontologies/2021/1/untitled-ontology-9/味道 -->
3 作物物产本体的可视化呈现
本文选择记载于明《嘉靖雄乘》棕榈科蒲葵属下的菰蒋作为可视化实例。通过明清两代作物物产在诸多特征上的对比,由小见大,把握属于那个年代的历史脉搏,发现变迁规律,再现当年的风土及物产盛况。
其中,《嘉靖雄乘》对菰蒋的描述为”菰蒋,似蒲,叶肥大而松。茎深绿色,可饲马。叶可编席铺屋顶,又可为扇及包,以包果饵,俗呼蒲扇、蒲包,实非蒲也...”。由此可知,“菰蒋”是棕榈科蒲葵属下的实例,其记载年代为明代,与“蔬类”下的“银条菜”同属相同的类群,根据它的用途可知,其属于“工业用作物资源、牧草及饲用作物资源”,具有“喜温、不耐干旱”等习性,将其实例可视化后的效果,如图1所示。
4 结 论
实践证明,采用本体及知识图谱的方式对传统方志档案进行数字化组织与建设的研究具有重要价值,能够为传统地方志的数字化、数据化、智能化奠定基础,促进更深层次和更高级别的知识发现。在未来的研究中,可以引入更多的信息作为补充信息源,采用更多的关系来丰富实体之间的语义联系,利用深度学习及自然语言处理的技术实现对知识单元的自动化抽取,促进方志档案资源的数字化深度开发与全面利用,突出研究成果的实际应用意义。
参考文献:
[1] 张元好,曾珍香.城市信息化文献综述——从信息港、数字城市到智慧城市 [J].情报科学,2015,33(6):131-137.
[2] 臧根林,王亚强,吴庆蓉,等.智慧城市知识图谱模型与本体构建方法 [J].大数据,2020,6(2):96-106.
[3] 姜赢,张婧,朱玲萱.基于本体的家谱知识图谱模型及检索系统 [J].电子设计工程,2017,25(12):161-165.
[4] 司莉,辛娟娟.多语言领域本体构建研究——以珞珈山植物本体为例 [J].图书馆论坛,2016,36(2):22-26.
[5] 刘乾凝.面向数字人文的都市农业本体的構建 [J].图书馆杂志,2019,38(8):53-58.
[6] 朱锁玲,包平.方志类古籍地名识别及系统构建 [J].中国图书馆学报,2011,37(3):118-124.
[7] 李娜,包平.方志类古籍中物产名与别名关系的可视化——基于社会网络分析技术视角 [J].图书馆论坛,2017,37(12):108-114.
[8] 中国雄安网.河北雄安新区规划纲要 [EB/OL].[2022-02-02].http://www. Xiongan.gov.cn/2018-04/21/c_129855813.htm.
作者简介:任常青(1998—),男,汉族,山东济宁人,硕士研究生在读,研究方向:数字人文、知识图谱。5A8DB4EB-735A-4A72-BE36-985E6BA3DD25