数字记忆视角下重大社会事件档案知识图谱开发
——以中山大学抗疫专题档案为例
2021-05-15舒忠梅李小霞张珊瑜刘一凡中山大学档案馆
舒忠梅 张 萍 李小霞 张珊瑜 周 纯 刘一凡/中山大学档案馆
档案是建构集体记忆重要且不可替代的要素,数字档案是档案资源的重要组成,开发是构建档案资源的基本途径之一[1][2]。特里·库克将西方档案观念与战略的变化归纳为证据、记忆、认同和社会等四个范式[3],强调档案兼具保存记忆和选择构建记忆的双重功能[4]。档案记忆理论作为档案学的新范式,让我们将档案现象置于社会记忆解释框架中进行重新审视和阐释,从而获得学术新知[5]。从本质上而言,数字记忆是“运用新兴数字技术对承载记忆属性的档案资源进行开发利用的一种建构活动”[6],是“现代信息技术与社会记忆建构有机结合的产物”[7]。在数字化转型背景下,档案馆及档案专业人员肩负着保存和构建数字记忆的重要责任,探究档案工作如何助力于构建数字记忆在当前形势下十分必要[8]。
档案记忆已成为档案学界研究关注的热点问题。已有研究主要集中在档案记忆理论[9]、档案数字记忆建构[10][11]、档案记忆与身份认同的关系[12][13]、非物质文化遗产的档案记忆[14]、数字档案记忆资源的整合和开发理论探索[15]等方面,呈现出多元化研究态势。然而,现有研究尚未涉及重大社会事件档案的数字记忆开发利用等实践探索。2020年新型冠状病毒肺炎疫情暴发,成为我国乃至全世界范围内的一次重大社会事件[16]。疫情档案的整合管理及利用对疫情预警与防控的重要性日益凸显[17]。已有文献从记忆视角下探讨了新冠肺炎疫情档案收集策略[18][19],从协同治理视角和多个维度探讨了疫情档案管理协同框架的构建[20],但鲜有关于疫情档案开发的实践研究。为此,本文将以中山大学新冠肺炎防控专题网站归档资源为案例,创新性地从档案内容发现与细粒度的数据挖掘相结合的业务实践与信息技术视角,建立抗疫专题档案本体与数据库,构建中大记“疫”档案知识图谱和档案实体关联与推理机制,指导整理档案专题编研成果,为档案数字记忆资源开发与数字人文研究提供实践参考。
1 抗疫专题档案数据库
1.1 抗疫专题网站档案资源
中山大学服务国家防疫防控工作大局,从2020年1月24日除夕夜开始,学校以最快速度、最大限度集中医科优势,从附属第一医院、孙逸仙纪念医院、附属第三医院、肿瘤防治中心等先后抽调512名精锐医护人员驰援湖北武汉,占广东援鄂医护人员总数四分之一,赢得“无敌中山医”美誉。此外,中山大学还选派医疗专家支援省内各地及绥芬河、乌鲁木齐、喀什、泉州、北京、香港等地疫情防控,选派医务人员参加香港和北京的核酸检测工作,另有6名医疗专家远赴塞尔维亚支援抗疫[21]。
为全面展现疫情过程中形成的且具有保存价值的文字、图像、声像、影像等不同载体和形态的原始记录,学校建设中山大学新冠肺炎防控专题网站(下简称“抗疫专题网站”,网址为https://fyztw.sysu.edu.cn/),网站设有社会关注、媒体报道、工作动态、基层行动、防治知识、思政课自主学习和研修专题等内容,并以专题档案方式进行归档。档案数据资源为开展数字记忆等数字人文研究提供了关键资源,在数字人文与档案融合发展推动下,仅以档案原貌呈现的传统档案利用方式已不能满足新时代用户个性化的利用需求。针对抗疫档案来源分散和多元异构特征,以抗疫专题网站归档资源为基础,构建抗疫专题档案本体和抗疫专题档案数据库,进一步通过知识图谱可视化地开发防疫防控档案数字记忆资源。
1.2 抗疫专题档案本体
实体及其关联是数字记忆视角下开发档案资源的关键,是档案知识获取、知识表示和知识推理的基础,采用本体对存在潜在关联的档案数据资源建模,探索发现档案数据资源的抽象本质,获取档案领域知识[22]。鉴于数字记忆具有来源复杂、异构多粒度等特征,可按照主题、事件、机构、人员、时间、地点等不同维度对其进行多维划分。采用网络爬虫、文本抽取等技术,从抗疫专题网站网页等非结构化数据中,抽取时间、地点、人物、事件、机构、主题等核心概念,抽象出组织机构、附属医院、二级单位、员工、驰援对象、驰援批次、一线入党、表彰、城市、日期等本体,识别本体之间继承、实例化等关联关系,构建抗疫专题档案本体模型。
1.3 抗疫专题档案数据库
在抗疫专题档案本体模型基础上建立抗疫专题档案数据库。右图为抗疫专题档案数据库实体及其关联关系(E-R)模型。在数据库模型中,为组织机构、附属医院、二级单位、员工、驰援对象、驰援批次、一线入党、表彰、城市、日期等本体分别建立数据表;本体之间的关联映射为相应数据表之间的关系,如驰援、参加驰援、驰援对象、驰援时间、表彰时间、表彰单位、附属单位、单位所在地等。
从抗疫专题网站档案资源中,进一步运用文本挖掘、标注、语义分析及自然语言处理等技术,通过实体匹配、识别与消歧处理,如将“支援”和“驰援”统一为“驰援”,提炼出组织机构、时间、地点、人物、事件、主题等档案实体及其关联,分别存储到抗疫专题档案数据库所对应的数据表中,为档案知识图谱开发提供底层的数据支撑。
2 抗疫专题档案知识图谱
2.1 抗疫专题档案知识图谱全景
抗疫专题档案数据库为构建人、物、组织、事件等档案实体及其之间的关联提供数据来源,可支撑不同维度的档案数据资源分析和深度挖掘。通过实体实例化,将组织机构实体实例化为中山大学;附属医院实体实例化为附属第一医院、孙逸仙纪念医院、附属第三医院、肿瘤防治中心、附属第五医院、附属第六医院、附属第七医院、附属第八医院等;驰援对象实例化为湖北武汉汉口医院、协和医院西院、协和医院肿瘤中心、同济医院光谷院区,广东省内各地,绥芬河、乌鲁木齐、喀什、泉州、北京、香港以及塞尔维亚等地;运用语义分析与数据挖掘等技术,构建抗疫专题档案知识图谱。图1为组织机构、附属医院、驰援对象、驰援批次、城市等实体实例之间关联的知识图谱全景展现。
2.2 多维度的档案关联及其推理
档案知识图谱为不同维度的档案关联及其推理提供了直观展现,通过知识图谱中的间接关联关系,可以进行档案知识推理和深度挖掘;通过时间或空间分析,检索特定日期或地点、特定事件的先后次序和动态发展状况,实现全面、立体、精准的档案服务。
若以驰援对象为关注点,勾勒驰援对象档案关联图,清晰地展现各附属医院与驰援对象、驰援批次与日期等之间的关联与推理关系。如,中山大学附属第一医院曾驰援塞尔维亚、泉州、东莞、武汉协和医院和汉口医院等,孙逸仙纪念医院曾驰援越南胡志明市、泰国曼谷、武汉协和医院等,附属第三医院曾驰援武汉汉口医院、协和医院和同济医院等。武汉汉口医院曾受附属第一医院、孙逸仙纪念医院、附属第三医院和附属第六医院等单位驰援。
聚焦一线入党知识图谱,展现在抗疫斗争中中山大学共有212名医务工作者在抗疫一线光荣加入中国共产党的事迹,呈现出入党医务工作者、入党批次、日期和所属附属医院等及其关联与推理关系。
图1:抗疫专题档案知识图谱
表彰知识图谱构建表彰称号、表彰单位、表彰个人等及其关联图谱。如,2020年3月,国家卫生健康委、人力资源社会保障部、国家中医药管理局三部门联合表彰全国卫生健康系统新冠肺炎疫情防控工作先进集体和先进个人,中山大学附属第一医院重症救治医疗队获“全国卫生健康系统新冠肺炎疫情防控工作先进集体”称号,许可慰等10位同志获“全国卫生健康系统新冠肺炎疫情防控工作先进个人”称号。2020年11月4日,中山大学抗击新冠肺炎疫情先进事迹报告会暨表彰大会对中山大学抗击新冠肺炎疫情26个先进集体和1933名先进个人进行了表彰。
3 结语
档案作为国家治理和公共服务必不可少的重要组成部分,承载着国家、民族、社群、个体的过往历程和集体记忆。作为档案工作者,应通过自身的业务活动来传承新时代文化记忆,充分发挥馆藏档案数据的资源优势。同时,应以档案数字资源为核心对象,运用数字人文技术,系统、深度、精准地建构与开发利用档案,为整理和出版专题档案编研成果提供指导,充分发挥档案育人作用,服务学校“立德树人”中心工作,打造具有影响力的特色档案数字记忆,促进档案资源增值。