突发公共卫生事件档案数据库建设研究
2020-12-21方晓丽
方晓丽
引言
2019年年末新型冠状病毒肺炎(以下简称“新型肺炎”)疫情在中国爆发,再次引起人们对突发公共卫生事件的关注。突发公共卫生事件是指突然发生,造成或者可能造成社会公众健康严重损害的重大传染病疫情、群体性不明原因疾病、重大食物和职业中毒以及其他严重影响公众健康的事件[1]。在突发公共卫生事件(以下简称“突发事件”)中形成了大量的文字、声像、电子等各种载体的档案资源,真实记录了社会各个行业、阶层同疾病灾害英勇抗争的全过程,对于突发事件过程的回顾、经验教训的总结都有着极其重要的作用。建设档案数据库是比较常用的一种突发事件档案管理方式。它能将传统的纸质档案信息转化为数字化信息,即将档案实现虚拟化,从而使档案信息与实体相分离,从这个层面上来讲就是将档案信息更好地实现网络共享,便于利用者进行复制、收集、整理以及利用,一定程度上促进了档案事业的发展。
关于突发事件档案数据库的研究,蔡盈芳[2]、曹燕红[3]、赵鑫强[4]、黄新荣[5]等人分别从数据库的内容、功能、组织、建设策略等方面进行了相关探索。蔡盈芳对突发事件档案专题数据库的内容、建设步骤及利用方案进行了具体的探讨。曹燕红提出建立突发事件专题数据库来解决同一突发事件档案资料分散管理、利用不方便的问题,并对突发事件档案专题数据库的在线检索功能进行分析。赵鑫强从用户需求、平台建设、信息安全、动态维护、建设标准等五个方面提出建立新型冠状病毒疫情档案专题数据库的具体策略。黄新荣建议在进行专题数据库的组织时对数据库的数据进行分层:基础层——原始数据、中间层——聚合加工数据、展示层——作品故事。与上述作者的思路不同,本文从大数据技术的角度出发构建突发事件档案数据库系统框架。
一、突发事件档案数据库概述
档案数据库是以档案的本体管理为基础,兼顾数据库设计和应用发展的需要,将包括档案实体信息、管理信息、应用环境信息在内的各种类型数据按照特定数据模型进行组织的数据集合[6]。突发事件档案数据库则是将在突发事件过程中直接形成的,具有保存价值的文字、图像、声像、影像等不同载体和形态的原始数据按照特定数据模型进行整合的数据集合,实现突发事件档案资源在不同专业领域、基层档案部门的资源汇集,并为突发事件档案资源在全国范围内的有效整合提供可能。
突发事件档案数据库的建设应具有特色性、安全性、可扩展性和服务性。其中,特色性是指在建设突发事件档案数据库过程中,要紧紧围绕突发事件开展工作,精准选材,要充分考虑到突发事件档案的作用和用户的利用需求,突出数据库的特色,避免盲目性;安全性是指突发事件档案数据库的建设要以数据安全和系统安全为基本前提,保障突发事件档案数据的安全和完整;可扩展性是指突发事件档案数据库在系统设计、功能延展、数据更新等方面预留一定的扩展和优化空间,提高数据库的动态管理能力;服务性是指突发事件档案数据库应以实现突发事件档案的社会价值、满足公众服务需求为重要导向,要确保界面友好、实用可靠、功能齐全,保证突发事件档案的查全率和查准率,提升用户的服务体验。
二、突发事件档案数据库建设的意义
1.释放档案价值,支撑应对处置工作
突发事件档案数据建设的目的之一就是实现一定区域或者全国范围内突发事件档案资源的优化整合,所谓整合就是将各个机构部门在突发公共卫生事件中形成的档案资源进行优化选择、整理、组合,使其一体化、系统化。突发事件档案资源的整合利用可以使有关部门短时间、高效率开展应急管理工作,减少不必要的人员伤亡,降低国家经济损失。比如,新冠肺炎疫情爆发后,10天建成的武汉火神山医院就是在2003年北京小汤山医院建设施工图纸档案的基础上进行建设。此外,在疫情期间雷神山医院的配套供电项目建设中,建设团队利用2019年世界军运会专题档案中相关供电路径图等档案资料,快速制定了供电方案,助力雷神山医院以3天3夜的超快速度完成了配套供电工程建设任务;洪山体育馆、武汉体育中心等被确定为“方舱医院”的重点场所,也是通过查阅军运会“一户一案”电子档案,借鉴其中的有益实践经验,为节约医院改造时间、挽救病人生命创造了有利条件[7]。大数据时代,突发事件档案资源跨主体、跨地区的整合利用不仅能够及时充分释放档案价值,使相关部门短时间、高效率开展应对处置工作,减少不必要的人员伤亡,降低国家经济损失,同时为今后突发事件的应对工作积累大量经验,具有重要的参考和借鉴价值。
2.发挥档案作用,正确引导社会舆论
面对突发事件,公众只有及时获得了权威可靠的信息,才能消除不必要的顾虑,更好配合政府的应急工作。在社交网络平台快速发展的今天,信息传播十分便捷,各种或真或假的消息在网上网下传播,给突发事件的应对工作带来许多阻碍。在被繁杂信息轰炸的情况下,公众需要来自专业机构、权威部门的系统完整、真实可靠的信息,帮助他们科学正确应对突发事件。譬如,拥有庞大用户量的社交平台——新浪微博在新冠肺炎疫情期間建立“抵制疫情谣言,助力科学防控”的微博辟谣话题,针对在微博上传播的关于疫情的虚假信息进行澄清并私信推送给每位微博用户,有利于减轻社会恐慌感。档案作为人类活动中直接形成的原始记录,其真实性、客观性、原始性等特点符合公众获取信息的要求。安全管理档案,保证档案的原始性、真实性是档案部门的职责所在。突发事件档案数据的存在,可以有效实现突发事件档案的提供利用工作,及时向有关部门提供真实的档案资源,阻断相关谣言的传播,起到正确引导社会舆论的效果。
3.构建集体记忆,展示集体抗疫精神
档案本身是不可再生的记忆资源,蕴含丰富的社会记忆[8]。突发公共卫生事件档案资源包括医护人员的请战书,各地制作的宣传横幅、宣传单,亲历者的日记、回忆录,公众在特殊时期的生活影像等等。这些档案资源全面记录了各省、市在突发事件中的应对处置工作及公众的生活状态,是特殊时期的重要记忆。对国家以及个人而言,突发事件都是十分重要、不能忘却的集体记忆。档案是建构集体记忆的不可替代要素,档案工作是建构集体记忆的受控选择机制,档案工作者是建构集体记忆的能动主体[9]。此外,在应对突发公共卫生事件的过程中,从医务工作者到人民子弟兵,从公安民警到基层干部,从志愿者到快递人员……他们用行动展现了不怕牺牲、勇于担当、甘于奉献的抗疫精神,他们的英雄故事被档案所记录。构建突发事件档案数据库不仅可以极大丰富记忆资源,发挥档案在构建集体记忆中的重要作用,同时公众通过对记忆的深化和思考,被抗疫英雄的故事触动和鼓舞,深刻感受和学习他们的抗疫精神,引发情感认同与共鸣,进一步增强民族凝聚力。
4.推动档案开放,满足公众信息需求
大数据时代,随着“数据开放”、“数据共享”成为社会讨论热点,公众的信息需求也发生了变化。面对突发事件,公众不仅想知道应对处置状况、自我保护知识、国家相关政策等,还想获得权威可靠、详细全面、更新及时的数据。比如在新冠肺炎疫情期间,公众最关注的就是国家卫生健康委员会等相关部门每天公布的肺炎疫情数据,即各省、市、区(县)的确诊病例、疑似病例等等。在“开放是原则、不开放是例外”的社会环境下,围绕公众迫切、多元的信息需求,依托信息技术,采用科学的方法,在保证不危害国家安全、个人隐私等情况下开放突发事件档案数据,使公众不受限制地获取、再利用和再开发档案数据,实现档案数据供给侧与需求侧的直接对接,既能满足公众知情权,实现信息惠民,又能提升政府公信力,消除公众恐慌,维护社会稳定。同时,公众也可以根据自己的专业知识对开放数据进行深层次挖掘和利用,获得的研究成果反过来可以帮助政府解决一些问题,节省资金和人力资源。当前,档案部门需要及时建设突发事件档案数据库,提高突发事件应对能力,进一步推动档案开放,满足公众信息需求,从而提高档案公共服务水平。
三、突发事件档案数据库的系统框架
当前,人们对大数据已经形成基本共识:大数据源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析[10]。大数据时代,突发事件档案数据价值的实现不再仅限于数据本身,而是扩展到数据组合;突发事件档案的收集从被动的数据收集变为主动的数据采集;突发事件档案的存储管理从记录管理变为海量数据集合存储管理;突发事件档案的提供利用服务从被动式满足用户查询需求变为主动式服务提供,服务内容从查询扩展到统计、建立平台等多项内容。基于大数据技术,笔者提出了突发事件档案数据库的系统框架,如图1所示。
1.档案数据采集层
大数据背景下,突发事件档案数据的内容逐渐多元化,颗粒度更细,来源渠道呈现出复合化特点。当前,数据采集是实现突发事件档案数据存储管理的基础。数据采集又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集信息的过程。数据采集技术包括数据源筛选与高质量数据采集、多源数据的有效识别和数据的详细解析、数据自动清洗与修复、数据演化和对数据的溯源管理、数据加载技术、数据传输技术等。从技术层面来看,电子档案的收集和对纸质档案的数字化处理是档案数据采集的主要途径。
突发事件档案资源不仅包括现代记录设备产生的数字资源,还有大量的纸质文献资源、实体资源以及存储于缩微胶片、磁带、录像带中的资源。前者的原始状态为数字形态,按照一定的标准规范进行数据采集即可。对于后者,需要先进行资源的数字化转型。一般而言,资源载体类型不同,数字化的方式也不一样。针对纸质文献资源,目前主要使用相应的扫描设备进行数字化,但对于著录项的标注采用的是手工录入的方式。对于实体资源可采用拍照、数字图像处理等方式进行数字化,譬如,手稿档案可利用类似于Carbo抓图处理软件的手写信息数字化采集及识别软件来进行数字化处理,图纸档案可采用图形处理软件以及工程制图软件(CAD制图)对图纸进行数字化处理[12]。存储于缩微胶片、磁带、录像带中资源的数字化处理方式主要利用模数转换器等类似设备将模拟信号转换为数字信号。完成突发事件档案数字化工作后,即可按照预先设定的策略,选择数据采集工具,开展数据采集工作,对数据信息展开有目的的收集,整合与突发事件相关的数据,为数据分析和应用打下基础。
2.档案数据存储层
檔案数据存储是实施突发事件档案开发利用的首要条件。面对海量数据,突发事件档案存储需要解决容量扩充、容灾备份以及数据安全等问题。目前,档案数据存储可采用Hadoop HDFS实现。HDFS的设计思想是将大文件、大批量文件分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。在大数据系统中可以为各类分布式运算框架提供数据存储服务。HDFS可提供高吞吐量访问应用程序的数据,适合突发事件档案大数据集的应用系统,支持大文件存储,同时满足文本信息以及图片、视频等媒体信息的存储需求[13]。
为了加强对突发事件档案数据的安全存储,系统可采用MD5算法以及数据湖技术、数据加密技术等。MD5算法的典型应用是对一段信息产生信息摘要,以防止被篡改。采用MD5算法对采集的档案数据进行检测,生成唯一的数字摘要用于数据校验,保证存储的有效数据不被篡改。数据湖是一种新型的数据存储架构,通过原生格式对原始数据进行保存,能涵盖各类结构化数据以及非结构化数据,在数据需要被使用的情况下可对数据进行处理[14]。数据加密技术可以将存储在数据库内的数据设立特定存储空间,通过安全套接层协议层将数据加密处理,保护数据库与其中的应用程序,既能实现突发事件档案数据的高效流通和移动,又能够保护所有隐私数据,为数据下载和上传带来防护功能,避免数据受到网络攻击[15]。
3.档案数据应用层
突发事件档案数据库系统建立的目的就是检索利用档案数据。数据应用层包括数据挖掘、数据分析、数据可视化。数据挖掘技术可以从档案专题数据库中快速找到有用或者有价值的信息,在数据进行模糊表达或者数据呈现的含义不清时,还可以对数据进行深层次的剖析,以便完全掌握数据想要表达的内容。通俗的来讲数据挖掘就是从数据中发现知识,将非凡的、隐含地、事先未知的、具有潜在用途的人们感兴趣的模式或者知识从大规模的海量数据中抽取出来[16]。突发事件档案资源具有内容复杂、类型多样的特点,正好符合数据挖掘技术的应用条件。
数据分析是整个数据流程最为核心的部分。“相关性”分析是大数据技术重要的思维模式,通过对数据彼此关联性的分析,能够更清楚地看到隐藏在背后的看似不相关的数据之间彼此的密切联系,使档案数据挖掘从常规分析向广度、深度分析转变[17]。同时,用户在突发事件档案数据库系统查询检索所需档案时,利用“相关性”分析对档案检索情况、检索记录等进行分析,为档案部门提供科学、合理的分析报告和预测报告,可以为改进数据库系统的管理方法以及提高服务水平,提供前提条件和决策依据。
突发事件档案数据库系统中的数据呈现形式较为丰富多样,其中很多是可视化数据,比如视频、图片等等。因此在提供数据检索服务时,可以使用数据可视化工具,如WIDAS工具、Echarts2.0等,将检索结果通过可视化的形式展现出来,给用户提供更加全面、直观的检索结果,提高用户体验感。此外,在运用大数据进行数据检索过程中,数据库系统会自动对用户的检索行为进行追踪记录,其中必然会涉及一些用户的个人信息。因此就必须运用隐私保护技术,对一些数据进行筛选和处理,避免在检索结果中出现涉及用户隐私的信息。
参考文献:
[1] 中华人民共和国国务院.突发公共卫生事件应急条例[EB/OL].(2003-03-38)[2020-02-25].http://www.gov.cn/zhengce/content/2008-03/28/content_6399.htm.
[2] 蔡盈芳. 关于建立国家突发事件档案专题数据库的设想[N]. 中国档案报,2020-02-20(003).
[3] 曹燕红.突发事件档案的收集与管理——以新型冠状病毒肺炎突发事件档案为例[J].黑龙江档案,2020(04):32-33.
[4] 赵鑫强,方路.新型冠状病毒疫情档案专题数据库建设初探[J].档案管理,2020(05):56-57.
[5] 黄新荣,杨艺璇.从抗击新冠病毒肺炎疫情档案的收集看专题档案的建设——基于国内31个省级档案馆的网络调研[J].档案与建设,2020(06):4-9.
[6] 钱毅.档案数据库的规范和质量控制[J].档案学通讯,2007(05):53-56.
[7] 周峰.建立档案应急服务机制 支撑突发事件应对处置[N].中国档案报,2020-03-16(003).
[8] 丁华东,张燕.论新媒体传播与档案记忆的意义再生产[J].档案学通讯,2018(03):62-67.
[9] 徐拥军.在战“疫”中做一名有温度的档案工作者[N].中国档案报,2020-02-13(003).
[10] 梅宏.大数据发展现状与未来趋势[J].交通运输研究,2019(05):1-11.
[11][15] 王维,靳瑞霞,朱云峰.教育大数据开放和共享安全战略研究[J].软件,2020,41(01):121-124.
[12] 庞莉.手稿与图纸档案数字化过程比较研究[J].档案与建设,2018(01):26-29+51.
[13] 杨菲菲.基于Hadoop的面向信管专业的数据分析与数据挖掘课程群的构建研究[J].电脑知识与技术,2018,14(28):95-97.
[14] 曾中原.新时期工程建设项目档案数据采集与存储对策研究[J].城建档案,2019(06):88-89.
[16] 姚娜.大数据时代的数据挖掘技术与应用分析[J].电脑编程技巧与维护,2019(12):127-128+152.
[17] 張文元,张倩.大数据技术与档案数据挖掘[J].档案管理,2016(02):33-35.
作者单位:河北大学管理学院