基于大数据生命周期的档案数据治理策略研究
2021-12-11魏霞
魏霞
引言
2013年党的十八届三中全会将“推进国家治理体系和治理能力现代化”作为全面深化改革的总目标。2017年党的十九大明确指示要加强和创新社会治理,打造共建共治的社会治理格局。2019年党的十九届四中全会指明了未来国家治理的具体方向并做了全面部署。国家重大政策的调整必然引起档案工作管理方式的变革,档案工作在推进国家治理体系和治理能力现代化中承担着重要责任。《全国档案事业发展“十三五”规划纲要》中明确“有效服务国家治理”的发展目标[1]。2020年国家档案局将“推动机关档案资源治理能力和治理水平”纳入《档案馆(室)业务指导司2020年工作要点》[2]。2021年中共中央办公厅、国务院印发的《“十四五”全国档案事业发展规划》确定了到2035年档案工作走向依法治理、走向开放、走向现代化取得实质性进展,形成与新时期中国特色社会主义相适应的档案事业,为建设档案强国奠定基础的发展目标[3]。档案治理即是档案工作顺应国家治理趋势的现实表现,又是全面深化改革战略意图在档案领域的具体体现[4]。推进档案工作由档案管理走向档案治理,实现档案工作适应国家现代化进程,实现档案工作服务第二个百年奋斗目标。
随着大数据的“引爆”各国纷纷作出应对措施,我国针对大数据积极作出应对,习近平总书记在2017年中共中央政治局第二次集体学习时强调:“要构建以数据为关键要素的数字经济”“要运用大数据提升国家治理现代化水平”[5]。党的十九届四中全会首次提出将数据作为生产要素参与分配。在政务方面,越来越多政务信息公开平台建立,为打破“数据壁垒”“信息孤岛”的大数据管理机构越来越多的被建立。在经济活动中,电子商务的蓬勃发展,企业数据大量产生,建立全电子化管理越来越迫切。面对大数据趋势,伴随业务活动的档案工作不可避免的受到冲击,加之“单套制”的施行,档案数据管理成为档案管理工作转型的重要方向。
一、档案数据治理
目前对档案数据还未形成统一的界定,学者多从不同视角对档案数据进行概念界定,如于英香从“数据”与“信息”的关系视角认为档案数据是大数据时代档案工作对传统档案数据和大数据时代产生的实时数据资源之整合[6]。赵跃从“开发”视角认为档案数据是档案部门根据档案数据利用者和业务需求,将数字档案资源转化为可供处理、分析及阅读的档案数据资源,数字化档案是档案数据的基础[7]。有学者将档案管理和利用过程中产生的数据也纳入档案数据范围[8]。由此可见档案数据的范围比传统档案管理对象更广泛、复杂。基于已有研究,档案数据的主体包含“存量档案数字化”和“增量档案电子化”两部分。“存量档案数字化”是对原有馆藏资源的数字化成果。“增量档案电子化”是通过业务系统生成并直接移交档案管理系统的数据形式的电子档案以及记录管理过程的数据。
“治理”一词较多出现在公共管理领域。从管理学视角,治理是多元主体参与管理事物,弥补单一或垄断力量的不足。档案数据治理是档案部门、社会组织和公民等多元治理主体通过各种形式的合作,基于一定行动规则,共同对档案数据的全生命流程进行科学、规范的管理,实现档案数据善治的过程。在档案数据管理中引入治理理论,提高档案数据管理效率,弥补档案部门在档案数据化工作中的不足,创新档案工作在大数据趋势的应对措施,实现对档案的善治。目前针对档案数据治理的研究,主要从基本定义、治理主体、治理原因等理论方面进行阐释,具体的档案数据治理策略较少。当今大数据背景下档案数据治理难题:
1.治理对象
档案数据治理的对象主要是各种形式的具备档案属性的数据资源。其一,來源复杂。大数据已广泛渗透到各领域,数据源众多。根据数据性质分为,个人数据、政府数据、企业数据。社交媒体的广泛使用,记录个体社会活动的网络行为数据不断产生。随着政务信息公开扩大,政务电子化进程加快政务数据不断增加。电子商务进入“白热化”企业在线交易过程中新的数据源源不断产生。其二,结构复杂。大数据背景下,原生数据、衍生数据大量存在。其三,体量巨大。随着信息化建设,档案部门数字化和数据化进程不断加快。截止2018年底,全国国家综合档案馆电子档案馆藏达127.7万GB。同时,随着“大档案”观的提倡,除政务档案数据外社交媒体、网页产生的具备档案性质的数据也逐渐纳入档案数据治理范围中。
2.治理主体
大数据时代档案部门难以应对信息成倍增长,公众利用需求量和质量提高,不仅在于档案部门的“势单力薄”,也在其技术水平的限制。同时,档案数据形成类型复杂、形成领域广泛,仅靠档案部门难以实现档案数据的善治。治理理念强调“放权”、多中心化等,档案部门在治理过程中积极纳入多主体对档案数据全生命周期治理,一方面增加了治理力量,另一方面治理主体众多造成主体之间利益关系衡量、利益冲突在所难免。因此,协调各参与主体相关利益的平衡成为一项难题。
二、基于大数据生命周期的档案数据治理策略
大数据生命周期是大数据从产生到销毁或永久保存的整个过程,包括大数据产生、收集、组织与存储、开发及大数据展示(利用)全过程。在大多数场景中大数据生命周期与信息周期相似。档案数据的复杂性、来源的广泛性等特征,在档案数据生命周期的前端和后端实施科学的治理策略,保证档案数据的“档案”属性,以便后期档案数据价值的释放。因此,基于大数据生命周期理论研究策略更符合档案数据特点。
(一)档案数据产生阶段
1.转变思维,确保档案数据形成质量
理念先行。作为档案的传统保管场所档案部门在对档案数据治理中要转变思维,改变“管理本位”观念,梳理“治理”观念。“管理本位”思维过多强调档案部门对档案的控制权,“治理”思维更强调“协同”。档案部门作为传统档案管理部门,在协同治理中主要发挥主导作用,扮演“元治理”角色[11]。协同治理涉及主体众多,当各方利益发生冲突时,统筹协调主体间的利益,促成主体之间跨系统、跨机构、跨领域的各种形式合作。承担档案数据治理政策、法规、标准的制定,规范档案数据质量。档案馆作为档案数据治理“后端”的重要力量,也需要在思维上作出转变,积极向档案数据“形成端”提供“档案化”指导,保证“形成端”档案属性的完整。
2.扩宽收集范围,扩大馆藏数据资源构成
治理的目的在于服务社会满足社会需求。扩大档案数据收集范围,增加对来自非行政性社会档案数据收集,建设档案数据资源体系为提高档案公共服务能力提供资源支持。其一,强化地方特色档案数据资源的收集。地方特色档案数据资源是反映地方风土人情、民俗习惯等方面形成的具有保存价值的原始记录,承载区域公众社会记忆的重要载体[12]。特色档案资源多以传统形式存在,比如云南省传统村落档案多以实物档案资源存在,对传统形式特色档案资源的数据化,可通过数字扫描和OCR文本识别工具实现传统文本的数据转化。安徽省建立专门的传统村落信息管理平台,该信息平台基本实现所有有保护价值的全档案建立和信息查询[13]。在特色档案数据资源收集过程中,档案部门通过与地方建立的特色数据资源信息管理平台进行系统对接,打破“信息壁垒”实现“一站式”档案数据收集。其二,增加突发性公共事件档案数据的收集。档案来源于社会,服务于社会。突发性公共事件涉及社会每个成员,增加突发性公共事件档案数据收集,为构建更完善、科学的社会治理体系提供支持。比如新冠疫情作为全球范围的突发性公共卫生事件,档案部门增加疫情档案数据的收集,为未来突发性公共卫生事件提供借鉴。以色列国家图书馆开设了犹太新冠病毒档案馆,专门收集有關新冠病毒的照片、视频、电子邮件等数字类材料[14]。目前中山大学和南京大学相继建立新冠疫情专题网站,汇集疫情新闻以及宣传疫情相关政策,但网站尚未开通个人用户上传功能,尚不能全面收集散落在个人手中具有保存价值的疫情档案数据。
3.协同多主体收集,强化档案数据收集力量。
治理强调多元主体的协同,在档案数据收集阶段各相关主体通过多种形式的合作实现档案数据收集的广而全,实现应收尽收。档案数据治理除了档案部门还涉及以图博为主的文化事业机构,大数据局为代表的政府信息管理机构,高校、档案学会等档案研究机构,各类媒体,档案服务企业,社会公众[15]。各主体在档案数据治理过程中发挥不同作用,档案部门作为“元治理”主体,应积极发挥主导作用,督促各主体主动收集各类档案数据。其一,密切官方权威机构关系。如图书馆、博物馆权威机构保存了大量珍贵非物质文化遗产,近几年档案部门非遗档案资源保护开发观念提高,在收集非遗档案数据时与图博机构保持联系,建立统一的资源共享平台,实现资源共享。再如与大数据局合作联通数据平台,打破“信息孤岛”,实现数据的一站式查询。其二,协同档案学研究组织规范收集政策标准。来源于不同领域的数据形成和记录标准不统一,制定统一的档案数据形成、记录标准利于后期档案数据的开发共享。档案部门可协同档案学研究机构探讨档案数据标准化,档案数据收集政策。其三,借助媒体平台宣传收集政策。档案部门可通过微博、微信公众号宣传收集政策,传播档案数据收集范围、类型,提高公众意识。借助抖音、快手、微视频等社媒应用鼓励用户上传自己拥有的档案数据,比如非遗档案数据的照片、视频等。
(二)档案数据的组织与存储阶段
1.引入数据组织技术,提高档案数据存储能力
从大数据生命周期看,本阶段主要是对大数据进行数据的预处理,“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作,旨在提高数据质量,为后期分析工作奠定基础。结合档案数据性质,本阶段是将从各种来源收集到的档案数据进行档案化处理,使档案数据统一、有序,便于后期开发利用。大数据技术日益成熟,通过引入大数据技术,一方面能够提高档案数据处理效率,降低人工成本。另一方面应用大数据技术对档案数据治理更确保档案数据处理质量,比如在档案数据的清洗工作中使用ETL工具能够保证无效档案数据不被存储进数据库。浙江省档案馆与科大讯飞合作,成功将人工智能核心技术运用到馆藏声像档案的整理中,实现了视频档案的自动编目、自动著录等,真正实现了档案数据的智能化。目前对电子档案的长期存储技术应用主要包括区块链、数据仓储、云存储等。区块链技术的去中心化、过程可追溯、多机构协作机制等特点与档案数据治理主体的多元化相一致,在多个节点共同的监督下某一节点无法对档案数据进行篡改,从而实现档案数据的完整性和真实性[16]。数字仓储是一种通用性数据保存环境,可以将主题相关的各种文本、图像、音频、视频等数据进行集中存储[17]。云存储技术主要用于档案数据的备份保存。大数据技术能够处理大数据海量、异构等复杂特点,档案数据作为有价值、高质量的大数据更需要大数据技术的“推波助澜”。
2.协同多主体组织,提高档案数据组织质量
档案数据资源来源广泛,其数据源对档案数据最为了解,在档案数据整合阶段协同形成主体整合能够进一步保障档案数据组织质量,便于后期的开发利用。打造多元主体的档案数据组织体系,不仅提高档案数据整合质量,还能促进后期档案数据利用满意度。其一,各类权威文化机构。形成主体对档案数据最为了解,在档案数据组织工作中协同形成主体有利于保证档案数据元数据描述的完整性,保证档案数据真实性。如少数民族档案数据来源于少数民族,大部分分散在个人手中,档案部门在对少数民族档案资源进行组织过程中加强与少数民族文化保护机构联系,搭建与少数民族文化保管机构共享的少数民族档案数据库,针对档案数据的组织的相关标准、具体方法进行探讨达成共识,打破档案数据组织的“壁垒”。其二,社会组织。不同性质的社会组织在档案数据治理过程中具有重要作用,比如以档案理论研究为主的高校档案专业,档案部门与高校老师开展档案数据元数据的著录标准、内容等的研讨,促进档案数据组织的科学化。其三,社会公众。社交媒体档案数据资源普遍来自社会公众,吸引社会公众参与社交媒体档案数据的组织更为合理。档案部门借鉴成功经验,探索公众参与档案数据组织的实现路径,比如维基百科即支持用户编辑词条、贴标签等操作。
(三)档案数据开发与利用阶段
1.借助数据分析技术,深入挖掘档案数据价值
从大数据生命周期看,本阶段主要是将系统组织后的档案数据资源进行深度开发。其一,以深入文本内容为根本。档案数据结构复杂多样,借助大数据分析技术开发复杂的档案数据资源,比如机器学习在对罗马历史档案自动转录中的应用[18]。主题挖掘是文本挖掘的一种,对文本集合中文本特征项之间的关联关系进行挖掘分析文本主题[19]。在对档案数据进行文本主题分析中借助主题挖掘技术实现对专题档案数据的全面分析,以便系统的档案数据资源进行二次加工。其二,引入前沿科技提升体验感,打造沉浸式体验。AR、VR、全息影像、人工智能等技术打造情景式展示,使用户感到档案数据“活”起来了,沉浸在内容场景中。
2.多元呈现档案数据,提供个性档案数据服务
“共建共治共享”社会治理理念强调多主体对档案数据的共同治理,促进社会公众参与,回应社会不断增加的档案需求,提供精准化的档案服务[20]。信息技术的发展满足了社会公众对信息生动性的要求,信息能够以更加生动的形式呈现。其一,可以借助用户分析技术面向各类利用者采集其利用偏好,为其提供个性化定制服务。如在非遗档案资源的开发中以社交媒体对档案用户进行信息采集,了解其利用动机、利用偏好,基于分析数据构建用户画像为用户推送个性化非遗档案数据相关内容[21]。如对特色档案数据资源可通过微信公众号进行知识科普、前沿信息推送;对视频动画类档案数据可借助视频传播平台与目标用户对接。其二,借助社交媒体平台传播民生档案数据。民生档案主题内容与公众生活密切相关,其呈现和传播通过大众化形式和平台能提高公众曝光率扩大影响范围,提高民生档案利用率。当前各地已开通“一网通办”平台,但用户对平台适用范围、功能不甚了解,档案部门可以通过社交媒体平台宣传“一网通办”平台功能、使用方法,扩大影响力,提高平台用户浏览量。
参考文献:
[1]国家档案局.国家档案局印发《全国档案事业发展“十三五”规划纲要》[EB/OL].(2016-04-06)[2021-05-21].https://www.saac.gov.cn/daj/yaow/201604/13520453b74a4146a5195adfbd0fa5b9.shtml.
[2]國家档案局.档案馆(室)业务指导司2020年工作要点[EB/OL].(2020-03-04)[2021-05-21].https://www.saac.gov.cn/daj/ywgzdt/202003/276e5cf0f42042978dfae3065e6a28ab.shtml.
[3]国家档案局.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].(2021-06-09)[2021-06-12].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[4]常大伟.国家治理现代化视阈下我国档案治理能力建设研究[J].档案学通讯,2020(01):109-112.
[5]韩昊辰.中共中央总书记习近平在北京主持中共中央政治局第二次集体学习[EB/OL].(2017-12-09)[2021-05-21].http://www.gov.cn/xinwen/2017-12/09/content_5245520.htm.
[6]于英香.从数据与信息关系演化看档案数据概念的发展[J].情报杂志,2018,37(11):150-155.
[7]赵跃.大数据时代档案数据化的前景展望:意义与困境[J].档案学研究,2019(05):52-60.
[8][9][10]金波,杨鹏.大数据时代档案数据治理研究[J].档案学研究,2020(04):29-37.
[11]杨鹏.善治视域下我国档案治理路径探析[J].浙江档案,2019(10):28-30.
[12]邹燕琴.社会记忆视域下地方特色数字档案资源开发模式与路径研究[J].档案与建设,2018(07):13-16+20.
[13]安徽为千余个传统村落建档用数字技术“留住乡愁”[J].城建档案,2020(05):8.
[14]赵雪芹,邓文慧.数字记忆视角下新冠肺炎疫情档案收集研究[J].北京档案,2020(10):7-11.
[15]周耀林,邵金凌,姚楚辉,张兆阳.利益相关者视角下的档案治理研究[J].浙江档案,2021(04):22-25.
[16]刘越男,吴云鹏.基于区块链的数字档案长期保存:既有探索及未来发展[J].档案学通讯,2018(06):44-53.
[17]赵生辉,朱学芳.数字人文仓储的构建与实现[J].情报资料工作,2015(04):42-47.
[18]杨建梁,刘越男.机器学习在档案管理中的应用:进展与挑战[J].档案学通讯,2019(06):48-56.
[19]陈忻,房小可,孙鸣蕾.社会记忆再生产:北京香山红色档案编研成果的细粒度挖掘研究[J].山西档案,2021(01):80-87+79.
[20]常大伟.国家治理现代化视阈下我国档案治理能力建设研究[J].档案学通讯,2020(01):109-112.
[21]孙大东,向晓旭.新《档案法》规制下非遗档案数据化管理策略研究[J/OL].山西档案:1-8[2021-05-27].
作者单位:河北大学管理学院