从档案管理走向档案数据管理:大数据时代下的档案管理范式转型⋆
2019-12-16陈雪燕于英香
陈雪燕 于英香
(上海大学 上海 200444)
2015年国务院印发了《促进大数据发展行动纲要》(以下简称《纲要》),《纲要》中明确指出,大数据时代,数据已经成为“国家基础性战略资源”,“坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择”。[1]2016年国家档案局印发的《全国档案事业发展“十三五”规划纲要》中明确规定要“制定档案数据开放计划”,“优先推动与民生保障服务相关的档案数据开放”。2017年12月27日,国家档案局局长李明华在全国档案局长馆长会议上强调,当前属于“大数据”时代,我国要加速档案工作转型升级,“档案工作正在经历一个从接收保管纸质档案到接收保管电子档案,从管档案实体到管档案数据,从手工操作到信息化智能化操作,从档案资源分散利用到联网共享的变革过程”。[2]2018年,国务院为规范科学数据管理,保障科学数据安全,印发了《科学数据管理办法》,明确了科学数据管理分工负责体制、各责任主体的职责以及从采集、汇交、保存到共享利用、安全保密等规定。[3]可以看出,随着大数据的纵深发展,档案工作的话语体系也紧扣时代旋律开始积极向档案数据方面转变。作为大数据治理进程中的重要组成,作为国家治理能力转型的重要力量,档案工作从传统档案管理向新时代档案数据管理的转型势在必行。
1 档案数据管理的研究现状
1.1 相关概念辨析
1.1.1 档案大数据
从现有研究来看,大部分持有“档案大数据”观的学者倾向于将其理解为档案数据的集合。例如,鲁德武认为档案大数据可以看作是一定时间空间内档案数据的集合,其核心内容是挖掘提取有价值信息,进行科学预测。[4]康蠡等人则认为“档案大数据是与档案活动密切相关的各种有价值的、难以在可接受时间内分析处理的数据集”。[5]樊树娟也认为档案大数据是以档案资源为核心、必须借助先进的信息技术手段进行管理、开发与服务的大规模数据集。[6]于英香则指出学界对于档案大数据的概念炒地过热而出现了误读,并通过比较档案数据与大数据的实时动态性相异、与大数据的预测与决策性特征相背离、管理技术与大数据技术偏离等,指出当前“档案大数据概念”有泛化倾向。[7]
1.1.2 档案数据
纵观目前CNKI中收录的以“档案数据”为主题的文献,很容易发现:在所有围绕“档案数据”的讨论中,没有一篇文章清晰地界定它的概念,只有少数学者对“档案数据”与其他相关概念如“档案大数据”做了简单的区分,大部分研究都是直接以“档案数据”作为前缀直陈自己要讲的主题,如档案数据离线备份、档案数据分发利用等。于英香认为,大数据背景下的档案数据“既包括传统小数据管理状态下的电子文件与数字档案资源, 也包括网络环境下重要的网页资源和社交媒体文件资源”。[8]基于现有研究中对档案数据的描述,本文认为,档案数据既包括档案内容、档案实体本身,还包括档案采集、处理、存储、开发、利用等全过程所形成的元数据和生成的新数据。
1.1.3 档案数据管理
“档案数据管理”可分解为“档案数据+管理”和“档案+数据管理”两种定义规则,提出档案管理对象由“文件”、“资源”到“数据”和用数据管理的方法研究档案两种理解路径,最后综合两种规则指出:档案数据管理的内涵是在“数据管理理论的范畴内研究如何管理纷繁复杂的档案数据”。[9]这种定义方法较为综合、全面地考虑到“档案数据管理”这一新概念的内涵和外延,比较合理。根据这种方法,结合金波等人对“数据管理”的定义,本文认为档案数据管理就是运用云计算、物联网、大数据、智慧工程等现代技术对档案数据进行有效的收集、处理、存储、挖掘和利用,以保障档案数据长期可用,实现档案数据的价值和增值。[10]
1.2 档案数据的采集和接收
学界围绕档案数据采集的研究主要讨论了档案信息化时代或大数据时代档案数据采集面临的难点并提出相应的对策建议。茅敏指出大数据环境下项目档案数据的采集需要更依赖互联网和现代化技术,在存储时要注意结构化处理以供后续处理。[11]吕立新先说明了组织机构代码电子档案数据采集面临的不规范、质量低、格式不一、可识别性差等问题,进而提出配备专业人员,依据现有标准、办法促进代码电子档案数据采集的规范化、格式化。[12]路宏伟等人指出档案数据采集抽取过程面临的主要障碍有接口标准不统一、纸质档案与电子数据同步困难、金融价值估值偏低和缺乏隐私评级系统等。[13]张倩指出,大数据时代高校档案数据应采用一种面向业务、制定策略、链接档案大数据集、非盲目性的“全息式”采集策略。[14]
1.3 档案数据的存储
目前学界关于档案数据的存储问题主要围绕存储介质、存储环境、存储策略、安全存储、长期保存几个方面展开。刘家真指出,档案数据的存储介质应符合一次写入、不可更改、耐久性、技术寿命长、市场支持稳定、适宜脱机保存等要求。[15]李洪湖介绍了温州市鹿城区档案局建设的档案数据安全存储及智慧监管平台,能够在多套档案数据之间进行数据同步,利用数据智能恢复技术保证储存数据的可用性,对数据利用进行监管,防止数据被非法利用等。[16]杜琳琳介绍了国家档案局科研所与其他两家单位针对海量档案信息的长期安全保存问题合力研发的档案数据硬盘离线存储系统。[17]欧阳静芝阐述了档案数据中心作为“资源管理器”、“系统开发器”的内涵,指出其具有收集范围广类型多,采用先进的管理设备和技术、平台,以数据化为根本手段的特点。[18]
1.4 档案数据的恢复、备份和迁移
关于该主题的研究主要围绕档案数据备份、恢复的策略,异地异质备份机制及实施情况,档案数据备份、恢复带来的一系列问题等展开。杨剑云分析了造成档案数据损毁的逻辑故障和物理故障,提出了档案数据恢复的具体方法和策略。[19]何畏指出档案数据备份存在着目标不明确、思路不清晰、方法不科学、存在安全隐患等问题,进一步提出要制定适度可用、经济、安全可行的档案数据备份策略。[20]袁也等人提出数据恢复后数字档案真实性认证的重要性,提出了不同档案数据恢复程序下认证数字档案真实性的建议。[21]马雁云分析了电子档案数据存储的载体和方式,设计了一种基于云存储的安全存取方案,将档案数据迁移到公有云中保存。[22]
1.5 档案数据的处理
大数据时代,技术给档案管理带来的主要变化体现在对档案数据进行挖掘。张文元等人指出实现深度挖掘需要建立以数据挖掘技术为核心的信息系统,构建以人为本的用户关系管理,保证数据挖掘技术中的数据隐私安全,借力“智慧因子”完善数据挖掘技术等。[23]杨茜雅将语义本体的概念引入企业档案数据分析流程,构建将档案数据之间的关联关系、分析结果直接展示的电子档案知识图谱系统,实现电子档案智能化管理。[24]
1.6 档案数据的应用
档案数据在经过处理之后主要的应用领域是用户的数据分析及个性化推送。田伟等人面向兴趣利用集问题、事务共同利用集问题、档案异名检索问题的具体特点,分别设计出各自的协同过滤矩阵和个性化推荐的实现流程,[25]在其系列研究中提出了档案用户数据分析引擎的架构,并基于协同过滤和向量建模等技术提出了一些具体功能的实现策略。[26]
综上所述,目前档案学界关于档案数据管理的相关概念尚不明确,存在概念泛化、内涵模糊的问题;对于档案数据管理的研究虽然分层次、分流程、分阶段地引进了大数据技术的应用,但仍然沿袭着传统档案管理的模式思维,尚未用一种全新的数据管理思维来规划档案管理工作。基于此,本文在了解档案数据管理研究现状的基础上,先指出传统档案管理到档案数据管理的转变,分析档案数据管理与传统档案管理的融合与冲突之处,再进一步梳理、总结传统档案管理向档案数据管理转型的要素和重点。
2 从传统档案管理到档案数据管理的走向
传统档案管理主要指现实工作中以档案实体和档案内容为管理重心的普遍现象。尽管新兴技术不断给档案管理实践带来新的机遇与挑战,尽管学科交叉融合不断给档案管理实践提供新的思维路径和选择,档案管理工作的实际重心仍然没有发生质的转移。在经典的D-I-K-W(数据-信息-知识-智慧)金字塔层次概念体系中,数据的价值被认为是低于信息的,但在大数据时代,技术赋予了“数据”直接通向“知识”乃至“智慧”的可能性。这时“数据”的内涵也不再拘泥于“通过观察或测量得到的原始数据”,其概念外延已经被拓展到与“大数据”比肩而立的地步,大有“万物皆数”的势头。档案数据管理时代的到来决定了我们必须以“全数据”的眼光看待档案,对已经结束和正在进行的档案工作进行重新审视,不断发掘被我们忽视的档案数据。
2.1 从收集整理走向档案数据采集
从收集整理环节来看,传统的档案管理是先将归档范围内的文件材料收齐之后再按照规定处置。体制内的归档范围本就是清晰明了的,行政管理机构之外的归档范围则主要依据归档对象的主要业务来划定,比较模糊。档案数据管理通过设计并预定义档案数据的收集规则,可以针对不同来源、不同类型的档案数据制定相应的元数据方案,提供多途径的数据收集方式,实时探测业务系统中的数据变化,主动捕获、抓取包括档案实体数据、档案内容信息、档案存储情况的描述数据以及档案利用情况的描述数据、档案管理全流程形成的行为数据等。
2.2 从鉴定筛选走向档案数据处理
从鉴定环节来看,传统的档案管理要经历两次价值判定,第一次是在归档之前初步判定文件材料是否属于归档范围,是否有价值而能从文件成为档案,应归为保管期限中的永久、长期还是短期等;第二次是在归档之后,要对档案进行价值复审,判断其现有的保存情况是否需要发生变更。对档案数据进行处理,首先要提供档案数据处理解决方案,如格式转换方案、封装方案、四性检测方案等,同时与档案数据采集功能进行集成整合、协同工作。其次要经过档案数据的清洗、过滤、除噪,鉴定合格后的档案数据才能进入统一存储和管理库。最后要实现对档案数据的数据关联、数据挖掘、数据检索、语义分析、聚类分析等,使计算机能够根据特定的业务目标自动发现、抽取、加工档案数据,提供决策参考。
2.3 从存储保管走向档案数据维护
从存储保管来看,传统的档案管理主要是对档案实体(以卷或件为单位)进行库房密集架存储保管,或在信息管理系统或平台内著录保存。在数字档案馆(室)建设的推进过程中也有对数字化的档案存储载体和档案承载内容的管理。以上情况中存储、保管档案的安全指标都是相对可控的,风险较小。档案数据维护可以引入区块链等新兴技术作为档案数据的存储容器,确保档案数据的安全、长期存储;可以制定完善、详细的备份策略,科学选用备份介质、备份系统、备份地点,实现多层次备份;可以对档案数据采集接收、鉴定处理、提供利用实行全过程的监督,实行对档案数据的合规性、数据缺失、数据异常等情况智能判断并实时触发报警机制。
2.4 从开发利用走向档案数据服务
从开发角度看,传统档案管理中的编研工作还停留在专题汇编、资料汇编的提供信息资源的层面,尚未接触到知识、智慧的高度。从利用角度来看,传统的档案管理下反映出来的管用关系十分被动:档案工作人员被动地接收并保管被移交的档案,并被动地用有限的档案回应用户的用档需求;用户只能用档案部门有且有权公开的档案,档案部门只提供公开范围内负载用户需要内容的档案实体或电子文件。档案数据服务首先是提供智能化的档案数据检索方式,建立一站式检索门户,并可以通过应用专业的检索引擎实现检索词智能扩展、检索结果智能优化等增强功能。其次要为档案数据存储和管理库建立智能的检索模型,如数据相关关系检索模型、语义关联检索模型、上下文关系检索模型、交叉关系检索模型、近义词检索模型、热词检索模型等,利用数据挖掘与分析技术实现以问题为导向的查用服务。
3 档案管理新旧范式的融合与冲突
3.1 基于来源原则的融合与冲突
来源原则一直以来被视为档案学的支柱理论之一,在电子文件时代来源原则的地位及意义也重新得到重视。对于来源原则,无论是传统的档案管理还是档案数据管理都表现出推崇与尊重:传统的档案收集、整理工作十分注重全宗的完整性,强调以机关单位为中心的文件的完整性和存储位置的关联性;电子文件时代十分强调元数据,离开元数据便无所谓来源的“考据”。档案数据管理时代,任何类型的档案数据采集都离不开对元数据的关注。认同来源原则的专业基础地位是新旧档案管理范式的关键契合点。同时,档案数据管理在沿用来源原则时也与传统档案管理产生了冲突,最主要表现在档案数据管理和传统档案管理对“来源明确性”的需求冲突。毫无疑问,传统档案管理从始至终强调“来源”的明确性,清晰确定的“来源”是确保档案“证据”作用、“凭证”价值的最有力证明。举例来说,用户在日常的信息检索中总是有意从“官网”获取信息,这表明“来源”本身就代表着不证自明的“真实可信”。档案数据管理中虽然档案数据的采集依旧强调“来源”的明确性,但在档案数据呈现给用户时却经常需要“来源”被“匿名”化。在网页档案数据或者社交媒体档案数据分析过程中经常需要对数据进行挖掘,这时档案数据本身的关联性极易使档案数据的匿名性被破坏,使挖掘对象的身份数据“不言自明”。这就好比要某位用户做一份完全匿名的问卷以获得问卷设计者所需的信息,即使问卷上没有提问用户身份,但有该用户形成的其他庞大数据做线索支撑,通过关联性挖掘技术很容易推算出用户的真实身份。要回应某种数据需求,计算机必须不遗余力地挖掘这一需求牵涉的全部数据以呈现最准确的分析结果,对于全部数据的来源,“挖掘者”固然一清二楚,但来源一旦被利用者掌握就触碰到了数据法律和数据伦理的红线。
3.2 基于鉴定原则的融合与冲突
传统档案管理主要采用“直接鉴定”的方法,即判断一份文件是否有价值主要通过档案工作人员一件、一卷地直接去看文件的内容。到了电子文件时代,内容鉴定和技术鉴定自然而然地成为档案鉴定的“一体两翼”。档案数据管理更加强调“技术鉴定”的重要性,这时“技术鉴定”实际上就是从技术方面考虑档案数据的准确性、可读性。首先是档案数据原始性的鉴定。单轨制环境中,档案数据原始性的鉴定主要表现为反映同一内容的档案数据在系统中或可形成多个版本,怎样判定那一个版本具备原始性,当前环境下解决这一问题最有效的技术手段是时间戳;其次是档案数据真实性的鉴定。数字签名技术以密码学的方式从技术上保证了档案数据的真实性、保密性和认证性,代表了签名者的身份,同时保障了档案数据不易篡改性和不易抵赖性;[27]档案数据的可读性鉴定也是一项重要内容,包括可读状态检测、无差错读取技术检测等;最后是档案数据的安全性鉴定,主要是鉴定档案数据存储环境是否受到病毒污染、网络攻击等。很容易看出,档案数据管理中鉴定的程序已经被各种技术的应用所取代。在鉴定原则上,档案管理新旧范式的融合之处在于对技术鉴定的沿用,冲突之处在于,相较内容鉴定而言档案数据管理表现出对技术鉴定的绝对侧重,甚至已经舍弃了传统档案鉴定奉为圭臬的内容依据。造成这一差异的原因在于档案数据管理强调一种“全数据”的留存以便进行后续的各类数据分析处理,重点关注内容的鉴定思维发生了转移。当然,从普通用户角度能看到的只是他们需要从中获取有价值信息的档案数据,而为了保证这种价值能够被实现,档案数据管理部门要鉴定的将是这“一角”数据后面的整座“冰山”。
3.3 基于开放利用角度的融合与冲突
在开放利用过程中,无论是传统的档案管理还是档案数据管理都面临着同一个抉择:档案开放中知情权与隐私权的平衡。传统档案管理下关注隐私保护的重点在于维护国家主体的隐私权,那些附有“密级”属性的档案一般只有解密后才能公开提供利用(这个时候其实档案信息本身已经丧失了时效性,其实现的主要价值已经不是对信息知情需求的回应而变成了“存史资证”功能),还有大部分档案从产生之初直至销毁都不会公开。这一阶段,国家叙事的隐私维护主要依赖物理隔绝的方式,档案制度中对于个人档案隐私权保护的内容既不多也不明确。大数据技术的深度应用使得档案数据开放利用中的隐私数据保护矛盾更加凸出,这一时期的隐私指向主要是个体的隐私权,即档案数据中涉及个体隐私的数据应具备不受侵扰、不被干涉、不被泄露和随意开放的权利。同时,档案管理新旧范式面对开放利用存在的最大冲突主要指向档案数据资源的供需状况和开放共享限度本身的矛盾。上文所设想的档案数据管理勾勒了一幅档案利用的美好蓝图:以问题为导向,用户根据需求提出问题,计算机据此设计检索方案,经过一系列复杂的数据处理,最后以与用户期望最佳匹配的结果呈现信息。然而,这一宏大设想的关键前提是必须要有大而全的档案数据库作为支撑。假如忽略档案数据分散在不同的存储系统中这一情况,即使所有的档案数据统一在一个库中存储管理,也仍然要面对开放共享限度的问题:那些不开放的档案数据是否也在这个库中存储?如果是,档案数据管理中档案开放共享的限度是否将逐渐消解;如果不是,在上下文关系被破坏、数据关联与数据挖掘无法顺畅推进的情况下如何有效回应档案利用需求又将成为最大的难题。
4 档案数据管理范式转型的要素与重点
4.1 数据意识的养成是前提
美国《时代》周刊曾经一针见血地指出,美国总统奥巴马成功击败对手罗姆尼赢得连任的制胜绝招在于数据挖掘。奥巴马团队能推翻美国总统选举历史上以筹资定胜负的定律,得益于其敏锐的数据意识:他们用将近两年的时间搜集汇总独立零散的选民数据库,利用数据挖掘对不同选民群体进行建模预测并根据实际情况不断动态调整,掌握了捐赠者和投票人的动向,与此同时罗姆尼团队仍然延用着早期的统计方法。[28]可见,数据意识的养成对于身处博弈时代的现代人具有突出的意义。大数据时代,档案管理不应再将管理对象局限于传统的档案数据,还要关注档案实时新数据。档案人员的数据意识应该敏锐地映射到档案内容数据、结构数据、背景数据和档案业务活动数据以外的档案数据世界:政府开放的数据,社交媒体归档数据,网页归档数据,智慧档案馆的运行维护数据,物联网对档案馆、人和物全面感知的数据等等……只有意识到这些数据的存在,只有走出局限于档案内容凭证价值和情报价值的狭隘视野,重视起档案数据关联、数据挖掘以及数据融合产生的档案数据价值增值空间,才能真正建立起适应档案数据管理的数据意识,才能有意识地去部署档案数据管理工作的格局。[29]
4.2 数据化和数据能力是基石
过去很长一段时间内,为呼应国家档案局“存量数字化、增量电子化”的档案管理变革要求,档案理论与实践界都风风火火地展开了档案数字化的理论研究与实践推进。但是,数字化仅仅是把纸质档案变成计算机可读的图像文本格式提供利用,这个转化并未使档案本身的价值得到提升,只是便利了档案的利用,优化了利用的途径。数据化则要求将纸质档案、声像档案、音/视频档案、数字化档案等存量档案和不断产生的电子的增量档案转化为可供计算机和用户使用、处理和分析的数据化文本。这就要运用到光学字符识别技术、语音识别技术、格式转换技术等,将档案数字内容转化为结构化数据,并建立数据化后的档案数据库,方便计算机挂接、存取、调用、分析和处理。从“数字化”到“数据化”的过程实际上体现了一种从“提供利用”到“深度应用”、从“价值实现”到“挖掘价值”的档案管理思维转变过程。从“数字化”到“数据化”的转型之路,图书馆一直走在档案馆的前面。数字图书馆建设早期,主要工作还停留在利用扫描技术将纸本资源数字化,提供简单检索,这实际上只是把知识从实体书架搬迁到虚拟书架上;但很快随着数据意识的养成和数据化技术的发展,数字化图像开始被进一步转换为数据化文本,经过分析处理后,这些数据成为“计算机时代唤醒书写文明所蕴含的财富”。[30]档案管理有数据化作为物质前提还需要具备数据能力作为辅助,二者缺一不可。数据能力包括了档案管理系统或平台能依据明确的归档规则自动捕获或抓取档案数据的能力,档案数据的安全存储、备份的能力,使档案数据逻辑化、系统化的处理能力,从档案数据中提取、挖掘有价值信息的能力,集成档案数据系统与其他业务系统接口,实现数据共享交换的能力,档案数据运行维护全流程的管控能力等。数据能力的提高,是充分挖掘档案数据价值的根本举措。[31]
4.3 顶层设计是保障
数字档案馆(室)建设的实践经验让我们了解到,我国档案工作实践的推进习惯于采用试点成功——经验推广——引起国家关注——国家顶层设计——全国范围推行的模式开展。这主要由我国档案管理事业体系庞大、分支众多的客观实际所决定。反观国外,英国、美国、澳大利亚、新西兰的数字转型计划均是自上而下的实施进路。从国家层面制定战略、布局行动路线是档案数据管理转型的有力保障。首先,政策层面要制定有针对性的,可操作性强的档案数据管理制度和贯彻档案数据生命周期的标准规范(这部分设计应与已有的电子文件管理制度一脉相承、有所更新),针对政府、企业、社区等不同组织制定档案数据管理办法,还要重点关注统筹协调不同领域的档案数据开放共享机制;其次,法律层面要建立健全档案数据安全和档案数据知识产权的相关法律法规,明晰管理和使用过程中的责任主体、权利和义务;最后,国家层面应积极引导档案工作者、技术人员、社会群体、用户等利益相关者的档案数据管理协同机制构建。从传统档案管理转向档案数据管理是革命性的转变,仅依靠档案工作者的单薄力量是远远不够的,其中大量的技术问题必须依靠现代信息技术工作者的参与来解决。国家层面引导构建档案数据利用反馈机制也可以支撑档案数据分析处理、提供利用变得更加精准。此外,还有诸如财政资金支持、数据管理人才教育培养等也需要从国家层面布局部署。
4.4 数据开放是最终目标
档案界对于国内外政府开放数据运动的讨论如火如荼,但对于档案数据开放的研究却不多。档案数据作为国家和社会共有的资源,向社会提供开放服务既是责任也是义务。档案数据开放的最终目的在于实现“任何人对档案数据自由、免费地访问、获取、使用和分享”。[32]档案数据开放过程中重点需要关注的是:第一,在建立档案数据开放(系统)平台,提高档案部门处理数据、提供高质量档案数据的能力之余,帮助用户打破技术壁垒,降低档案数据的获取难度,解决利用档案数据的技术限制。第二,守住数据伦理的底线,做到档案数据开放和涉及隐私的档案数据保密的平衡,界定开放范围、明确开放权责,制定并完善档案数据权、隐私权、数据重用和数据安全等相关法律法规,为档案数据开放提供法律保障。第三,要鼓励企业、公民挖掘开发档案数据,国家和政府可以做出一些利益让渡,更多地以“公共文化服务”的站位引领促进档案数据开放,使档案潜在的多重价值从“沉睡”中被唤醒,释放档案数据价值的提升空间。
4.5 人才培养亟需重视
早从2005年开始,国外一些高校图书馆便设立“数据馆员”一职,2011年以后国外设置该岗位的高校图书馆数量更是急剧上升,足以见其对于经过系统和专业的训练,在数据管理、保存、存储等方面具有行业资格的数据人才的迫切需求。[33]在我国学者对国外iSchools图书情报与档案管理硕士学位项目的调研中发现,加州大学伯克利分校信息学院、印第安纳大学伯明顿分校信息与计算学院、谢菲尔德大学信息学院、雪城大学信息学院、华盛顿大学信息学院、墨尔本大学信息学院、南澳大利亚大学信息技术与数学科学学院均开设了“数据科学”培养项目。这从侧面反映出信息前沿科学对于传统图情档学科教育的渗入以及国外市场对于“数据型人才”的需求正在增加。[34]而在笔者对国内几所拥有iSchools成员资格的大学相关专业所开设的研究生课程内容调研中,尚未发现有开设“数据科学”课程或培养项目的院校。与信息资源管理学、情报学、图书馆学相比长期处于学科劣势地位的档案学专业,理应从物换星移的信息环境变化中敏捷地把握变革的时机,培养和发展档案“专业中的数据科学”。在传统的档案学科教育体系中增开数据科学教育,在以档案学专业能力培养为基的前提下,将统计学、计算机科学、信息科学的某些课程融合进来,系统教授学生数据挖掘、数据管理、数据分析的能力。这种教育培养的对象不应局限在高等院校学子本身,也应向档案界有志之士开放,通过项目制培养,面向业务需求灵活设计课程内容,合理选择线上教学、线下讲座、实操培训等培养方式。只有主动求新求变,才能为档案管理顺利转型为档案数据管理输送其所必需的的、兼具档案“软”知识与数据“硬”技能的复合型人才,才能从容应对“数据为王”时代发起的挑战,才能在与诸多相关学科的竞争中立于不败之地。