计算档案学要义研究:三层理解逻辑揭示
2020-12-06周文泓贺谭涛四川大学公共管理学院
周文泓 贺谭涛/四川大学公共管理学院
在档案与数字技术长期融合探索以及数字策展(Digital Curation)提供契机的背景下,2016年计算档案学被正式提出。来自档案学、信息科学和计算科学等领域的学者在IEEE BIG DATA年度会议的专属论坛上交流研究进展,共同探讨计算档案学学科体系、实践内容以及共同体建设。经过近5年的聚焦探索,在美国马里兰大学数字策展创新中心(Digital Curation Innovation Center,以下简称DCIC)、马里兰大学信息学院等机构的协同下,计算档案学专属论坛发布了50余项研究成果,这些研究成果来自欧盟、英国、美国、加拿大、南非等地,并建立了计算档案学国际网络组织。
截至2020年11月,计算档案学被界定为:一个跨学科的研究领域,立足大数据背景,融合了档案学、计算科学、信息科学,探索将计算方法与资源、设计模式、社会技术建构以及人机互动应用于大批量(大数据化)的文件与档案处理、分析、存储、长期保存和利用,以提升和优化效率、真实性、可信性、来源、生产力、计算、信息架构和设计、精确性和人机互动,从而支持文件、档案的获取、鉴定、整理和描述、保管、共享、传播、分析,以及利用决策等活动[1]。关于计算档案学是什么,除了上述较为复杂的表述外,其作为跨学科研究领域的理论内容是什么、指导或落实于实践的要点是什么等内容,仍缺乏充分的整体阐释,但分散在专家与学者提供的实践案例之中。如,在大数据背景下,部分学者依托美国NARA的二战档案数字化与开发利用专题探索、欧洲数字文化资源建设、个人健康档案管理区块链应用等实践,面向档案数据的创建著录、评估鉴定、长期保存、开放利用、敏感信息保护等内容,探讨档案与数字技术的融合[2][3]。
为明晰计算档案学“是什么”这一关键问题,本文基于现有文献资料与案例文本,细化理解逻辑。一是引介发展时间更长且外延更广的“计算社会科学”,帮助认识计算档案学构建中数据驱动、技术运用与跨界融合等基础要点;二是以代表性实践案例说明计算档案学凸显资源增值利用、跨学科协同、融入计算思维和强调工具运用等关键要点;三是由近5年的研究议题阐释计算档案学的主要内容,包括理论构建、关联学科扩充和实践内涵延伸等。由此,从整体到局部、从缘起与发展、从实践到理论,回答计算档案学是什么[4-7]。
1 基础要点:来自计算社会科学的启示
现代信息网络和信息科学的兴起和发展是社会科学创新的一大契机。2009年2月,《计算社会科学》(Computer Social Science)一文的发表被视作计算社会科学诞生的标志[8]。经过数十年的发展,计算社会科学已经形成了自动信息提取、社会网络分析、地理空间分析、复杂系统建模、社会仿真模型[9]等多种研究进路。对不同研究进路进行归纳、总结后发现,计算社会科学的典型特征在于数据驱动研究、信息通信技术运用以及两者共同指向的多领域交叉融合。因而,计算社会科学的主体内容可为理解计算档案学提供如下的认知基础。
首先,数据成为驱动计算社会科学研究的核心对象。由于虚拟空间所产生的以及各类传感设备所采集的信息资料,大多以数据形式加以呈现和存储,且在此类数据中蕴含着有关个人活动、群体行为甚至是社会运行的知识和规律,由此在社会科学范畴内,无论是传播学采用计算方法研究人类信息传播行为,抑或是计算法学利用人工智能评估司法实际效果,从实质上而言都是大规模数据分析、挖掘和解释的过程。
其次,信息通信技术成为计算社会科学研究的重要手段。数据驱动的科学研究有赖于高效的数据获取、分析工具和技术手段,这一要求所指向的其实是发达的信息通信技术。随着大数据、区块链、人工智能等的发展,上述技术能更为有效和可靠地应用于社会科学的研究之中,如利用自然语言自动提取文本信息、利用区块链技术防止信息被篡改,有效弥补传统社会科学在材料获取、数据分析等方面的局限。
此外,多领域交叉融合成为计算社会科学发展的内在要求。数据驱动的科学研究与信息通信技术的应用能够有效展开的前提,是社会科学、计算机科学和信息科学等领域实现交叉融合发展。这意味着计算社会科学并非多学科简单组合,而是多学科知识互相影响、彼此融合的成果。
2 关键内涵:依托代表性实践的发现
在计算档案学酝酿和提出的一段时间内,相关实践也取得了积极进展。总体而言,计算档案学实践项目大多由欧洲、北美洲、亚洲国家或地区的记忆机构、社会组织、高校单独或联合开展,涉及档案资源提取和描述自动化、档案鉴定、大规模资源存储和高效获取等多方面内容。对IEEE BIG DATA年度会议专属论坛发布的文献和报告进行初步统计,发现目前已有30余个实践项目取得阶段性成果。其中,由计算档案学发起人之一Richard Marciano主导的NARA二战档案专题探索项目从2016年开始,随计算档案学发展至今,是反映计算档案学内涵的典型案例。
2.1 典型案例:NARA专题探索
该项目由NARA与DCIC、马里兰大学信息学院负责,主要是为了解决NARA管理第二次世界大战日裔美国人监禁营地系列文件时面临的问题,并积极回应计算档案学发展中面临的一系列挑战。为此,项目团队围绕档案管理相关环节,开展了个人身份信息检测、档案组织整理以及档案开发利用三大类共6个实践项目。
为公开战时安置管理局系列文件中关于年龄18岁以上人员的“内部安全案例报告”索引卡,NARA委托DCIC进行个人身份信息检测,找出符合公开条件的索引卡。DCIC首先利用OCR技术完成索引卡数字副本的数据化;随后依托实体命名识别,将结构化数据提取为姓名、日期、年份、住址ID以及家庭编号等字段;最后进行编程,将识别后的数据与相关数据集进行计算、比较,从而发现其中年龄大于18岁的人员。
档案组织整理由开发姓名登记表、设计受控词汇表两个子项目构成。一是开发姓名登记表。实现基于人名的文件关联有赖于姓名登记表的开发。为此,项目团队利用登记个人身份信息最多的两组文件——“被拘留日裔美国人的数据文件(1942—1946)”以及“1944—1946年安置中心所疏散人员的最终名册”,进行姓名匹配,发现家庭编号—出身年份的组合最能返回到同一主体。二是设计受控词汇表。按照“违法行为”(即索引卡上注明的监禁原因,如Riot)对索引卡进行检索,需要统一“违法行为”的类别术语。项目团队将索引卡数据表格拆分为子表格并进行聚类分析,形成初始分类;随后进行表间对比,对不匹配的分类设计进行迭代,最终形成有关“违法行为”的受控词汇表。
该项目的档案开发利用则主要运用数据关联和可视化的方法,从不同视角揭示监禁营地内日裔美国人的经历。第一,整合生命文件。为了解日裔美国人在监禁时的死亡情况,项目团队将与死亡记录相关的文件进行整合,随后通过数据分析,得出监禁营地内的伤亡模型。第二,绘制交互式地图。为实现人物、事件、地点和事件的关联,项目团队利用GIS技术绘制地图,有助于人们在空间上了解和研究营地内的抗争活动。第三,建立社会关系网络。项目团队将人物、事件和地点等统一存储在图数据库Neo4j中,建立小型的社会关系网络并进行可视化呈现,有效展现人、事、地之间的关联。
2.2 内涵解析
2.2.1 档案职能向策展拓展
策展的要义在于档案资源的增值利用,以及在此导向下的全过程管理再造,实现档案价值的充分挖掘。第一,对档案类机构而言,必须意识到纸质时期管理方法的局限,并考虑使用基于数字技术的专业方法。如,若没有技术支持,人工审核将无法充分识别档案中的个人信息,给档案利用造成阻碍。第二,处于数据化进程中的档案资源,本身就需在大数据的情境下进行管理。这意味着档案保管和处理等活动需要结合计算思维,档案工作者需要改变自身定位,从档案保管者的角色转变为策展者的角色。因而,从各类被标识为计算档案学的实践来看,档案的深度挖掘和利用导向性显著,最大限度发挥档案价值成为全过程的管理活动的一大重点。
2.2.2 基于跨学科的协同发展
计算档案学跨学科协同发展在于不同学科的知识和方法在档案话语体系下融合发展,以及由此所要求的跨领域研究团队建设。第一,作为跨学科的研究领域,不同学科的知识融合是其发展过程中必须考虑的问题,这在计算档案学实践中主要表现为不同学科思维与方法的嵌入。如在档案管理活动中应用理工科系统思维,既要求档案人员了解系统思维的相关内容,也要求理工科背景人员对档案管理有进一步认识。第二,不同学科知识的融入从实践上来说是具有不同学科背景的专业人员相互协作的结果,因此开展跨领域团队建设是实践中的必要举措。这一方面表明不同领域的专业人员能够参与进来,另一方面也表明对具有跨学科背景人才的需求。如,实践项目的负责人Richard Marciano既具有理工科背景,也是档案学的关注者;项目聚合了信息管理、计算机科学、数学等领域的人才。
2.2.3 深度融入计算思维
NARA的实践表明,计算档案学发展过程中,已深度融入了计算思维。具体表现为:第一,基于计算档案学的档案管理对象,其信息颗粒度已细化至数据层。一是对信息的描述已经从文件级细化至数据级。如,在NARA实践项目中,DCIC通过信息结构化处理,有效提取了文件的内容元数据。二是从不同理解维度进行的数据关联得到重视。如在该实践项目的开发过程中,项目团队基于此前提取的数据要素构建社会关系网络、设计交互式地图。第二,问题解决过程中,问题抽象、建模、模拟思维和系统思维的综合运用,也表明计算思维中的关键要素在计算档案学中得以彰显。在上述问题解决思路的引导下,传统的档案管理问题首先被聚焦、转化、抽象为计算问题;随后通过建模形成流程化方案,通过编程进行检验。
2.2.4 广泛应用技术方法
从实践展现的内涵来看,运用多种技术方法即是以问题为导向,进行技术方法选择或技术开发。这一方面要求技术工具的选择和开发应当围绕问题展开,在充分考虑技术工具应用场景的基础上,结合待解决的具体问题,进行最优选择。如,为构建实体之间的关联,项目团队选择了在实体关联方面经验成熟的图数据库Neo4j进行开发。另一方面表明项目团队应具备一定的技术方法的开发能力。不同档案的开放条件、存储条件和利用方式等都不相同,这使得在实践过程中已有的技术方法大多存在局限,需要以自行开发的方式解决有关问题。如,面对个人身份信息检测中的具体且特定的需求,项目团队在实践中选择自主开发。
3 理论内容:基于议题的展示
3.1 计算思维与档案学联动结合的理论构建
一是在档案学、计算科学、信息科学的融合中,以4种计算思维实践(即数据实践、建模与仿真实践、计算式的问题解决实践、系统思维实践)中的22个活动为基点,探讨怎样从具体的计算思维中寻获与档案管理的连接点,并由此推动档案管理在理念、方法、工具等方面实现体系化重构。如,基于计算科学的工科思维提出应形成档案工程学,形成量化的可测试与验证的档案方法,扩充传统档案理论,以适合更多领域。二是结合计算思维深化或是重新认识档案学核心概念,如尝试使用系统功能语言学和图表理论重新阐释“档案来源”这一概念,使其更加通用且可供档案实践参考;或是利用数字领域的知识抽取方法和“本体”概念,从档案的形成原因、形成主体和形成过程等方面深化对“档案来源”的理解。三是档案方法同计算思维的融合,如,技术视角下的分类方法聚焦于内容分析,指出档案领域以背景为要义的职能鉴定可通过司法行政、来源、程序、文档、技术等背景形成图谱式框架,用于抽取元数据,并使用机器学习的方法实现智能鉴定。
3.2 计算档案学多学科关联的体系扩充
计算档案学的跨学科融合并不是单纯的计算科学、信息科学、档案学三者交叠结合,而是在跨界思路下没有限制的学科关联以及协同,这在研究中有所体现。一是凸显管理学视角,如把业务架构的方法框架作为档案管理和技术的连通中介,将档案所服务的业务活动与档案管理本身作为管理事务进行分解,从需求端为技术确定应用方向;二是强化对人文艺术领域的关注,如依据文化和艺术理论,在档案数字化中需要考虑图像扫描前后的色彩差别对档案真实性的影响(如黑色人种扫描后显示为白色的肤色),从而规避种族层面的相关风险;三是档案工作的政治属性意味着政治学视角不可忽视;四是注重法学视角,用以维护档案管理的合规性,规避档案开发利用过程中的法律风险。
3.3 计算档案学实践应用的内涵延伸
对计算档案学如何从实践中产生、如何在实践中加以运用等问题的探索,广泛分布于各项研究中。第一,明确技术运用与档案专业视角两者不可偏废、强调协作融合、实践应有试错精神、充分的档案需求分析、数字技术能力建设等基本行动原则。第二,探讨在档案实践中充分融入计算思维,这里就涉及应用数字技术及具体的应用方法,如应用自然语言处理、机器学习等技术,实现资源从数据化到整合,再到多样化利用。当前,研究涉及的档案活动包括:一是数字化,即以更加自动化与智能化的方式实现档案向数字空间迁移,如开发用于档案批量数字化的OCR工具和大数据分析工具。二是整合与开发,即从内容、形式、背景等要素实现档案个体的挖掘与整体的关联组织,如用主题建模的统计方法解决欧盟数字档案元数据主要在案卷或文件层面的局限。三是利用,应用数字技术规范利用场景以及对应的档案产品和服务,如为保护隐私,使用监控型的机器学习技术识别个人数据。四是长期保存,确保档案真实性与有效性。如采用内容比较的方法,实现对同一馆藏档案的动态追踪和真实性鉴别,解决使用数据标识符却无法发现内容变化的问题。五是前中端的文件管理,主要从区块链入手,明确从集中到去中心保存的不同模式下文件保管的发展方向。
4 计算档案学的建构展望
在我国推进政府数字化转型,力图在全球范围内引领数字空间建设的战略布局下,数字档案馆建设、电子文件单轨制管理、档案数据化、数字人文等逐步从理论探索走向实践。在机遇与挑战之下,档案理论与实践面向数字情境的体系化是必然要求,计算档案学的建构意义不断凸显。因此基于我国的实践探索,计算档案学极具生命力与发展价值,可考虑将其作为档案学的重要发展方向。
第一,深化理解已有成果,强化对计算档案学的认知。计算档案学被正式提出已近5年,而此前对档案学、计算科学、信息科学从边界融合到技术应用的探讨已有数十年的历史,这些学科都是计算档案学建构的内容基础。尽管本文从计算社会科学、计算档案学代表性实践、计算档案学现有议题三大层面进行引介,但这只是认识与理解计算档案学的起点,且每个层面的解读亦有深化空间。因而,关于计算档案学是什么还有待深入挖掘现有成果,这涉及计算社会科学的整体框架及其对计算档案学的可参照之处、梳理更为全面的计算档案学实践并导出相关要义及具体内容、计算档案学已有议题的整体关联与未涉及内容的探索。如,跨学科在实践中具体涵盖了哪些领域的专家与学者、有哪些类型的机构、各有怎样的定位和分工、协作方式与机制是什么、融合的成效与问题是什么。
第二,引入本土探索数据,丰富计算档案学内涵。我国档案工作数字化转型自20世纪90年代开始就有理论与实践并行的探索,目前已形成以数字档案馆与电子文件单轨制为主线,延伸出档案数据化、数字人文背景下档案信息资源开发等跨学科研究主题。将我国的探索数据与成果导入计算档案学既是计算档案学本土化的必要措施,也是为计算档案学发展作出贡献的重要渠道。因而,可梳理我国可贡献的研究和实践数据,采用对比和整合的方法拓展计算档案学具体内容,并归纳新要义。如,基于我国“互联网+”的背景,明确信息背景、形式与内容等要素的变化以及对档案工作产生的潜在影响,从而批判性地审视现有概念与方法,为适应数字情境解构档案理论体系。
第三,布局系统研究行动,推进计算档案学发展。除了从已有探索当中充实计算档案学外,还要积极发挥计算档案学的理论指导意义,通过进一步的具化研究行动,服务计算档案学建构。这就要求要从整体上展开系统研究,如,对照计算思维框架,基于已有的连接基础,将数据实践、建模与仿真实践、计算式问题解决实践、系统思维实践4种计算思维实践中的22类活动同档案活动进行完整链接,设计具体的面向不同场景的档案理论研究与档案管理实证应用方案,从而系统发现两个领域的相互作用点、作用内容以及作用后潜在的概念与方法变化。