APP下载

国外电子文件鉴定研究进展(2016—2020)

2021-11-27刘玮晗四川大学公共管理学院

浙江档案 2021年5期
关键词:电子邮件研究

赵 跃 刘玮晗/四川大学公共管理学院

鉴定是档案工作中难度最高且争议最大的环节。随着电子文件的迅猛增长,其多变性、易逝性、内容和载体的可分离性等特点对传统鉴定理论与方法造成巨大冲击。一直以来,我国电子文件鉴定研究注重引入国外理论与实践成果,有学者从时间维度梳理了国外电子文件鉴定理论发展过程[1],还有学者介绍了国外具有代表性的电子文件鉴定观[2]。这些成果注重梳理电子文件鉴定理论方法,较少进行系统综述,且未对鉴定领域的最新观点和发展动向进行追踪。2016年至2020年,国外电子文件鉴定研究呈现诸多新趋势。本文旨在系统评述这5年国外研究内容与特点,以期对我国电子文件鉴定研究有所启示。

1 文献来源与计量特征

1.1 文献来源

以国外2016年至2020年电子文件鉴定领域研究文献为基础,以外文学术论文为主要文献来源,在Web of Science、Springer、ScienceDirect、Google scholar等数据库或学术搜索引擎中,以electronic records appraisal为检索词初步检索,基于对检索结果的研判,笔者进一步完善检索策略,将electronic records、digital records、digital data、e-mail、web、social media与appraisal、evaluate、archival appraisal等检索词组配检索,剔除重复与不相关文献后,最终确定81篇文献作为研究对象。

1.2 计量特征

通过对文献年度、机构与作者的分析,笔者发现2016年至2020年发文数量依次为25篇、18篇、11篇、12篇和15篇,尽管出现些许波动,但5年年均发文数量达到16篇,体现出国外学者对此研究领域有持续较多的关注;81篇文献共涉及40所机构,其中美国最多(24所),加拿大(9所)和英国(3所)次之。发文数量较多的机构包括加州大学洛杉矶分校(6篇)、瑞典马尔默大学(6篇)、马里兰大学(5篇)、瑞典中部大学(5篇)、南非大学(4篇)、北卡罗来纳大学教堂山分校(3篇)、加拿大渥太华大学(3篇)、韩国釜山大学(3篇);81篇文献共70位作者,其中大部分作者仅发表1篇,发表2篇以上的论文作者有Anne Gilliland(3篇)、Elisabet M. Nilsson(3篇)、Elisabeth Klett(3篇)、Mpho Ngoepe(3篇)。

从关键词词频统计结果来看,电子邮件(14次)、电子文件(13)、网络档案(5次)、数据(5次)、社交媒体(4次)出现频次较高,可见近年来国外电子文件鉴定研究对象既包括传统形式的电子文件,也包括电子邮件等诸多新形式文件。研究内容涉及鉴定主体的协同参与,其中协同存档(4次)、协同鉴定(4次)受到广泛关注;研究视域也有一定突破,重视计算机科学、人工智能等学科与鉴定的融合发展,如自动分类(4次)、机器学习(4次)、自然语言处理(4次)的研究频次都较高;研究还关注鉴定理论(3次)的发展,特别是宏观鉴定(3次)在数字时代的反思。

2 国外电子文件鉴定研究进展评析

2.1 鉴定对象视角:新形式电子文件鉴定研究持续推进

2.1.1 电子邮件鉴定策略的更新。数字环境下,电子邮件的指数增长给档案机构带来巨大的管理压力,迫切需要相应的鉴定与归档方法。然而,电子邮件的非结构化与多层次使其鉴定受到多重因素制约。受技术更新的影响,电子邮件鉴定时需将文件迁移或规范化为可读格式,其过程中邮件真实性无法保证。同时,电子邮件内可能包含大量潜在的个人、非法或政治等敏感信息,容易导致隐私伦理困境。因此,电子邮件鉴定除了确定价值,还须审查其中的敏感信息。

为了解决上述问题,国外学者针对电子邮件鉴定方法的研究强调以技术辅助为主,融入法医学、计算机科学等多学科知识框架,推动电子邮件鉴定自动化、智能化以及更高强度的风险管控。针对机构电子文件管理能力的问题,Vellino提出使用机器学习和分类工具辅助鉴定,建立“自动鉴定机制”处理大量原生电子邮件[3];Byers和Sturm提出利用算法建立电子邮件分类模型,分类全流程要以档案人员制定的标准为基础[4];West和Kaczmare提出利用预测编码的人工智能算法定位识别敏感信息、自动鉴定电子邮件及其关联文件,并生成描述性元数据以帮助文件形成者、档案管理员和研究人员理解保管电子邮件[5]。鉴于电子邮件的复杂性,Schneider提倡使用由美国斯坦福大学档案部门开发的包含档案处理(Process)、鉴定(Appraise)、发现(Discover)、传递(Deliver)四大模块的电子邮件管理开源软件即ePADD来鉴定、保存电子邮件[6]。此外,针对电子邮件隐私和敏感信息问题,Vinh-Doyle提倡使用计算机法医学中的数字取证降低官方电子邮件中的个人信息风险[7];Hutchinson提出使用自然语言处理技术(如主题建模)有效地识别电子邮件中需要限制的信息[8]。

2.1.2 网页文件鉴定方法的探索。由于网页文件数量巨大、更新迭代快且具有广泛延展性,网页文件同样需要鉴定,以留存具有潜在价值的网页文件。长远来看,网页文件鉴定过程是构筑并传承网络文化遗产的过程,其最终使命是保存社会文化记忆。由于网页文件存在形式的特殊性,国外学者通常从宏观和微观两个视角探讨其鉴定问题。

在宏观的鉴定理论方法方面,Byers 和Sturm主张将文档分析策略、后保管方法等引入网页文件鉴定[9];Post认为可将宏观鉴定法、成本效益分析等理论框架应用于网页文件鉴定[10]。关于鉴定方法,Summers提出网络存档是一种社会技术系统,其鉴定过程涉及档案管理员、“种子清单”和自动机器人之间的协作,提倡开发提供爬取建议的“种子清单”来指导鉴定工作,并加强档案管理员之间的协作[11];此外,Duncan认为网络存档鉴定工作也应当跨机构合作,以应对技术和资源缺陷的挑战[12]。

在微观视角的鉴定要素方面,Post指出网页文件鉴定除了要关注网页内容本身的价值,也要结合网页的延展性、动态性以及差异化的技术特征来判定其归档状况。因此,网页文件鉴定包括网页内容、范围、数量、爬取频率、爬取工具五大要素[13]。Summers指出爬取频率要素最为关键,取决于后勤保障和资源限制[14]。Pendse则指出爬取频率要依据不同网页的动态性差异化设定,如爬取频率可依据事件发展过程中的关键时刻确定[15]。

2.2 鉴定主体视角:私人鉴定及多主体参与鉴定引发关注

2.2.1 个人数字文件鉴定的兴起。随着个人数字存档研究的兴起,电子文件鉴定主体研究视角逐渐从机构拓展至个人。Schoenebecks从个人数字文件鉴定归档主体控制权的视角提出官方机构不应介入个人数字文件鉴定实践。当下个人信息不可避免地向科技公司迁移,Twitter和Facebook等科技公司已经具备了塑造社会记忆的权力。由于科技公司的控制,个人数字文件的鉴定归档过程被归为中立的数据存储机制的运作,而作为文件形成主体的个人的文件控制权正在逐步被削弱。因此他们提出应将鉴定理论建构与现代数字技术平台的要求相结合,重新考量个人数字文件鉴定的价值分配[16]。Acker和Kreisberg则从社交媒体数据获取的角度指出应用程序编程接口对用户开放的获取权限和限制僵化,记忆机构、个人、平台开发商所拥有的访问保管权限被“一刀切”,导致了所选择留存的社交媒体数据的完整性缺失。他们提出划分不同主体的分布式保管责任,更要从保存数字文化记忆的角度构建新的鉴定和存档模式[17]。

2.2.2 参与式鉴定思想的提出。数字转型背景下,以多元主体协同为要义的参与式特征在档案工作中出现。电子文件的鉴定责任不再单一划归档案工作者,而是由多元主体共同参与实现协作鉴定。对于官方档案鉴定,Ngoepe认为在数字环境中,政府机构文件管理员、档案工作者、信息技术专家和文件形成者、律师、审计师和其他学科专家应作为一个团队开展鉴定工作,以便吸纳和利用各方利益相关者的建议及资源[18];Ngoepe和Vellino提出档案鉴定的参与模式,主张档案形成者应最大程度参与档案鉴定活动,为鉴定提供文件使用记录及背景信息[19][20]。

对于非官方档案鉴定,Nilsson从社群记忆的角度在“Living Archives”项目中探索了一项名为原型协作的归档实践,邀请边缘群体收集、存储和分享他们的记忆和文化遗产,并借助共同存档、共同鉴定的“原型协作”鉴定方法将以档案工作者为核心的鉴定转向档案形成者的共同鉴定[21];Warren从人权保障的角度,以法属安的列斯群岛被奴役的黑人妇女档案为依据,指出档案鉴定的权利等同于对群体记忆的叙述权利,在互联网环境下应当承认并赋予档案记录主体档案控制管理权,使边缘群体参与鉴定以反驳片面化的官方叙述,维护自身权利。Warren认为档案人员在邀请社群成员参与档案鉴定工作的同时,也应思索鉴定权责与标准[22]。

2.3 鉴定方法视角:传统档案鉴定理论的继承与创新

2.3.1 宏观鉴定理论的再探讨。自上而下的宏观鉴定论为档案界提供了一种较为合理的和有价值的鉴定理论,近年来学界针对宏观鉴定论在电子文件鉴定中的应用进行了讨论。Kim以英国国家档案馆为例研究了数字时代的公共档案鉴定政策,指出由于电子文件的定量扩展和复杂性的增加,引入宏观鉴定论已经成为必然。同时,他还指出要加强电子文件管理流程中前端的预鉴定,并且建立适合宏观鉴定方法的综合鉴定标准和规范[23];Ngoepe和Nkwe也以南非国家档案馆的鉴定政策评估为依据,指出宏观鉴定的重要性,即电子文件鉴定的重点应当应放在文件形成者及其职能上,并提出以宏观鉴定与微观鉴定相结合的方式进行多角度鉴定[24]。

2.3.2 基于信息流分析的鉴定思路。传统的鉴定观以价值鉴定、职能鉴定等为基础,虽然建立了鉴定标准但避免不了一定的主观性。国外学者则基于信息科学提出信息流分析法,即在鉴定中建立客观标准及参数如相关性、密度、频率等,企图消除传统鉴定方法的模糊性和主观性[25]。Rockembach提出信息流分析鉴定的对象已经从文件转向信息,因此应当更多从信息筛选视角出发,考虑信息中所包含的证据的充分性[26]。此外,Sinn还提出了“clue-evidenceproof”模型,认为信息的证据价值应当依据认知监测、信息形式、信息完整性、目标实现程度、作者身份信誉、信息组织检索等指标进行判定[27]。

2.4 鉴定技术视角:新兴技术在电子文件鉴定中深度应用

当前,电子文件管理中技术应用尽管在支持数字保存和档案描述方面取得了进展,但在电子文件鉴定中的应用还较少。技术辅助电子文件鉴定是由电子文件急剧增长所带来的高效鉴定需要与当前鉴定资源、能力欠缺的矛盾发展的必然结果,电子文件的技术特性也使其具备技术应用的条件。

2.4.1 鉴定过程的技术应用方式。针对电子文件鉴定中的技术应用,有学者主张开发独立的鉴定系统辅助电子文件鉴定。如Gilliland提出开发一个模仿人类专家决策过程的计算机系统,实现电子邮件自动鉴定[28];Shallcross介绍了由加拿大不列颠哥伦比亚省ArteFederal Systems项目开发的数字保存系统Archivematica,提出在系统内开发鉴定与组织选项卡板块,增添目录分类、格式描述、敏感数据识别、内容预览、标引等功能,实现对电子文件的大规模鉴定[29]。也有学者倡导将适应性的工具或技术融入鉴定流程。如,Lee[30]、Belovari[31]和Douglas[32]等指出数字取证技术、自然语言处理技术、机器学习三种技术为电子文件的鉴定提供了改进源数据处理设施、高效自动识别文件背景和隐私信息、自动分类、人工智能判定的可能性。

2.4.2 技术在鉴定中的定位问题。尽管技术的应用能够为电子文件高效自动化鉴定提供强有力的支持,但由于某些技术和软件系统并无法完全就鉴定规则或原则达成共识,因此鉴定技术、软件、系统并不能完全取代档案工作者的决策而成为电子文件鉴定的决定因素。对此问题,Lee就明确指出人类的鉴定决策应居于主导地位[33];Hilton认为鉴定过程即分析过程,最重要的鉴定工具是人的鉴定思维[34]; Gilliland也指出档案鉴定辅助工具发展的强劲轨迹不仅需要拥有健全的技术,更需要档案管理人员的管理思维、鉴定理念和完善的鉴定文化的加持[35]。

3 国外电子文件鉴定研究特点分析

3.1 研究理念:理论承继与方法创新并存

在研究理念上,一方面,国外学者注重在数字化和信息技术革命浪潮下对已有理论进行回归性的批判反思,探索传统理论依托新技术、新形式的革新途径,挖掘传统理论的持久价值,特别是宏观鉴定论在电子文件鉴定实践中的作用;另一方面,国外学者也敢于总结并提出电子文件鉴定新方法,以适应信息化背景下电子文件的管理需求。虽然国外对于鉴定理论的研究关注有所减少,但面临新技术、新载体的挑战,如何将传统理论应用于新环境下的电子文件鉴定,如何以传统理论为依托创新发展新的鉴定理论与方法,仍旧是今后电子文件鉴定的研究方向。

3.2 研究方法:理论建构与实证研究结合

在研究方法的使用上,一方面,国外研究注重突破传统鉴定方式的束缚,以现有实践经验为基础,提出新的理论构想。多位学者融合跨学科知识如计算机、计算机法医学等提出了新型鉴定思路。另一方面,也有学者注重案例或实证研究。一些学者以案例研究的方式,通过问卷调查、访谈等形式对个体或者机构内部人员进行调查,以此从各国鉴定实践中总结经验规律。

3.3 研究特色:关注鉴定的多重价值取向

国外学者的研究一方面注重强调社会参与和引导社会思维,具体体现在对鉴定主体多元化的关注增多,更多地从鉴定更广泛的社会职能出发,充分考量多元主体资源管理与利用需求,强调多元利益主体对鉴定的作用,协助多元主体寻求更广泛的身份认同。另一方面鉴定研究从价值判断更多地转向兼顾价值与安全问题的判断。在开放数据环境下,聚焦隐私保护与信息安全,维护国家、组织和个人信息权益,已成为国外鉴定领域高度关注的新问题。

3.4 研究走向:自动化智能化鉴定是趋势

近年来,越来越多的学者从技术视角审视电子文件鉴定问题,试图为信息时代的档案鉴定工作提供一个更加科学化、系统化和智能化的改革契机。一方面,电子文件鉴定研究当中,鉴定技术研究的比重上升,强调数字取证、机器学习、自然语言处理等技术在鉴定过程中的重要地位,为电子文件鉴定构建起新的发展框架。另一方面,国外研究又以辩证思维分析了技术应用在鉴定中的地位,提出解决知识理解以及价值判断问题是需要进一步考虑的。

4 国外电子文件鉴定研究对我国的启示

4.1 树立包容与协同意识,秉持多元开放的态度重新审视电子文件鉴定

Terry Cook提出的“社区”范式正逐步实现,鉴定这一行为随着档案自身变化以及人们社会认知的提升而逐步扩展到更为广泛的社会领域当中。一方面,电子邮件、网页文件、社交媒体文件鉴定逐步纳入鉴定体系。对于多元化的鉴定范畴,档案学界应当保持包容与开放的态度,挖掘不同形式电子文件鉴定的特殊性,探索差异化的鉴定方式。另一方面,电子文件鉴定的主体从单一的主流机构转向社区、边缘群体、个人等多元主体,并以参与式协作的方式实现协同互动。电子文件鉴定研究应当打破传统的单一式束缚,充分思考并尊重每份档案背后主体的情感倾向与社会话语权,从更广阔的社会视角实现档案价值的再发现。同时,也要通过完善鉴定标准规范多元主体鉴定的权责关系,明确多元主体鉴定模式的具体运作方式。

4.2 拥有回归与创新意识,基于旧理论与新实践革新电子文件鉴定方法

在数字时代,我国对于档案鉴定在价值问题上的讨论更为突出。但纸质档案时代传统的年龄鉴定论、职能鉴定论等鉴定思想难以适应信息化发展要求,电子文件鉴定研究需要基于传统理论探索不同类型电子文件鉴定新理论与新方法。第一,打破传统以价值鉴定为核心的定性分析困境,借鉴国外信息流鉴定等方法,尝试从定量分析角度赋予电子文件鉴定可量化、可操作的指标。第二,由于新形式电子文件的发展以及多元主体利益的交叉,研究需要关注隐私安全以及敏感信息的鉴定,以保障在档案开放趋势下多方利益主体的权益。第三,对于特殊电子文件鉴定如个人数字文件鉴定,应当理清其中不同主体的权责关系,加强其鉴定方法的建设与指导。我国电子文件鉴定研究在参考国外理论的同时应结合中国鉴定工作实际,从当下鉴定工作的社会环境、文化背景、管理体制出发,探索切实的标准与方法。

4.3 具备多学科融合意识,依托知识背景探索跨学科语境下的电子文件鉴定

国外电子文件鉴定研究聚焦于以信息技术为主的跨学科方法在鉴定流程中的应用,其中包括计算机科学、信息科学等新型学科知识的融入。电子文件鉴定不应局限于单一的研究视角,而应从多学科借鉴方法如文本挖掘、语义分析、智能分析等实现更高效的鉴定。同时,也应吸纳多元的知识体系,借助多元知识模型或计算机技术在实践层面上探索智能高效的鉴定机制。当然,跨学科语境下的电子文件鉴定并不意味着新知识和新技能将档案工作者转变为“技术程序员”,我国应当引入计算档案学等跨学科教育框架,加强对兼具计算思维和档案思维的新型复合人才的培养,为电子文件鉴定提供新思想、新动力。

4.4 增强宏观战略意识,立于文化记忆的高度重新定位电子文件鉴定

微观上,鉴定决定了组织内部各类文件的去留;但宏观上,鉴定实际上反映了一个时代的社会和文化意识,鉴定的过程其实是一个国家、甚至人类社会历史文化遗产构建和塑造的过程。当下,国外学者已经从社会文化记忆角度强调鉴定担负着传承文化遗产的重要使命[36]。电子文件鉴定作为塑造我国社会文化遗产的重要一环,应当与当前大环境和国家战略相结合以构建管理模式。我国也需要对电子文件鉴定的社会、文化和历史价值的更广泛的理论进行研究,从而更深入地挖掘电子文件鉴定为文化遗产和社会记忆这一更大的图景作出贡献的方式。

猜你喜欢

电子邮件研究
有关旅行计划的电子邮件
什么是《清明上河图》,现在就带你研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
公司研究
谁说小孩不能做研究?
对周期函数最小正周期判定法的研究与应用
小测试:你对电子邮件上瘾了吗?
有奖问答
有奖问答