多学科视角下的档案学理论研究进展(之六)
——信息技术视角
2017-11-08叶茹雨
文 / 叶茹雨
多学科视角下的档案学理论研究进展(之六)
——信息技术视角
文 / 叶茹雨
信息技术的发展为档案工作带来了新对象,电子文件进入档案领域。由于电子文件与传统纸质档案差异巨大,档案管理的方法出现变革。数字档案资源的长期保存依赖于各类技术的研发与完善。新技术的不断产生带来了更多档案学研究热点,也为档案工作带来了机遇与挑战。档案学教育顺应时代发展,课程也随之调整与发展。
信息技术;档案学;电子文件;档案教育
在档案事业的历史进程中,信息技术的变革与档案事业的发展密切相关。在信息技术的影响下,档案工作从实体、模拟形态向电子、数字模式转型,将档案工作者从手工管理中解放出来,过去受到技术限制而只能停留在思考层面的设想得以实现。档案学理论在信息技术手段的帮助下真正“落地生根”。
一、信息技术带来档案工作新对象
在计算机技术的飞速发展下,电子文件成为档案工作的新对象。电子文件指在数字设备及环境中生成,以数码形式存储于磁带、磁盘、光盘等载体,依赖计算机等数字设备阅读、处理,并可在通信网络上传送的文件。[1]由于与传统档案工作对象差异巨大,如何从技术角度认识电子文件引发了档案领域的热烈讨论。电子文件的载体、格式和元数据标准成为认识档案工作新对象的首要研究内容。
(一)电子文件存储载体研究
传统档案工作对象以纸质档案为核心,由于纸质档案的内容与载体相统一,管理载体即为传统档案管理的核心工作。而电子文件的出现,其存储载体多样且不再固定,纸本不再是唯一的载体形式。档案载体的变化引起了档案管理活动的变革。
由于电子文件存储载体的寿命有限,存储载体的技术发展对电子文件的存储具有较大影响。目前较成熟且通用的载体为三类:磁性载体、光学载体和电(半导体)载体。硬盘及以硬盘为基础的各类存储系统(磁盘阵列、NAS存储、SAN存储、集群存储等)是在线存储、近线存储、异地(容灾)存储、在线备份的主要载体。光盘及光盘库则为近线存储、本地备份异地保存的主要载体。以磁带为载体的磁带库是在线备份的主流选择,同样也是本地备份、异地保存的主要方式。缩微胶片则成为异质备份的主要载体。[2]DA/T38-2008《电子文件归档光盘技术要求和应用规范》对存储载体明确了相关技术指标;GB/T18894-2016《电子文件归档与电子档案管理规范》对电子档案离线备份的存储载体作出了规定,以确保存储载体满足存储条件。
可选载体多样性的背后,是电子文件的信息与载体间的关系。这二者是否分离的问题引发了学界的讨论。一种观点指出电子文件信息与载体可分离。冯惠玲认为,电子文件的信息与载体具有可分离性,“载体的转换不仅是可能的,也是必须的”。[3]黄世喆等认为,信息与载体的可分离性是电子文件的核心特点,但其分离是暂时的、相对的。[4]另一种观点认为信息与载体不可分离。仇壮丽指出,静态电子文件、动态电子文件与虚拟文件都离不开“内存”这一物理载体。[5]谢光耀在上述两种观点的基础上,提出电子文件信息与载体的关系是“一种动态的、相对的分离和绝对的依附的辩证统一的关系。”[6]从档案工作实践上来看,电子文件的确不再如同传统纸质档案一般保持着载体与内容的统一,但仍需载体提供相应的存储与利用空间,而载体可以且应该变更。
(二)电子文件存储格式研究
如果说载体可以不断更换以保证载体的可识别与可用,那么存放在各类载体中的电子文件内容的可读、可用则是电子文件存储的意义所在,电子文件的存储格式成为了世界范围内的重要研究内容。由于技术的迅速发展,旧格式逐渐被淘汰或不断更新,新格式也在不断产生,各种格式数量众多、类型复杂,开放程度各异。这给电子文件的存储带来了巨大挑战。
DA/T47-2009《版式电子文件长期保存格式需求》要求版式文件的格式应满足格式开放、不绑定软件、文件自包含、格式自描述、显示一致性、持续可解释、稳健、可转换、利于存储、支持技术认证机制、易于利用等十一项要求。[7]GB/T 33190-2016《电子文件存储与交换格式版式文件》确立OFD作为我国电子文件版式文件格式。OFD格式开放,且保障国家信息的安全,但利用、管理、风险等问题皆引起了档案界的高度关注。OFD格式对于电子文件产生的影响有待观察。GB/T18894-2016《电子文件归档与电子档案管理规范》[8]指出:“电子文件归档格式应具备格式开放、不绑定软硬件、显示一致性、可转换、易于利用等性能,能够支持同级国家综合档案馆向长期保存格式转换”,“以专有格式存储的电子文件不能转换为通用格式时,应同时收集专用软件、技术资料、操作手册等”[9]。
国际上对电子文件的格式研究已较为成熟。以美、澳、英三国为例,其所接收的电子文件种类多样,且规定了各类电子文件接收格式。
表1 美、澳、英国家档案馆电子文件归档种类
各国在保存电子文件时,无一例外都对格式类型进行了控制。这一方面指明了长期保存的电子文件格式需要满足特定要求,另一方面则意味着档案部门能够实现对这些电子文件格式的管控。国际上通过建立文件格式登记系统(或称“数字文件格式等级系统”“电子文件格式登记系统”)实现格式信息体系化管理,代表性项目有英国国家档案馆的PRONOM技术等级系统、美国哈佛大学的GDFR(GlobalDigitalFormatRegistry)、互联网数字分配机构(IANA)的MIME(MultipurposeInternetMail ExtensionsMediaTypesRegistry)以及加州大学管理中心(University of California Curation Center)开发的UDFR(UnifiedDigitalFormatRegistry)。[13]文件格式的登记管理从软件上实现了管控,便于各机构选择使用适合长期保存的文件格式。
(三)电子文件元数据研究
元数据为维护电子文件凭证价值提供了新的思路和解决途径[14]。作为电子文件管理不可或缺的工具,其标准的制定一直以来是电子文件管理研究的重点。目前国际上已出台了大量电子文件元数据标准,我国近年来也取得不错的研究成果。
表2 国际主要电子文件元数据标准
除表2中列举的元数据标准外,国际标准化组织制定的ISO 23081《信息与文献—文件管理流程—文件元数据》系列标准由原则、概念与实施、自我评价方法三部分构成。其提出的多实体、多属性的元数据框架结构,被很多国家、地区、单位制定的文件管理元数据标准、方案所采纳。[26]
我国档案界关于元数据的研究以2001年国家档案局邱晓威研究员主持的国家社会科学基金项目“电子文件和电子档案的真实性、完整性保证及其法律地位的认定”启动为标志。[27]目前我国已出台了一批标准规范用以指导元数据方案制定工作。
在地方层面,2002年青岛市档案局颁布了《青岛市电子文件归档与管理规范(试行)》,其电子文件元数据项目见于“附录A电子文件著录项目”;2005年天津市档案局制定了《天津市电子公文元数据表》;广州市地方技术规范DBJ440100/T 10.4—2008《电子文件档案资源管理规范第4部分:元数据》在2008年7月出台;[28]
在行业层面,2008年3月我国核行业标准EJ/T1224-2008《核电电子文件元数据》颁布;[26]档案行业标准DA/T46 -2009《文书类电子文件元数据方案》与DA/T54-2014《文书类电子文件元数据方案》先后在2009年与2014年颁布[29]。
在国家层面,2011年1月,ISO23081-1《信息与文献—文件管理流程—文件元数据—原则》被正式采纳为国家标准,标准号为GB/T26163.1-2010。 国家档案局承担的国家标准《电子文件通用元数据规范(征求意见稿)》也于2012年完成,[26]并在福建、江苏等地进召开适用性试点研讨会。
二、信息技术改变档案管理方式
由于档案工作对象的改变,管控方式迫切要求变革。在纸质环境下,载体控制是档案工作的核心。然而在电子环境下,载体控制的管理思想已无法再完全实现对电子文件的管理。档案界对电子文件的管理模式进行了讨论。
(一)双轨制与双套制向单轨制与单套制过渡
在我国,在电子文件出现初期,信息技术较为落后,电子文件(档案)的长期保存问题难以解决,对电子文件并不信任,进而产生了双轨制与双套制的管理思路。双轨制是指在文件生成、运转过程中,电子文件与纸质文件二者的共存,即两种版本文件同步随业务流程运转。双套制则是指“双套归档”[30]。
刘东斌在1999年指出,由于电子档案具有非人工直接识读性、软硬件依赖性、不稳定性和易更改性,“电子档案不能单独承担档案的职能”,进而可实行双轨制,即纸质档案与电子档案“同时归档保存,可以起到互相印证,互相补充的作用”[31]。双套制的管理思路则可从表3中涉及电子文件管理的相关文件与标准中看出。
表3 我国实行电子文件(档案)双套制的有关规定[32]
随着近年来信息技术的飞速发展,信息产业逐渐成熟,相关电子文件管理与长期保存的国际标准与项目陆续出台,双轨制与双套制受到了档案领域的巨大争议。电子档案双套制管理面临诸多困难,如资源浪费、电子档案无法转换为纸质或缩微胶片版本、电子文件流失、电子文件凭证性混乱等问题。
信息技术与相关国际标准的发展已经为电子档案单套制与单轨制发展提供了技术可行性,以无纸化为核心的电子文件管理思路逐渐兴起,单套制与单轨制的呼声越来越高。GB/T18894-2016《电子文件归档与电子档案管理规范》替换了GB/T18894-2002《电子文件归档与管理规范》,删除了原标准中有关双套制的内容,并对电子档案管理系统做出了更多要求。2016年4月,国家档案局在《全国档案事业发展“十三五”规划纲要》中指出:“我国应加快提升电子档案管理水平……在有条件的部门开展电子档案单套制(即电子设备生成的档案仅以电子方式保存)、单轨制(即不再生成纸质档案)管理试点。”[35]信息技术的发展正在实现档案管理思路从双套制、双轨制向单套制、单轨制过渡。
(二)档案数字化工作
“双套保存”不仅意味着将原生电子档案转换为异质档案,也带来了档案数字化。所谓档案数字化,即利用数据库技术、数据压缩技术、扫描技术等技术手段,将纸质档案、银盐感光材料照片档案、以模拟型号为记录形式(录音带、录像带)的录音、录像档案等介质的档案进行数字加工,将其转化为存储在磁带、磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。[36]在生成数字版本后,以古籍数字化为例,还可利用数字化输入技术、OCR光学识别技术、字处理技术、智能化处理技术和网络技术[37]等信息技术为档案利用带来更多的便利,这也是档案数字化工作的目的所在。
台湾于2002年推出了“数位典藏科技计划”,2008年将其与数位学习科技计划整合为“数位典藏与数位学习科技计划”,在数字化工作方面经验颇丰。该计划在实现将各类资源转化为数字资源后,更着重强调对数字资源的管理与利用。其所设置的后设资料工作组负责从后设资料(即元数据)方面实现对数字资源的检索与管控。此外,多媒体管理、联合目录、影音处理、中文缺字与断词系统、数位典藏资料库及时空资讯整合系统等二十余项技术也是台湾数位典藏与数位学习科技计划多年来研发出的核心技术。[38]
中国第一历史档案馆[39]、中国第二历史档案馆[40]从上个世纪末开始进行档案数字化工作。 国家档案局相继出台了DA/T31-2005《纸质档案数字化技术规范》、DA/T43-2009《缩微胶片数字化技术规范》。这两部行业标准为我国档案数字化提供了相关技术规范,有利于档案数字化工作的长足发展。然而在档案数字化为利用带来便利的同时,档案数字化工作本身也存在一系列风险,如采取数字化工作外包导致的档案信息外泄、操作不当导致档案受损、具体操作管理不当等问题。此外,人们也需持续关注技术发展情况,对相关档案数字化规范进行更新。
(三)电子文件管理系统
对于原生电子文件而言,这些电子文件产生于系统并生成相关元数据,利用系统实现对电子文件的管理逐渐成为一种现实可行的管理方式。而对于数字化生成的电子文件,其后续的维护与利用工作从大体上来看与原生性电子文件基本无二。各国都在积极探索利用电子文件管理系统管理电子文件的方案。
表4 国际主要电子文件管理系统标准
我国2009年建立国家电子文件管理部际联席会议制度之后,也加快推进电子文件管理系统相关标准和技术的研发。GB/T29194-2012 《电子文件管理系统通用功能要求》的出台,使电子文件管理系统研发有了标准依据。GB/T33189-2016《电子文件管理装备规范》对电子文件管理过程中所涉及的硬件设备和系统的功能、性能与技术管理要求做出了规定。
需要指出的是,在此处所指的电子文件管理系统,是指从业务系统(BusinessSystem,BS)捕获电子文件后对其予以档案化维护和处置的电子文件管理系统(ElectronicRecords/Documents&RecordsMana gementSystem,ERMS/EDRMS)。而在电子文件管理系统之后,还需由电子文件长期保存可信数字仓储(TrustedDigitalRepository,TDR)系统/接收并长期保存电子文件。[41]从概念上来看,电子文件管理系统的功能是介于业务系统与电子文件长期保存系统之间的。在档案领域,国际上许多电子文件管理系统项目的开发并不仅局限于这一过渡阶段。从对电子文件管理系统的相关要求以及项目的开展趋势看来,更多项目与相关规范、标准在向数字资源长期保存方向发展。
三、信息技术实现数字档案资源长期保存
(一)数字资源长期保存项目
数字资源(电子文件)长期保存项目旨在将具有长期保存价值的数字资源以数字形式保存下来。随着时间的推移,人们逐渐意识到与纸质档案不同,数字资源的寿命会因种种原因受到限制,最终导致数字资源的流失。世界范围内各国积极展开数字资源长期保存项目,从各个角度寻求长期保存数字资源的最佳实践。
美国国家档案和文件署(National Archives and Records Administration,NARA)于1998年提出了电子文件档案馆(Electronic Records Archives,ERA)项目的建设方案并于1999年立项,旨在将ERA建设为全面管理电子文件的档案系统。ERA主要任务是永久保存各类电子文件,并实现不受文件生成格式和生成环境的限制、不受阅读环境制约的电子文件利用。[42]自2012年起,NARA要求所有联邦机构通过ERA递交文件期限(RecordsSchedule)以获得许可,所有永久保存文件的移交也都通过ERA进行管理。目前,ERA系统中已存储超过8亿份文件,共计超过400TB。[43]NARA在2016年发布了ERA2.0的项目计划,以迎接由原生性电子文件与数字化文件所带来的挑战。ERA2.0由数字处理环境( Digital Processing Environment, DPE)和数字对象存储(Digital Object Repository, DOP)两个主要部分构成,实现各类数字资源的上传、处理、元数据编辑、存储、检索与探索能力。[44]
加拿大自1998年起实施的“保障电子文件永久真实性国际合作项目”(International Research on Permanent Authentic Records in Electronic systems,InterPARES)已开展近二十年。该项目第一期就电子系统中文件真实性的永久保障进行了深入的研究。二期旨在确保在电子艺术、电子科学和电子政府活动中,在数据库、办公系统以及互动式体验的动态性系统中准确而可靠地生成数字文件,并且确保无论是长期还是短期,在被其形成单位和整个社会利用的过程中,数字文件的真实性都能够得到维护,而不受技术更新和载体不耐久的影响。InterPARES已形成了数字文件长期保存方针、政策、策略和标准的框架、文件形成者指南、文件保管者指南、检验电子文件真实性的比照要求和基准要求等一系列成果。三期则将已有成果应用于中小型档案机构。四期(InterPARESTrust,ITrust)旨在制定理论与方法框架以保障公众对电子文件与网络数据的信任。
澳大利亚维多利亚州档案馆推出了“电子文件管理策略”(Victorian Electronic Records Strategy,VERS)项目。2000年维多利亚电子文件管理标准出台,即VERS标准,2003年推出2.0版本,2015年推出数字信息封装标准,即VERS3.0。在VERS2.0的五个规范明确了电子文件保存系统、元数据、标准电子文件格式、长期保存格式和输出电子文件的技术要求,VERS3.0的三个规范则从构建封装包、封装包元数据和长期保存格式等方面对数字信息封装标准进行技术补充。
荷兰数字文件保管试点项目(D i g i t a l Preservation Testbed)于2000年展开。该项目选取电子邮件、文本文件、电子报表、数据库四种电子文件,试验评价了迁移、仿真和XML三种数字保护策略的效果和局限性,研究如何长期有效保存电子文件,并在此基础上制定了保存系统功能要求。[45]
英国国家档案馆的电子文件格式管理项目PRONOM是以文件格式为核心的电子文件长期保存基础性项目。该项目由PRONOM技术登记系统、PRONOM永久唯一标识符(PRONOM Persistent Unique Identifier,PUID)和电子文件格式识别工具(DigitalRecordObjectIdentification,DROID)三部分构成。PRONOM项目可实现对电子文件进行充分描述,并以此为基础辅助迁移活动等保存策略的制定。[46]
瑞士联邦档案馆于2 0 0 7年开发了S I A R D(Software Independent Archiving of Relational Database),并于2013年发布SIARD2.0版本。SIARD是一套基于XML的长期保存关系型数据库的解决方案。SIARD提供了SIARD格式与SIARD套件,实现了关系型数据库与SIARD格式的相互转换,且SIARD是用于存档的开放数据库格式。[47]
上述数字资源长期保存项目各有特色与侧重,形成了一系列数字资源长期保存的最优实践,对世界范围内数字资源长期保存工作的开展具有指导与借鉴意义。
(二)数字资源长期保存标准规范
数字资源在近年来逐步走上了规范化和标准化的道路。ISO14721《开放档案信息系统参考模型OAIS》、ISO 18492《电子文件信息的长期保存》、ISO/TR 26102《信息与文献——电子文件的长期保存需求》、ISO19005《文档管理-长期保存的电子文档格式》等国际标准为确保电子文件长期可读、可解析、可利用和共享奠定基础。此外,数字资源长期保存需获得保存机构、用户与投资方等多方的信任,对保存系统进行可信认证是提高数字资源长期保存可信度的重要手段。2002年RLG与OCLC发布《可信数字仓储的属性和责任》(Trusted Digital Repositories:Attributes and Responsibilities)研究报告;2006年德国数字资源长期保存专业网(Network of Expertise in Long-Term Storage of Digital Resources,Nestor)制定了《可信赖数字仓储的指标目录》;2007年RLG与NARA发布《可信赖仓储的审计及认证: 指标与列表》( Trustworthy Repositories Audit&Certification: Criteria and Checklist,TRAC),且于2012年发展成为国际标准ISO16363。2014年ISO16919《审计与认证机构的要求》对执行认证的机构、人员及认证过程进行了规范。数字长期保存能力成熟度模型(DigitalPreservationCapabilityMaturity Model,DPCMM)等成熟度模型项目则从系统成熟度的角度对保存系统进行评估。上述标准与项目成果对数字资源长期保存的系统建设与可信认证提供了巨大支持,有助于数字资源长期保存项目的可持续发展。
我国在数字档案资源长期保存研究领域也取得长足进步。一是出台了电子文件元数据、长期保存技术策略、长期保存格式等方面标准规范。其中DA/46-2009《版式电子文件长期保存格式需求》将对电子文件保存格式的要求从具体格式转移到格式需求上;DA/47-2009《文书类电子文件元数据方案》遵循了国际标准ISO23081《信息与文献——文件管理过程——文件元数据》;DA/48—2009《基于XML的电子文件封装规范》则参考了澳大利亚维多利亚州文件策略(VERS)项目中的封装规范。二是通过会议交流促进数字档案资源长期保存工作的有效开展。我国近年来以“电子文件的长期保存”“信息系统环境中的文件与档案管理”等主题举办了多次电子文件管理论坛。冯惠玲教授曾在会上指出,电子文件长期保存是一个立体性的难题,需要概念、技术与管理多种维度予以解决。技术作为其中一维在电子文件长期保存的工作中具有重要地位。
(三)我国数字档案馆研究与实践情况
20世纪90年代,我国档案界就开始把数字档案馆作为新兴的有发展潜力的重要研究领域,并从国家战略层面出发,将数字档案馆研究与建设纳入国家信息基础设施计划。2002年以来,国家档案局先后发布了《全国档案信息化建设实施纲要》;发布了《档案事业发展“十一五”规划》,提出了“建立一批电子文件中心和数字档案馆,实现档案信息资源社会共享”的总体目标;印发了《数字档案馆建设指南》《数字档案室建设指南》,明确数字档案馆(室)建设的具体内容;发布了《档案事业发展“十二五”规划》,提出要“加快数字档案馆建设步伐”。2014年,国家档案局成立了数字档案馆(室)建设领导小组,并讨论通过了领导小组工作规则和《2014年数字档案馆(室)建设重点工作》。《全国档案事业发展“十三五”规划纲要》提出持续推进数字档案馆建设,“到2020年,全国地市级以上国家综合档案馆要全部建设成具有接收立档单位电子档案、覆盖馆藏重要档案数字复制件等功能完善的数字档案馆;全国50%的县建成数字档案馆或启动数字档案馆建设项目;全国省级、地市级和县级国家综合档案馆馆藏永久档案数字化的比例,分别达到30%—60%、40%—75%和25%—50%”[37]。可见,国家对数字档案馆建设的重视和投入为数字档案馆建设提供了有力的保障。
随着数字档案馆理论与实践的逐步深入,档案界从概念界定、技术实现、信息资源组织与建设等方面对数字档案馆进行了探讨,产生了一系列专著,如表5所示:
国内数字档案馆研究还同时呈现出与实践紧密结合的特征。2001年,国家档案局将青岛、深圳确立为数字档案馆建设的试点城市,从此拉开了全国数字档案馆建设的序幕。北京、上海、天津、浙江、福建、江苏、重庆、深圳、青岛等省市的综合档案馆先后开展数字档案馆的建设。根据中国档案学会档案自动化管理技术委员会发布的《档案信息化发展现状、趋势的研究报告》,目前我国数字档案馆建设呈现出“综合性数字档案馆建设的引领示范”“专业、行业、部门数字档案馆建设的探索实践”“数字档案馆建设逐步规范”的局面。与此同时,数字档案馆建设的内容覆盖也较为全面,包括数字档案馆“三网一库”基础设施建设、馆藏档案数字化、档案目录和专题档案数据库建设、提供“一站式”档案信息服务、档案网站建设、开放档案目录等。[48]
当下,我国数字档案馆建设仍在向前推进,呈现出从个体向群体的发展态势。如何实现电子文件在线存取、如何实现电子文件长期保管、如何建立分布式和可扩展的数字信息系统、如何建立多个数字档案馆之间的信息资源跨库共享,是我国数字档案馆建设在下一个阶段需努力解决的难题。
四、信息技术激发档案学研究新热点
信息技术的发展为过去难以实现的档案管理研究思路带来了可能性,带来了研究新热点。其中较为典型的研究热点内容为网页归档、数字记忆、大数据与云计算等。
(一)网页归档
互联网技术的迅速发展导致一些具有重要保存价值的网页淹没在网络汪洋中,或因为网站缺失维护导致网页流失。网页归档成为档案人在网络时代的一份重要职责。网页归档实际是数字资源长期保存的一项内容,但由于其技术内容复杂,在此作为一项热点研究提出。
目前,网页归档技术已逐步成熟,采集、管理、保存与访问利用四个环节均需要一系列的技术支持,也是网页归档技术研究的重点内容。以传统PageRank和HITS算法为基础所形成了网页评价算法模型解决采集对象挑选问题,定域采集、定题采集与定点采集成为三类重要采集方式,Heritrix、HTTrack、Nutch和SmartCrawler等常用开源采集工具为网页获取提供支持。HTML重写、超链接重写、ProxyYRL技术方法可实现某个时间节点内归档网页的重现。[49]网页归档访问方面则以WaxBack、NutchWAX、WERA、WayBack Machine等为代表性技术工具。[50]
目前,在国际上具有影响力的网页归档项目包括美国Internet Archive、澳大利亚PANDORA 网页归档项目(PANDORA Australia's Web Archive)、英国国家档案馆英联邦政府网络档案(UK Government Web Archive)、美国国家档案与文件署(NARA)的联邦网络采集(Federal Web Harvests)、美国国会图书馆(Library of Congress Web Archive)的“国家数字信息基础设施及保存计划”(National Digital Information Infrastructure Preservation Program,简称NDIIPP)。我国则以国家图书馆的 WICP项目和中国 Web 信息博物馆项目为典型网页归档项目。
网页归档技术仍在不断发展、改进,以期获得更为完善的归档成果。随着社交媒体的广泛应用,社交媒体的信息采集是网页归档问题下的一大讨论热点。欧盟ARCOMEM(ARchiveCOmmunityMEMories)项目采集保存社交媒体信息,在信息采集方面为社交媒体网络资源保存开辟了新思路。[51]以英、美、澳等国为代表的国家在社交媒体归档方面也已经积累了一些经验与成果。[52]中国国家档案局在《全国档案事业发展“十三五”规划纲要》中也将研究和制定重要网页资源的采集和社交媒体文件的归档管理办法作为提升电子档案管理水平的重要内容之一。
(二)数字记忆
随着档案记忆观相关理论的发展,社会记忆逐渐成为档案学的研究热点。在信息时代的大背景下,电子文件的出现为保存人类记忆带来了新的挑战与机遇,数字记忆成为档案学理论研究社会记忆的重要内容。
在理论层面,数字记忆是社会记忆与档案记忆观研究的重要内容。戚颖、倪代川对档案学界关于社会记忆的相关研究进行了梳理,指出档案学者从传统档案和电子文件两个方面进行社会记忆研究。[53]丁华东指出,电子文件的出现“要求档案界勇敢地承担起保护电子时代社会记忆的历史使命……是推动档案记忆观兴起的动因之一”[54]。冯惠玲在当代档案记忆观和资源观的基础上,提出构建“中国记忆”大型数字资源库,为中华民族集体记忆的建构和传承提供文献支撑。[55]徐拥军从内涵和使命、价值理念、建设原则、基本内容和资源架构等方面对“中国记忆”数字资源库的建设提出了进一步的构想。[56]2015年,主题为“数字记忆:构建、认同与传承”的“数字记忆国际论坛暨第六届中国电子文件管理论坛”在中国人民大学召开,引发学者们从“数字的”社会记忆视角来思考档案和数字时代档案管理的转型。
在实践层面,利用信息技术记录数字记忆是各类社会记忆项目的操作内核。在世界记忆工程的影响下,各国积极开展各类记忆项目,利用各类信息技术保存社会记忆是各类项目的主导思想。我国自2002年青岛市率先开展城市记忆工程以来,北京 、上海、重庆等五六十座城市积极响应;2011年浙江省档案局开始实施“浙江记忆工程”,将城市记忆工程拓展到乡村。[57]这些项目通过录音、录像、照片拍摄等方式记录社会面貌,并提供在线访问与利用,将传统记忆转化为数字记忆保存下来。国家档案局在《全国档案事业发展“十三五”规划纲要》中提出,应鼓励开展国家记忆和城市(乡村)记忆工程。
(三)云计算对电子文件管理的影响
云计算是近年来兴起的技术。在云计算出现之前,面对大量异构数据,摆在人们面前一直有两个棘手的问题:一是如何实现异构数据的共享问题,二是如何在异构数据中挖掘有价值的信息。这两个问题同样困扰着档案领域。随着信息技术迅速发展,数字档案不论在数量上还是在类型上都呈现出爆炸性的增长态势。云计算技术凭借按需服务、高可靠性、廉价等特点,一经出现便得到了档案领域的广泛关注,成为档案管理发展的新趋势和新动态。
2010年5月,NARA发布《云计算机环境下的文件管理指南》;2010年7月,澳大利亚档案与文件协会和新西兰档案与文件协会共同发布《云计算环境下文件风险管理指南》;2010年8月,英国和爱尔兰档案与文件协会发布《信息外包云存储指南》;国际文件管理协会(Associationof Records Management and Administrator, ARMA)也于2010年颁布了《文件外包云存储指南》。上述指南对云计算的概念、优势进行了详细阐述,同时也着重强调了云计算环境下文件档案管理风险与应对政策。[58]
2009年,云计算被引入我国档案领域。2011年,北京市档案局“基于‘云计算’的区域性数字档案馆建设研究”被列入国家档案局科技项目计划。该研究指出云计算是区域性数字档案馆实现的技术保障,并基于云计算环境提出了区域性数字档案馆的建设原则与基础架构,[59]是云计算技术对档案领域发展带来新方法、新思路的典型案例。薛四新在《云计算环境下电子文件管理的实现机理》中将电子文件管理置于云计算环境下,研究了云生态环境中电子文件对象模型的构造原理,并基于云平台把握电子文件管理系统的实现机理,探索基于云服务的电子文件管理模式的运作机制,为在云计算环境下全面实现电子文件的科学管理提供思路、方法和机制。[60]2012年,我国国家档案局科技项目立项选题指南中明确将云计算等新技术在档案管理中的作为项目申报内容之一。自2012年以来,我国国家社会科学基金中出现了多个有关云计算与档案管理研究的项目,如表6所示。
(四)数据对电子文件管理的影响
随着社交网络、移动设备的出现与普及,物联网、云计算的等新技术的变革与普及,人们获得、存储、处理数据的能力发生了重大变革。“大数据(Big Data)”成为当前重要的时代特征。从2012年以来,大数据理念和方法被不断应用于各行各业,也改造着传统产业。档案领域从理念到模式上均受到大数据思潮的洗礼。据统计,2011年,各级国家档案馆馆藏已达3.3亿卷,到2020年,馆藏将达到6亿多卷。如果加上企事业各类档案部门馆藏,将是一个海量资源库。[62]刘国华认为,档案数字信息资源已经满足大数据体量大(Volume)、种类多(Variety)、价值高而价值密度低(Value)、处理速度要求高(Velocity)的四个特征。[63]在上述背景下,如何在大数据背景下更好进行档案管理成为学界一个新的研究课题。
目前,我国档案管理正在从数字化设施建设转向数字档案内容建设,数字档案资源利用也从简单的目录查询转向综合的数据挖掘和深度整合,如何从海量数据中发掘出有价值的信息,满足不同档案客户的信息需求,将档案资源转化为知识资源,而基于大数据的数据分析和数据挖掘技术将会起到巨大的推动作用。这已成为档案领域理论和实践研究和应用的关注热点。
第一,大数据影响数字档案资源建设的结构与内容。北京档案局副局长陶水龙认为从技术实施上来看,档案大数据的获取源于两个维度:数据结构类型和时效性要求。具体而言,档案的“收”要做到全流程控制,“将档案管理融入到企业办公系统、合同管理系统、工程项目管理等系统中,将文件、数据归档流程写入发文环节、付款环节、验收环节等,抓好文档的前端控制”。周枫从技术维度入手,认为大数据技术将从档案资源挖掘、用户数据挖掘、关系洞察及趋势预测等三个方面实现档案资源与用户需求的双向理想控制。[64]
第二,大数据影响档案服务模式。施永利从档案服务的角度出发,认为大数据档案服务面临两大挑战,一是如何在海量数据中查询到所需要的档案信息;二是如何在海量数据中抽取和挖掘有用的信息和知识。对此,她认为,只有通过数据挖掘和文本挖掘,深层次发掘档案之间的关联,开发档案信息中蕴藏的知识,通过智能化处理平台主动推送给用户,才能不断满足用户日益增长的高层次、个性化的需求。[65]
第三,大数据影响档案馆建设。吴绪成认为,智慧档案馆是适应大数据时代要求的第四代档案馆,其目标是应用新一代信息技术及相关工具和方法,最大限度地提高档案资源的整合建设能力和开发服务能力。建设智慧档案馆的关键节点在于大数据的来源、大数据特征的认知、大数据技术的应用、数字“鸿沟”的跨越、“档案云”的构建等。[66]
新技术带来了革命性的思潮,在其席卷而来之际,档案领域的机遇与风险并存。一方面,大数据理念能进一步促进档案的信息化和数字化,推动电子文件管理的发展,引起人们对档案留存、记忆保护和电子文件管理的重视。另一方面,大数据造成的档案概念泛化、档案管理各环节界限模糊化、档案管理技术手段先进化等,以及如何保证档案数据的真实、可靠、完整、可用,都是档案学在大数据环境下面临的巨大挑战。因此,如何在大数据时代完善档案学基础理论、变革档案管理模式、探索档案管理技术,仍然是当前亟待解决的难题。
五、信息技术引导档案学课程改革
随着信息技术的发展与电子文件管理的需要,档案学教育也在不断发展变化,引入新课程、调整过时课程与理论,推动信息时代下档案学新理论与新方法的出现与传播。
2009年6月美国成立档案教育研究院(AERI),旨在加强档案教育和研究,并支持学术队伍建设和指导。AERI代表了美国档案课程教育,引领了档案教育和研究的未来趋势。AERI目标之一即推进档案课程改革。AERI对数字保存技术给予高度重视。目前,美国有8所高校开设了数据保存相关专业,包括加州大学洛杉矶分校、密歇根大学、马里兰大学、美国德克萨斯州大学奥斯汀分校、西蒙斯学院、匹兹堡大学、北卡罗莱纳州教堂山大学、俄克拉荷马大学。[67]这些高校开办的档案数据保存相关专业各有特色。
iSchool作为信息教育领域的重要组织,在课程上尤其凸显了技术内容。美国iSchool排名前十院校的计算机课程、信息课程明显占一定比重。[68]我国iSchool院校更加注重档案学基础理论教育,同时也顺应信息社会时代背景,开设了计算机科学的相关课程。[69]2016年,iSchool理事会侯任主席SamOh在“数字时代iSchool与数据科学的力量”讲座中强调了数据科学的重要性。美国加州大学伯克利分校、华盛顿大学、宾夕法尼亚州立大学、雪城大学、韩国成均馆大学等院校开设了数据科学项目。[70]中国人民大学信息资源管理学院也开设了数据科学课程,在数据科学领域进行探索。
信息技术改变了档案工作的管理对象、管理方式,影响了档案学的研究热点与教育内容。档案学理论的落地离不开信息技术的支持,而新兴技术的产生也为档案管理的发展与创新带来了无限可能。如何平衡信息技术推陈出新与平稳发展思维的矛盾,使得信息技术能切实服务于档案理论,是档案界将长期面对的问题。
[1]国家质量监督检验检疫总局.电子文件归档与管理规范:GB/T18894-2002[S].北京:国家档案局.
[2]方昀,杨安荣,宗琳.电子文件长期保存技术需求研究[J].档案学研究,2016,(1):96-100.
[3]冯惠玲.认识电子文件《拥有新记忆——电子文件管理研究》摘要之一[J].档案学通讯,1998,(1):44-48.
[4]黄世喆,刘勇.论电子文件信息与载体的可分离性[J].广西民族学院学报(哲学社会科学版),2001,(5):138-140.
[5]仇壮丽.电子文件信息与载体的不可分离性[J].北京档案,2003,(2):30-31.
[6]谢光耀.动态的、相对的分离和绝对的依附——电子文件信息与载体关系及原始性研究[J].档案学通讯,2011,(3):62-65.
[7]国家档案局.版式电子文件长期保存格式需求:DA/T47-2009[S].北京:国家档案局.
[8]GB/T18894-2016《电子文件归档与电子档案管理规范》替代了GB/T18894-2002《电子文件归档与管理规范》.
[9]国家质量监督检验检疫总局.电子文件归档与电子档案管理规范:GB/T18894-2016[S].北京:国家档案局.
[10]National Archives and Records Administration.Appendix A:Tables of File Formats[EB/OL].https://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html#webrecords.
[11]National Archives of Australia.Preservingdigitalrecords[EB/OL]. http://naa.gov.au/Images/Preservation-File-Formats_tcm16-79398.pdf.
[12]The National Archives.Fileformatsfortransfer[EB/OL]. http://www.nationalarchives.gov.uk/information-management/manage-information/selection-and-transfer/digital-records-transfer/file-formats-transfer/.
[13]韩若画.英国电子文件格式管理项目PRONOM研究[R]//2010-2015电子文件管理发展与前沿报告[M].北京:电子工业出版社,2016:232.
[14]张文娟.中国电子文件元数据标准研究综述[J].电子政务,2012,(1):49-54.
[15]Library of Congress. Development of the Encoded Archival Description DTD[EB/OL]. http://www.loc.gov/ead/eaddev.html.
[16]Library of Congress.EAD3 Available[EB/OL]. https://www.loc.gov/ead/ead3available.html.
[17]International Council On Archives.ISAD(G):General International Standard Archival Description Second Edition[R/OL].http://www.ica.org/sites/default/files/CBPS_2000_Guidelines_ISAD%28G%29_Second-edition_EN.pdf.
[18]2008年起由都柏林核心元数据计划有限公司(Dublin Core Metadata Initiative Limited,DCMI)独立负责都柏林核心元数据标准.OCLC Research and the Dublin Core Metadata Initiative[EB/OL].http://www.oclc.org/research/activities/dublincore.html.
[19]Dublin Core Metadata Initiative. Dublin Core Metadata Element Set,Version 1.1[R/OL].http://dublincore.org/documents/dces/#ISO15836.
[20]2008年7月所颁布的AGRkMS 2.0是联邦机构文件保管元数据标准1.0(Recordkeeping Metadata Standard forCommonwealth Agencies 1.0)的修订版.
[21]NationalArchivesofAustralia.Australian Government RecordkeepingMetadataStandardVersion 2.2[R/OL].http://www.naa.gov.au/Images/AGRkMS-Version-2.2-June-2015_tcm16-93990.pdf.
[22]Library of Congress.METS Schema&Documentation[EB/OL].http://www.loc.gov/standards/mets/mets-schemadocs.html.
[23]The National Archives.e-GovernmentMetadataStandard 1.0[R/OL].http://webarchive.nationalarchives.gov.uk/+/http://www.cabinetoffice.gov.uk/media/259127/e-Government_Metadata_Standard_v1.pdf.
[24]The National Archives.e-GovernmentMetadataStandard Version 3.1[EB/OL].http://www.nationalarchives.gov.uk/documents/information-management/egms-metadata-standard.pdf.
[25]Library of Congress.PREMISDataDictionaryforPreservationMetadataVersion 3.0[R/OL].http://www.loc.gov/standards/premis/v3/premis-3-0-final.pdf.
[26][28]刘越男,梁凯,顾伟.电子文件管理系统实施过程中元数据方案的设计[J].档案学研究,2012,(2):56-64.
[27]金更达.国外电子文件元数据标准简介[J].浙江档案,2004,(11):8-10.
[29]行业标准目录[EB/OL]. http://www.saac.gov.cn/xxgk/2015-05/28/content_100320.htm.
[30]冯惠玲.电子文件与纸质文件管理的共存与互动[J].中国档案,2003,(12):40-42.
[31]刘东斌.论电子档案的“双轨制”[J].档案管理,1999,(4):8-9.
[32]陶水龙,田雷.电子档案双套制管理问题研究[J].档案学研究,2014,(4):61-64.
[33]修订后的《会计档案管理办法》已于2016年1月1日正式实施,已删除这部分内容.
[34]GB/T18894-2016《电子文件归档与电子档案管理规范》已删除了这部分内容.
[35]国家档案局.国家档案局印发《全国档案事业发展“十三五”规划纲要》[EB/OL].http://www.saac.gov.cn/news/2016-04/07/content_136280.htm.
[36]国家档案局.档案数字化光盘标志规范:DA/T 52-2014[S].北京:国家档案局.
[37]高娟,刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013,(4):110-119.
[38]中央研究院数位文化中心.核心技术[EB/OL]. http://ascdc.sinica.edu.tw/technology.jsp.
[39]王光越.中国第一历史档案馆数字化工程述要[J].历史档案,2008,(3):132-137.
[40]马振犊.中国第二历史档案馆馆藏档案数字化及其开放利用[J].档案学研究, 2016,(5):86-89.
[41]刘越男.试析电子文件管理系统的建设模式[J].中国档案,2011,(7):58-60.
[42]祁天娇.美国国家档案与文件署电子文件档案馆(ERA)项目研究[R]//2010-2015年电子文件管理发展与前沿报告[M].北京:电子工业出版社,2016:207.
[43]National Archives and Records Administration.About ERA[EB/OL].https://www.archives.gov/era/about.
[44]National Archives and Records Administration.ERA 2.0 Project[EB/OL].https://www.archives.gov/era/about/statusaccomplishments.html.
[45]郝晨辉,曹燕,程春雨,等.荷兰数字保护试验项目介绍[J].数字与缩微影像,2005,(2):1-3.
[46]韩若画.英国电子文件格式管理项目PRONOM研究[R]//2010-2015电子文件管理发展与前沿报告[M].北京:电子工业出版社,2016:232.
[47]Swiss Federal Archives.Factsheet SIARD[R/OL].https://www.bar.admin.ch/bar/en/home/archiving/tools/siard-suite.html.
[48]屠跃明,钱毅,黄建峰,等.档案信息化发展现状、趋势的研究报告:2010年全国档案工作者年会[Z].南宁,2010:25.
[49]黄新平,王萍.国内外近年Web Archive技术研究与应用进展[J].图书馆学研究,2016,(18):30-35.
[50]李华,吴振新,郭家义,等.Web Archive发展历程与发展趋势研究[J].现代图书情报技术,2009,(1):2-9.
[51]张卫东,黄新平.面向Web Archive的社交媒体信息采集——基于ARCOMEM项目的案例分析[J].情报资料工作,2017,(1):94-99.
[52]周文泓.全球社交媒体归档行动概览与展望[J].浙江档案,2016,(12):16-19.
[53]戚颖,倪代川.数字记忆:档案记忆观研究的新领域[J].山西档案,2010,(3):14-16.
[54]丁华东.档案记忆观的兴起及其理论影响[J].档案管理,2009,(1):16-20.
[55]冯惠玲.档案记忆观、资源观与“中国记忆”数字资源建设[J].档案学通讯,2012,(3):4-8.
[56]徐拥军.建设“中国记忆”数字资源库的构想[J].档案学通讯.2012,(3):9-13.
[57]丁华东.论社会记忆数字化与乡村档案记忆工程推进策略[J].档案学通讯,2015,(4):36-39.
[58]刘越男.云中的机遇与风险:云计算环境下国外文件(档案)管理指南研究[R]//2010-2015年电子文件管理发展与前沿报告[M].北京:电子工业出版社,2016.
[59]陶水龙.基于云计算的区域性数字档案馆建设研究[J].中国档案,2013,(2):60-63.
[60]薛四新.云计算环境下电子文件管理的实现机理[J].档案学通讯,2013,(3):65-66.
[61]国家社会科学基金项目数据[DB/OL]. http://fz.people.com.cn/skygb/sk/index.php/Index/seach.
[62]杨冬权.关于随馆藏数量增加而相应增加各级国家档案馆人员编制的提案[N].中国档案报,2013-03-07.
[63]刘国华,李泽锋.档案工作中大数据框架构建及应用思考[J].档案管理,2014,(2):32-34.
[64]周枫.资源·技术·思维——大数据时代档案馆的三维诠释[J].档案学研究,2013,(6):61-64.
[65]施永利.大数据时代背景下的档案利用服务探讨[J].商界论坛,2012,(11):145+129.
[66]吴绪成.浅谈大数据背景下的第四代档案馆建设[J].湖北档案.2013,(3):9-12.
[67]AERI.AERI2014.[EB/OL].http://aeri.gseis.ucla.edu/2014.html.
[68]司莉,刘剑楠,张扬声.iSchool课程设置的调查分析及其对我国图书馆学课程改革的启示[J].图书馆学研究,2011,(21):21-26.
[69]伍黎丹.iSchool视角下的实用型档案人才教育研究[J].档案与建设,2017,(1):24-28.
[70]中国人民大学信息资源管理学院.数字时代iSchool与数据科学的力量——iSchool理事会候选主席Sam OH教授应邀在我院演讲[EB/OL].http://irm.ruc.edu.cn/displaynews.php?id=5404.
G270
A
1005-9652(2017)02-0019-11
(责任编辑:虞志坚)
叶茹雨,女,中国人民大学信息资源管理学院2016级档案学专业硕士研究生,主要研究方向:档案学基础理论。