我国党政机关网络信息资源归档策略研究*
2017-03-08毕云平
毕云平
(燕山大学图书馆,河北秦皇岛066004)
随着信息技术的迅猛发展,当今人类社会已步入网络时代,我国越来越多的党政机关已通过门户网站、官方微博与微信,发布信息,提供服务,实现其社会管理职能。这不仅极大地提高了机关的服务效率和工作的透明度,更有利于广大公众便捷地获取相关信息[1]。网络已成为当今我国党政机关开展工作不可或缺的最重要的信息平台。
然而,党政机关在通过网络平台开展业务活动过程中形成的数量庞大的原始记录性的电子信息,不仅更新快,而且还具有极强的易逝性。专家通过研究发现,网站中的网页其平均生命周期只有44~75天,如果不及时采取有效措施保存这些珍贵的网络信息,这一时期将会出现历史空白和断层,对于子孙后代而言,将无法了解先辈们所处的那一时代的历史瞬间与时代足迹。因此,我国的档案学界和图书馆界均已开始高度重视党政机关网络信息资源归档的研究工作。
一、明确我国党政机关网络信息资源归档责任主体
当前,全球大部分网络信息归档项目是由国家图书馆和个别高校实验室牵头进行,只有加拿大和英国的国家档案馆有参与,多数国家还没有明确的责任主体,缺乏网络信息资源归档的整体规划。在我国,党政机关形成的传统纸质档案和声像档案等均由各级各类档案馆统一管理,那么党政机关利用网络平台开展工作所形成的党务信息、政务信息以及民生信息等理应由各级各类档案馆根据各自的管理范围负责收集保存,以丰富馆藏,进而完善作为科学研究和各方面工作利用档案史料中心的地位。至于普通网络数字出版物、文化学术信息及科技信息的长期保存则可由公共图书馆负责。宏观上,国家档案局可作为整个项目的责任主体,牵头负责,与主管网站开办审核、资格复核的中央机构编制委员会办公室、中央网络安全和信息化领导小组办公室协调,根据公共档案馆、公共图书馆的不同角色和特点明确各自的归档责任;中观上,产生网络信息的各机关单位的档案部门应加强前端控制,制定归档保存策略,承担起单位网站信息资源的归档组织责任,明确各责任主体上传网络信息的时间,督促相关部门及时主动保质保量的完成归档任务;微观上,每个公民也要提高网络信息保护意识,对自己生产的网络信息担负保存责任。
二、制定我国党政机关网络信息资源归档的相关法律和标准
由于部分网络信息资源受到知识产权的保护,我国档案部门在开展党政机关网络信息资源归档与利用方面还有诸多障碍,因此,与其相关的立法工作显得尤为迫切。英法等国已经确立的数字作品呈缴制度,以法律形式规定相关权利人向指定机构提交数字资源,这些做法值得我国借鉴。我国的档案部门应以正在开展的《著作权法》和《档案法》全面修订以及《公共图书馆法》立法为契机,积极建议增加网络信息资源归档方面的内容,明确各级各类档案馆、图书馆保存网络信息的权利和义务,以及党政机关网络信息呈缴的具体范围、格式标准、方法、时间等,保证档案收集机构拥有网络信息长期保存与开发利用的权利。
统一的网络信息资源归档的数据标准和技术标准是整合党政机关网络信息存档并保证归档的网络信息资源互联互通的基础。国家档案局(馆)在长期的档案工作信息化建设实践与理论研究中积累了大量的关于电子文件归档方面的经验和方法,因此,在网络信息资源归档制度的建设中应牵头制定国家层面的合理有效、切实可行的统一标准,规范网络信息选择、采集、保存及利用等方面的制度,解决网络信息资源归档以及用户查找过程中的困境。具体包括:网络信息资源上传格式标准、网络信息资源采集格式标准、网页存档格式标准、资源编码标准、互用性标准、资源标识/著录/元数据标准、元数据编码与传输标准、数据存储转换格式标准等。只有网络信息资源归档标准统一,才能保证信息的长久可读性与完整性,有利于建立风险管理与灾难恢复机制,减少信息管理与保存的费用,保证项目的顺利实施。
三、积极开展多方合作
(一)档案学与计算机学科的合作
世界各国网络信息资源归档项目中,不同时间节点归档的网络信息不仅仅是简单地存储,而是力图保留其归档时间和原来的链接,真实记录网络信息资源按照时间轴的变化历程,以再现历史的客观变迁和实现先进文化的传承。目前,软件开发机构虽然已开发出了网络信息归档项目各阶段所需要的开源工具软件,且大多数开源软件可以不受商业软件的限制,但开源软件若缺乏长期有效的技术支持,依然会影响到档案馆或图书馆的非计算机专业背景的从业者在从事网络信息归档工作时的效率[2]。
所以,对于中国档案学科和计算机学科而言,中文网站信息检索和网上信息挖掘技术始终是热点问题。若想持久健康地开展这项工作,仅有档案学学科的理论基础和管理学的思维方式是远远不够的,还需要加强与计算机等学科的合作,依靠计算机科学中的数据挖掘、计算语言学等多项技术的支持。此外,档案界还应该对信息检索技术和互联网领域的最新研究成果具有敏锐的专业反应,进而拓宽这项工作的研究思路。
(二)档案学和图书馆学、情报学的合作
互联网档案学为“图情档一体化”的说法赋予了新内涵。互联网档案学是“融合图书馆学、情报学和档案学并与现代信息技术空前结合的交叉学科,并将发展成为人类知识管理的一门极为重要的学科”[3]。
2009年11月1日实施的《中华人民共和国学科分类与代码简表》(国家标准GB/T 13745-2009)中的“图书馆、情报与文献学”一级学科下辖图书馆学、文献学、情报学、档案学等二级学科,说明了这些二级学科之间的内在联系。讨论多年的“图情档一体化”在互联网时代被赋予了更多的内涵。基于互联网的学科融合十分常见,网络信息资源归档项目成为互联网档案学探讨的主要内容,综合这些二级学科的研究成果,加强档案学和图书馆学、情报学的合作将为网络信息资源归档项目带来新的研究活力。
(三)积极借鉴国外网络信息归档项目的合作理念
网络信息资源归档项目不可能是一个部门就能完成的任务,合作是必然的选择。互联网档案馆(The Internet Archive,简称IA)就是与多个学术机构和部门建立了长效的合作机制,分别负责网络信息归档标准的制定、检索服务与技术支持、软件开发等不同任务,从而使各个环节的工作更加专业和高效。英国网络信息保存联盟项目(UK Web Archiving Consortium Project,简称 UKWAC)进行中,其各联盟成员可以共同分担网络站点信息保存的成本、风险,分享经验和软硬件设施,既能有效减轻任何单个机构完成这项计划的负担,又为以后的工作储备了技术和人才[4]。同时,UKWAC引进澳大利亚的潘多拉数字保存系统(PANDORA Digital Archiving System,简称 PANDAS)也为其项目助力不少。此外,欧洲多个项目都与国际互联网保存协会(International Internet Preservation Consortium,简称 IIPC)和 IA等项目有长期的合作关系。这些合作思路为我国网络信息资源归档项目的实施提供了很好的借鉴。
IA对中文网络信息归档的历史要早于“中国Web信息博物馆”(业界称作“Web Infomall”,是由北京大学网络实验室开发的“中国网页历史信息存储与展示系统”),对中文网络信息资源的保存数量和归档频率也要高于Web Infomall。如果寻求与之建立长期的合作机制,可以极大地优化我国网络信息资源配置,促进我国网络信息归档工作的快速发展。
IIPC致力于推动网络信息资源归档与长期保存的事业,已有全球多个国家的档案馆、图书馆和学术机构等加盟。IIPC针对网络信息归档提出了系统架构、元数据等一系列技术规范,并资助开发了覆盖网络信息资源从采集到服务的全系列的开源软件,如 Heritrix、Smart Crawler、Nutch-WAX、Xinq等。我国档案界应加强与IIPC的实质性合作并应主动参与到技术规范和开发工具的合作设计中。
(四)顶层设计与民间推动相结合
网络信息资源已经并正在冲击着一个国家的整体信息资源结构。从世界范围看,国家层面的网络信息归档项目的承担主体多为国家级档案馆和图书馆等,再联合其它学术机构参与。其任务以保存网络信息资源为目的、从国家视角来制定归档政策,一般是利用爬虫软件执行全采集的策略。这类项目以澳大利亚的PANDORA和英国的UKWAC等为代表。
根据国外网络信息归档项目的发展现状,我国需要根据自身情况从国家层面对网络信息资源的整个生命周期进行研究,对网络信息归档项目的采集标准、存储方式、访问和服务等各个环节进行顶层设计和有效规划,建立我国网络信息资源保存长效策略,这包括归档原则、政策协调、系统开发、风险管理、版权保护、法律保障和国际交流等诸多问题。冯惠玲提出的构建“中国记忆”数字资源库的倡议[5]和徐拥军对“中国记忆工程”建设的思考[6],都从宏观层面对我国数字资源库的建设提出了构想。
当然,民间以IA和IIPC为代表的联盟形式进行的网络信息归档项目更加充满活力。这种活力主要体现在开放、协作和共享等方面。国际上以项目形式出现的网络信息归档多为科研项目或基金项目,以某个专题或视角进行研究,执行选择性采集策略。我国的Web Infomall也是以项目形式出现的,但基本执行的是全采集策略。该项目如加强与国内外相关学术机构的交流和合作,会更加富有活力并在客观上推动我国网络信息归档事业的快速发展。
四、大数据时代云存储的技术支持
传统的纸张、光盘、磁介质等载体已无法解决高速增长的、海量的网络信息资源的存储问题。云存储是综合运用原有的分布式技术、集群化技术、网格化技术和虚拟化技术等[7],将网络中的大量的、不同类型的存储设备协同工作,形成一个大规模的数据存储系统,以达到节约存储空间、数据归档和容灾备份的目的。云存储是大数据时代的数据存储最佳解决方案,为数字信息资源的长久保存和方便利用带来了希望,用户再也不用担心存储空间不够用的问题。
云存储技术虽然具有容量大、成本低、灵活方便的优势,但其面临的隐私和数据安全问题,档案界也应高度重视。可通过对用户信任等级与信任证书的综合验证,实现对云存储中归档数据访问的隔离保护[8],以确保归档的党政机关网络信息的安全、可靠。
档案与社会记忆具有天然的联系。数字时代,保存与删除、记忆与遗忘,不仅不可避免,而且也是数字时代必须面对的问题。网络信息资源是构建数字记忆的基础,数字记忆是社会记忆的数字化体现。档案记忆观认为,社会记忆属性是档案的基本属性,从社会记忆的角度观察、研究档案现象,可以为档案界保护过去、记录现在、服务未来的实践活动提供新的工作思路[9]。我们的记忆已经被互联网所构建,后人也将自觉或不自觉地根据我们的“遗产”来窥探我们今天的思想,断定我们的时代[10]。所以,以档案记忆观为出发点确定网络信息资源归档的策略将有效推动各级各类网络信息归档项目的顺利开展。国家档案局原局长杨冬权曾在2014年的全国档案局长馆长会议上指出:“要把网络信息这种‘有价值的国家资本’尤其是把体现政府行使职能的政府网站等信息列入归档范围,对网站等信息进行存档”[11]。我国党政机关网站中的各类信息是我们这个时代发展的历史见证,是社会文化形态的一种存在形式,对网络信息资源归档就是保存我们的社会记忆,无论对当代还是后代都具有非常重要的意义。
[1]陈艳红,盛子刚.DC元数据与网络信息检索(综述)[J].河北科技师范学院学报(自然科学版),2005(2):73-76.
[2]刘兰,吴振新,向菁,等.网络信息资源保存开源软件综述[J].现代图书情报技术,2009(5):11-17.
[3]罗勇.亟待开展的互联网档案学研究[J].图书情报工作,2006(11):117-120.
[4]徐健.英国网络信息保存联盟计划(UKWAC)及其启示[J].图书馆论坛,2007(2):81-84.
[5]冯惠玲.档案记忆观、资源观与“中国记忆”数字资源建设[J].档案学通讯,2012(3):4-8.
[6]徐拥军.建设“中国记忆”数字资源库的构想[J].档案学通讯,2012(3):9-13.
[7]王伟.存储的进化:云存储解决方案[J].通讯世界,2012(9):54 -55.
[8]王萍,黄新平,陈为东,等.政府网站原生数字政务信息云归档模型及策略研究[J].情报理论与实践,2016(4):60-65.
[9]刘建英,谢海洋,王思乐.档案编研在构建“城市记忆工程”中的作用刍议[J].北京档案,2013(4):31-33.
[10]冯占江.互联网视阈下的数字遗产保护——“一个档案工作者应是首先想到未来的人”[J].档案学研究,2013(4):81-85.
[11]杨冬权.在全国档案局长馆长会议上的讲话[N].中国档案报,2014-01-06(1).