APP下载

关于英国政府网站网页归档项目的思考与借鉴

2022-02-11顾浩峰赵芳王前

北京档案 2022年1期
关键词:英国政府网页利用

顾浩峰 赵芳 王前

摘要:英国政府网站网页归档项目是世界范围内少数专门针对政府网站网页进行归档的项目,近年来该项目发展十分迅速,目前已经归档超过5000个政府网站,并形成了系统、完备的工作模式。我国自2020年开始规范政府网站网页归档工作,但因缺乏项目实践基础而在工作中仍存在诸多疑问。因此本文通过思考借鉴英国政府网站网页归档项目,结合国内相关工作的开展情况,提出完善工作的建议,以推动我国政府网站网页归档工作正常、有序开展。

关键词:英国国家档案馆 政府网站网页归档网站网页信息资源 电子文件长期保存

Abstract:The UK Government Web Archive is one of the few projects dedicated to archiving gov? ernment web around the world. In recent years, the project has developed very rapidly. At present, more than 5000 government websites have been archived, and a systematic and complete working mode has been formed. China has standardized the archiving of government web since 2020, but there are still many questions in the work due to the lack of project practice foundation. Therefore, through thinking and learning from the UK Govern? ment Web Archive, combined with the develop? ment of relevant domestic work, this paper puts forward suggestions to improve the work, so as to promote the normal and orderly development of government web archiving in our country.

Keywords:British National Archives; govern? ment web archiving; web information resources; long term preservation of electronic documents

在“政務公开”逐步推进的背景下,政府网站网页作为政府机构对外交流的重要窗口,承载着大量具有较高价值的信息资源,亟须规范化管理。2020年5月1日,国家档案局正式实施《政府网站网页归档指南》,以具体标准指导中央与各级地方政府进行网站网页归档[1]。但由于我国相关工作并没有前期的项目积淀,在流程和操作中仍存在着不少疑问,因此我们需要借鉴他国优秀项目,不断地进行修改与完善。

英国政府网站网页归档项目(UK Government Web Archive)作为世界范围内少有的、专门针对政府网站网页进行归档的重大项目,对我国政府网站网页归档工作的开展具有很强的研究与借鉴意义。本文通过分析英国政府网站网页归档项目的工作模式,总结项目特点并分析对我国相关工作的适用性,再结合我国政府网站网页归档工作现状,根据已有基础和国外经验提出相关建议,为我国政府网站网页归档工作的正常开展提供保障。

在中国知网中检索,国内研究“政府网站网页归档”的文献共计29篇,研究开始于2007年唐琼的《政府网络信息资源长期保存研究》,在2017年和2020年达到研究高峰。经过十几年的探索,学界在该领域的研究主要包括三方面:其一是在基础理论方面,主要研究国内政府网站网页归档实践现状,分析概括存在的问题与策略,同时关注并解读国内相关的法律标准。如李宗富、黄新平[2]利用5W2H法分析我国政府网站信息存档中的问题;王大众[3]、金凡[4]对《政府网站网页归档指南》的关键点进行解读。其二是在技术方面,主要研究新科学技术的融合应用,探索利用云计算、区块链等新兴技术完善归档模式。如黄新平[5]利用“云计算技术”实现网站信息的在线集成;王萍、李亚男[6]基于云环境提出政府网站“云归档”模型。三是在国外项目分析借鉴方面。邓青[7]立足保存策略,以加拿大、瑞典、澳大利亚和美国的实例,分析保存策略的优劣;何玉颜[8]介绍英国政府网站网页归档项目的实践,倡导政府网站档案的细颗粒化开发和社会化应用。

(一)英国政府网站网页归档项目的简要发展历史

英国国家档案馆于2003年8月开展英国政府网站网页归档项目。项目运行初期,英国政府网站网页归档项目主要保存英国国家机关和公共咨询部门网站网页的副本;2007年以后,为响应Web连续性计划的号召[9],英国政府网站网页归档项目致力于为使用者提供不间断的网络信息服务,并在此阶段加强与政府机构之间的联系,捕获了大量政府网站网页资源并挖掘其增值信息;近几年,英国政府网站网页归档项目受Web2.0影响,开始对政府网站网页中的社交媒体档案、Twitter档案、YouTube档案的保存利用进行研究,取得了不错的成果。经过近20年的发展,英国政府网站网页归档项目在政府网站网页归档领域,已形成一套系统、完备的工作模式,下面本文将以图例的形式对该模式进行分析。

(二)英国政府网站网页归档项目的工作模式分析

基于网络调查和电子邮件咨询,本文总结、归纳了英国政府网站网页归档项目的工作模式(如图1),其中有法律标准(紫色圈)、业务流程(橙色圈)、责任主体(拼色圈)三个组成部分。

1.法律标准

法律与标准规范共同构成了英国政府网站网页归档的外部环境,并贯穿于整个工作中。其中包括处理版权问题的《官方版权》(Crown copyright)和《开放政府许可》(Open Government Licence),指导业务流程、划定职责权限的《操作选择政策OSP27:英国中央政府网站资产》(Operational Selection Policy OSP 27: UK Central Government Web Estate)和《网站管理员指南》(Guidance for website managers),以及国际网络信息组织标准ISO:28500等。

2.业务流程与主体

英国政府网站网页归档项目的业务流程有信息创建、信息选择与采集、信息组织、信息保存、信息访问与利用五部分,依赖修改发展规划形成闭环。该项目由英国中央政府、英国国家档案馆、信息服务商Mir? rorweb三大主体分工合作,为解决不同主体间的信息鸿沟,技术团队选择使用ISO:28500中的WARC标准,引入围绕该标准的完整生态,包括数据捕获、存储组织、索引编制、分析利用方面的相关工具,以及与其对应的软硬件设施,实现各主体之间的协同。

在信息创建模块,国家档案馆会为中央政府提供“网站网页设计指南”,中央政府依据该指南进行网站网页设计,以方便爬取软件精准识别网站网页结构并获取信息;信息选定与采集的过程中,首先中央政府会对创建的网站网页打上官方版权或政府公开许可,接着由国家档案馆依据标识汇总爬网清单,最后由Mirrorweb利用爬取软件进行网站网页爬取;在信息组织部分,Mirrorweb为整个网站网页数据集编制索引,并以线性扩展大幅提高后期检索速度;信息保存方面,Mirrorweb依据国际通行标准ISO:28500,将网站网页信息以WARC格式文件为单元,压缩存储多种格式的信息资源[10],然后国家档案馆再通过比对WARC文件哈希值的方式[11],来对网站网页信息进行质量保证(QA)和数字签名(sign-off),最终保存在数据库中;信息利用阶段,Mirrorweb主要负责架构信息开放获取利用云平台,从云端直接为用户提供搜索服务,国家档案馆依据用户利用的情况修改英国政府网站网页归档的发展规划,最终返回信息创建模块进行下一次循环。

(三)英国政府网站网页归档项目的特点总结和分析

1.项目体系完善,注重持续发展

基于法律政策、管理原则、责任主体,英国政府网站网页归档项目在开展的过程中,形成了一套完备的、围绕“信息创建、信息选定与采集、信息组织、信息保存、信息访问与利用”五个主要流程阶段的运行体系,兼顾前期的“创建”控制与后期的“利用”服务,便于档案工作者从整体上统筹调配有限资源。英国政府网站网页归档项目小组也积极与中央政府、信息服务商进行沟通,制定近期及未来的发展规划,不断提出新的可能、做出新的尝试,以推动项目持续发展。目前我国政府网站网页归档工作侧重于从顶层设计层面探索归档体系,因此英国政府网站网页归档项目的体系极具参考价值。

2.部门合作紧密,信息传递迅速

英国政府网站网页归档项目开展的过程中,涉及英国国家档案馆、中央政府和信息服务商的协同合作,在对模式的分析中,我们发现其各主体间合作极为紧密,信息传输的速度极为迅速。他们选择使用 ISO:28500中规定的国际通用WARC格式,利用WARC格式完善的生态系统与各项信息技术,打破主体间的信息格式及软硬件设施的局限性,促进了信息的有效流通,加强了各主体之间的关联。目前我国政府网站网页归档工作也涉及多个主体及主体的各个部门,在政府内部门的划分甚至比英国更为细化,面临着的协同合作问题也比英国政府网站网页归档项目更多,需要在借鉴英国政府网站网页归档项目的基础上进行再发展。

3.流程操作透明,服务以人为本

由于极具专业性与技术性,网站网页存档是一个复杂的、模糊的、基本上处于暗地里的过程,大多数国家对网站网页归档流程都没有公开的说明,这就导致了公众无法对这项工作进行了解并监督[12]。英国政府网站网页归档项目选择构建透明的归档流程,呼吁公众、研究人员参与到该项目中。同时他们还设置有电子邮箱的反馈渠道,高效、及时解决用户的疑问,并参考、研究用户提出的建议,以服务用户的理念为核心优化基础体系。当前我国新修订的《中华人民共和国档案法》中,将档案封闭期从30年缩短为25年,并新增“档案信息化建设”章节,鼓励数字档案资源的提供利用与数字档案馆建设[13],充分突出了利用服务的重要性,我们在相关工作发展过程中也需要时刻注意服务对象的意见。

2016年《全国档案事业发展“十三五”规划纲要》明确指出,要“研究制定重要网页资源的采集和社交媒体文件的归档管理办法”;2017年的《政府网站发展指引》再次强调重要网页归档的价值。2019年的《政府网站网页归档指南》,为指导国家机关及其档案部门规范开展网页归档工作提供了重要依據。2020年底发布的《OFD在政府网站网页归档中的应用指南》,提出基于OFD开放版式文档格式的网页归档新模式,进一步推动了相关工作的开展。由于国家的重视及多年以来基层工作者的努力,政府网站网页归档工作已取得阶段性成果,在网站网页内容的收集、整理和移交接收方面已形成较为完善的要求,但仍存在着不少的问题。

(一)相关实践不符合文件生命周期理论

目前我国政府网站网页归档实践,按照《政府网站网页归档指南》中对网页归档的定义,仅围绕着收集、整理、移交接收等过程开展,其实是不合适的。政府网站网页作为电子文件的一种,应根植于“全程管理”的生命周期理论,体现出“前端控制”和“利用服务”的两大主题。收集、整理、移交接收的工作,仅仅是网站网页生命周期的中间环节,不便于档案工作者从整体上统筹把握全局。与此同时,目前的工作流程呈直线型推进,无论面对怎样的网站网页对象,不论其复杂程度和重要程度,都是从采集开始到移交接收結束,灵活性显得很差并且无法在此基础上依据归档工作效果进行调整与改善。

(二)不同主体、软硬件导致的“信息鸿沟”

政府网站网页归档工作涉及多个主体,以及主体内的多个部门,目前存在较为严重的“信息鸿沟”问题,这表现在两个方面:一方面立足于纵向视角,网站网页在保存的过程中会经由政府网站管理部门、政府档案部门和档案馆三大主体,每个主体的职责不同,也影响着格式及软硬件的选择,如网站管理部门负责收集、整理,其选择的技术手段会更要求方便采集和组织,档案部门负责接收、保管和移交,其选择的技术手段会更关注保存的效果;另一方面立足横向视角,不同地区经济、政治、文化等发展水平不同,其技术开发和应用水平也存在着差距。以上因素导致着政府网站网页归档存在很难跨越的“信息鸿沟”。

(三)“重管轻用”的问题

实现归档资源的利用是网络资源长期保存的最终目的,应当将归档资源以真实、可靠、完整、可读的形式提供服务,满足人们的利用需求[14]。但是,目前我国的政府网站网页归档工作却并未重视利用服务,一线的档案工作者们往往会认为政府网站网页档案属于国家机密不予公开,且应被长期封闭保存来确保档案的完整真实,其实是不符合政府网站网页档案透明公开和重视利用特点的。

(一)建立系统完备的业务流程体系

本文借鉴英国政府网站网页归档项目的工作模式,立足于档案部门角色,充分考虑文件生命周期规律,在原有中期业务的基础上,创新地提出并详述前期业务和后期业务模块,依赖反馈机制构建起完整业务流程闭环(如图2)。

1.前期业务和后期业务

在该体系中,前期业务分为信息创建、信息选定与采集两部分。信息创建部分的主要工作是为政府信息部门提供“网页结构设计指南”、统一文本及多媒体文件格式;信息选定与采集部分的主要工作有归档范围的确定和采集策略的选择,其中归档范围的确定包含网络域及信息的挑选,采集策略的选择则包含配置正确的采集方式、选择具备良好拓展性的采集工具、确定合适的采集频率等。

后期业务为信息访问与利用部分,包括访问策略的制定与利用模式的拓展。在访问策略的制定过程中,又可细分为“内部访问”和“外部访问”,内部访问包括设置主体间的数据隔离访问,外部访问包括制定检索等级表、划分公众检索利用权限等[15]。利用模式的拓展可包括探索利用方式、研究多终端利用服务的工作等。

总的来说,前期业务和后期业务的补充,使整个归档业务流程能够充分反映文件生命周期规律,使档案工作者更好地依据档案生命阶段,有针对性地选择最为恰当的方式开展工作。

2.建立流程维护的反馈机制

反馈机制是政府网站网页归档业务流程形成完整闭环的重中之重,其用户本身作为单独的个体,在使用政府网站网页档案的过程中会产生不同的主观印象,并依据自身的认知水平做出“服务水平高低”和“信息质量优劣”的基本判断,能够从需求的角度反映归档业务流程中存在的问题。而档案部门作为网站网页信息存储的终端,能够依据问题对归档业务流程的各个阶段进行改善,甚至可以与大数据部门(或信息服务商)合作,借助于大数据信息模拟用户行为、进行业务流程增减,从而制定短期或长远的发展计划,达到推进下一次循环的目的[16]。

(二)完善OFD版式文件格式的生态和功能

在英国政府网站网页归档项目中,网站网页归档团队选择围绕WARC格式的完备软硬件生态进行操作,有效解决了信息、档案等在不同主体间的传播问题,值得借鉴与思考。《政府网站网页归档指南》中规定网站网页应以OFD、PDF等版式文件格式保存,2021年7月1日,《OFD在政府网站网页归档中的应用指南》实行,引入了围绕格式的具体网站网页存档操作。OFD格式是我国自主研发的电子文件保存格式,该格式的最大特点是“弱软硬件依赖导向性”[17],能够实现电子文件在不同主体、不同系统、不同时间的长期可读。

但是目前OFD版式文件格式的发展仍存在诸多问题。一方面是OFD格式的应用规模较小,我国仅鼓励党政机关及重点行业领域应用,实践经验的缺乏导致OFD格式无法形成标准;另一方面是围绕OFD格式的系列产品还较少,无法形成系统、完备的生态,目前国内仅有数科网维和福昕在开发相关软件,且仅针对集体提供使用。对此我们需要呼吁国内信息服务商对OFD版式文件格式的生态和功能进行拓展,作为档案工作者的我们也需要学习新的OFD保存格式,使其以更好地姿态应用到工作中,促进电子文件的保存、利用和开发。

(三)以“用户需求”为核心拓展利用方式

在英国政府网站网页归档项目中,用户被放在一次循环的最后,以及二次循环的开始,是推动项目发展的最重要动力。因此想要解决政府网站网页档案的利用困境,档案部门需要提升用户主体地位,加大政府网站网页档案公开力度,以多种利用方式提供服务。

当前我国政府网站网页档案的利用方式,多集中在“主题词检索”上,而主题词检索从满足用户需求的角度来看,其本质上是平均的方法。因为主题词检索在面向非专业用户时,其作用因该群体无法精确命中主题词而变得十分有限,对于专业用户来说,如果大部分的档案资源只能通过主题词检索访问,会使该群体受限制于搜索框,无法充分满足利用需求。

对此,笔者认为政府网站网页档案这类文化遗产不应仅以主题词/关键词检索的方式提供利用,而应支持进一步的、更多样化的信息搜索行为,如“浏览”和“挖掘”,以满足用户不同的信息需要。对此可以基于“实体访问”来实现浏览和挖掘方式,即从网站页面的内容中提取命名实体,并以共同的实体形成信息网络,用户可以在浏览页面内容的同时依赖信息网络进行挖掘[18]。这种方式在国内的“微博”“小红书”等软件中也有所体现,它们通过不同用户为信息设置标签,向其他用戶提出建议和个性化需求,但想要将该理念应用于政府网站网页归档领域,其面临的“自动化标签设置”“精确划分专业领域”“形成稳定的用户群体”等问题还需要后续解决。

参考文献:

[1]中华人民共和国国家档案局.DA/T 80-2019政府网站网页归档指南.[2019-12-27].https://www.saac.gov.cn/daj/ dabzk/202005/4767c7227fe3492a910540fdc83457e1.shtml.

[2]李宗富,黄新平.基于5W2H视角的政府网站信息存档研究[J].档案学通讯,2016(2):68-72.

[3]王大众.《政府网站网页归档指南》解读[J].中国档案,2020(6):34-35.

[4]金凡.《政府网站网页归档指南》(DA/T80—2019)内容解读与思考[J].北京档案,2020(3):21-25.

[5]黄新平.基于云计算的政府网站网页在线归档管理平台构建研究[J].北京档案,2019(12):16-20.

[6]王萍,黄新平,陈为东,李亚男.政府网站原生数字政务信息云归档模型及策略研究[J].情报理论与实践, 2016,39(4):60-65.

[7]邓青.国外图书馆政府网站信息保存的实践与启示[J].图书馆建设,2012(12):32-35.

[8]何玉颜.英国政府网页归档与开发的新实践及其启示[J].档案与建设,2018,(9):22-25.

[9]Spencer A , B O’Reilly, Vasile G . Past and Pres? ent: using the UK Government Web Archive to Bridge the Continuity Gap[J]. To Be Determined, 2009.

[10]ISO.ISO28500:2017.[2017- 08- 01].https:// www.iso.org/standard/68004.html.

[11]Espley S , Carpentier F , Pop R , et al. Collect, Preserve, Access: Applying the Governing Principles of the National Archives UK Government Web Archive to Social.

[12]NicolaJayneBingham,HelenaByrne.Archival strategies for contemporary collecting in a world of big da? ta: Challenges and opportunities with curating the UK web archive[J].Big Data & Society,2021,8(1):1-6.

[13]中华人民共和国国家档案局.中华人民共和国档案法.[2020- 06- 20].https://www.saac.gov.cn/daj/falv/ 202006/79ca4f151fde470c996bec0d50601505.shtml.

[14]黄新平,王萍.国内外近年Web Archive技术研究与应用进展[J].图书馆学研究,2016,(18):30-35+19.

[15]文振兴.东亚重要Web Archive项目建设比较研究[J].浙江档案.2013(12):22-25.

[16]周林兴,徐承来,宋大成.智慧城市视域下政府数据质量优化反馈机制研究[J/OL].情报杂志:1-11[2021-06-05].

[17]钱毅,李雪彤.《版式电子文件长期保存格式需求》(DA/T 47-2009)解读[J].北京档案,2021,(5):19-22.

[18]Webster P,Clough P,Demartini G,et al. Exploring entity-centric methods in the UK Government Web Ar? chive[C]//Achs.2016.

作者单位:1.扬州大学社会发展学院2.苏北人民医院

猜你喜欢

英国政府网页利用
英国政府拨款3 200万英镑用于抽水蓄能项目
利用min{a,b}的积分表示解决一类绝对值不等式
利用一半进行移多补少
利用数的分解来思考
Roommate is necessary when far away from home
基于CSS的网页导航栏的设计
基于URL和网页类型的网页信息采集研究
脱欧后英国经济何处去?英国政府寄希望于人工智能
英国政府整顿尖锐款“指尖陀螺”,eBay表示会移除
网页制作在英语教学中的应用