APP下载

党政机关重要网页电子文件归档管理研究

2021-12-28王程程穆佳桐

兰台世界 2021年4期
关键词:党政机关网页信息

王程程 穆佳桐

一、党政机关重要网页电子文件归档需求分析

网络资源保存项目最早由欧美国家提出和开始实施,自1996 年开始,澳大利亚、加拿大、瑞典等国就由国家图书馆或档案馆着手实施这类项目。此后网络资源保存的思想扩散到其他国家,使得有更多的国家参与进来,不过负责这类项目的机构通常都是各国的国家图书馆,而档案馆则较少参与进来,目前已有加拿大、英国等国家的国家档案馆开始实施这类项目。档案机构承担着对互联网的党政机关重要网页电子文件进行归档的责任,对这类机构的重要网页电子文件进行归档十分重要。互联网中党政机关的重要网页资源具有很高的价值,这种价值体现在历史、文化、研究和经济等方面,对这些重要网页电子文件的归档给予足够的重视,是保存和实现这些网络资源价值的固有要求。此外,重要网页自身的特点也要求对归档工作给予足够重视,否则整个社会将面临这些网页资源一旦失去后众多历史记录缺失的风险。

首先,重要网页具有档案资源的原始记录性。互联网中的信息真实记录了党政机构网络活动的真实表现和行为,这些信息以文字、图像、声音等丰富的形式展现出来,能够生动直观地反映国家、社会和各级党政机构的网络生活和社会民生,因而具备了档案资源所具有的原始记录性,从这个意义讲,重要网页资源与档案的本质属性是共通的。

其次,重要网页具有档案资源的易逝性。根据美国国会图书馆发布的一项调查报告显示,有四成的网站会在一年以后消失,而网页消失的速度则更快,网页资源的平均寿命只有短短的44 天。可以想象,一个包含了声音、文字和视频等多种形式信息的网页最终难逃因为网站建设变更、内容调整或更新而消失的最终命运,这些网页资源如果没有得到有效保存,都将无声地消失在互联网中,这要求我们对党政机关的重要网页资源进行归档保存。

最后,重要网页具有档案资源的价值性。档案的价值主要体现在档案能够对某类从事有关社会实践活动的社会主体或个体产生某种效用,而网页完全具备了作为记录网络活动相关信息的真凭实据作用,因而也具有了档案的凭证和情报价值。以曾经影响很大的腾讯珊瑚虫案为例,在该案的庭审中,原告律师向法庭提出了一个重要证据,该证据显示腾讯官方网站旗下的科技频道曾经在其网页上提供了可供用户下载珊瑚虫相关的产品链接,该证据来源于美国互联网档案馆(http://web.archive.org/)网页数据库,从该库中,我们可以找到2005 年10 月31 日记录该证据的相应链接地址,正因为有了该证据,案件判决最终受到了很大影响,这充分说明了重要网页的凭证作用[1]。

二、党政机关重要网页电子文件归档管理实现模式

1.党政机关重要网页电子文件的创建。

(1)网页电子文件创建格式。对党政机关重要网页电子文件的创建格式进行统一和规范,纳入到归档管理范围的网页电子文件涵盖网站发布的通知、公告及各类公文信息,这些网页电子文件的创建顺序将以文件的发布时间为序,网页电子文件的内容格式则以网页(html)、PDF 等格式呈现,若不是这些格式,统一将其转化为这些格式进行归档保存[2]。

(2)网页电子文件的创建背景信息。对于大多数党政机关而言,其网站上发布的重要网页电子文件基本上都没有明示该电子文件的背景信息,如文件的发布机构、发布时间、内容主题、效力级别等,因此还需要对所创建的网页电子文件标注其背景信息。

2.党政机关重要网页电子文件的采集。

(1)采集对象。通过对党政机关重要网页电子文件进行初步的调研,我们已经大致明确了重要网页电子文件在网站中的采集范围,即各级党政机关发布的法规规章、文件、统计公报、财政预算、政府采购、重大项目、民生热点、公共安全等方面的信息,这些信息大多都以文本的形式存在,部分文件中包含了图片和视频等信息,对于这些多媒体信息,我们会对其是否需要保存进行慎重评估。

(2)采集方式。在明确网页电子文件的采集对象范围以后,还需要确定应该采取何种方式从党政机关的网站上将这些网页电子文件采集下来。采集方式的选取要考虑重要网页电子文件的完整性,估计可能需要采集的时间,评估所获取信息的质量情况,以及这些网页电子文件的内容价值等,进而决定是采取浅层采集方式还是深层采集方式。

(3)采集工具。通常来说,采集一个党政机关单位网站的网页电子文件可以有两种主要工具,分别是Heritrix 和HTTrack。其中,Heritrix 可相对完整、精确地将整个网站的信息抓取下来,这种工具适用于对比较大规模的党政机关网站重要电子文件进行抓取。而HTTrack 这种工具则更加侧重于对网页进行链接分析,借助该工具可以掌握党政机关网站文件的结构特征,可通过该工具对党政机关网站的重要网页电子文件进行深层次的抓取[3]。因此,可根据实际需要有针对性地选用这两款软件。

(4)采集频率。由党政机关网站网页电子文件的价值或重要性决定。档案管理部门根据上级相关部门提出的党政机关重要网页电子文件价值评估体系,制定“党政机关重要电子文件价值评估计分表”,对党政机关网站上发布的各类网页电子文件的价值进行评估和精确计分,再根据网页电子文件的得分确定针对该文件的具体采集频率。根据网页电子文件的价值或重要性得分情况,将各类网页电子文件分为三等,分别是非常重要文件、比较重要文件和一般重要文件。其中,“非常重要文件”可每月采集;“比较重要的文件”可每个季度采集;一般重要文件”可每年采集。

3.党政机关重要网页电子文件的数据管理。对党政机关重要网页电子文件实施数据管理,也就是要对党政机关网站上发布的网页电子文件进行相关的著录描述,应对所获取的网页电子文件的内容、结构、生成背景及其在各部门之间的流转过程、原本存储该电子文件的系统平台信息进行记录和标注,以准确的语言和格式对网页电子文件对象及其组成元素进行精准描述,从而使所归档和存储的网页电子文件与党政机关的其他电子文件建立起关联关系。只有这样才能有效地保证网页电子文件在内容上的真实性、完整性和可读性,进而生成能够用于长期保存的党政机关重要网页电子文件数据包。针对党政机关重要网页电子文件的数据管理和内容描述元数据工作,主要由档案管理部门以及党政机关的信息部门负责实施。

4.党政机关重要网页电子文件的存储。

(1)存储内容。对重要网页电子文件进行存储,不仅要存储网页电子文件本身的内容信息,还可能会涉及网页电子文件的背景、技术、环境、管理等相关信息,这些信息描述了该电子文件的完整信息。

(2)存储格式。目前,国际通用的政府电子文件存储格式为WARC(Web Archiving File Format),该格式在2009 年被正式确立为电子文件档案格式的国际标准,该标准的编号为ISO 28500:2900。WARC 在存储电子文件方面具有独特的优势,它具有了比较完善的软件生态环境,且存储后的电子文件档案内容丰富,便于对其进行管理,可扩展性比较强,能够支持在大数据环境下的大容量文件存储需求,这都是该格式成为党政机关重要网页电子文件长期保存和管理的不二选择[4]。

(3)存储架构。由于网页电子文件具有规模大、更新快、容量大等大数据的特征,因而要对其进行比较好的存储,需要采用当前大数据环境下的云存储技术对其进行存储。其中,Hadoop 是目前比较成熟的开源云计算平台,平台采用了HDFS 分布式存储技术对大量数据进行存储。其存储架构包含存储平台应用和电子文件实体存储环境两个部分。

5.党政机关重要网页电子文件的利用。以往的信息检索技术已经很难满足大数据环境下党政机关海量重要网页电子文件检索的需求,这就需要基于Agent 或本体实现智能化、语义化的检索,从而提升大量重要网页电子文件检索的效率和精度。由于网页电子文件具有超链接的特性,对这些超链接进行重现和定位,有助于掌握重要网页电子文件相关的档案资源,从而了解文件的历史及相关背景信息,这可以通过重要网页的重定向、网站网页域名的重定向以及网页的“URL+时间戳”等一系列技术实现。此外,除了传统的Web 数据挖掘技术可用于对党政机关重要网页电子文件所包含的信息进行深度挖掘外,神经网络、支持向量机、遗传算法等新技术可以帮助档案管理部门更加精确地评估党政机关网页电子文件的价值和重要性,并帮助用户从大量电子文件中识别出他们想要的信息,实现网页电子文件的增值服务。更重要的是,党政机关重要网页电子文件信息利用服务系统还需要对用户检索、系统挖掘的数据结果进行可视化呈现,将重要网页电子文件之间的关联关系展现出来,方便从中挖掘出深层次的潜在信息。

三、结语

如何对政府数字信息资源进行长期保存是信息管理学、档案学持续研究的课题。作为一种重要的数字信息资源,党政机关重要网页电子文件有其自身特征,对其进行保存与归档面临着诸多困难,包括确定归档边界、适应资源的快速增长、协调政府与图情档机构以及社会其他组织之间关系等,对其实现模式、关键技术及其保障等方面的问题研究,对于进一步推动数字信息长期保存理论的持续发展,拓展和深化信息管理及档案学的理论有着重要意义。

猜你喜欢

党政机关网页信息
党政机关安全生产监管一体化的“常州路径”
党政机关网站网页归档模式研究
电子政务视角下党政机关公文处理的研究
基于CSS的网页导航栏的设计
订阅信息
基于URL和网页类型的网页信息采集研究
网页制作在英语教学中的应用
展会信息
10个必知的网页设计术语
《党政机关公文格式》国家标准发布实施