对政府网站网页归档的问题思考

2016-05-30尹哲

北京档案 2016年2期

尹哲

摘要：政府网站资源具有历史价值、文化价值、研究价值和经济价值，网页归档理应受到重视。本文对政府网站网页归档的现状进行分析，指出档案部门网页归档面临的问题，并提出根据网页栏目特点明确归档范围和保管期限、采取适当的网页归档技术、加强整理及利用、提供法律层面的保障等建议。

关键词：网页归档归档范围采集工作

自1999年“政府上网”工程启动以来，我国政府网站发展迅速，为各级政府有效传播信息，提高公共服务水平，促进公民参与决策提供了重要支撑。政府网站资源具有历史价值、文化价值、研究价值和经济价值，国家档案局原局长杨冬权提出：“要把网络信息这种‘有价值的国家资本尤其是把体现政府行使职能的政府网站等信息列入归档范围，对网站等信息进行存档”。可见，作为公共文化事业机构的档案馆理应承担起网页归档的责任。

一、网站网页归档的现状

网络资源保存项目源于1996年，首批建立网页归档项目的有澳大利亚、加拿大、瑞典国家图书馆和互联网档案馆（Internet Ar？ chive）。其后很多国家的图书馆和其他机构也参与进来，但是在诸多项目中只有少数档案馆参与。例如，加拿大的国家图书档案馆和英国国家档案馆。[1]互联网档案馆，在首批建立的网页归档项目中具有典型意义。它定期收录和抓取全球网站的信息并进行保存。对于大型网站，它每天都备份一次；对于小型网站，它每年收录一次。其归档范围也日益完善，从收录网页扩展到收录图片、音频、软件、视频等。英国国家档案馆的政府网页项目于2003年9月开始，初期选择收集50个所辖范围内的政府网站，并与专业网页归档组织Internet Archive合作。2005年，与Internet memory founda？ tion合作。以收集实体形式和数字形式的公共记录为主。[2]

对于我国来说，已有的网页归档项目是中国Web信息博物馆项目和中国国家图书馆的中文网络信息资源收集和保存项目。其中，中国Web信息博物馆（Web In？ foMall）是2002年北京大学网络实验室开发建设的中国网页历史信息存储与展示系统。它通过全面持续地收集中国互联网上的网页，将获得的海量网页组织储存起来，主要包括历史网页存储系统和回放系统两个部分。[3]中国国家图书馆的中文网络资源收集和保存项目（WICP）则于2003年启动，重点收集对中国社会、经济等有重大影响的网页以及“gov. cn”域名的中国政府网站。“截至2010年底，它保存了8万多个中国政府网站中的所有网页（gov.cn域名）、315种电子期刊和报纸。WICP对网络资源按照专题进行分类和保存，目前保存的网络资源有100多个专题，在线数据库导航可以访问约2万个服务项目。”归档网页已成为国家图书馆数字资源的重要组成部分。[4]

对于我国档案部门来说，其对政府网站归档的工作尚处在探索阶段。笔者调研发现，目前国内仅有郑州市、青岛市等少数档案馆开展了政府网站归档的试点工作，大多数省市档案部门还没有开展网页归档工作。在已经开展网页归档的省市档案馆中，不仅归档的网页数量较少，而且也没有建立起一套完整的收集、保管、利用的管理体系。

二、档案部门开展网页归档面临的问题

（一）归档的范围和保管期限不明确

中国Web博物馆项目和WICP等项目采取的是全面网页收集方式，即对网站和网页全部收集。各级档案部门则对网页收集归档的范围和期限没有明确标准。笔者认为，对于企业网站、商业网站、个人网站等来说，政务网站应是档案部门关注的重点。也就是说，并非所有的政务网站网页文件都具有长期保存价值，因此需要按照网页内容的价值来决定网页的归档范围和保管期限。如果不加甄别地将所有网页信息全部归档，很可能造成网页数据的堆积，使得无效或价值较低的网页信息占据大量存储空间。

（二）归档的技术和标准不完备

网页信息采集是从给定的网页出发，根据网页中提供的超链接信息，连续地抓取网页（可以是静态的，也可以是动态的）和网络中的文件，并全部提取网页内的信息。从技术上来说，静态网页的抓取比较简单，可以按照时间频率定期进行。动态网页的捕获和存储技术并不成熟，抓取软件很难齐全抓取。随着网页制作技术的不断提高，新型网页文件不断产生。除了HTML格式文件以外，网页上还有很多其他格式的文件，如Java文件、Ac？ tiveX文件、Jpg等图片文件以及各类文本文件。对于上述文件哪些需要归档，目前尚无明确标准。

（三）归档的保管和利用体系不完善

网站网页的保管不仅仅是对原始文件的存储，支持网页文件运行的软件和硬件平台也决定了网页是否可以长期利用。部分网站网页存档仅保存了原始网页，脱离了原有的软硬件平台，网页便无法展现。因此，合理完备的备份体系决定了网站网页能否全面、及时有效地进行保存。另外，针对不同形式的网页构建统一的资源体系，提供全方位的检索利用模式等问题也有待考虑，不同的网页如果不分类则无法检索，建议按照其内容和形式特征进行分析、选择和标注。

（四）归档的法律问题不能避免

一是著作权，许多网站的文件作者并不明确，在利用时应考虑其带来的法律问题。二是采集权，档案部门是否对网站网页具有下载、负责、存储的权限。三是保管权，档案馆是否可以长期保存网站的网页信息。四是使用权，网站信息资源在档案部门是否可以再次发布利用。五是隐私权，在网站信息的使用过程中是否侵犯了网站形成者的隐私权。[5]

三、档案部门开展网页归档工作的对策

（一）根据网页栏目特点明确归档范围和保管期限

政府网站的栏目分为政府信息公开类、在线办事类、公众参与类三类。政府信息公开类栏目包括信息公开目录、信息公开指南、各类年报、法规文件、规划计划等。此类文件内容相对稳定，重要性强，应长期保存。动态信息和通知公告等栏目内容更新频繁，时效性较强，应定期保存。在线办事类栏目提供的场景服务或虚拟一站式大厅，具有一定的时效性，应定期保存。网上审批、网上办事等业务多涉及单位和个人信息，应长期保存。公众参与类栏目比如网上调查、民意征集、网上咨询等信息具有一定的时效性，应短期保存。除了以上三类以外，一些部门或相关热点链接，可根据重要程度保存，不重要的不保存。

（二）采取适当的网页归档技术

采集是政府网站信息资源保存的首要环节。所谓采集，就是以既定的概率，及时选择值得保存的政府信息资源，并通过各种方式将其归档。[6]目前的采集模式主要有推送和拉取两种。

1.推送模式是政府或者第三方机构主动将网站信息主动呈缴或捐赠到保存机构。呈缴或捐赠的信息资源既包括易于采集的资源，又包括机构不易保存的深层网页及数据库资源。笔者调研发现，此类网站信息主动呈缴给档案馆的情况非常少。在一些呈缴的案例中，多数是因为政府部门或临时机构撤并，需要在较短时间内将其网站的全部数据包括架构等完全移交至档案馆，由于没有更多的标准，档案馆对网页信息并没有时间进行有效筛选。

2.拉取模式是保存机构使用的特定软件工具，主动采集政府网站信息资源并将其下载到本地服务器。其采集方法主要有：（1）广泛式采集。采用收割软件自动采集国家域名范围内或整个因特网的网页及其他在线资源。其采用的网络爬虫或网络蜘蛛技术已经成熟。优点是收集范围齐全，人工介入较少；缺点是质量难以把控，采集时间较长、耗时较多。（2）选择性采集。按照特定标准，有选择地采集部分网络空间或特定资源。其基于对资源的重要性、主题或内容相关联的某些资源进行甄选。优点是收集质量相对较高；缺点是采用人工方式甄别和采集，具有一定的主观性，甄别难度较大。（3）专题性采集。一般针对具体的专题或事件进行采集。（4）复合式采集。由于单一方法存在局限，所以越来越多的网页归档项目趋于复合式的采集方法。

（三）加强整理及利用

从不同政府网站采集的信息是海量的，档案部门有必要对这些信息进行筛选过滤、重命名和标示、分类和编目。经编目后形成一系列专题，并提供时间、地域、关键词等多种检索途径，使读者按各个分类进行浏览，便于用户选择。

（四）提供法律层面的保障

注释及参考文献：

[1]王烁.法国国家图书馆网页归档项目发展状况研究[J].陕西档案，2012（3）：46-47.

[2]梁皆璇.英国政府网页档案项目及其启示[J].北京档案，2014（12）：38-40.

[3]周文佳.丰富数字档案馆馆藏的新视角——由In？ ternet archive和中国Web信息博物馆所想到的[J].浙江档案，2008（9）：17 -18.

[4]姜萌萌.简析我国网页归档项目对档案馆工作的启示[J].兰台世界，2013（3）：28-29 .

[5]周文佳.网站文件的归档——从档案学视角捕获和保存网站文件[J].中国档案，2008（10）：42-44.

[6]王烁，魏红，于丽曼.网页归档项目中的采集策略研究[J].办公室业务，2013（2）：157-158.

作者单位：北京市档案馆