基于数据起源技术的政府网站信息长期保存技术
2018-10-21韩慧
韩慧
摘要:信息技术的快速发展使得政府部门在发展的过程中产生大量的数据信息,尤其是政府网站中所产生的信息量巨大,由于这些信息内容覆盖了政府部门发展的全过程,这就突出了对这些信息进行管理和保存的重要性,对政府部门的后续发展可以起到积极作用。但是实际管理的过程中可以发现,由于缺乏相应的技术能力,在对信息进行保存时,请在一定的难度,很难实现对大量信息的有效保存和管理。而数据起源技术的有效应用可以实现对政府网站信息的长期保。存。
关键词:数据起源;政府网站信息;长期保存
政府部门的服务机制发生转型之后,各地政府均建立起政府部门的专用网站,使政府服务更加人性化,为人们提供更加便利的服务。这种发展形势下,政府网站在实际运行的过程中,必定会产生大量的信息数据,其中包含地区经济、居民信息等各种服务信息,这些信息的汇总和有效利用,对区域经济发展具有积极作用。为此,需要加强这类信息的保存与管理,以便于为后续的发展提供参考。文中从分析数据起源技术入手,对政府网站信息长期保留技术展开研究,希望可以对政府网站信息进行有效管理和利用,进而保证政府部门的长期稳定发展。
一、数据起源技术及其相关研究
1、数据起源的概念
数据起源指的是对数据的发展过程和产生过程进行记录的一种技术形式,是对相关数据的发展过程进行动态掌握的技术理念。在实际应用的过程中,人们可以通过记录数据信息的方式,来记录相应领域的发展进程。同样可以通过分析数据信息为相应领域的后续发展提供便利。数据起源技术最早是在上个世纪九十年代才被创建的一种应用到金融领域和计算机领域中的数据信息管理技术。
相关学者认为数据起源技术就是通过对原始数据到现实数据的转变过程进行分析和管理的一种技术,可以实现对数据转换过程的动态掌握。这对于一些金融领域来说,通过分析历史数据,能够掌握数据信息的变换规律和变换过程,这对后续的金融行业发展具有积极的作用。还有部分学者认为数据起源技术是对数据对象从生产到加工、流通及存档全部过程的实时记,通过对数据起源技术的应用可以掌握数据对象的全生命周期。
2、数据起源追踪方法
由于不同的系统对数据的记录、加工方式不同,要想有效追踪、管理起源信息,首先需要设计相应的组织模型,发挥统领全局的作用。而数据起源技术的应用关键,也在于通过设计与构建组织模型,分析起源信息包含的内容,对数据捕获、存储与加工等进行引导。对起源信息的追踪和捕获,主要应用到双向指针追踪、标注、位向量存储定位等方法。其中标注法是将与起源数据相关的信息记录下来,操作相对简单,应用频率高;而双向指针追踪法仅适用于特定数据库中,基于位向量的存储定位只能记录简单的数据路径,目前还无法得到广泛推广。工作流起源管理系統中多采用标注法,以前是将标注作为元数据进行存储,随着数据环境的日益复杂,逐渐将两者分开存储,以方便后续调用。
3、数据起源的存储机制
基于数据起源的数据采集和存储,改变了传统的数据管理模式,使得标注与数据的联系更为紧密。由于标注具有多粒度特性,因此附带起源的数据存储对象并非常规数据,而是包含标注的数据。同时针对用户的数据查询,数据起源系统可以提供数据查询、标注查询,以及数据和标注查询三种方式。根据数据与标注的不同关系,将数据存储分为离散、混合存储两类。离散存储实现了标注与数据物理层面的分离,可以采取逻辑链接的方式将两者结合起来。在数据管理过程中,应该考虑该存储方式是否存在数据修改,以及是否需要更新版本等。混合存储需要构建数据集索引,以特定信息维持标注与数据之间的共同存储。数据起源的引入给数据管理带来了新变化,要求创建、设置与获取标注,也要求寻找全新的数据索引、查询与存储方法。为避免起源信息对数据应用的影响,要求标注、数据之间相对独立,因此采取离散存储方式更为合适。
二、基于数据起源的政府网站信息长期保存应解决的关键问题
1、制定网站信息采集策略
面对海量异构的网络资源,要求制定科学合理的网页信息采集策略,这也是实现数据起源管理需要解决的问题。由于目前缺乏专门针对数据长期存储的起源捕获工具,因此在长期保存系统中多依据OAIS流程开发捕获插件或工具包,或者通过编写独立函数模块,用于感知和记录系统内部发生的所有起源事件。也可以采用工作流软件,以转换、制作复本的方式抽取起源,利用系统插件迅速捕获内部起源信息。目前市面上出现了专门的起源元数据抽取软件,如DROID,可以通过动态追踪数据对象,记录与之相关的各类事件,是当前网页数据采集的常用
方式。此外,云计算具有并行处理大规模异构数据的优势,适用于分散数据的高速计算,可以分布式计算框架为依托,借助网络爬虫技术筛选网页信息,实现对存储目标的高效、自动采集。
2、网站信息的归类与编目
在采集完成政府网站信息后,需要通过科学分类、编目与鉴定,使大规模数据资源有序化,为后续的长期保存奠定基础。根据政府网站信息的特点,可以从数据的产生、利用和流通三个方面,设计适应起源数据管理的元数据存储方案,选择基于XML的元数据标准,为信息编目提供依据。同时利用贝叶斯分类、云计算等方法,实现对政务信息的科学归类。然后构建政务信息存储的智能鉴定模型,对采集数据进行鉴定,实现系统资源的优化配置。由于政府网站信息存储属于持续、长期的活动,面对不断增加的信息存储量,还需要引入开源计算技术,通过调用Web服务器中的运行程序,完成对网站存储信息的提取、读写和删除等操作,提升用户数据访问的响应速度,实现政府网站信息的高效存取和优化利用。
3、网站信息归档的安全防护
由于网页信息的动态性、易变性,这就需要着力解决政务信息归档的安全保护问题。在起源数据管理过程中,可以引入数据保护、数据加密等技术,借助虚拟化技术平台,设置政务信息访问控制或隔离机制,进而保障信息安全。也可以通过设置用户信任等级证书,在获取验证信息的基础上控制访问量,实现对长期保存数据的适当隔离。为避免出现政府网站无法链接、网页数据丢失等问题,可以采用超链接、HTML重写等技术,达到重现归档政务信息的目的。同时为提升政府网站信息的归档价值,数据管理者可以引入信息推送、大数据技术,为用户提供多元化的增值服务,如信息检索、数据挖掘等,体现“以人为本”的服务理念。
结语:
由于政府部门网站信息涉及到的内容较多,对其实行有效管理和长期保存是为区域发展提供参考的重要依据,只有实现对政府网站信息的长期保存,才能为后续的发展提供充足的参考依据,保证区域经济的健康发展。而数据起源技术可以有效实现对数据信息的实时掌握,在对政府网站信息进行建档储存时,可以充分利用数据起源技术对政府发展过程中所产生的数据进行全面保存,这也是对政府发展全过程的一种真实记录。
参考文献:
[1]吴振新,李文燕.起源技术在长期保存中的应用与研究[J].图书情报工作,2015,59(8):118-125;
[2]李文燕.以事件为核心的长期保存起源信息管理框架研究与设计[D].中国科学院大学,2015.