APP下载

时态数据的切片归档技术研究

2018-09-10丁宝

档案与建设 2018年6期
关键词:快照拷贝副本

丁宝

[摘要]部分具有保存价值的时态数据正面临丢失的风险,档案部门应及时采取措施。论文以地理信息系统数据为例,提出了切片归档时态数据的技术策略,分析了其核心内容——快照技术的原理、归档数据的特点及对不同类型数据的适用性,并讨论了在切片归档过程中需要注意的切片时间、归档时间和格式管理等问题。

[关键词]时态数据归档数据切片地理信息系统

[分类号]G275.9

Research on the Technology of Temporal Data Snapshot Archive—Taking Geographic Information System Data as an Example

Ding Bao

(College of Society of Soochow University, Suzhou, Jiangsu,215123)

Abstract: Temporal data with some preservation value is facing the risk of being lost, and the archives department should take timely measures. This paper takes geographic information system data as an example, puts forward the technical strategy of snapshot archiving temporal data, analyzes its core content - the principle of snapshot technology, the characteristics of archived data and the applicability to different types of data, and discusses the issues such as snapshot time, archive time and format management in the process of snapshot archiving.

Keywords: Temporal Data; Archive; Data Snapshot; Geographic Information System

1引言

數据具有时间属性。对于文本、图像、音频和视频等一般类型的数据,人们只关注最终版本的内容,但在电信信息系统、地理信息系统、电子政务等复杂的信息系统中,用户往往需要处理与时间相关的数据,比如在地理信息系统中调用1990年到2000年间北京土地利用情况的数据。这种需要显式表示和管理与时间相关的数据就是时态数据。[1]信息系统中的时态数据在每一时间点的状态都反映了某一社会实践的具体情况,除了对于业务机关的现行价值,成为历史数据后也蕴含重要的情报价值和科研价值。在上述例子中,调用的历史数据不仅能够还原十年间北京的发展变化,而且可用于研究北京的城市发展模式。但是,档案部门在满足这一信息需求时面临严重阻碍。时态数据的内容和状态会随着时间的推移而改变,业务部门在资源、预算有限的情况下不会优先考虑保存过去形成的数据,决策者或从业者未能正确认知保存历史数据的益处,更新数据时往往会覆盖掉原有的数据。当前采用技术手段归档具有长远保存价值的时态数据是一项重要且迫切的工作。本文将以地理信息系统数据为例对时态数据的切片归档技术进行研究和讨论。

地理信息系统(Geographic Information System,简称GIS)是在计算机软、硬件系统支持下,对整个或部分地球表层的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。[2]其产生的GIS数据专业性强、获取成本高,具有极高的重复利用价值,但随着技术的发展和时间的推移正面临丢失的风险。因此,以GIS数据为例介绍切片归档技术,能够为档案部门归档保存GIS数据提出参考性方案,更利于为归档其它时态数据提供经验和借鉴,兼具理论和实践价值。

2地理信息系统数据切片归档的技术策略

GIS以数字数据的形式表现空间实体的空间位置特征、属性特征和时态特征,数据的几何特性、非结构化数据结构和动态变化的时间特征给长期保存带来了三个方面的难题。首先,不同的数据组织方式。GIS中最基本的空间数据组织方式是矢量数据和栅格数据,矢量数据用点、线和多边形刻画所关注的空间对象,栅格数据用二维矩阵的形式表示空间地物或现象分布,二者导致不同的数据格式与应用系统,不利于采用统一的归档方式。其次,复杂的数据存储模式。目前常见的GIS数据存储方式有通用文件系统、文件系统结合关系数据库以及全关系数据库三种,不同的存储系统通常意味着不同的归档策略。最后,动态变化的数据内容。GIS数据会随时间不断更新变化,新数据覆盖旧数据是归档保存面临的最大问题。为了解决以上难题,本文引入切片归档技术,即运用快照技术,在特定的时间节点对具备归档价值的GIS数据做切片处理,经过整理后形成地理信息图层数据包,进而按照电子文件归档的流程标准归档。[3]核心内容是快照技术的应用。

2.1快照技术及其归档地理信息系统数据的特点

快照技术,即通过建立指针列表指示读取数据的地址,当数据改变时在极短时间内提供一个实时数据并复制,[4]获得数据在特定时间点的完全状态。它不涉及所表示数据的格式,通过快速“拍照”记录的是数据的完整可用拷贝;适用于各种类型的存储系统,包括基于文件系统的快照、基于逻辑卷管理器的快照以及基于数据库的快照等;能够根据需要灵活设置多个快照点,定期和不定期地捕捉数据的变化情况。它有效地解决了上述GIS数据归档保存的难题,并具有瞬时保存、对系统影响小的优点。此外,不同原理的快照技术各具特色,适用于不同特点的GIS数据。

2.2快照技术的分类及对不同地理信息系统数据的适用性

以实现的工作原理为依据,快照技术划分为不同种类。其中,适用于GIS数据切片保存的主要有增量快照、全拷贝快照两种。

增量快照即快照创建后,源 LUN(Logical Unit Number,逻辑单元号)和快照LUN通过数据指针表共用一份数据拷贝,直至数据改动,改动前的数据将被记录。主要有写时复制快照和写时重定向快照两种实现方式。写时复制在创建快照时仅复制指示数据实际所处位置的指针,不进行实质拷贝。此时,快照LUN和源LUN保存相同的数据指针表。快照生成后,如有请求修改源LUN中的原始数据,快照LUN首先拷贝改变前的原始数据,然后源LUN再进行改写。当后续再有数据写入源LUN的同一位置时,将不再拷贝原始数据至快照LUN,而是直接覆盖。这样对同一位置的更新仅进行一次写时拷贝,有效地保证了快照时刻点的数据一致性。最终,仅获得源LUN的逻辑存储副本,利用时通过查询数据指针表访问数据的物理存储位置,若快照LUN中对应的数据项不存在,则读取源LUN中相应位置的数据;反之,读取快照LUN相应位置的数据。因此,在归档时需要配合保存原始的数据副本。写时重定向的技术原理类似,不同之处在于对源LUN的首次写操作重新定向至快照LUN中。创建快照时,同样仅复制数据指针表;但是生成快照后,如果产生对源LUN改写的请求,新数据会直接写入快照LUN,之后更新源LUN中的指针表,使其指向新数据所在的快照LUN地址。这样只需要一次写操作,此时源LUN中保存快照副本,而快照卷保存的则是新数据。

全拷贝快照创建的是数据的完整副本,分为镜像分离快照或克隆快照。镜像分离需预留与源LUN容量相同的存储空间,在快照时间点前创建源LUN镜像,快照点到来时镜像分离转换成快照卷,完成数据备份等操作后快照LUN与源LUN重新同步。由于镜像操作在快照点前完成,这种方式无法随时为任意源LUN创建快照。相比之下,克隆快照增强了灵活性,在快照时间点采用写时复制的方式快速生成指针式副本,之后在后台运行拷贝进程执行实质性的数据拷贝任务,结束后采用镜像分离技术获得克隆快照。

表1[5]从不同角度比较了以上四种快照技术。分析可得它们的优缺点及对不同种类GIS数据的适用情况。写时复制和写时重定向技术采用增量快照的方法,优点是快照创建前只需分配少量的存储空间用于保存源LUN中被更新的原始数据;在创建快照前对系统无任何依赖性,可随时生成应用系统快照;快照副本通过额外的拷贝操作获得,可以选择业务空闲时间进行,减少对应用系统的影响。缺点是快照生成后对源LUN具有依赖性,一旦源LUN发生不可恢复性的损坏,且未及时拷贝快照副本,快照数据也随之失效;在生成快照时会对源LUN产生读和写操作,降低系统的性能。因此,增量快照技术适用于两种类型的GIS数据。一种是变化幅度小的GIS数据,如地形地貌数据。其在以年为单位的时间周期中很难发生大量的变化,充分发挥了增量快照只记录变化数据、存储空间利用率高的特点。另一种是变化可预见的GIS数据,如基础设施建设、管网规划、城市建设以及行政区划等数据。这些数据的改变具有规划性,数据变化能够提前掌握,如有必要可以设置专门的快照时间点保存这一变化。这样,充分发挥了增量快照灵活性高以及空间占用小、快照点设置密集的优势,更加细致地记录GIS数据的变化情况。

全拷贝快照在快照点结束即可获得源LUN的完整副本,能够脱离源LUN单独存在,数据可靠性更高,归档保存的流程和后期的管理也更加简单。但是,其缺点也十分明显。一方面,每次生成快照都需要源LUN同样大小的镜像卷,对存储空间要求很高,在长期保存中会形成大量的数据冗余;另一方面,无论是镜像分离技术在快照时间点前生成镜像,还是克隆技术在生成快照后拷贝原始数据,物理拷贝过程都会对系统产生较大的影响。因此,全拷贝适用于变化极频繁的GIS数据,如人口流动、交通出行数据等。这些数据无时无刻不处于变化的状态中,运用增量快照不但无法发挥空间利用率高的优势,反而在多次生成快照后会加重应用系统的负担。而采用全拷贝快照在较长的时间段中周期性地记录它们的变化是更好的选择。此外,由于增量快照对源LUN的依赖性,全拷贝快照也经常和增量快照技术一起使用,用来增强快照的可靠性和稳定性。

3地理信息系统数据切片归档时需注意的问题

切片归档GIS数据,档案部门除了掌握快照技术的原理,根据不同特点的GIS数据选择合适的快照类型,還应该注意选择合理的切片时间与归档时间,同时管理GIS数据格式。前者影响归档数据的完整性和真实性,后者有助于保证数据长期可读。

3.1制定合理的切片时间和归档时间策略

切片时间和归档时间是GIS数据切片归档过程中涉及的两个不同的时间概念。切片时间指在存储系统中设置创建源LUN快照的时间,归档时间指将获得的快照副本整理为地理信息图层数据包移交档案部门的时间。运用全拷贝快照技术,在快照时间即获得完整的数据副本,切片时间和归档时间往往是一致的;运用增量快照技术,在快照时间仅生成虚拟快照,需要通过快照副本技术拷贝获得完整的数据副本,切片时间和归档时间会出现不一致的情况。因此,应该分别讨论两种时间的设置情况。

从切片时间选择的角度,GIS快照的创建策略分为定时快照和手动快照。定时快照即在每年12月31日对当年需要归档的GIS数据创建快照,根据不同数据的运动特性、流转规律,也可以设置不同的切片周期。手动快照则是在事件点创建当前时间点的快照。事件点是指在切片周期内可能引起相关数据巨大变化的重要事件的发生时间节点,如市政大楼搬迁等。在定期快照的基础上运用手动快照,能够清晰地反映重要事件的变化过程,保存和记录更加完整的社会记忆。

归档时间是从归档流程的角度考虑,分为实时归档和定期归档两种形式。GIS数据具有连续性、动态性的特点,因此完全意义上的实时归档难以实现。就切片归档技术而言,实时归档是指快照副本生成后立即归档,定期归档是参照纸质文件归档时间的规定,在第二年上半年处理本年度的快照,拷贝获取副本后整理成地理信息图层数据包归档。相比定期归档,实时归档有利于档案部门控制快照的质量与安全,避免因GIS存储故障导致快照失效,确保归档数据的真实性。此外,由于创建快照花费的时间会随快照数量的增加而增加,也会对应用系统性能造成影响,归档后即可删除存储在应用系统中的快照。因此,实时归档是GIS数据切片归档中最宜采用的时间策略。

3.2实施地理信息系统数据格式管理

随着地理信息科学的发展,出现了ArcGIS、Mapinfo、GvSIG等优秀的GIS应用软件,相应地产生了纷繁的GIS数据格式,使其归档保存面临很大的难题。尽管运用快照技术从存储系统的角度实现了对不同GIS数据的切片,克服了数据格式的差异性,但是为了确保数据长期有效读取,便于归档后数据的管理与利用,档案部门仍应加强对GIS数据格式的管理。

首先,档案部门应发布GIS数据长期保存推荐格式指南,限制接收数据格式。我国的《电子文件归档与管理规范》GB/T18894-2002中要求归档电子文件格式应符合开放性、标准性、长期可读性等要求。表2从开放性的角度统计、分析了目前流行的GIS数据格式,并参考美国国家与文件署制定的《NARA公告2014-04:永久保存文件移交的格式指南修订版》[6],为档案部门选择格式提供参考。其次,应基于电子文件生命周期视角,实行前端控制。在政府机关各业务部门与档案部门采用相同的GIS软件和存储系统,实现GIS数据从生成、利用到归档、再利用的一致性,避免不同业务部门、业务部门与档案部门之间格式不统一造成的管理混乱、重复劳动、数据失真的情况。最后,对于已形成的不一致数据应统一转换数据格式。国际上已经制定了一系列空间数据转换的标准,通过这种中间桥梁,实现不同系统数据的相互转换和共享,具有代表性的有SDTS空间数据转换标准、ISO/TC211地理信息标准、DIGEST数字图形信息交换标准以及OpenGIS及其规范等。[7]

参考文献

[1]维基百科.时间数据库[EB/OL].[2016-10-2].https://zh.wikipedia.org/w/index. php?title=%E6%97%B6%E9%97%B4%E6%95%B0%E6%8D%AE%E5%BA%93&oldid=46658931.

[2]刘南,刘仁义.地理信息系统[M].北京:高等教育出版社,2002:5-6.

[3]金波.地理信息库数据切片归档实现方式研究[J].档案与建设,2017(2):34-38.

[4]吴晨涛.信息存储与IT管理[M].北京:人民邮电出版社,2015:242-243.

[5]Neeta Garimella. Snapshot technology overview.[EB/OL].[2006-4-26].https:// www.ibm.com/developerworks/tivoli/library/t-snaptsm1/index.html.

[6]National Archives and Records Administration. Transfer Guidance Format Tables[EB/OL].[2014-3-3].https://www.archives.gov/records-mgmt/policy/transfer-guidance-tables.html.

[7]Sailor. GIS空間数据共享标准[EB/OL].[2014-3-6].http://malagis.com/gis-spatial-data-sharing-standards.html.

猜你喜欢

快照拷贝副本
巧破困局,快速恢复本本活力
注册表拍个照 软件别瞎闹
国家知识产权局公告:专利证书改版
文化拷贝应该如何“拷”
啪!一个瞬间讲述一个故事
让时间停止 保留网页游戏进度
影子与我
新副本“战歌之城”怨灵BOSS面面观
《口袋西游—蓝龙》新副本“幽冥界”五大萌点
走出孤独囧境