数据备份恢复技术在税务系统的应用研究
2022-03-31胡颖亮
胡颖亮
(国家税务总局宁夏回族自治区税务局信息中心 宁夏回族自治区银川市 750200)
近年来,随着以大数据、云计算为代表的新一代信息技术产业蓬勃发展,人类社会生产生活已然迈入了“互联网”和“大数据”时代,数据安全已成为事关国家安全和经济社会发展的重要考量。《中华人民共和国数据安全法》已于2021年9月1日起开始正式实施,这是我国第一部关于数据安全领域的基础性法律,对各行业数据安全保护提出了更高的要求。作为税务行业,自国地税征管体制改革以来,随着社保费及非税收入征管职能的划转,税费征管方式逐步从“线下”移至“线上”,税务信息系统存储的大量税费信息数据也从“幕后”走向了“台前”,这就对数据安全防护提出了更高的要求和挑战。税务行业各类信息系统存储大量纳税人和缴费人税费数据,数据价值较高,在发生数据丢失的情况下,可以有效利用数据备份进行恢复,对守好数据存储安全的最后一道防线起到至关重要的作用。
1 数据备份及恢复系统需求分析
数据备份及恢复系统的建设,需要结合自身系统部署的实际情况和特点进行综合考量,梳理出数据备份及恢复系统建设具体需求,针对系统建设中的重点和难点部分进行分析,为最终建设方案的制定,以及备份恢复软硬件的选择提供支撑。
具体可重点对以下几个部分进行分析研究:
1.1 数据的分类分级
对目前运行的各类信息系统进行梳理统计,摸清系统类型、系统规模、部署方式、服务群体等信息,为最终确认系统是否需要备份,以及选择什么样的备份产品和策略提供参考。重点要对数据进行分类分级,对需要进行数据备份的应用系统数据存储的方式进行分析,确认各系统数据的重要级别。数据分类分级需重点对数据的生产方式、应用场景、产生频率、结构化特征、存储方式等内容进行综合评价,按照《中华人民共和国数据安全法》要求,将数据从低到高分成一般数据、重要数据、核心数据三个级别,不同级别的数据采用不同的备份方式和策略。如表1所示。
表1:数据安全基本分级规则及备份策略建议
1.2 数据备份场景
(1)数据库备份。数据库中的数据往往是重要等级最高的,数据库备份场景是整个备份恢复系统建设中最重要的一个部分。数据库备份通常分为完全备份(Full Backup)、差异备份(Differential Backup)、增量备份(Incremental Backup)三种类型。当然理想情况下,我们通常需要完全备份就够了。但是实际情况而言,应用系统无法做到固定的时间频率停机来为数据备份提供窗口,也就是冷备份(cold backup)的条件通常无法满足,只能进行热备份(联机备份)场景设计。因此,我们需要将完全备份、差异备份、增量备份结合起来使用,例如,以我们可以在周一进行一次全量备份,周二至周四进行差异或增量备份,再在周五进行一次全量备份,以此类推,达到热备份(联机备份)场景需要。
(2)虚拟化平台备份。虚拟化技术的应用,使得信息化发展进入了快车道,基础设施建设和资源管理能力都得到了空前的提升。但是,虚拟化技术的发展带来了一个最大的问题就是虚拟服务器的持续扩张,而持续增长的虚拟服务器体量为数据备份带来了挑战。提到虚拟化首先就会想到大名鼎鼎的VMware,虚拟化备份技术也是最早由VMware 提供和发起的,目前基于VMware 的备份恢复技术,不管是Networker、NBU、CV 等主流备份软件,还是像Avamar、Veeam 这种软硬件结合的产品,都是通过部署Proxy(代理服务)对接VMware 来实现备份和恢复的。如图1所示。
图1:基于VMware 虚拟化平台备份原理
(3)文件系统备份。文件系统备份是指将存储在本地或者异地操作系统(Linux 或windows)上的文件,通过复制等手段,存储在其他存储设备的过程。文件系统的备份是最基本,也是最方便、快捷的备份方式,例如人们会选择将自己电脑上重要的文件复制一份到自己的U 盘上,这就是文件系统备份的典型案例。但是由于现在恢复的目标总是要在短时间内恢复整个系统的可用性,不仅是要恢复数据文件,还要能使用这些数据文件,单纯数据文件的恢复往往无法实现整个系统可用性的快速恢复,因此目前文件系统备份常用作其他恢复场景的补充。但是,在一些特殊场景,文件系统备份尤为重要,比如:电子公文系统中的文本文件、电子档案系统中的档案文件、语音服务系统中的语音片段等场景,往往需要特别关注这类系统的文件备份。
1.3 备份恢复能力
数据备份的最终目的是为了恢复,数据恢复是备份工作中最有价值的一部分。通常备份数据不会被经常访问,而一旦发生数据丢失、系统宕机或其他系统灾难性事件后,是否可以使用备份进行数据恢复变得至关重要。因此,在建设备份恢复系统的过程中,不能只关注数据备份指标,更应重点关注数据恢复能力。
(1)数据的有效性。备份数据的有效性是备份恢复的基础。通常情况下,我们每天都会进行数据备份,但是备份的数据是否有效就不得而知了。因此,定期进行数据的有效性校验,就显得十分重要。备份数据的有效性校验没有什么捷径可走,就是要通过定期的恢复测试来实现,定期的测试不仅可以测试数据的有效性,还能有效提升应急处置能力,是数据安全管理中的重要一环。
(2)数据恢复效率。数据恢复效率是衡量备份系统恢复能力的一个最重要的指标,怎样能在更短时间内恢复更多的数据量,一直以来都是数据备份恢复系统的价值所在,也是备份技术发展的重点和难题。影响数据恢复效率的主要因素有:数据量、数据类型、系统架构、硬件设备和网络环境、备份恢复软件、消重技术、备份参数及策略等。首先,排除数据量和数据类型影响因素,影响到数据恢复效率最重要的因素就是硬件设备和网络环境,更高级的硬件设备、更快的网络环境则备份恢复就越快。其次,在硬件设备和网络环境、备份恢复软件、系统架构等相对固定,很难进行升级扩容的情况下,需要更多考虑对备份软件参数及策略、数据库参数、虚拟化平台配置等方面进行优化调整,通过不断的恢复测试,找到恢复效率最大化的优化方案,从而提高数据恢复效率。
(3)人员配置和技术能力。人员配置和技术能力也是衡量备份恢复能力的一个关键因素。备份恢复系统的运行维护人员和其他系统有很大区别,一名优秀的备份工程师不仅需要精通数据备份恢复技术,还需熟练掌握操作系统、云平台、虚拟化、数据库、计算存储设备、网络等众多技术知识。因此,为保证备份系统可以持续提供数据安全保障,建议有条件的单位部门可以考虑购买专业的备份运维服务来提高人员配置和技术能力,从而提高备份恢复能力。
2 数据备份及恢复技术在税务系统的应用
“金税三期工程”是国家级信息系统工程,是国家电子政务“十二金”工程之一。税务系统各类应用收集、存储、加工大量税费数据,无论从数据的重要级别,还是数据体量、类型等方面,在政府行业中的规模都处于前列。因此,深入研究数据备份及恢复技术在税务系统的应用情况,对各地税务系统及其他行业数据备份系统建设有着很高的参考价值。下面,以国家税务总局宁夏区税务局数据备份及恢复系统部署为例,从系统概述、部署架构、重复数据消除技术、异地备份、备份管理等方面具体介绍。
2.1 系统概况
近年来,税务系统各类数据资源的持续增长对数据资产保护提出了更高的要求,在物理、虚拟化和云计算背景下的数据保护是长期困扰各级税务系统的痛点和难点。宁夏税务局数据备份及恢复系统自2016年开始建设,先后进行了2次较大规模扩容升级,历经5年多时间完成建设,并探索形成了一套符合本地化实际的数据备份恢复管理体系。目前,宁夏税务局数据中心共部署运行各类信息系统70 余个,相较2016年,数据量已增长了3 倍以上。从计算存储硬件资源来看,共有PC 服务器设备500 余台,小型机12 台,存储设备45 台;从虚拟化平台资源来看,共部署虚拟化平台7 个,虚拟主机近1000 余台,虚拟化存储容量共509.18(TB),已分配使用387.05(TB),使用率76.0%;从系统软件来看,共部署各类操作系统1500 余套,数据库系统232 套(其中Oracle 数据库177 个,占比76.3%),中间件软件391 套。
2.2 系统部署架构
宁夏税务局备份恢复系统基于EMC Networker 软件和EMC Data Domain 备份设备部署构建,通过本地化深度集成,大幅提高了备份恢复效率,加速了备份恢复模式转型,实现了数据备份恢复系统四个“全覆盖”。一是实现业务网络区域“全覆盖”。在业务专网、互联网、外联网、异地网络分别放置备份设备,实现备份恢复能力在所有网络区域安全可达。二是实现系统备份需求场景“全覆盖”。对税务系统涉及的所有30 多套Oracle RAC 核心数据库、1000 余台虚拟机、20 余套文件系统等备份场景需求全部纳入备份任务。三是实现备份恢复系统管理“全覆盖”。通过部署一套备份恢复软件,实现所有网络区域、备份设备、备份策略、备份恢复等功能统一进行管理。四是实现备份数据恢复测试验证“全覆盖”。定期对数据库、虚拟化平台、文件系统进行全量数据恢复测试验证。
宁夏税务局备份恢复系统共部署EMC Data Domain 备份设备6 台,其中EMC DD2500 中端备份设备3 台、EMC DD6300 高端备份设备3 台,分别部署于业务专网、互联网、外联网、异地(中卫)四个区域。部署一台联想System x3850 X6 物理服务器作为备份恢复系统集中管理主机,部署备份代理服务器17 台,通过一套EMC NetWorker 备份管理软件,对所有备份设备及备份策略进行统一管理,并与异地(中卫)备份设备实现底层数据复制,将备份数据传送至异地(中卫)存储。EMC Networker 利用的是一种客户-服务器体系结构,由Client 、Storage Nodes 和Server 三个功能组件组成,通过LAN、WAN 或者SAN 网络,客户端数据完全可以被备份到任何的Storage Nodes 或者服务器上。正是利用了这种体系结构,Networker 可为复杂程度最高的网络中的数据保护和管理提供充分的能力和优良的性能,同时还在大型数据中心或者远程分支办事处的环境配置方面提供着灵活的服务。如图2所示。
图2:宁夏税务局备份系统部署架构
2.3 重复数据消除技术
重复数据消除技术是一种数据压缩技术,通过数据压缩来减少数据存储容量。在数据保护需求日益凸显的今天,面对指数级的数据增长,以及不断缩小的备份时间窗口,重复数据消除技术作为数据保护的关键技术,为整个备份恢复系统带来至关重要的优势。宁夏税务备份恢复系统借助EMC NetWorker 和Data Domain Boost,形成了一个完整的软、硬件结合的重复数据消除解决方案。
(1)更大的数据备份空间。在日常的数据备份过程中,往往备份的数据中存在大量的冗余数据,尤其在数据库、虚拟机、文件系统等场景下的全量备份。而通过重复数据消除技术,可以实现在备份之前对已备份的数据进行校验,在备份时只存储差异部分的数据块,这种备份方式可以保证唯一的数据块只保留一份,从而有效降低了数据存储容量,提高了数据备份空间。尤其以磁盘为介质的备份设备具有很高的重复数据消除效率,如果备份频率比较高,那么每次备份通常会节省95%以上的磁盘空间。
(2)更高的数据备份恢复水平。数据备份恢复时,无论是从本地还是异地执行恢复,都需要读取大量的数据。随着数据量的不断增长,数据传输压力也越来越大,通过重复数据消除技术可以在数据传输前检测并有效删除压缩重复数据,可以有效减少传输的数据量,提高数据传输速度,提供更高的数据备份和恢复水平。
(3)更好的数据持续验证。更大的备份存储空间和更高的备份恢复水平为数据恢复验证提供了可能。如果没有重复数据消除技术,备份的数据量将是无法想象的,海量数据进行数据恢复验证将非常困难,需要消耗占用大量资源,往往是无法承受的,数据恢复验证工作将不再具有可行性。而重复数据消除技术的出现,为常态化进行数据持续验证提供了可能,在进行恢复时可以有效进行重复数据校验,大大缩短恢复时间和减少磁盘开销。
2.4 异地灾备
异地备份作为本地备份的有效补充,有效降低数据集中存放带来的单节点风险,当本地数据中心发生自然灾害等极端情况时,可以利用异地灾备系统进行数据和业务恢复,因此,目前越来越多的重要系统场景需同时建立异地灾备中心。宁夏税务局在异地(距离银川约200 公里)中卫市税务局数据中心机房放置了一台EMC DD2500 备份设备,通过电信专线,点对点将本地备份的数据通过克隆技术复制传输至异地存放,从而实现异地灾备场景需求。
2.5 备份管理
备份恢复系统架构复杂性高,往往涉及备份存储设备、网络、服务器、虚拟化、数据库、操作系统等重多环节,系统内耦合程度高且解耦较为困难,因此备份恢复系统故障率较高,尤其体现在软件故障。当软件故障无法彻底消除时,需要建立较为完善的备份管理机制尽早发现并进行处置。一是建立日常巡检机制。备份任务往往是每日都会进行,则需建立常态化系统巡检机制,定期对系统进行巡检,确保可以早发现问题。二是加强故障处置。用户往往都会期望备份的成功率越高越好,需要在每次备份失败时进行补充备份,这就需要尽快的处置各类系统故障,确保备份成功率达到期望值。
3 数据备份技术发展趋势探究
3.1 分布式存储
近年来,随着大数据、云计算、超融合等技术的全面应用,核心业务的数据集中存储模式(DAS、NAS、SAN)已不能适应目前数据存储需要,分布式存储越来越多应用于各行业核心业务。分布式存储通过网络将数据分别存储于部署在相同或不同区域的每台机器上的磁盘,并将这些分散存储的数据资源构成一个虚拟的存储空间。分布式存储拥有超规模的数据处置能力,无论在扩展性、高可用性、可靠性等方面,还是在使用建设成本上都具有明显优势。目前,在云计算领域分布式存储已逐渐取代集中式存储成为首要选择。
3.2 下一代数据存储技术
数据存储技术的改变,为未来数据备份及恢复提出了新的课题。下一代数据存储技术主要在存储介质、存储架构、存储协议、应用模式及运维模式等方面迭代创新的一系列技术合集,总体呈现出高性能、易扩展、服务化和智能化等特点。如表2所示。
表2:下一代数据存储技术革新方向
3.3 分布式云存储重新定义备份方式
随着集中式存储向分布式云存储的转变,为数据备份方式提供了新的形式,通过将数据分布存储在本地或是云上,可以突破地域和设备的限制。分布式云存储的优势主要有:一是备份场景多样,集中管控,实现多台云主机集中管控。相较集中存储,有效降低了运维难度和管理成本。二是简单易用,易于扩展。可以将备份数据多副本存储在不同主机,无需担心硬件配置、集群扩展等问题。三是经济效益高,往往云平台软件自带备份恢复机制,无需单独投入建设独立的备份系统。四是高重删压缩比,备份服务采用重删、压缩技术,可有效降低数据存储空间,减少资金投入。
4 结束语
守土有责、守土尽责,数据备份和恢复系统是数据安全保护的最后一道防线。本文结合数据备份恢复技术在宁夏税务系统的应用情况,从数据备份及恢复系统需求入手,深入分析研究了数据备份及恢复技术在省级税务数据中心的应用,并对数据备份技术的发展趋势进行了初步探究,旨在为税务系统及其他行业数据备份系统建设提供参考。