基于VTL技术的三峡集团信息系统备份架构
2012-09-11徐侠
徐 侠
(中国三峡集团信息中心)
引 言
现在集团公司的许多管理工作都需要通过网络来完成。同时也有许多重要的企业经营、管理、个人资料以数据的形式集中保存信息系统中,数据的积累和增长速度很快。目前集团公司信息系统管理面临的最大挑战之一是如何处理对大量数据的透明存取和备份工作,同时网络的规模越大、系统应用的越深入、数据量越多,数据的安全对于企业的运转也越来越显得重要,这就提出了数据存储备份/恢复管理方面的要求。
1 集团公司数据备份系统现状和存在的主要问题
为保证集团公司重要信息系统的数据安全,应对可能出现的信息系统灾难事故,集团公司信息中心于2005年组织实施了集团公司信息系统集中存储备份项目(主要架构见下图一),随后又每年组织开展信息系统灾难恢复应急测试演练,收到了很好的成效,也使集团公司信息安全水平上升到一个新的台阶。
但随着集团公司信息化建设的不断发展,信息系统规模和数据量越来越大、系统架构日趋复杂,原有的信息系统数据备份系统逐渐不能满足新形式下的需要,主要表现在以下方面:
图 一
1)原来采用磁带库备份方式,磁带介质长期使用后,数据保存稳定性下降,有可能出现恢复不了的情况。
2)集团公司信息系统用户迅速增加,海量数据使正常的备份专业耗时很长,过长的备份时间严重挤压了重要业务系统的备份窗口。为保证整个系统的正常运行,只能将当初执行的部分重要业务系统的每日备份策略调整为每周备份。
3)由于数据量较大,原来磁带库设备陈旧,老型号单盘磁带容量小,磁带介质数量有限,已不能保留较长周期的备份数据。
4)物理磁带无重复数据删除功能,多次备份后,一个数据备份集可能存放到了多盒磁带上,磁带恢复的线性寻址机制决定了数据恢复时间延长若干倍,大大增加了系统的恢复时间。
5)原系统使用TSM备份软件版本为5.3及5.4,已不能完全支持新采购的磁带库设备;若更换备份软件,需要重新采购软件并重新部署,资金成本和人员掌握新技术的成本较大。
磁带技术一直都是数据备份/恢复系统的主力军,但伴随着新一代ATA磁盘技术的出现,使更便捷、更高效的备份/恢复解决方案成为可能。本文在对两种新备份技术——基于主机的磁盘到磁盘(Disk-to-Disk,简称D2D)技术和虚拟磁带库(Virtual Tape Library, 简称VTL)技术研究后,提出一套新的基于虚拟化技术——即多个VTL应用技术的信息系统备份架构,作为三峡集团信息系统数据备份方式,用于解决信息系统数据量不断增大的备份问题。
2 两种新的备份技术的对比
2.1 基于主机的磁盘到磁盘(Disk-to-Disk,简称D2D)技术
D2D技术是把磁盘直接作为备份介质来使用的,本质是通过软件备份后的系统数据文件直接写入其它的文件系统进行存放,并不是用原文件的格式和普通的写方法,把备份文件以大块为单位放在一个大文件中。通过对D2D技术的实现方式进行分析,其优势和存在的问题如下:
D2D的优势:
1)充分利用了磁盘的随机读写性能,效率比传统的磁带备份方式高很多,也高于进行顺序读写的虚拟磁带库(VTL)方式。
2)充分利用了文件系统的多线程技术,在多个备份任务并发的情况下,不象VTL要受虚拟驱动器数量的限制。
3)D2D备份的数据读取访问方便,可以灵活的把数据迁移到不同的OS文件卷下。
D2D存在的问题:
1)需要重新调整部署系统,不能与现有备份环境无缝整合,需改变硬件架构、备份策略及管理策略。
2)结合内置或外接RAID存储阵列的备份/恢复软件的D2D性能依赖类似NTFS或NFS的文件系统,它们是为了在服务器系统中使用生产运行环境而生成的。这些文件系统设计用来为多个用户管理多个文件,当用于以磁带方式的备份会出现的问题是,在磁带备份应用软件与文件系统文件分配表结合来决定具体的文件位置时,存储系统处理器会发生附加的、不必要的性能冲突。
3)D2D在UNIX SAN环境下的LAN Free备份,如要把数据集中存放在统一卷下,需要共享卷软件来支持,会提高使用成本。
4)类似FAT、NFS和NTFS的通用文件系统受到文件系统、分区和单个文件大小的限制。此外,一个文件系统上文件的数目也有限制。这些限制会约束基于主机的D2D应用软件所使用的备份卷的扩容性,当达到限制时,企业将投入额外的开销,还必须转移数据,创建新卷,重新配置备份应用软件。
5)大多数D2D文件系统的另一个主要问题是系统中数据的安全性,怀有不良动机的黑客、病毒会威胁通用的文件系统。任何D2D系统都会遇到同样的安全问题,可能导致数据保护方案的失败。
6)对于现有的任何规模的IT环境,完全放弃原有的磁带架构备份方式,全部转变到基于磁盘的策略并不很容易实现。大多数企业组织已经大笔投资建立了已有的备份结构,并运用现有的磁带技术,形成了较完善的管理制度和流程,培养了一批熟悉磁带架构备份方式的技术人员,要完全转型,难度很大。
2.2 虚拟磁带库(Virtual Tape Library,简称VTL)技术
VTL是基于磁盘的备份系统,其仿真一种或多种磁带库和/或磁带格式,具备带库的接口、驱动器和磁带槽位等有大外部特征,同时内部也是采用进行顺序读写的指令集作。VTL是一个完全集成的解决方案,它包括磁带仿真服务器、ATA RAID阵列和为磁带备份优化的文件系统。多数情况下,VTL还提供给以往管理员所熟悉的相同的介质管理功能(如磁带编目、介质是否有效等),完全模仿了一个真实的带库,能被所有的备份软件来调用。
VTL的优点:
1)与以往的磁带库方式相比较,其采用高速的磁盘取代磁带,加快了读写的速度,缩短了备份窗口。
2)由于其仿真一种或多种磁带库,对其它的应用系统而言,系统部署的变化完全透明,能与现有备份环境无缝整合,无需改变硬件架构、备份策略及管理策略。
3)基于VTL,可以扩展为D2D2T的多级方式,数据实现备份至虚拟磁带库,再备份到传统的物理磁带库,虚拟磁带库支持物理磁带直接出库功能,这对于需要进行以磁带方式进行归档和异地存放的用户非常重要。
4)虚拟磁带无需经过备份服务器,就能配合与系统直接相连的磁带库导出到物理磁带,导出过程对备份服务器的性能完全没有影响,用户可以选择在生产时间内将虚拟磁带转换成物理磁带,大幅提升了磁带备份的品质与效率。
5)虚拟磁带能应用重复数据删除后再压缩,节省大量存储空间,且重复数据删除和压缩等操作,都是在备份完成后进行的,其过程完全不影响备份速度和应用服务器的性能,备份窗口可以获得最完整的保护。
6)可以扩展远程复制功能,用户可以利用WAN广域网络将备份数据复制到远程,实现异地灾备,并可通过加密功能防止数据在网络传输过程中被恶意窃取。在执行远程复制时,本地和远程的VTL会自动比对单一存储区内有无相同数据,仅有不重复的数据才会被复制并传送到远程。相对于传统的以人力运送磁带的异地备份方式,VTL的远程备份不仅没有数据遗失的风险,还能同时节省存储空间、宽带网络占用、磁带运输及保管费用等多项支出,大幅节省了IT投资成本。
VTL的缺点:
1)VTL模拟磁带顺序读写方式,不能充分发挥磁盘的效率。
2)VTL的效率要受到虚拟驱动个数的限制。
3)VTL的备份策略设置与磁带库完全一样,比较复杂。
2.3 对比结果
通过上面的分析,纯粹要提升备份、还原速度的话,磁盘对磁盘(Disk to Disk,D2D)的备份就可以作得到,但企业级的备份系统架构不能只关注在效能,更应该关注成本与管理两个层面。
磁盘备份通常是在备份软件里的一个功能,因此不具备虚拟磁带库的许多功能,在介质管理及空间回收方面会带来很大不便,用户很可能会由于磁盘空间的管理不善而导致备份数据的损坏。
磁盘备份是基于操作系统上的文件系统来进行,文件系统是I/O性能的一大瓶颈;而虚拟磁带库的数据是通常是写在由VTL软件管理的裸设备上的,避免了文件系统带来的性能瓶颈。
磁盘备份方式产生的数据均是暴露在操作系统之上的,很容易受到包括黑客、病毒、人为因素造成的数据丢失问题,从而降低了备份系统安全可靠性;另外,磁盘备份不具备数据压缩功能,这也带来了磁盘空间的浪费。
虚拟磁带库(Virtual Tape Library, VTL)技术兼具了传统磁带库技术方案和磁盘备份速度快、使用方便的优点,且继承了传统数据的管理方式,技术实施难度不大,且新旧系统能平滑过渡,有效的保护的以前的设备投资和技术实现,应作为新的集团公司信息系统备份架构的主选技术。
图 二
3 多个VTL应用技术
V T L是把磁盘虚拟成带库,在磁盘介质上模拟出机械臂、磁带机和磁带来进行工作。市场上的虚拟磁带库依照架构不同,有三种形式的VTL,备份软件型(Backup Software)、磁盘阵列型(Disk Array Based)、应用服务器型(VTL Appliance)。
3.1 备份软件型
直接将虚拟磁带功能整合至备份软件内。由于纯粹是依靠软件来达成仿真磁带的目的,这类方案的限制是无法和其它厂牌备份软件搭配使用。这种VTL只能被该备份软件调用,并且不具有标准磁带库的访问和管理方式。
3.2 嵌入式结构VTL磁盘阵列型
嵌入式结构VTL采用专业的硬件平台,模块化的结构,采用专用的操作系统将VTL软件安装在专用系统内。它是以磁盘阵列为基础发展的虚拟磁带柜,透过内建于磁盘阵列控制器(RAID Controller)内的虚拟软件,将储存空间仿真成磁带柜具备的所有特征。
3.3 应用服务器型
透过安装在服务器上的虚拟磁带软件,将服务器内的硬盘,或是可被服务器控制的外接磁盘阵列,做为存放备份数据的虚拟磁带空间。由于软件架构在标准的x86平台和Linux操作系统上,成本相对较便宜,而且储存装置的限制较低,只要服务器支持,可以采用任何SCSI或光纤信道接口的磁盘阵列,与备份服务器端可以藉由SCSI、iSCSI或光纤信道等传输接口相连,部署应用上较有弹性。
从以上的对比分析看,嵌入式结构VTL磁盘阵列型和应用服务器型可作为集团公司选用的两个主要实施方式。
4 集团公司数据中心VTL架构设计重点
4.1 解决目前备份系统架构内的性能瓶颈
VTL系统架构从连接VTL前端的备份服务器,到后端的磁盘阵列与磁带库,都必须支持速度在4Gb以上的光纤通道协议,以保证备份数据在整个传输过程中都能享有最充裕的带宽。
同时新VTL系统架构具备多进程数据流并行备份的能力,可以同时连接多台备份服务器,并同时执行多组备份程序,以大幅缩短备份时间。
具备智能的I/O负载均衡技术,可以自动分配备份数据流写入到磁盘阵列的位置,避免多个备份数据流同时写入VTL时,集中在少数的RAID控制器和LUN上,造成负载不均衡的情况。
部署了VTL后,不能对物理磁带的产出速度和备份服务器的运行性能造成影响,应该支持Server-less磁带备份。
4.2 提高数据中心备份系统架构管理能力
采用VTL备份系统架构 对数据中心的意义在于“提升备份操作的品质”,而不是“取代物理磁带设备”。磁带不仅是单位成本最低的存储介质,可以离线的长期保存数据,对于集团公司这样的大型企业用户而言,更是不可或缺。因此,集团公司的VTL不仅要提升备份性能,更可以与现有的磁带设备无缝整合,具备与磁带设备协同工作的能力。选用的VTL应该具备以下磁带管理能力:
1)支持集团公司目前使用的TSM备份软件和以后可能使用的所有主流备份软件。
2)具备仿真所有主流的物理磁带库、磁带格式的能力。
3)支持完整的磁带入库/出库,确保所有主流的物理磁带库都能直接与VTL连接,且不能限制导入/导出的磁带格式。
4)具备多磁带输出功能。可以按照备份策略的要求,在同一时间输出多组相同内容的磁带,节省了磁带复制的时间及过程。
5)支持磁带整合功能。可以将多卷数据量少的磁带导入VTL后,再统一导出到单卷大容量的磁带,节省介质和管理成本。
6)支持磁带缓冲功能。允许备份数据在转成虚拟磁带格式后,直接从VTL出库到物理磁带,以大幅降低备份磁带器的性能负载,简化管理程序。
7)具备完善的报表生成功能。
8)可以通过单一介面同时设定管理多台VTL。
4.3 保证新系统构架的高可靠性、高可用性
VTL本身应该支持高可用性、多节点架构及双工的故障切换机制,以避免单点故障造成停机,确保备份操作持续运行。
4.4 保证新系统构架的高兼容、高扩展性
集团公司数据中心内有各种操作平台的服务器和不同品牌的存储设备,只有具备高度兼容性和扩展性的VTL,才能在不更改架构的前提下,无缝的部署于数据中心,才不会造成资源浪费和管理上的困扰。
系统应该完全支持开放系统的存储架构,可以支持FC、SCSI、iSCSI,甚至是InfiniBand等多种传输协议,并与各种品牌的磁盘阵列及存储系统相兼容,企业用户可以灵活的选择并配置存储资源。
5 虚拟磁带库(VTL)备份系统架构在三总部架构环境下的应用
集团公司发展至今,已逐步形成北京、宜昌、成都的三总部架构,信息系统也逐步形成三地三中心的格局,今后将逐渐由一点扩展至多节点的虚拟磁带库(VTL)备份系统架构。
现在的虚拟磁带库(VTL)解决方案已具备远程复制的功能,虚拟磁带可以从数据中心复制到远程的灾备中心,将本地端数据保护直接延伸到异地灾备。同时,逐渐完善的高级重复数据删除功能,使通过广域网方式进行远程数据备份成为可能。数据中心级VTL的重复数据删除功能可以删除两个备份时间点相近的全备份间重复率往往高达90%以上的数据,同时支持压缩功能,并实现支持多对一远程复制的全域重复数据删除。最后附上集团公司北京、宜昌双中心虚拟备份架构应用的规划部署图。
图 三