数据库备份研究与实现
2017-11-07陈玮玮
陈玮玮
摘 要:数据库备份是数据库运维工作中一项重要的工作,关系着系统安全,业务稳定。文章查阅了行业内的数据库备份的方法,面向校园应用这一应用场景,提出了新的解决方案,介绍了相关实现。
关键词:数据库备份;运维;校园信息化
中图分类号:G250.74 文献标志码:A 文章编号:2095-2945(2017)30-0195-02
1 现状描述
大学校园中的软件系统,以上海立信会计金融学院为例,主要是面向院系、部门的业务系统,关系着校园的正常运行。各个系统所产生的数据,大多都存储于各系统的数据库中。这些数据库多是关系型数据库,多数没有做数据安全方面的备份。校园业务系统在建设时,并没有完整的数据备份策略,一旦发生系统故障,数据丢失后难以恢复。面对着硬件故障、病毒入侵、人为误操作、停电等多种可能导致数据丢失的问题,我校信息办着手统一的问题解决方法。面对数量繁多、类型多样的数据库,力争以通用的方案,获取基本的数据安全保证。
2 基本解决方法
面对缺乏数据备份的众多数据库,我们希望在发生数据丢失时,能够从使用日常备份中恢复数据,最大限度减少损失。故障恢复流程,时间希望能够控制在小时之内,对于校园应用系统这是能够接受的。
我们研究了多种数据库备份的方法, 在本篇中由于业务需求,我们关注了目前的几种主流的备份方式,这些备份方法主要工作在四个层面上:
(1)文件层:将数据库导出成文件格式,之后再围绕文件来做备份。如文献[1][2][3]都通过远程数据传输软件来实现备份文件格式数据的迁移汇总。这种类型的备份方法通过使用数据库工具定时导出数据(Oracle的Rman、MS SQL Server的数据库作业)来实现数据库的导出,再使用文件同步工具如Rsync将数据库数据文件、日志文件等同步到备份服务器。这种方法部署、实现简单,可快速实现数据的备份。
(2)应用层数据备份:通过数据库备份工具来完成数据库的备份[4][5]。这类备份软件如开源数据备份软件BackupPC、Amanda、Bacula等。其中BackupPC具有B/S架构,备份数据方式灵活、支持重复数据删除功能等特点[5]。文献[4]表明开源软件Amanda完全能够满足GB级的数据备份需求,但系统不够轻量化。
(3)虚拟机层数据备份:通过备份虚拟机的同时、实现对虚拟机上数据库的备份。这类方法都在虚拟机管理平台实现,其特点是操作简单,容易恢复,快速切换。但同时代价也是明显的:操作系统及数据库软件等软件占据很大比例的虚拟服务器磁盘。因此备份的磁盘使用率较低,而不同备份之间的差异较小,备份时更加增加了存储空间、网络的消耗。若是使用增量备份,如快照等,又会存在恢复困难甚至可能难以恢复。
(4)数据层数据备份:通过云平台远程备份数据库。文献[6]使用了AWS这一存储平台来存储数据。但校园应用系统如一卡通系统、学生信息系统中有很多隐私信息,将数据存放于云端,信息安全可能成为隐患。
对比不同类别的备份系统之后,我们决定在数据层进行数据备份的开发。通过各类数据库接口直接读取数据库中的数据,定期将数据库中的数据保存为格式化的文件格式,用以恢复。在系统设计时,就注意操作简单,易于配置,便于管理等特点。
3 创造性地实现数据备份
面对运行于不同平台、类型众多的数据库,统一而通用的备份方式是最佳选择。因此,我们提出的使用众多SQL/NoSQL数据库接口直接备份数据的方案。这种备份方法具有部署简单、备份运行稳定、恢复快速等优点。其结构如图1所示。
数据库备份系统采用Python语言开发,在读取数据库配置之后,通过Python的众多数据库API实现对不同数据库数据的直接读取。读取数据库服务器中的数据库列表、表结构,并实现定期备份数据是本系统的核心。已知的Python数据库接口支持众多关系数据库包括SQL server, Oracle, Mysql,也支持众多NoSQL数据库如MongoDB,Redis等,而且,此类数据库接口还在不断地开发中,因而本系统具有良好的拓展性。直接读取数据库数据,摆脱了操作系统的限制,具有跨平台、跨数据库的优势,数据备份的配置也变得及其简单。
系统建设中首先读取数据库的表列表及表结构描述,SQL Server,Oracle,Mysql这几个数据庫厂商都能够通过SQL语句读取相关数据,其中MySQL可以获取表创建时的SQL语句。其次,不同数据库厂商的数据类型不同。同样是二进制对象,例如MS SQL中的Image图片格式,而Oracle中则是BLOB类型。这些不同类型的数据通过转换之后,都能够统一到字符格式。值得一提的是使用Cx_oracle读取Oracle的BLOB格式数据的问题:在批量读取的BLOB格式数据时,采用Cx_oracle中的fetchall函数在读取所有的数据之后,数据被程序使用时会发生丢失,所以只能采用fetchone或fetchmany(读取条数小于等于100)的形式来读取。
数据下载到文本文件之后,以SQL Server为例,采用备份方式导出某数据库需要占用10G的空间,而采用本备份系统导出文件只有6G,进一步使用TAR压缩之后只需占用约3.3G。
4 备份策略
不同类型的应用有着不同的数据更新频率。有的应用、数据库一学期更新一次,比如迎新系统,学生基本信息会随着新生入校而大量更新;而有的则会每天产生些许更新,例如学生讲座系统、一卡通系统、门禁系统等;邮件系统则会每天大量更新数据。多数的数据备份同步工具都有定期运行的功能,可以设置定时、批量的运行作业。为此,本系统也设计了类似的数据备份作业系统。系统采用备份定期运行函数Apscheduler[8],以满足灵活多变的定时运行需求。endprint
在设置好以数据库为单位的备份计划之后,系统会为每个数据库开启一个独立进程定期备份数据,同时系统支持多个备份进程同时运行。完整的备份流程包括更新数据库列表(SQL Server)、表列表,更新表结构,最后下载并备份表中的数据。数据库表信息、结构信息等会存储于系统数据库,便于数据恢复时使用。具体流程如图2所示。
本系统的数据备份效率取决于各源数据库的响应速度、网络带宽。系统使用独立进程来备份每一张表,以尽可能地减少由备份服务器造成的延迟。总的来说,本备份系统多进程相对于单进程备份效率的提升,取决于源数据库中数据在不同表中的分布。如果数据均匀地分布在不同的表中,多进程系统的备份效率将成倍地增长直至带宽的极限。若是数据主要集中在某几张表中,备份的效率随着数据集中度的升高而降低。
5 结论及展望
数据库数据直接备份作为数据安全的最后一道防御屏障,其重要性不言而喻。数据在不同数据库之间的迁移、备份的难度在于:不同数据库并不支持直接对接并传输数据,数据库之间还存在数据格式不一致、语法不兼容等问题,表无法直接在另一个数据库之间直接做表结构的复制。为此,本数据库备份方案,脱离了表结构这一樊篱,直接读取有价值的数据存储于文本,之后根据原表结构及备份文本,恢复数据。系统采用直接备份数据表的方式在备份恢复上具有一定的复杂度,需要将表结构记录。在设置好相关的程序之后,能够做到批量自动恢复。因此本备份系统,具有备份系统搭建容易,配置简单,备份数据压缩率高,备份易于恢复等特点。
在将来,本系统仍然有许多可以改进和增加的功能。数据备份是以数据库为单位,可以进一步细化到以数据中的表为单位;数据如何做到智能恢复,即当目标数据库存有部分数据,而备份数据与之有重叠时如何能够有选择性地恢复缺失的数据。
参考文献:
[1]黄斌.贵州大学数据中心数据备份系统[J].中国海洋大学学报(自然科学版),2008(S1):63-64+72.
[2]王红梅,陈晓军,汪立欣,等.高校数据中心自动备份方案的研究与实现[J].福建电脑,2013(05):137+166.
[3]戴敏.网络数据备份系统的研究[D].内蒙古大学,2013.
[4]张媛.企业级开源备份软件在图书馆数据中心的应用[J].图书馆学刊,2014(09):127-130.
[5]于春生.企业级开源备份软件在高校数据中心中的应用[J].北京联合大学学报(自然科学版),2012,26(02):11-14.[2017-08-23].DOI:10.16255/j.cnki.ldxbz.2012.02.011.
[6]Xu Q, Zhao L, Xiao M, et al. YuruBackup: A Space-Efficient and Highly Scalable Incremental Backup System in the Cloud[J]. International Journal of Parallel Programming, 2015,43(3):316-338.
[7]LOB的識别及相关操作[EB/OL].http://nullege.com/codes/search/cx_Oracle.LOB.
[8]Advanced Python Scheduler. http://apscheduler.readthedocs.io/en/latest/index.html.endprint