浅谈寿险公司Oracle数据库运维监控体系
2019-12-11
(三峡人寿保险股份有限公司,重庆 401121)
数据是任何商业生命的根源,也是企业生存与发展的重要资源。随着社会的快速发展,传统数据库运维管理负载居高不下,以救火式运维为主,一旦发生故障容易导致数据丢失或损坏将给企业造成严重的损失[1]。为此,有必要对数据库运维体系进行改进与优化。本文以寿险公司所使用的Oracle数据库运维监控体系为例,论述了新时期数据库运维管理系统的构建策略。
1 数据库监控
数据库监控分为实例监控、schema监控、告警三部分。实例监控主要是针对参数、组件(redo、undo、control file)、表空间、会话、TOP SQL、阻塞、日志等对象。Schema监控主要是对权限、对象进行监控,对象主要是指索引、分区表、大字段。通过对数据库监控采集的数据进行汇总分析,可输出性能、容量趋势报告。
2 备份、恢复管理
通过备份一体机实现对数据库信息的备份管理。备份一体机具有数据零丢失、数据备份高安全性、不对生产系统有影响、支持任意时间点的数据恢复、提供数据云级保护等优点。通过对重做日志进行备份实现公司日常数据保护,可让数据库得到秒级保护。在重做日志数据备份过程中每次只获取增量数据即可。针对寿险公司需要24×7的数据保护需求,数据库备份一体机主要针对源生产数据库的保护,只需一次全备份,后续只需同步归档日志与REDO日志增量,从而明显降低了备份对生产系统的影响。备份一体机可识别内部Oracle数据库块格式,因而可支持深度数据验证。当备份数据与重做块被发送到备份一体机与自我复制时均会进行自动验证。磁盘上的备份块也会定期验证,从而保证恢复操作始终恢复有效数据。
备份一体机可分为本地备份一体机和远程备份一体机。本地备份一体机上的备份可以轻松、快捷、安全地复制到远程备份一体机中,以防站点中断和区域性灾难等问题。例如,数据可以复制到远程备份一体机。远程备份一体机可以是物理机或运行在云环境的虚拟机。复制过程仅复制更改的块,从而极大地减少了WAN网络占用。如果本地备份一体机不可用,可以直接从远程备份一体机运行恢复操作,而不需要在本地暂存数据。
3 容灾、灾备管理
容灾、灾备管理包括容灾一体化监控、一键容灾自动切换、一键灾备自动恢复功能。针对容灾、灾备提供了自动化管理能力,可以极大的提升业务连续性。
(1)数据容灾一体化监控。主要分为数据中心容灾拓扑、链路监控、容灾延迟监控三部分。数据中心容灾拓扑包括跨数据中心容灾拓扑、节点数据库容灾拓扑。链路监控主要涉及到链路的可用性与传输流量。容灾延迟监控可分析延迟时长与延迟原因。
(2)一键数据库容灾切换。一键数据库容灾切换可在需要时一键实现主备库的快速切换,可避免手动进行主备库切换过程中的误操作以提升业务连续性。
(3)一键数据库灾备恢复。一键数据库灾备恢复支持指定时间点数据恢复、全库数据库恢复以满足不同的场景需要。
(4)告警。对相关参数设置阈值,参数值达到或超过阈值时,自动通过短信、邮件、微信的方式对相关人员发出告警。
4 数据库SQL审核
SQL审核主要包括上线SQL审核、上线测试SQL审核、生产运维SQL审核、工单系统四部分。上线SQL审核通过手动上传数据信息,由平台自动审核SQL语法、执行计划、运行消耗等内容。上线测试SQL审核可自动捕获相关信息,并自动进行审核。生产运维SQL审核可自动捕获TOP Sql,并自动完成审核工作。通过上述审核可预判执行风险与问题,对发现问题SQL语句自动发起工单提交开发代表,由工单系统对这些缺陷工单进行处理。
5 数据库安全管理
数据库安全管理是数据库运维管理中的重要组成部分,通过保护数据库系统、数据库服务器以及数据库中的数据、相关网络连接,防止数据库系统及其数据遭到泄露、篡改或破坏,从而确保数据库的正常运行[2]。为统一管理,考虑将数据库安全管理整合到统一的数据库自动化运维管理平台,实现统一调度与管理。首先,由管理平台自动对数据库漏洞进行扫描,然后对数据库进行安全管理,包括数据加密、数据屏蔽、数据脱敏、访问审计等措施。构建数据库防火墙,进一步确保数据库的运行安全。在数据库自动化运维管理平台中引入云技术,具备自动化部署功能,可实现一键数据库安装与一键数据恢复。对漏洞自行扫描,补丁可一键下载与安装,让数据库运维管理更加简单、便捷、智能化。
图1 寿险公司数据库自动化运维管理平台体系
6 结束语
总之,对于寿险公司来说,如何管理好庞大的数据库信息对公司的经营发展有着重要的意义,一旦数据信息丢失或损坏将直接给公司造成严重的经济损失。为此,必须加强对数据库日常运维管理,引入先进的软件技术提高数据库的日常运维水平,确保数据库能够正常运行,这样才能为寿险公司的可持续发展做好坚实的保障。