APP下载

基于数据大集中的信息运维研究平台

2016-02-07颜清华

网络安全技术与应用 2016年11期
关键词:数据中心运维架构

◆颜清华

(云南电网有限责任公司昭通供电局 云南 657000)

基于数据大集中的信息运维研究平台

◆颜清华

(云南电网有限责任公司昭通供电局 云南 657000)

目前国内数据运维的现状是,规模较大的数据中心普遍建设了监控、流程和自动化运维平台。但其中存在两方面问题,一是产品基本以国外品牌为主,国外产品一方面价格昂贵,导致运维成本居高不下;另一方面也存在一定的安全隐患,在当前国家安全的背景下,采用国外运维产品与业务,存在相当大的风险。二是监控、流程和自动化产品采用不同厂商、不同型号的产品,产品之间相互割裂,信息无法共享。运维平台无法自动进行运维,都需要人为参与,严重影响了数据中心的运维效率。

数据汇集;数据管理;数据运维

0 引言

数据大集中作为互联网服务的物理载体,客户对服务实时性、安全性、可靠性等的要求最终将内化为对数据运维管理的要求。数据中心运维对象涉及种类比较多,从供配电设施到IT设备、到应用系统、到各类人员,这无疑要求数据中心的运维管理应能适应所有的管理对象。如果该数据中心要通过一些专业认证,或为一些特殊行业提供IT服务,其运维管理必须符合相关标准与行业规范。对平台中各子系统以及各功能模块提供统一的运行监控服务,包括服务的提供状态监控、服务的使用状态监控、系统的运行状态监控等。

数据大集中的信息运维研究平台的设计是基于ISO/IEC20000和ITIL v3理论,遵循ITSS、GB/T 28827-2012系列运行维护服务国家标准,有效支持运行维护能力相关的人员、流程、技术和资源四要素管理。

数据大集中的信息运维研究平台建立了集成化的资源运行状态监控管理系统,实现平台运行状态和信息化资源的统一化、可视化、可控化管理。基于资源的统一化管理,实现监控子系统和故障处理流程子系统的一体化部署,全面支撑信息技术服务管理,实现面向基础资源和面向业务应用两个层面的监控,遵循ITIL实践标准对运维管理流程进行优化再造,全面展示所有服务的运行状况和处理性能。

1 数据汇集服务运行监控管理

对平台所涉及的所有服务和数据资源进行实时不间断的7x24小时的监控和管理,合理设定资源状态的预警阈值的设定,确保任何资源状态异常的及时通报和展示,通过声光报警、短信、邮件的及时通知,确保管理人员及时的发现和处理问题。

同时借助大数据平台的优势,实现平台内部服务运行状态的趋势预测,不同资源告警阈值的智能化管理和自动设定,做到平台内部运行状态的稳定和持续。

数据大集中的信息运维研究平台内部的软件资源复杂,需要支持统一化的一体监控模式,支持对Hadoop架构体系内所有软件模块和系统(HBase、HDFS等)、关系型数据库(Oracle、Sqlserver、MySQL集群等)、接入共享接口、中间件系统、前端应用等软件资源的监控和管理。

数据大集中的信息运维研究平台服务能够对如下服务接口状态进行监控:

(1)支持SNMP、SSH/telnet、JMX、JDBC等监控方式和协议,实现:支持数据大集中内部的各种传统关系型数据库和数据库集群、Hadoop架构中HDFS/HBase等的状态、数据库状态、各类中间件资源状态、平台内部和前端应用状态、各类内外部的接口状态的实时监控。

(2)支持对数据汇集接入、数据推送、和数据共享接口的运行状态监控。

(3)支持各类监控资源的告警阈值的自定义管理,管理人员可以根据资源自身和资源使用情况灵活定义预警阀值。

(4)支持告警信息的短信、邮件通知以及声光报警通知。

2 平台故障处理管理

数据大集中的信息运维研究平台涉及的软硬件信息和数据量较大,平台上线运行后会面临海量的故障信息,故障信息分析是运维工程师面临的难题,而云计算、虚拟化等新技术的广泛采用进一步加剧了运维管理的复杂度。需要对运维流程进行梳理,将技术人员从繁重的运维工作中解脱出来,实现运维作业的标准化、自动化,缩短业务响应时间,提高服务质量。平台的各类故障和告警处理的管理主要针对平台运行期间所有异常事件的统一管理,确保所有异常事件都被处理的管理功能。借助国家标准和ITIL的SLA模型,需要建立一套完备的故障事件、问题、变更和发布等的标准化故障处理流程,规范故障处理的过程,做到故障的及时处理、追踪、统计,确保每一个问题和故障都能被及时的处理。提供页面、邮件、短信、声音、光、消息客户端、WebService接口、Socket等方式及时通知责任人和运维管理人员。

日常平台管理工作中有很多是标准化的工作,如巡检、值班等工作。这些工作会占用大量的时间,将人工的操作、管理转变为系统自动化的操作和管理,可以节省时间,将精力投入到更紧急、更重要的工作中,从而减少数据运维人力成本。

(1)数据大集中的信息运维研究平台自动巡检功能

平台的监控管理系统自动将需要巡检的资源和接口状态发送到系统中,自动进行设备运行状态和重要指标性能数据的收集汇总形成自动巡检结果,同时巡检过程全程记录,通过巡检工单,能够跟踪巡检的执行情况。

(2)数据大集中的信息运维研究平台人工巡检功能

针对非监控资源的巡检,仍可通过系统内提供的人工巡检功能完成巡检结果的记录,为巡检任务执行的计划、监督和结果的电子化管理提供了有效的手段。

3 数据大集中的信息运维研究平台5优势

(1)实时故障预警,实现系统风险前移

对IT信息环境及各项业务系统尤其是重要业务系统及关联数据的运行情况进行监控,根据资源实际应用情况建立灵活的事件管理机制,建立集中的告警分析处理和故障预警机制;建立事件的流程化管理机制及分析机制,使监控系统成为强有力的助手,能够在故障产生时进行快速定位,尽可能的做到事前防范。

(2)动态掌握数据集中资源,提高利用效率

需要运维管理系统建设,实时了解掌握数据集中资源的使用情况,根据需要从整体角度考虑资源的配置、调配和使用,提高硬件资源及数据的有效利用率。

(3)数据集中运维管理平台进行统一规划建设,具有功能的全面性、可扩展性、可移植性、易用性等特点,从而满足不同业务、硬件、软件环境需求。

随着用户业务的迅速发展,网络结构和规模必然会不断迈上新的发展台阶,各种系统和应用服务也将陆续增加。因此,数据大集中运维管理平台具有强大的功能和可扩展性,满足未来10至20年的业务发展需求,具有对网络、系统、应用服务、硬件等资源状态的监控功能。

(4)服务管理规范化,提高工作效率,实现人员统一调度

采用运维服务管理规范的工作流方式管理服务申请受理、处理、转送、跟踪、回复等环节,形成闭环处理流程;实现投诉工单处理超时服务自动升级和通告,使企业基于服务水平协议管理其IT基础设施;实现了服务申请单点受理、统一调度运维服务人员。

临床相关调查表明[3] ,为异位妊娠大出血患者开展输血治疗,患者的凝血指标和血常规指标在接受治疗措施前后有较大变化出现。患者在接受输血治疗的过程中若出现不良反应,则可一定程度上影响输血治疗的效果,且患者的凝血指标可明显下降,为此对异位妊娠大出血输血治疗患者在接受治疗的过程中是否有不良反应存在进行判断,可监测患者的凝血指标和血常规指标变化情况。

(5)建立全面工作机制,提升整体服务水平,确保服务质量建立知识共享机制,将个人经验转换为企业知识,整体提升IT服务水准,确保服务质量,建全工作监控机制,使各级管理者可以随时了解所辖区域/部门的工作状态,以便及时发现并解决问题,扭转工作的被动局面。

4 报表管理

(1)统计分析

利用各个模块收集的信息,可以对网络设备、服务器、环境监控设备等进行专门的分类分析和监控状态汇总。

(2)自定义报表

可以按照自身需要对报表的格式,报表的内容,报表的时间进行自定义。

5 数据备份

按照时间周期,可以实时、按计划的对过往的日志信息进行备份和恢复。

平台支持远程异地备份及监控。

6 结语

为更好、更有效地实现数据中心运维管理目标,建立高度信息化的数据大集中的信息运维研究平台应始于对其信息系统的总体规划,数据中心的信息系统规划应表达出对战略、业务、信息、应用、技术等方面的综合考虑。

图1 面向数据中心的企业架构

(1)业务架构和组织架构,用于理解组织使命、愿景、目标、业务、期望、要求、约束,以及角色、职责、流程、业务实体、场景、规则、术语、需求。

(2)应用架构,用于描述支持业务的系统功能和特征,以及系统间关系,还应包括应用系统的功能模块、功能需求、系统间消息传递。

(3)数据架构,用于定义数据如何被使用、处理、保存、交换、所采用的标准,采用主题域、实体、属性、关系、约束、数据流等方式来描述。

(4)技术架构,表达了IT基础结构、技术路线、设计原则、开发规范、非功能要求,常用层次、平台、组件、类、对象状态、属性、方法等要素来描述。

(5)运行架构,定义了部署和运维的过程,实现系统建设与运维无缝集成,一般可包括流程与角色定义、工单分类、配置项、服务影响树等要素。

首先,对支撑数据中心业务和处理数据的信息系统进行能力上的逻辑分组,明确如何满足业务架构中提出的业务功能和数据架构中提出的数据处理要求,如图2所示。

图2 数据大集中运维管理平台

基于上面的逻辑分组,对应用架构进行进一步的细化,细化的颗粒度取决于规划项目的范围和质量要求。

在数据中心信息系统架构设计的基础上,结合运维管理的要求可以自行设计或从外部获取信息系统建设的路线图和解决方案,选择适当的时机以项目群的方式启动信息系统建设过程,从而实现数据中心的运维管理目标。

[1]莫太平,蒋艳红.通信电源设备智能远程监控系统的研究与实现[J].光通信技术,2007.

[2]唐宝民,张颖编著.电信网监控和管理技术[M].人民邮电出版社,2006.

[3]王华刚,罗森文,陈少川,蓝郁峰.UPS动环监控雷击案例分析及对策[J].广东通信技术,2016.

[4]刘廷亮.预约式智能门禁在基站动环监控中的应用研究[J].电信技术,2016.

[5]王小月.动环监控系统无线传输组网方案的选择研究[J].通讯世界,2016.

[6]李晓迎.移动通信动环监控系统现状分析[J].电脑知识与技术,2008.

[7]曹淳淳.基于动环监控技术的告警标准化解决方案及应用[J].黑龙江生态工程职业学院学报,2012.

[8]陈艺高.动环大数据,提升运维效能[J].通信电源技术,2014.

[9]王亚君,孙福明.基于多动态核聚类的间歇过程在线监控[J].化工学报.

[10]施建荣,何霞.开展数据挖掘,提升动力环境监控效能[J].通信电源技术,2014.

猜你喜欢

数据中心运维架构
基于FPGA的RNN硬件加速架构
酒泉云计算大数据中心
浅析数据中心空调节能发展趋势
功能架构在电子电气架构开发中的应用和实践
基于云服务的图书馆IT架构
关于建立“格萨尔文献数据中心”的初步构想
运维技术研发决策中ITSS运维成熟度模型应用初探
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
WebGIS架构下的地理信息系统构建研究