大数据时代机房管理及运维工作研究
2021-09-18孟庆威
孟庆威
(中国石油天然气股份有限公司大庆炼化分公司,黑龙江 大庆 163000)
0 引言
在大数据时代背景下,信息化技术在各行各业取得了广泛的应用。机房作为信息化建设、运行的核心,在信息系统中扮演着举足轻重的角色,任何信息化网络设备都需要以机房基础设施作为支撑。为了确保机房安全运行,需要切实加强对机房运维的重视和投入,定期开展维修、监控工作。抓住大数据时代的契机,充分考虑大数据时代需求,构建机房综合运维管理体系,发挥信息化系统的效能,提供集扩展性和集成性为一体的全面采集、及时处理服务。通过整合运维服务资源,进而提升信息系统的运行效率,促进科技系统自动化和智能化高效运转。
1 大数据背景下机房运维管理概述
1.1 机房运维管理现状分析
在大数据时代,数据传递的处理和管理效率随之加快。集成平台有助于提升机房运维管理的质量,帮助企事业发展。目前数据运维工作仍未全面推广,受传统机房运维的制约,机房管理复杂度较高,企业信息传递与应用效率较低,不能保证运维的时效性,因此运维管理的工作质量亟待提升。与此同时,一些运营管理设备相对落后,大多数管理者缺乏对大数据运营管理体系的认知,组织弹性较弱,造成设备的匹配度以及管理人员技术水平呈现差异化。这既不符合自动化与虚拟化机房运维的发展趋势,也难以保证运维的时效性。
1.2 机房管理与运维的必要性
机房设备十足精密,而且涉及众多的运维类型,其中不乏动力环境、消防系统等领域,给机房管理带来了极大的考验。经过上述对机房运维管理现状的分析发现,目前很多单位对机房管理存在忽视现象,无法开展规范化操作。由于机房很容易受到外界的干扰,例如湿度、温度等变化都会造成设备系统出现异常甚至崩溃。为了避免或降低外界对机房造成的危害,唯有加强重视运维和管理工作,加大机房管理力度,才能确保机房服务器时刻处于正常运转状态。
1.3 机房运维管理内容
数据中心机房能否发挥其最佳性能与综合信息系统和基础设施是否完备息息相关。设定科学的机房运维管理内容,依托智慧机房的应用与运维管理模式,有效融入大数据时代所赋予的机遇,才能提供更加适宜的工作环境。首先,应设计出与单位实际相吻合的运行维护管理制度,按照相关法律法规,结合自身实际情况,制定行之有效的运维标准,打造全生命周期管理规范,利用奖惩措施保障机房安全运行管理制度的稳定落实。其次,打造具有战斗力的运维管理队伍,从实践的角度出发,发布运维流程、内容和标准,助力运维技术人员精准快速地解决问题。再次,依靠有效的电子运维工具实施定制化应用部署,针对虚拟化云平台的资源,开展远程自动巡检、动态管理,发挥大数据人工智能巡检应有的性能,助力3D 视图下的按需分配管理。最后,机房运维管理内容需要搭建统一门户,全面采集机房内的各项监控数据,将采集、监控、展示一体化,构建自动化和智能化的维护工作,以期持续提高效率。
1.4 机房运维管理体系架构
机房运维管理工作包括制度建设、流程细则、组织分工、人才队伍、技术支撑、维护对象等部分,具体涵盖了制度、管理人员、技术、管理对象等方面,其运维体系架构如图1 所示。
图1 机房运维管理架构图
2 机房运维支撑管理系统研究
2.1 管理的内涵
机房基础设施维护要考虑投资成本,做好运维管理范畴的设置和完善,根据机房运维管理领域容易发生的问题,分门别类地明确分工界面,做好支撑工具开发与投运,使其在环境管理、安全保障方面与数据中心同步建设,全面统筹兼顾建设效益、运维管理成本,规划、设计、建设通信机房。明晰存量设备的特点,把握运维工作种类多、分布规律广的特征,实施分阶段建设,推进运行系统处于安全指数保障之中。
2.2 管理支撑需求特点
按照大数据分析需求以及运维操作管理流程需求,机房基础设施要与智能化决策支撑需求保持一致,打造全生命周期运维管理体系,在机房运行数据、安装调试、能耗数据上保持领先,通过物理设施、系统容量记录设备健康度,形成设备健康量化和系统化的评价报告,最终实现对机房、故障数据的综合分析。
2.3 管理系统总体思路
结合先进的管理理念和模式,把握机房运维管理特点,运维支撑管理系统建设应全面协调静态资源与动态资源的关系,在流程管理的综合性方面下功夫。一方面,在硬件设施方面,要从组网方式、设备性能角度出发,引进具备图像集中监控功能的新型配套设备。另一方面,开发或引入新型软件功能,在静态资源管理工作中进行精确化操作,打造智慧管理体系,推进和规划流程管理平台建设,形成全方位一体化的运维创新管理模式。
2.4 关键功能模块建设思路
精细化管理是机房运维工作的首要目标,以网络拓扑机构为核心,统一匹配设施与动态数据,既可以智能识别故障点位置,还可以发挥网络结构显性化特征。3D 拓扑图形化管理是目前较为流行的设备排查手段,能够实现机房三维视图,反映设备属性、运行状态,梳理系统中的关键设备点,直观呈现上下游拓扑结构设备。性能指标动态管理思路以机架资源管理为重点,通过性能数据分析,结合设备维护管理,将设备运行容量、安全负载率与空间资源合理匹配,这样一来能够通过容量预警分析,及时发现设备性能是否劣化;二来可以通过判断设备性能偏离分析,掌握重点设备运行情况,为规划提供依据的同时,更有助于为更换设备提供参考。在日常运维管理过程中,设备入网、退网管理是重要的监督环节之一。从机房安全角度出发,设备入网、退网管理需要在相关的流程框架下进行,做好用电安全管理,发挥审批流程管理支撑体系的优势,实现相关功能的拓展。此外,关键功能模块建设绝不可忽视基础设施运行优化支撑系统。为了提高日常运维工作效率,需要提供可行性分析,利用告警相关性提供的应急处置能力,降低机房能耗根源告警,促进日常运维工作取得既定的目标。
3 大数据时代关于加强机房运维管理的对策与建议
3.1 大力开展运管维一体化工作
为了充分利用大数据的优势,在机房运管维工作中,应改变传统的机房管理认知,明晰机房运维工作的重要性,着重建设机房运管维一体化。在硬件监控方面加大力度,开展有针对性地定期巡查和监控,做好与机房各种网络设备相关的统计,实时密切记录服务器的监控频率,掌握设备的实际运行状况,获取设备运行过程中相关技术参数。工作人员要对参数进行对比和总结,发现存在的不足,便于调整工作策略,使机房保持最佳运行状态。有效利用监控系统性能分析软件,针对服务器性能进行配置优化或改进,使服务器的各指标使用率处于良好的状态下,在所支撑的承载信息系统中,根据分析结果完成版本升级、文件清理,确保系统高效运行。认真履行机房设备操作规范制度,建立健全机房档案机制,严格按照步骤和动作要求进行操作。系统管理员账户应设置用户访问级别权限,秉承安全风险最低化理念,加强机房设备管理,配置与之对应的系统策略,做好机房湿度、温度的管理,详细记录网络拓扑机构图,不断健全和完善机房的实际运行环境,避免不必要因素引起的损坏。此外加强线路管理,确保机房设备性能及应急预案的科学性和合理性。加强机房管理档案的构建,详细记录机房内设备的品牌、型号、序列号,及时更新设备及记录档案,力争运管维一体化的可持续运行。
3.2 使用先进运维技术
在日常运维管理过程中,使用最为先进的运维技术,切实加强对软件的运管维工作。大数据时代最显著的特征在于其自动化、智能化,积极地使用现代自动化技术,通过自动收集信息,数据中心运维管理效率将会得到显著的提升。运维管理平台要以高效化、精细化为理念,做好数据库、中间件、分区的合理划分,有效统筹对应的服务器、集群,将基础运维的核心性能释放出来。深入挖掘并分析数据趋势,以全新自动化运维代替人工操作。当然这需要技术人员具有吸收新鲜事物的意识和觉悟,争相创新管理理念,熟悉所运维的软件系统、操作系统版本,做好运维软件的维护。由于计算机网络具有开放性的特点,从另一个角度来看,机房中运行的软件系统也存在着一定的危险,即容易遭到攻击。一旦系统处于脆弱状态时就会面临被严重破坏的危机,进而导致不同程度的经济损失。面临现如今软件黑客攻击手段的多变化和隐蔽化,各种网络病毒频频对机房软件产生干扰,唯有采取先进运维技术,才能够有效应对各种安全问题。这需要培养强大的运作团队,针对数据库加强维护,做好补丁安装、漏洞修复等工作,科学使用集群监管系统,加强对网络病毒的检测,设置应用层监控系统,及时进行数据备份,保证网络正常运行。
3.3 创建智能机房管理系统
持续加强机房管理制度的构建,以HTML5 技术作为基础,通过创建物联网前端传感器,打造中心智能机房管理系统,在确保机房能够实现能耗监测的基础上,还可以智能识别,实现高可靠、低功耗的操作规程。按照智能机房管理系统架构的基本内容,重点加强网络层、感知层、应用层的服务。首先,在互联网通信网络感知工作部署当中,要结合实现QOS 服务匹配,保持长距离传输的同时,还可以进行实时化的处理、上传、执行,最大限度地应用网络资源传输数据。其次,基于MQTT 协议利用传感器网络,设置门禁、报警等执行功能,实现轻量级数据传输,促进传感单元向运管维向一体化方向迈进。最后,开发并应用手机端APP,结合用户平台定制化的操作模式,对机房网络资源访问,让感知数据能够随时随地便接受定制化的服务,便于技术人员对机房的实时化管理。此外针对机房的各种网络设备,科学使用VPN 技术,及时优化防毒技术,不断更新设备档案,持续优化配置服务器,定期安装操作系统安全补丁。科学使用集群监管系统,通过创建临时专用逻辑网络,得到业务层计算数据。严格监控计算机机房,调整各个协议的参数,有助于调整设备的运行和技术参数,利用数据加密方式实现对各个指标使用率的精准控制。
3.4 加强网络配置维护
设备信息系统种类较多,应着重加强防水、防火、防静电和防灰尘等具体工作,做好不同线路管理工作,同时加强防鼠、防虫排查,不断优化机房卫生体系。及时监控设备工作状态,分层集中开展运行维护工作。信息系统运行维护管理质量的高低,在很大程度上取决于规范化制度执行情况的好坏。为此应建立健全运维管理流程,在数据库运行过程中,提高服务对象的满意度,注重对数据库进行备份,防止安全隐患的蔓延。运维服务管理平台应7×24 小时运行值守,以IT 支撑平台管理为支撑,建立友好的业务监控等级,确保数据备份工作落实到位。数据采集、统一集成要以大数据技术为导向,减少终端维护量,全景展现业务系统整体的价值,消除网络中存在的病毒。网络中的协议比较多,应急处置及安全防护必不可少。绝不能忽视任何一个细节,根据事件级别启动预警响应。结合人工智能技术,开发基于物联网RFID 技术,研究设备位置自动跟踪,便于对机房设备的自动更新和盘点。加强网络配置维护,利用ZigBee 无线通信技术,对数据中心机房巡检、识别,形成运行状态的综合评价,确保机房的无人化和智能化。做好机房的应急管理以及软硬件方面的安全管理,根据环境安全和信息安全问题,保证存储介质的完整性,做好机房的日常运维管理。不能将其他设备带进机房,按照设备层、接口层、应用层、展现层的架构层次,实施3D 可视化监控管理。完善机房能源基础数据体系,有效提高系统的可管理性,做好移动管理模块升级,发挥在线修改及在线扩展功能的价值。
总之,随着互联网技术的快速发展,在大数据时代的强力推动下,机房安全问题受到日益关注。要想保证机房设备运行正常,需要充分利用大数据的优势,熟悉相关技术要求,培养工作人员实践操作能力,建立健全信息化机房监控机制体系,定期开展运维工作。此外,深入挖掘系统建设需求和价值,全方位、多角度领域解决通信机房现有融合问题。全面管理机房设备和线路,避免出现机房安全隐患,促进信息化机房能够实现高效环保、集中化、智能化和便捷化运行。