APP下载

超大规模IT设备监控性能运维挑战

2021-01-13余梁

计算机与网络 2021年22期
关键词:监测点运维园区

余梁

IT部门都曾面临这样的经历:当服务器、网络或设备等出现问题时,必须尽快做出反应,找出原因,定位故障。而问题出在哪里,通常很难快速判断,频繁的宕机和故障,给IT部门带来很大的运维压力。监控运维管理软件的出现,让IT部门运维团队得到救赎,开始告别如此忙乱的场景。

市面上的监控运维软件,更多的是几百台设备以内的监控范围,几分钟一个频次的轮询,对性能的要求不是特别高。而现在,需要实际监控的设备数量由原来的几百台,已经增长到几万台甚至几十万台。那么,原来为几百台设备而设定的监控软件,已经远远不能满足这个时代的要求。现在市面上的监控运维软件,基本单台监控服务器能够监控到300台设备,每个设备大概有10个监测点,相当于是3 000个监测点范围;如果超过这个范围,监控软件本身就会不稳定,即使增加服务器或内存数量,也无法提高监控系统的性能。

“监控易”是美信科技的一体化集中监控运维平台,采用自研的调度技术,可以把监测点的颗粒度精确到秒级,最快轮询频率为5 s一次,监测点数量能够到达10万+以上,保证监测数据的实时性和精确性。当企事业单位关键设备出现异常时,能在第一时间里发现问题,发出报警,为IT运维团队解决问题赢得宝贵的时间。而市面上一些监控运维软件,监测点数量和量级规模有限,监测频率在长时间运行以后最多可达到分钟级,一般是2~5 min。从整体上看,监控易整体性能较市面上的普通监控软件具有很强的竞争力。美信科技监控易之所以可以达到如此超高性能,是因为依托于独立自主研发高性能的数据库。

海量监控,轮询采集的瓶颈在于数据库写入。市场上通用的结构化数据库(如Oracle,SQL Sever,MYSQL)的运维监控软件,采用的数据库为通用型,为保证数据唯一性、一致性等,写入效率会有所降低。而监控轮询是每个轮询周期都要写入所有设备的监控指标数据,高频率、大数据量的写入,必然对数据库有特殊要求,即对高写入要求很高。美信科技监控易使用自主研发的非结构化(NoSQL)数据库,该数据库专门针对网管轮询高频写入需求而设计,轮询频率可以从分钟级缩短到秒级,最快轮询频率可达5 s。IT运维人员可以自定义不同监测点的轮询频率。美信科技监控易目前能达到的运维效果,是记录行数达到百亿级,响应时间都为秒级。所以说,这是美信科技监控易性能领先的关键组件。经过十几年的发展,美信科技监控易以“超高性能”优势获得政府、国防军工、金融、医疗、科技、教育以及能源等领域的广泛应用和高度评价。

以监控易解决某知名集团公司A曾面临的监控运维难题为例,业务地域分布广泛化带来的监控系统水平和垂直扩展需求。

A公司在全国创建5个智慧园区,并计划未来建成30个智慧园区。每个园区有5~10栋楼,但只有1~2个运维人员,每个园区都有大量的网络设备、服务器、闸机、储物柜PAD、摄像头以及车位检测器等终端设备需要监控。然而,随着园区的建设和扩展,面临着各园区设备设施缺乏统一监控管理,要管理的设备多,运维人员少,运维系统可靠性差,灵活可扩展性等挑战。

A公司面临的监控运维难题已经是当下众多企业、机构非常普遍的情况。随着业务的规模扩展,IT系统建设不断深入,分布区域越来越广泛。企业的监控对象由以前的一个地区的一个局域网、一个机房、物联网设备扩展到全国多个省市、甚至扩展到全球其他国家和地区。因此,核心机房分布于多个地点,部署范围广、设备更加繁杂,对于大量的网络设备、服务器、应用系统以及物联网设备等没有统一的监控平台,不能制定统一的预警管理策略。同时缺少对整体业务系统的健康状况以及运行趋势的检测,无法及时判断业务系统是否存在运行瓶颈及潜在的风险,集团总部管理者无法从全局角度做出准确的决策。因此,按照集团化的管理要求,监控系统需要实现对多个地区的IT及设备进行集中监控管理,并且能够实现灵活扩展,以迎接未来业务向更高一台阶迈进。

那么,如何实现一套监控系统能够监控多个地区的IT机房及设备,且能够满足水平及垂直的灵活扩展需求呢?美信科技监控易支持分布式架构,消息中间件、Webserver、数据库等全部为独立自主研发、自主可控。采用中央调度单元和分布式任务采集器所组成的分布式的调度管理和采集架构。

A公司在全国拥有总部、上海、深圳、成都等多个智慧园区,传统的监控系统要实现全面监控,就需要在每个园区各部署一套监控系统。此种部署模式离散、成本高,且监控不全面。更重要的是因为缺乏统一管理,每个园区出现什么问题,总部领导并不清楚,等到客户投诉或是发生更大的事故,领导才会发现。

美信科技监控易一体化集中监控平台解决了以上问题,采用分布式部署模式,只需要在总部部署一套软件,就能同时将全国所有的园区全部监控起来。随着园区的不断增加,监控系统能够灵活地扩展,不需要每次从头再来一遍,不需要耗费更多的成本。部署完成后,总部领导每天都能看到每个园区的运行情况,各個园区的运维人员根据权限可以看到自己的园区运行情况,很好地完成了园区运维管理的任务,整个运维效率提升了90 %。根据规划,A公司的智慧园区将来如果扩到30个,那么监控易可以无缝扩展,无需改变原来的管理制度,即可保证智慧园区实现非常良好的运行状态。

作为美信科技旗下新一代监控的强势品牌,监控易以一库、一码、四支柱,打造IT运维国产化时代的核心竞争力。一库———美信科技自主开发的高性能时序数据库,支持10万+设备监控,是同类监控规模的数倍。一码———低代码平台,让自主开发像搭积木一样简单。四支柱———全国产核心组件全自主开发,完全符合信创要求。高性能轻松监测上万台设备,大幅降低部署成本。一体化IT、动环、物联网全覆盖,监控、资产、工单、流程及CMDB全支持。多层级支持公有云、私有云、混合云,多安全域,部、省、市多级设备的集中式监控管理。

猜你喜欢

监测点运维园区
整合后开发区(园区)名单“3+17”
待疫散云开,来园区赴一场春的修行
滑县2020年耕地质量监测主要做法与成效
河北邯郸拥有现代农业园区167个
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
长三角典型农业区耕地土壤重金属污染与潜在生态风险评价
济南市细颗粒物(PM2.5)的时空分布特征分析研究
园区开发Ⅱ个股表现
电子政务甲方运维管理的全生命周期