APP下载

关于人工智能在IT运维中的应用

2023-04-29贾丽柯

信息系统工程 2023年6期
关键词:运维人工智能

贾丽柯

摘要:在加快建设数字中国的进程中,数字基础设施、软件系统数量和规模持续攀升,IT系统可用性、安全性和连续性保障工作压力增大,因而IT运维的重要性日益增强,其需求也随之大幅增长。日益复杂的IT架构和运维环境使得传统运维模式难以满足发展需要,利用大数据、人工智能等新技术的智能化运维能够有效提高IT系统可用性和运维效率。基于这一背景,首先对人工智能在IT运维中应用的现实意义进行分析,然后研究智能化运维部署策略的关键要点,最后结合实例对智能化运维关键内容展开探索与分析,希望能够为智能化运维系统建设提供切实有效的解决方案。

关键词:IT;人工智能;运维

一、前言

IT运维是IT运行维护人员根据业务需求来规划信息、网络、服务,通过网络监控、事件预警、业务调度、排障升级等手段,使IT系统处于长期稳定可用的状态[1]。早期的IT运维工作大部分是由运维人员手工完成,这种运维模式不仅低效,也消耗了大量的人力资源。在工具辅助下展开自动化IT运维,适应了批量化以及大规模化的特征,对避免人为操作失误所致风险具有积极意义,还有助于运维效率的提升。但需要注意的是,自动化运维的核心仍然是自动化工具与人工操作的结合,受人工操作局限性影响,系统难以从真正意义上实现对高复杂以及大规模系统的运营需求。而智能运维将智能化技术引入运维系统中,以海量数据为依托进行集中学习并总结规则,支持对运维方式的合理决策[2]。智能化运维实现运维系统中一系列人工智能科技的应用,在机器学习以及大数据技术辅助下,对海量数据进行采集,以体现动态可视化以及人性化特点,这对于传统运维能力的加强与提升是非常重要的。

二、研究人工智能在IT运维中应用的现实意义

在加快建设数字中国的进程中,数字基础设施、软件系统数量和规模持续攀升,IT系统可用性、安全性和连续性保障工作压力增大,因而IT运维的重要性日益增强,其需求也随之大幅增长。日益复杂的IT架构和运维环境使得传统运维模式难以满足发展需要,如何通过对大数据技术、人工智能技术等现代化技术的应用,网络运维产业的发展升级成为当前业内人士高度重视的一项课题。智能化运维在人力成本、运维效率、网络安全等多方面具备优势,并能够解决目前百分之九十以上应用场景的问题。在国家政策的鼓励下,大量行业领域已全面开始了智能化运维的战略部署。智能化运维必将改变传统的运维方法、服务模式和管理体系,进而使得整个产业链完成技术升级和模式革新[3]。

智能化IT运维通过机器学习的方式引入人工智能算法,自海量IT运维数据中展开学习并总结规则,做出决策,生成一种全新的运维方式。智能运维的核心概念是在运维系统中重视对人工智能技术的应用,建立在机器学习以及大数据技术分析基础上,自多种数据源中对海量数据信息进行采集,并支持离线或实时分析,通过主动性、动态可视化以及人性化优势的发挥,促进传统IT运维能力的提升与增强。智能运维能够快速分析并对海量数据进行处理,得到最有效的运维决策,执行自动化脚本以实现面向系统整体的运维,促进运维规模的提升。在转型发展过程中,IT运维技术面临的挑战可以总结为以下三个方面:第一,从安全运行的角度上说,业务对技术系统安全运行有较高要求,且业务功能涉及多个系统应用,所采用的事后处置为主运维模式,表现出包括处理效率低以及异常定位困难等一系列问题,受被动异常响应模式影响导致无法满足快速定位与处理的需求;第二,从人力配置的角度说,技术系统IT运维面临工作量大且工作内容复杂的问题,运维岗位吸引力逐渐下降。运维需求与人力资源紧缺之间的矛盾进一步激化,进而导致技术系统发展中面临无法避免的矛盾与问题;第三,在单数据中心向多数据中心发展过程中,传统的现场运维方式也因数据中心地点偏僻、现场巡检工作烦琐重复等困难而导致运维成本和压力增大,需要实现远程运维来解决数据中心发展的问题。技术发展中产生的问题必须依靠技术来解决,只有在运维领域引入新技术、新思路、新体系,才能更好地提升运维水平,更好地保障系统安全稳定高效的运行。当前主流运维技术已从自动化运维向智能运维发展,利用人工智能来辅助甚至部分替代人工决策,可以进一步提升运维质量和效率。因此,很多公司开展了智能运维的探索,研究如何在运维中引入人工智能,以实现事前智能预警、事后快速定位、夜间无人值守、远程集中管理等一系列的智能运维目标,以应对新环境下的三大运维挑战,进一步解放与发展生产力。

三、智能化运维部署策略

(一)监控管理

第一,IP管理。根据MAC地址以及IP地址数据快速针对某PC主体连接网络设备以及网络端口进行查询,提供一系列辅助功能,包括对疑似ARP的攻击的处理,新设备接入网络,IP地址被其他设备占用以及设备连接位置更改等活动的告警处理。

第二,Ping管理。借助于Ping管理的模式,反应网络出口实际情况,同时针对摄像头等特定设备装置提供Ping支持,面向图像化状态呈现Ping模式,同时对数据传输过程中的丢包情况以及响应情况进行分析。

第三,节点管理。在这一过程中,对整个运营系统是否存在未关电现象进行实时监测,在检测确认未关电的情况下自动发出告警邮件,提醒设备保管人员。同时系统支持按照一周、一个月等方式划分区域对系统未关电情况进行统计分析。

第四,专线管理。依托于图形化的方式对网络出口部位专线实际状态进行动态展现,同时支持从性能角度对专线历史性能参数进行登记与显示,并对当前系统所处带宽状态给出相应的意见与建议[4]。

第五,数据查看。由于智能化運维过程中监控管理模块可面向工作人员提供无压缩数据存储机制作为支持,且无压缩数据支持跨越时间可以达到三个月。支持工作人员按照一天、一周、一个月的频率对数据进行快速切换,以满足任意时段数据拖拽查看需求[5]。

(二)网络管理

第一,线路性能。考虑智能化运维部署过程中的网络管理实际需求,面向管理人员提供包括数据总流量、广播包流量、丢包率以及总带宽等相关信息参数,在此期间支持上述指标提供列表式可排序方案,进行集中查看。同时系统也可遵循上述性能指标的历史曲线图,以更加直观的方式向用户提供线路性能具体状态,同时支持基础操作功能的实现,帮助系统终端用户对线路信息以及历史数据进行集中查看。

第二,设备性能。对于智能化运维系统中所涉及的一系列设备,提供包括网络设备CPU终端处理器、内存以及连续运行时间等相关指标参数,支持用户以列表式可排序方案进行集中查看,也可提供设备基础操作作为支持,包括连接测试以及服务器终端Ping测试等。

(三)主机运行

第一,数据库管理。数据库运行状态可以通过列表式排序方式呈现在终端用户面前,数据库终端运行情况以及关键指标可以支持根据终端用户实际需求进行分类查看。尤其对于单个数据库系统而言,可以面向终端用户提供包括基础信息、运行信息、告警信息以及表空间信息等一系列参数,以满足数据库管理运维需求[6]。

第二,主机管理。智能化运维部署作业开展期间,需要面向终端用户提供与主机系统相关运行情况以及关键指标作为支持,同时系统运行状态也可以以分类的方式呈现给终端用户。单个主机系统可以支持对运行信息、进程信息、基础信息以及告警信息的查询功能。

第三,中间件管理。引入人工智能技术背景下,IT运维网络部署方案中可以提供列表式集中可排序对中间件运行状态的查看,同时也可分类展现中间件运行情况。单个中间件可以将运行信息、基础信息、告警信息以及参数信息等关键数据反馈给终端用户。

第四,标准应用管理。在标准应用管理模块中,受主机运行影响,可以以列表式集中可排序查看的方式反应标准应用运行情况,并面向终端用户提供可分类对标准应用运行情况以及关键指标的参数,以基础信息、运行信息以及告警信息等方式呈现给终端用户。

(四)报表管理

第一,运行率报表。在智能化部署监控管理模块中,面向网络设备、网路线路以及主机系统提供一系列运行率相关参数的信息状态,包括中断时长、中断次数以及运行率统计等,以确保监控管理功能的实现。

第二,性能分析报表。在智能化部署方案下,监控管理模块可以针对网络设备统计中低负载时间比率,反应网络线路统计流量峰值与均值的参数,同时对系统整体运行以及监控功能实现过程中的带宽占用、主机系统CPU、网络流量峰值、环比增长率等一系列参数进行可靠的分析与记录,以满足性能分析需求。

第三,告警分析报表。本报表需要针对智能化部署方案下网络设备以及主机系统应用各等级告警解决情况进行统计分析,同时对网络设备以及主机应用告警解决时长进行统计,此外还需要对告警触发次数TOPN情况进行反应。

(五)人工智能机器学习

既往报道中显示,人工智能是指通过对计算机科学、神经科学、心理学以及生物学等相关学科的综合与应用,达到解决IT运维问题的目的。从本质上说,人工智能技术属于计算机科学领域技术。随着时间的推移,人工智能技术取得了非常显著的发展与进步。现代生产领域中对智能机器人以及智能搜索等相关技术的应用更加密切,图像识别以及语音识别等相关系统深入发展,对提升大众日常生活水平具有积极意义,且机器学习建立在人工智能技术应用基础之上,对其内容进行拓展深化,通过引入机器设备的方式展开学习,并借助相关数据信息展开深入分析,了解数据背后所蕴含的规律与价值,支持对相关数据处理方法的优化与创新。在此基础上,还需要对机器学习异常情况进行检测。从IT运维的角度说,相关人员可以通过应用人工智能技术的方式,支持对机器学习过程的异常检测。为支持这一目标的实现,相关人员需要尝试对IT运维过程中所涉及的数据信息进行深入分析,并通过无监督学习方法对异常检测场景进行动态监测,在机器人学习基础上构建学习模型,实时预测相关指标信息,从而保证异常检测结果质量达到理想状态。最后需要对机器学习过程进行根因分析。相关人员需要通过对机器学习过程进行根因分析的方式强化人工智能技术的应用,以此来更加快速高效地找到机器学习过程中出现的异常与问题。研究表明,所谓对问题进行根因分析,在本质上属于追本溯源的过程,而机器学习方法的应用主要是对相关数据进行预测与判断,为了更加高效地完成问题的根因分析,相关人员需要加强逆向解释算法的使用,确保在最大程度上找到具有相关特征的数据,进而促进IT运维过程水平与质量的提高。基于上述分析,在当前技术支持下,IT运维期间相关人员可以尝试现代设备的应用,提升运维过程的质量水平,并配合对现代化技术的引用,实现对运维过程的异常检测、预测、根因分析以及容量管理等。智能化运维通过将运维过程与人工智能技术相结合的方式,促进运维过程中质量水平的提升,并通过深入挖掘相关数据信息的方式,对IT运维过程健康发展产生积极的促进作用。

四、关于智能化运维实例

信息系统运行过程中多面向数据中心进行集成化布置,内部信息系统存在数据海量以及结构复杂的特点,因此有关计算机信息系统运维工作的开展面临着较大挑战。系统运维人员需要密切掌握系统运行实时性情况,发挥监控功能,确保智能化监控目标的顺利实现。在将人工智能技术与IT系统运维相结合的过程中,形成统一监控管理核心地位,对信息化IT基础设施展开集中监控与管理。智能运维平台通过业务建模的方式,改变传统IT管理、业务管理部门的价值链局限性,将IT管理工作价值最大限度发挥出来。同时,IT系统运维期间管理与业务密切结合,IT管理页面通过屏幕矩阵呈现,为日常管理提供方便,同时实现安全设备、服务器、数据库以及中间件的集成化管理,依托系统资源监控平台及时发现并解决问题,提高服务活动的主动性,促进监控告警功能的实现,满足运维管理集中、统一化发展趋势。

从计算机信息系统日志分析的角度上看,智能化运维监控管理工具应当实现如下功能:第一,计算机系统硬软件配备情况所对应设备日志应作为判定系统运行情况的关键基础,将智能化运维工具引入其中,需要支持日志采集、传输以及储存等一系列功能的顺利实现;第二,设备运行意味着会有海量参数产生,智能化运维期间可以借助于对日志分析功能的應用,对所采集数据进行分析处理,通过对比历史参数的方式,掌握信息指标变化趋势,以此作为运维决策制定的重要基础;第三,确认设备运行状态,在计算机信息系统运行期间,设备会呈现一定的负载变化,运维工具应当具备状态判别的能力,以满足自我调整需求;第四,设备运行期间一旦出现突发情况,需要系统及时发出告警指令,并形成针对性的处理方案,保证方案的有效性与适宜性;第五,硬软件设备应当具备协调统一的能力,相关设备存在承载或集群管理,基于日志分析设备运维管理,可以对设备关系以及运行情况展开针对性的管理与控制;第六,设备运行状态分析期间,可以以日志分析为基础,对故障进行预防或支持维修管理功能的实现,充分发挥计算机信息系统运维优势,以达到促进设备运行效率提升的目的。

计算机信息系统融合机房内构成复杂,包括视频监控、消防、安保等一系列子系统功能集成,其中,可通过互联互通的方式,满足数据交互式运行需求。在此期間,运维系统管理人员需要特别注重与机房设备的信息沟通,监控机房运行环境,支持集中式监控以及分布管理功能的顺利实现,这对于机房整体运维智能化水平的提升具有重要意义。整套计算机信息系统分为现场设备采集层、监控服务器层以及服务器集中管理层。从设备采集层的角度说,通过对I/O采控模块的应用,满足与现场信号的连接。在监控服务器层中,可以面向现场数据信息进行采集与储存,通过引入数据分析工具的方式,将信息参数传输至下层服务器内部。管理层服务器则面向设备展开统一管理,采集实时性数据信息,并在出现异常情况下向系统发送告警指令。同时,控制指令可传输至前端设备,支持浏览器对关键参数的访问,引入双机热备模式,确保系统运行状态的平稳与可靠。

与传统意义上的主机进程管理相比,智能化主机进程管理具有非常突出的优势,具体表现在以下两个方面:①在智能化主机进程管理过程中,可以尝试通过对进程所对应CPU占用比例进行查询的方式,对CPU终端占用率中所涉及的A类进程进行查询,并对影响作用较大进程进行管理,考虑管理员操作日志所对应机器学习结果,评估是否需要终止进程。通过意识操作流程,将智能化管理特点引入高负载运行进程内部,避免进程管理受到人为判定操作失误的影响,以确保主机运行状态的安全性,进而提高智能化主机进程管理的高效性水平。②在对智能化主机进程管理各进程所对应CPU占用率进行查询前,对主机CPU使用率进行识别,过滤偶发性CPU使用率冲高问题,避免其对A类进程划分结果产生影响,这对于主机高负载进程管理效果的提升具有重要意义。

五、结语

在当前时代发展背景下,国内主流运营商已经尝试展开基于智能化运维的战略部署方案,尤其是受到人工智能技术快速发展因素的影响,智能化运维技术的应用成为当前时代发展背景下最为重要的一环。尤其是各类新技术、设备持续不断投入应用,对运维服务效率的提升产生积极影响,同时也对传统运维产业产生极大的干扰与冲击。尤其在商业化部署方案持续推进的背景下,智能化运维也在持续不断地展开技术创新与发展,全新一代智能化运维系统的建设对运维效率的推升以及人力成本控制所产生的影响是非常积极的,人工智能技术在IT运维中的重要意义得以进一步凸显。

参考文献

[1]贺莉娜,郭泽阔.基于人工智能和大数据的城市轨道交通智能化运维生态系统研究[J].城市轨道交通研究,2022,25(9):79-84+89.

[2]冯国礼,李蓉,吴双.基于人工智能技术的电力信息系统运维数据整合方法[J].电力信息与通信技术,2022,20(1):68-73.

[3]张华兵,周英耀,徐磊,等.网络数据中心IT设备人工智能化运维应用[J].沈阳工业大学学报,2022,44(5):541-545.

[4]方雪琴,符方权,张嘉俊.浅析人工智能技术在电力企业网络安全运维中的应用[J].网络安全技术与应用,2021,243(3):104-106.

[5]朱海麒,姜峰.人工智能时代面向运维数据的异常检测技术研究与分析[J].信息网络安全,2019,227(11):24-35.

[6]王平,吴文波,杨友兰,等.基于人工智能的高铁动车组智能运维数据分析系统的构建[J].铁路计算机应用,2022,31(7):14-18.

猜你喜欢

运维人工智能
运维技术研发决策中ITSS运维成熟度模型应用初探
2019:人工智能
人工智能与就业
风电运维困局
杂乱无章的光伏运维 百亿市场如何成长
数读人工智能
下一幕,人工智能!
基于ITIL的运维管理创新实践浅析