基于大数据的云计算中心智能运维系统的应用
2021-09-11国家电网山西省电力公司
国家电网山西省电力公司 李 远
与传统运维相比,云计算中心智能运维无论是在数据量还是在处理速度上都明显优于传统运维。在当前大数据时代背景下,智能运维能够有效推动云计算的自动化和智能化发展[1]。但由于当前相关领域研究起步较晚,因此支持云计算中心智能运维的系统在实际应用中并不完善,存在着诸多的问题,如系统运行成本高、无法为用户提供满意度更高的服务、无法实现对云计算环境中数据的安全保护等问题。云计算中心智能运维的主要业务,是针对采集到的海量数据通过多种技术手段对其进行深度分析[2]。利用优质的运维系统能够将云计算中心的各类基础设施、资源等进行整合,以此为云计算环境提供了网络、主机和存储等条件。
1 云计算中心智能运维系统硬件应用
1.1 云计算中心数据采集器选型
确保最原始的数据信息能够准确获取并存储到系统的本地数据库中,组件需要从系统的硬件或软件设备当中采集到原始数据[3]。以大数据云计算中心智能运维系统的需求为根据,对云计算中心数据采集其进行选型,本文选用SCS502-EN562-22型号的数据采集传输仪作为本文系统的数据采集器。该型号数据采集器的接口众多,并且仅适合云计算中心运行环境当中的各类以期设备的通讯协议;设备支持GPRS/4G/5G/Ethernet 等多种方式的通信传输功能;该型号数据采集器原厂生产还支持云计算环境特有的HJ 5556-425通信协议。图1为云计算中心数据采集器在系统当中的连接示意图。
图1 计算中心数据采集器连接示意图
利用SCS502-EN562-22型号数据采集器上丰富的接口对接云计算环境前端的各类传感器,能够通过上述多种不同方式的通信将数据上传到云服务器当中,并为云计算中心指挥决策提供更具价值的数据支持条件,进一步提升本文基于大数据的云计算中心智能运维系统在线监测预警能力,保证云计算环境中海量数据的安全。
1.2 云计算中心数据存储器选型
上述数据采集器的选择为本文系统提供了对海量数据进行采集的条件,为满足本文系统对海量数据的存储需要,对存储器进行选型。结合海量数据存储需要,本文选择6ES7215-56-78型号的数据存储器作为本文海量数据的存储硬件条件[4]。该型号数据存储器的输出功率为32kHz、工作电压为22V、工作温度范围为-25℃~55℃、接收数据流量的带宽为7500bps、供电方式为DC+8~22V 电源供电。6ES7215-56-78型号数据存储器为双路CAN 总线数据存储器,该存储器中集成了2~4路标号CAN总线接口,使CAN 总线和本文其他硬件结构连接,可完成对云计算中心数据的实时存储。为保证云计算中心数据存储和传输的稳定性,在对本文系统硬件结构进行安装时,预留出6路模拟数据传输路径和2路通用输入/输出口,以此满足在不同调度条件下云计算中心环境的数据输入和输出需要。为6ES7215-56-78型号数据存储器配备IP60等级的安全防护模块,为云计算中心中的数据提供更加可靠的安全运维条件。
2 云计算中心智能运维系统软件应用
2.1 基于大数据的云计算中心数据存储技术设计方案
在云计算的发展中诞生了云存储,通过云计算中心智能运维的基础功能来对海量的大数据进行存储,结合上述文本系统的硬件条件,通过可行的存储技术设计方案将云存储应用于集群、网络技术。云存储技术的应用不需要硬件设备,大幅度增加了网络信息存储安全性能,在提升存储效率的同时,也减少了用户对硬件设施的维护措施过程中成本投入。本文的存储数据库以DM7为本文系统,数据存储在此类型数据库中汇总的结构较为松散,因此可完成对结构化数据、非结构化数据和半结构化数据三种不同的结构类型进行存储。
第一种数据以表格数据为例,通过扫描数据先得到数据结构,再完成对相关信息内容的填充;第二种数据以短视频、音频为例,通常是只填充数据而没有数据结构,因为这类数据不便利用固定的结构来表现;第三种数据以图形、声音文件为例,是指没有规则或隐含规则的数据。利用DM7系统可实现大多数单表查询,在本文系统的云计算中心环境具有搜索引擎的功能,能在运行的过程中快速搜索所需的数据资料。通过合理可行的存储技术设计方案,在保证用户数据的安全前提下节省成本,更好满足用户对数据存储的要求。
2.2 设定云计算中心智能运维周期
将云计算中心智能运维看作是一个数据模型,对数据模型的相关变量进行优化,即为实现对其智能运维。通过本文上述设计的基于大数据的云计算中心数据存储技术方案,为实现更加有效的运维,还应当进行设定周期[5]。
周期设定如下:X 为系统中云计算中心整体寿命的维护周期,Ti为每个运维周期的间隔,i 为具体运维周期个数,取值为i=1,2,3…n。在周期为N-1的运维间隔中,云计算中心信息数据的可靠度高于可靠性阈值L,系统自动识别对云计算中心信息安全的隐患并及时维护;第N 次周期间隔中,若达到达到可靠度阈值L 则说明云计算中心出现问题,这就要对运维指标采集程序和相关模块进行置换处理;如果云计算中心在运维存在失效问题,只需恢复存在问题的板块,利用最小的维护方式来控制云计算中心运行可靠度在阈值范围内。
通过以上数据分析,得到云计算中心智能运维周期的计算公式为,式中,Ti表示为云计算中心运维时间间隔;hi(t)表示为云计算中心第i-1次和第i 次运维周期内的失率;K(t)表示为云计算中心的运行时间。通过设定可行的运维周期,利用计算公式得到有效的运维指标来提高用户信息的安全性能,实现对海量大数据的有效存储。
3 对比实验
本文以某企业信息资源集成云管理平台作为实验环境,分别利用本文提出的运维系统和传统运维对该云管理平台进行运行维护,以此验证两种运维系统的应用效果。在该云管理平台上对各类数据信息的调配需要大量的服务器运行支撑,在运维过程中也需更高频率的监控运行数据。云管理平台的内存为三星DDR4 64GB,操作系统为凝思rocky6.0.42.42和rocky6.0.80,CPU 是intel gold-5120V4中央处理器。首先向云管理平台当中添加1000个正常数据节点,再添加200个故障节点,分别利用两种运维系统完成对云管理平台的运行维护。将两种系统恢复云管理平台正常运行状态所消耗的时间作为对比指标完成对比实验。将实验结果进行记录,并绘制成如表1所示的实验结果对比表。
表1 两种运维系统实验结果对比表
由表1可看出,本文系统恢复云管理平台的正常运行状态时消耗的时间明显小于传统系统。传统系统在运维过程中,其耗时会随着数据节点的增加而增加。本文系统并不会受到数据节点增加的影响。因此,通过对比实验证明,本文提出的运维系统在实际应用中运维效率更高。