基于大数据的计算机数据分析管理系统设计
2021-01-25周迪民
周迪民 欧 嵬
(1.湖南科技学院 教师教育学院,湖南 永州425199;2.湖南科技学院 电子与信息工程学院,湖南 永州425199)
大数据云计算云服务让全球的 IT 业发生巨大的转变[1]。随着大数据时代的到来,信息处理技术面临新的挑战[2],大数据时代的信息具有数据量大、数据类型多、增长速度快、价值密度低等特点[3],在大数据平台中,大数据处理系统特别是基于服务的数据处理系统有大量应用同时在平台中运行[4],用于数据处理的计算机系统是否稳定运行,在大数据云服务中起着关键性的作用。本文提出一个基于大数据的计算机数据分析管理系统,实时分析系统的具体使用状况,当计算机系统超负荷运行时,能及时预警,并给出相关问题的解决方案。
1 大数据概述
大数据主要是能够获取、存储、分析以及整理数据的综合能力,有相关人士认为,大数据时代的到来将会从根本上改变人们的生活方式以及现代社会的发展模式。通过大数据技术在海量的数据中挖掘出满足用户的真正需求的信息,提供给客户更多优质和精准的服务。
大数据拥有数据量大、数据储存方式多样化、信息获取速度快以及低值密度等特点。其中数据量大是与以前相比,大数据处理的数据规模从TB 级上升到PB、EB 甚至ZB 级;数据储存多样化,对新数据储存为具有实时到达、持续不间断、到达速度快等特征的“流数据(streaming data)”[5];获取信息速度快是因为计算机网络技术在不断的进步,在海量的数据中能及时响应;价值密度低,通过对大量的数据采集、运算、分析,最终得到少量的真实的信息。随着电子信息技术的不断发展,大数据技术与云服务等技术进一步融合,能够实现大数据进一步发展。
2 大数据环境下的计算机信息处理技术研究
网络大数据时代下,各行各业中蕴含着海量的计算机数据信息,这些大数据具有海量化、多元化与共享化的特征,不同数据之间又有着紧密的关联性。这一方面使得网络信息的业务处理具有更多的量化性选择,但也促使单一计算机的数据处理工作量大大增加,并导致多种潜在数据管理风险的产生。因此需要引入计算机信息处理技术,采用数据挖掘、云计算、智能算法等技术在大数据系统平台上实现网络复杂数字信息的收集、分类、运算、处理分析与存储,从而满足用户多样化的需求。
现阶段计算机信息处理技术,主要包括信息采集、加工、传播技术、信息存储技术、虚拟化技术、自动化资源调度等内容。通过大数据管理平台、云计算、Hadoop 框架、虚拟机、数据访问控制、数据共享等方法,协同完成计算机数据采集、运算分析与存储过程,实现数据资源配置、信息处理工作。
3 计算机数据分析管理系统模型设计
本文提出一个基于大数据的计算机数据分析管理系统,实时分析计算机的具体使用状况,并在计算机超负荷使用时,及时预警和给出相关问题的解决方案。本系统包括数据采集模块、数据处理模块、数据判比模块、数据分析模块、读取模块、数据库、信息收集模块、控制器、指示灯、信息互通模块等,详见图1。
图1 系统框图
3.1 数据采集
数据采集模块用于采集计算机的数据信息和文档信息。在高性能计算领域,持续性能一般是指在高性能计算机上运行实际应用测试的性能,与应用相关[6],所以数据信息只包括计算机的使用时长、计算机风扇的工作时长和计算机文件的缓存量,而计算机的使用时长界定为计算机屏幕常亮时的总时长,而计算机风扇的工作时长界定为计算机温度异常时的总时长,而计算机文件的缓存量界定为计算机中的过期文件、日志文件和临时文件的存储总量,且文档信息表示为每个本地路径中的各文档打开时长。
3.2 数据处理
数据处理模块获取到上周内的数据信息,标定时间系数Q,负荷系数W,缓存系数E,获取计算机使用系数。具体过程如下:
⑴获取到数据信息中的计算机的使用时长、风扇的工作时长、文件的缓存量,并对其进行赋值;
⑵当计算机的使用时长分别为第一、第二和第三时间级时,此时的时间系数Q 依次对应着预设值A1、A2和 A3,且 A1大于 A2大于 A3;当计算机风扇的工作时长分别为第一、第二和第三时间节时,此时的负荷系数W 依次对应着预设值B1、B2和B3,且B1大于B2大于B3;当计算机文件的缓存量分别为高量级、中量级和低量级时,此时的缓存系数E依次对应着预设值 C1、C2和 C3,且 C1大于 C2大于C3。
⑶数据处理模块在获取到时间系数Q、负荷系数 W 和缓存系数E 时,将其对计算机使用程度的影响占比进行权重分配,依次分配为预设值 q、w和e,且q 小于w 小于e,求计算机使用系数公式如下:
并将其传输至数据判比模块;所述数据判比模块在接收到计算机使用系数R 时,将其与预设值r 相比较,当满足R 大于等于r 时,生成过度使用信号,当满足R 小于r 时,生成正常使用信号,且将过度使用信号或正常使用信号传输至数据分析模块。
3.3 数据分析
数据分析模块将接收到的正常使用信号传输至控制器,而控制器在接收到正常使用信号时,控制指示灯闪烁,控制器与指示灯之间通信连接,数据分析模块在接收到过度使用信号时,从读取模块中提取上周内,计算机每次使用时的CPU 占用率、内存占用率和硬盘读写速率,并对其进行分析操作:
⑴获取到上周内,计算机每次使用时的 CPU占用率、内存占用率和硬盘读写速率,并将其依次标定为 Ti、Yi和 Ui,i=1...n,且 Ti、Yi和 Ui一一对应;
⑵先依据上述中的Ti、Yi 和Ui 来分别计算出各自的变化量:
求出上周内计算机每次使用时的 CPU 占用率的平均变化量、内存占用率的平均变化量和硬盘读写速率的平均变化量,公式如下:
最后求得上周内,计算机每次使用时的 CPU占用率的均值、内存占用率的均值和硬盘读写速率的均值,公式如下:
将T、Y 和U,以及t、y 和u 分别与预设值a、s 和d,以及f、g 和h 相比较,当满足T 大于a、t大于f 时,生成CPU 异常信号并传输至数据库中调取对应的CPU 占用过度解决文档,并与T 和t 一同生成CPU 解决信号,当满足Y 大于s、y 大于g 时,生成内存异常信号并传输至数据库中调取对应的内存过度解决文档,并与Y 和y 一同生成内存解决信号,当满足U 大于d、u 大于h 时,生成硬盘读写异常信号并传输至数据库中调取对应的硬盘读写缓慢解决文档,并与U 和u 一同生成硬盘读写解决信号,且将 CPU 解决信号、内存解决信号或硬盘读写解决信号经由控制器传输至信息互通模块;信息互通模块将接收到的 CPU 解决信号、内存解决信号或硬盘读写解决信号发送至用户手机中进行显示;而在 T 与 a、t 与 f,Y 与 s、y 与 g 或 U 与d、u 与h 处于其它情况下时,不生成任何信号与数据库之间进行数据交流,只是将T、t,Y、y 和U、u 一同发送至用户手机中进行显示,便于用户对上周计算机的使用程度进行了解,实现了计算机系统的实时掌控。
结 语
高性能计算机的稳定运行直接关系到大数据服务的有效性和实时性。本系统能实时掌握高性能计算机工作状态,并其在过度使用时,对计算机核心部分的工作状况进行分析,同时提供相应的解决方案,及时调整计算机系统工作状态,保障大数据服务的正常运行。