APP下载

天津测震台网应用系统负载分析与磁盘容量预测技术

2017-07-24孙路强柳艳丽

网络安全技术与应用 2017年7期
关键词:测震磁盘时序

◆孙路强 刘 磊 许 贺 柳艳丽

(天津市地震局 天津 300201)

天津测震台网应用系统负载分析与磁盘容量预测技术

◆孙路强 刘 磊 许 贺 柳艳丽

(天津市地震局 天津 300201)

天津市地震局通过“九五”“十五”数字地震观测网络的建设,实现了测震台站数据网络化传输,波形数据实时存储于AWS数据存储服务器中,用户通过人机交互系统从存储数据中调取波形数据进行分析并提交分析结果。同时测震台网集成地震速报、数据共享、系统监控、数据分析等多项功能,业务系统庞大。因此任何一种资源负载过大,都可能会引起测震系统的性能下降甚至瘫痪。服务器、数据库、中间件和存储设备的运行状态成为管理员急需关注的,及时了解当前应用系统的负载情况,采取相应措施预防,降低测震系统运行风险。

资源负载;系统瘫痪;运行风险;测震系统

0 引言

随着计算机的相关软件的开发,数学知识不再是空谈理论,时间序列分析主要是建立在数理统计基础之上(李红梅,2016),是一种动态数据处理的统计方法,它承认事物发展的延续性,在考虑过去数据的情况下,同时考虑事物发展的随机性,以预测未来事物的发展。

应用系统的负载率可以通过对一段时间内软硬件性能的运行状况进行综合评分而获得。通过对系统的当前负载率与历史平均负载率进行比较,获得负载率的当前趋势。通过负载率以及负载趋势可对系统进行负载分析。

1 负载分析方法与过程

作为存储测震波形数据的数据存储服务器,出现突发故障造成系统瘫痪的可能性很小,通常是一个逐渐变化的过程,由于系统长时间的使用,台站实时数据不断的写入存储服务器中,存储空间逐渐变小,最终因存储空间不足造成系统故障。因此,在不考虑人为因素的影响时,服务器存储空间变化与时间是相关联的,并且历史存储数据对未来存储空间的发展存在影响,可利用时间序列分析方法预测服务器磁盘使用空间,并提醒测震台网人员提前采取措施,保障测震系统正常运行。

应用系统容量预测建模首先从数据源中选择性抽取历史数据,并每天定时抽取数据,对抽取的数据进行周期性分析以及数据清洗、数据变换等操作,形成模型数据。随后采用时间序列分析方法对建模数据进行模型的构建,利用模型预测服务器磁盘已使用情况(王巍,2016)。最后应用模型预测服务器磁盘将要使用情况,通过预测到的磁盘使用大小与磁盘容量大小按照定制化标准进行判断,将结果反馈给系统管理员,提示管理员需要注意磁盘的使用情况,建模过程见图1。

1.1 数据抽取

磁盘使用情况信息存放在性能数据中,但监控采集的性能数据中存在大量的其他属性数据,为了抽取出磁盘数据,以采集指标的时间为条件,对性能数据进行抽取。模型以时序分析法进行建模,为了建立合理的预测模型,需要分析数据的平稳性。通过时序图可以初步发现数据的平稳性,针对测震业务服务器磁盘已使用大小,以天为单位进行周期性分析,时序分析如图2。

图1 测震系统数据存储容量建模流程图

图2 /root/emc_data磁盘使用空间时序图

1.2 数据预处理

在实际测震系统磁盘空间预测和负载分析的过程中,监控系统会每天定时对磁盘的信息进行收集,一般情况下磁盘容量属性是一个定值,因此磁盘原始数据中会存在磁盘容量的重复数据,在数据清洗过程中,剔除磁盘容量的重复数据(黄大荣,2004;刘芳,2005),并且将所服务器的磁盘容量作为一个定值,方便模型预警。经过数据清洗后磁盘相关属性以记录的形式存在数据中,每台服务器的磁盘信息可以通过信息表中的 NAME、TARGET_ID、ENTITY三个属性的值合并,构建新的属性,如表1、表2所示。

表1 原始性能表

表2 属性变换后的性能表

合并属性变换的Python代码如下:

#属性变换

import pandas as pd

#参数初始化

discfile='../emc_data/waveform/discsize.xls' #磁盘相关属性记录

transformeddata='../tmp/discsize_process.xls' #预处理后磁盘信息记录

data=pd.read_excel(discfile)

data=data[data['DISGET']==164].copy() #只保留DISGET为164的数据

data_group=data.groupby('COLLECTTIME') #以时间分组

defattr_trans(x): #属性变换函数

result=pd.Series(index=['SYSTEM' ,'CZTW_AWS:164:rootemc_datawaveform','COLLECTTIME'])

result['SYSTEM']=x['SYSTEM'].iloc[0]

result['COLLECTTIME']=X['COLLECTTIME'].ILOC[0]

result['CZTW_AWS:164:rootemc_datawaveform']=x['VALUE'].il oc[0]

return result

data_processed=data_group.apply(attr_trans) #分组处理

data_processed.to_excel(transformeddata,index=False)

1.3 模型构建

通过预处理后的数据可分为两部分,包括用于建模的样本数据和模型验证数据,在构建磁盘空间预测模型之前,首先对时间序列值平稳性进行检测,对不平稳的模型值序列进行差分处理直至数据平稳。对于平稳数据再次进行白噪声检验,用于判断序列中的有用信息是否已被提取完毕,并只剩下随机干扰数据,通过白噪声检验后,确定测震数据存储磁盘空间预测模型为 ARIMA模型(叶丰艳,2009;孙志林,2012),利用模型识别方法进一步确认该模型的p,q参数,磁盘空间预测建模见图3。

图3 磁盘空间预测建模图

为了确定原始数据序列中没有随机趋势或确定趋势,需要对数据进行平稳性检验,从而避免出现“伪回归”现象。同时需要对序列进行白噪声检验,用于确认序列中有用信息是否已被提取完毕,如果序列检验为白噪声序列,就说明序列中的有用信息已被提取完毕,剩余全为随机扰动,无法进行预测和使用。

2 模型评价

为了评价时序预测模型效果的好坏,采用3个衡量模型预测精度的统计量指标:平均绝对误差、均方根误差和平均绝对百分误差。这三个指标从不同侧面反映了算法的预测精度。选择建模数据的后5行记录作为实际值,将预测值与实际值进行误差分析,模型评价代码如下:

import pandas as pd

discfile=’ ../tmp/discsize_process.xls’

data=pd.read_excel(discfile)

data=data.iloc[:len(data)-5] #不使用最后5个数据

from statsmodels.tsa.stattools import adfuller as ADF #利用ADF方法进行平稳性检测

diff=0

adf=ADF(data['CZTW_AWS:164:rootemc_datawaveform'])

while adf[1]>=0.05: #p值小于0.05认为平稳

diff=diff+1

adf=ADF(data['CZTW_AWS:164:rootemc_datawaveform'].diff(d iff).dropna())

3 模型应用

使用建立的ARIMA时序模型预测存储服务器磁盘空间时,首先完成定时从AWS数据存储服务器上抽取数据,并对抽取数据进行预处理,将处理后的数据放到模型的初始数据中,作为该模型的输入数据,时序模型通过调用初始数据预测存储服务器磁盘未来一周内空间使用情况,从而判断未来磁盘使用率,当使用率达到预先设置的阈值时,就会以短信方式将报警信息发送给测震台网系统维护人员。同时可根据需要将预测得到的空间使用率对应不同的预警等级通知维护人员,采取不同的处理措施。

由于该系统基于历史波形数据进行建模,随着时间变化,每天定时将新增数据添加到初始建模数据中,通过数据初始分析发现磁盘空间日变化量较小,因此每半月对模型进行调整,减少预测结果误差。

天津市测震台网采用ARIMA时序模型对AWS存储服务器磁盘进行监控预警的同时,利用该模型对磁盘负载情况进行分析,统计AWS存储目录下徐庄子地震台全天小时数据量变化,并与该台站全天各时段的台基噪声 RMS统计情况进行对比,通过对比发现台站波形数据量与台基噪声RMS值变化趋势相对一致,因此可将台站观测数据变化情况作为台基噪声评估的一项指标,徐庄子台基噪声与数据量变化对比见图4。

图4 基于Python时序分析法台站数据量变化与台站台基噪声对比

4 结语

通过系统负载分析与磁盘容量预测程序的应用,天津测震台网系统运行管理工作更加有序,管理员通过测震系统性能监控,对系统整体运行情况进行判断,准确预测系统性能发展趋势,向管理员提供信息服务,并作出相关措施来解决问题。同时将数据量增长预测应用到测震台站噪声评估中,提供台站技术系统问题预警功能。

[1]李红梅,唐岚.基于Python的交通流数据清洗[J].电子技术与软件工程,2016.

[2]王巍.基于ARIMA模型的安徽省城镇化水平预测研究[J].赤峰学院学报:自然科学版.

[3]黄大荣,李劲.基于粗糙集理论的数据清洗模型[J].自动化技术与应用,2004.

[4]刘芳,何飞.基于聚类分析技术的数据清洗研究[J].计算机工程与科学,2005.

[5]叶丰艳.ARIMA模型在门诊季节性时序预测中的应用[J].中国医院统计,2009.

[6]孙志林,卢雅倩等.港口吞吐量的马氏链-时序分析预测[J].浙江大学学报:工学版,2012.

由中国地震局监测、预测、科研“三结合”课题(CEA-JC/3JH-160201)资助。

猜你喜欢

测震磁盘时序
叶腊石聚合成型及其旋转磁盘的制作方法
基于信号精度分析的高速铁路沿线测震井地震动力反应研究
清明
广西测震流动观测的发展与应用
钟祥台测震观测质量影响浅析
基于不同建设时序的地铁互联互通方案分析
解决Windows磁盘签名冲突
修改磁盘属性
基于FPGA 的时序信号光纤传输系统
测震波形数据存储和管理系统设计与实现