APP下载

基于混合深度神经网络的硬盘“退役”预测模型

2021-10-18胡正西

江科学术研究 2021年3期
关键词:扇区硬盘计数

卢 伟 胡正西

1 引言

随着信息化的不断深入,数据的价值越来越大[1]。同时,技术的发展也使得存储媒介(特别是大容量硬盘)的价格越来越低。为保障数据的存储安全,传统做法通过监控S.M.A.R.T 数据,并做出故障预测判断[2]。目前,最新的故障预测成功率在76%左右。然而,为了保证数据的“绝对”安全,不仅要成功预测硬盘的“损坏”时间,更要保证服役期硬盘的健康,并在可能出现故障之前进行替换。因此,本文提出了一种基于混合深度神经网络的硬盘“退役”预测模型,旨在利用深度神经网络提取硬盘的多维深度特征,判断硬盘“是否健康”“是否退役”,并通过级联的方式提高模型效率,使之适应海量硬盘的快速判断。论文工作的主要贡献如下:

(1)对S.M.A.R.T[3]信息进行筛选,提取其中的8个指标作为硬盘状态判断的标准。同时,根据业务实际情况,增加业务权重指标1 个,用以对不同业务设置初始权重,方便模型权重调优;

(2)除业务权重指标外,每小时采样所提取的8个S.M.A.R.T指标,并将其均值作为某一天的参考值;

(3)以最近的90天为一个构建单位,将健康指标和退役指标分别构建为2个二维浮点矩阵,作为深度神经网络和循环神经网络训练或预测的输入参数;

(4)基于ZfNet卷积神经网络和长短时记忆网络,构建混合神经网络以判断硬盘是否健康;

(5)基于ZfNet卷积神经网络,以判断硬盘是否已达退役期限;

(6)将(4)和(5)顺序级联,判断硬盘是否应该替换。

2 S.M.A.R.T选取及依据

硬盘的运行反馈数据包含指标众多,如果全部纳入统计,不仅会给预测算法带来过多的输入噪音,降低统计预测精度;而且还会影响算法效率。故在进行前期数据建模时,需要根据运维经验提取与硬盘寿命、硬盘好坏判别标准强关联的指标,构建输入数据结构,为算法分析、预测提供依据[4-6]。

2.1 硬盘健康指标提取

健康指标全部从S.M.A.R.T 反馈数据中提取,共包括5 个指标,与硬盘扇区、存储块紧密关联。是衡量硬盘好块的最直接关联指标。相关指标和解释说明具体如下:

(1)重映射扇区计数

概念解释:重映射扇区计数(记为:h1)是指当硬盘的某一个扇区时长持续出现读写或校验错误时,硬盘硬件监测程序会将该扇区的物理地址加入硬盘缺陷表中,同时将该地址和该地址的数据重新定向到先前保留的备用扇区。重映射扇区计数不仅是判断硬盘的寿命关键参数,而且计数量也将直接影响硬盘的性能,即该参数指标在“损坏预测”和“退役预测”中都是重要指标。如当硬盘出现数据量大,但重映射扇区计数值出现下降不明显的情况时,虽然当前这种硬盘可能还可以正常运行,但是也存在随时损坏的情况,对于比较重要的数据操作时不宜继续使用。

(2)无法校正的错误

概念解释:无法校正的错误(记为:h2)是指硬盘无法通过硬件ECC校正的错误。即如果出现无法校正的错误数据值不为零,就应该及时备份硬盘上的数据了。

(3)命令超时

概念解释:命令超时(记为:h3)是由于硬盘超时导致操作终止的次数。通常数据值应为0,如果远大于零,最有可能出现的是电源供电问题或者数据线氧化致使接触不良,也可能是硬盘出现严重问题。

(4)读取错误块计数

概念解释:读取错误块计数(记为:h4)的数据表示为“不稳定的”扇区数,即等待被挂起的扇区的数量。在硬盘使用过程中,如果出现不稳定的扇区随后被读写成功,那该扇区就不再列入等待范围,随之读取错误块计数值也会下降。但是,如果下次对该扇区写入时如果继续出错,此时重映射扇区计数与重映射事件计数的数据值就会增加,并会产生一次重映射操作。

(5)脱机无法校正的扇区计数

概念解释:脱机无法校正的扇区计数(记为:h5)累计了读写扇区时发生的无法校正的错误总数。数据值上升表明硬盘的有些扇区肯定已经不能读取,即可能是盘片表面介质或机械子系统出现问题,如果有文件正在使用这些扇区,操作系统会返回读盘错误的信息。

2.2 硬盘退役指标提取

硬盘退役可以理解为,当前还能正常工作,但某一些指标已经出现衰退现象,或服役期限过长。本专利拟提取4 个指标,相关指标和解释说明具体如下:

(1)寻道性能

概念解释:寻道性能(记为:r1)表示硬盘寻道操作的平均性能(寻道速度),通常与前一项(寻道错误率)相关联。当前值持续下降标志着磁头组件、寻道电机或伺服电路出现问题。

(2)温度

概念解释:温度(记为:r2)的数据值表示当前硬盘内部的温度。一般而言,硬盘运行时最好根据厂商给出的温度范围使用(一般不超过60℃),温度过高容易引起的机械变形,从而导致寻道与读写错误率上升,降低硬盘性能。硬盘的最高允许运行温度可查看硬盘厂商给出的数据。

(3)通电时间累计

概念解释:通电时间累计表示硬盘通电的时间(记为:r3),该参数直接累计了设备通电的时长,新硬盘当然应该接近0,接近临界值表明硬盘已接近预计的设计寿命。持续通电计数里就不包括睡眠时间;如果关闭了DIPM 功能,那么活动、空闲和睡眠三种状态的时间都会被统计在内。

(4)业务复杂权重

业务复杂权重(记为:r4)是自行定义指标,此项指标不能从S.M.A.R.T中提取。不同的业务在硬盘读写频繁程度上均有不同。而硬盘存储块的擦写次数也与其寿命直接相关。一般情况下,可以理解为:擦写次数越多,寿命越短,擦写次数越少,寿命越长。

3 基于深度学习的级联分类方法

现有基于S.M.A.R.T的硬盘预测算法大多基于规则(基于阈值)判断,在阈值选取和规则设定上比较依赖人工经验,特别是在高纬数据结构的规则设定上,难以提取细分阈值。本拟申请专利拟基于深度学习技术,构建深度网络模型,提取输入数据结构的深度特征,实现硬盘是否“退役”的判断与预测[7]。

3.1 按天构建指标值

S.M.A.R.T 指标可以根据需要定时进行采集,为保证所采集指标稳定、可靠,本论文每小时采集一次指标信息,并求其均值作为当天的指标数据,指标计算如公式(1)。

其中,X 代表某一具体的S.M.A.R.T 指标一天的均值,xi为X在某一时点的指标值。

3.2 输入数据结构

数据标定,包括:“好盘运行数据及标定”,以及“坏盘运行数据及标定”。数据标定计算见公式(2):

图1 二维参数矩阵

3.3 级联预测模型构建

鉴于故障硬盘必须“退役”,而已到“服役期”的硬盘可能仍然健康这两点因素,在构建预测模型时,构建二级分类模型,必然是提高效率,提升准确率的最为有效的方法[8]。模型构建分为三个部分,具体如下:

3.3.1 深度神经网络选型与构建

ZfNet[9]是2013年ISVRC 的冠军模型,使用ReLu激活函数,交叉熵为损失函数,通过对AlexNet[10]进行微调,使用较小的filter以保留更多原始像素信息,是对已小尺寸输入而言,具有结构简单,效率高,准确率高等特点。故在本论文中,卷积神经网络模型均采用的是ZfNet。

本论文同时还构建了LSTM 网络以获取硬盘S.M.A.R.T指标的趋势信息,趋势信息的分类结果可作为ZfNet的有效补充,有效提高硬盘健康与否判断的准确率。

3.3.2 基于混合神经网络的硬盘健康判断模型

如图2所示,其中“卷积神经网络模型”用以提取二维矩阵深度特征,提高预测准确率;“长短时序网络模型”用以提取健康指标在时间维度的特征并进行预测(如:h1 的指标是否随时间增加而增大,如果“是”,则为硬盘“不健康”的重要指标)。在两个模型都得到二分类概率后,对当前硬盘的二分类概率进行平均求值,并最终得到指定硬盘“健康”与否的判断。

图2 基于深度学习技术的硬盘健康情况预测混合模型

3.3.3 基于卷积神经网络的硬盘退役判断模型

图3所示为硬盘在“健康”状态下,是否“退役”的判断。与图2 的混合模型不同,“退役”指标R={r1,r2,r3,r4}时间维度的特征对最终判断影响不强(如:累计通电时间,肯定是随着日期增加而增加,无需通过长短时序网络进行特征发现),所以仅利用卷积神经网络对其进行二分判断即可。3.3.4 硬盘更换的级联网络模型

图3 基于卷积神经网络的硬盘退役情况预测模型

在本文提出的硬盘“退役”二级分类模型中,分为健康判断模型和退役判断模型两种。“退役”模型在“健康”模型之后进行,即:如果“健康”模型判断硬盘位“健康”,则再进行“退役”判断;如果“健康”模型判定硬盘为不健康,则直接判定硬盘需要“更换”,而不调用“退役”模型,节省模型运行时间。最终模型如下图所示:

图4 基于深度混合网络的硬盘“退役”预测模型

4 总结

相较于基于规则与阈判断的值传统硬盘损坏判断方法在阈值设定和判断规则的设定上对经验的依赖很高的缺陷,本文通过引入深度神经网络并融合混合神经网络模型,对输入的参数矩阵进行硬盘任意多种深度特征的提取,并降低规则、阈值设定的复杂性,探究了一种基于混合深度神经网络的硬盘“退役”预测模型,旨在利用深度神经网络实现硬盘“是否健康”、“是否退役”的判断,为提高硬盘“损坏”判断的准确性等方面提供新的解决思路。

猜你喜欢

扇区硬盘计数
分阶段调整增加扇区通行能力策略
古人计数
递归计数的六种方式
HiFi级4K硬盘播放机 亿格瑞A15
Egreat(亿格瑞)A10二代 4K硬盘播放机
古代的计数方法
U盘故障排除经验谈
这样“计数”不恼人
基于贝叶斯估计的短时空域扇区交通流量预测
重建分区表与FAT32_DBR研究与实现