APP下载

固态硬盘可靠性关键指标测试方法研究

2022-11-18朱县亮华明静黄林轶

质量与标准化 2022年8期
关键词:测试方法耐久性硬盘

文/朱县亮 华明静 黄林轶

随着人工智能、物联网、5G、车载以太网、虚拟/增强现实等新一代信息技术的快速发展,数据中心在短时间内处理和存储的数据量从TB向PB、EB和ZB发展,对存储设备的读写性能提出更高要求。一直以来,机械硬盘是数据中心的主要存储设备,而机械硬盘存储速度主要取决于盘片的旋转速度。目前,读写速度已面临瓶颈,很难再有新的突破,而采用闪存技术的固态硬盘(SSD)(又名固态盘)具有存储密度高、存取速度快等优点,已经成为数据中心新的存储设备,市场占用率逐渐提高,2022年会超过机械硬盘成为硬盘主流。

一、我国SSD质量现状

与传统机械硬盘相比,SSD具有存储密度高、存取速度快、可靠性高、功耗小、噪声小和使用寿命长等优点。SSD主要由主控芯片、闪存颗粒、固件、缓存单元和接口等构成。国内在SSD方面起步比较晚,早期由于缺乏核心技术,特别在主控芯片和闪存颗粒上依赖国外进口,产业发展比较艰难,在行业竞争中处于劣势。从2016年国家投资成立长江存储科技有限责任公司开始,国内加大SSD核心技术的研发投入,国内固态硬盘整体产业供应链获得快速发展。

由于固态硬盘主要由主控芯片和存储颗粒组成,跟传统机械硬盘相比,总体组装难度大大降低。因此,国内SSD整体市场,特别在消费市场端,目前存在一些山寨小品牌,其产品质量比较差,影响整个SSD产业的发展。

评估SSD质量,除了容量大小、读写速率等典型性能指标外,平均失效间隔工作时间(MTBF)和数据保持能力等可靠性关键指标也是其重要指标。特别对于企业级用户来说,由于存储设备的不可靠而导致重要数据丢失,会造成不可估量的损失。因此,作为存储介质的SSD,必须对其可靠性关键指标进行测试评估。而当前国内缺乏SSD的MTBF和耐久性等方面的相关测试标准,一些企业未对组装的SSD进行严格的品质测试,对MTBF和耐久性等可靠性关键指标把控不严格,SSD存在数据丢失、可靠性不高等质量问题,造成用户重大损失。

本文将重点研究SSD可靠性关键指标测试方法,根据国内外行业情况和SSD的产品特点,从MTBF、耐久性和数据保持方面对SSD的测试方法进行研究。

二、测试方法总体分析

目前,关于SSD的可靠性关键指标测试标准主要有:国内行业标准《面向互联网应用的固态硬盘测试规范》(YD/T 3824-2021)和《固态盘通用规范》(SJ/T 11654-2016);国外联合电子设备工程委员会(JEDEC)制定的《SSD要求与寿命测试方法部分》(JEDEC JESD218B.01-2016)和《SSD耐久性工作负载》(JEDEC JESD219A.01-2022)。

在YD/T 3824-2021中,SSD的可靠性主要是考核硬盘在压力情况下的运行稳定性,测试方法采用单个硬盘在运行读写软件进行数据读写的压力条件下进行48 h的测试,属于单个硬盘工作稳定性测试。

在SJ/T 11654-2016中,SSD的MTBF测 试采用传统电子产品的测试方法,即同时施加电应力和温度应力。试验方案依据国家标准《设备可靠性试验 恒定失效率假设下的失效率与平均无故障时间的验证试验方案》(GB/T 5080.7-1986)进行。SJ/T 11654-2016对MTBF进行测试验证,测试的指标为不可接受的MTBF(m1),测试总体周期比较长。因此,SJ/T 11654-2016的要求为m1值≥10 000 h,而目前SSD企业给出的m1值一般在1 000 000 h以上,属于MTBF测定值。因此,SJ/T 11654-2016的可靠性MTBF测试方法不适用于SSD企业的MTBF测定值指标。本文基于传统电子产品MTBF测定值方法,针对SSD的MTBF测定试验方法进行研究。

JEDEC JESD218B.01-2016和JEDEC JESD219A.01-2022主要用于SSD耐久性和数据保持等可靠性关键指标的测试。目前,这两项标准已经成为SSD行业内进行耐久性测试所依据的标准。本文结合自身的检测经验,依据GB/T 5080.7-1986、JEDEC JESD218B.01-2016和JEDEC JESD219A.01-2022,对SSD的耐久性和数据保持等可靠性关键指标项目的测试方法展开分析研究。

三、MTBF测定试验

MTBF是衡量SSD产品的可靠性关键指标。产品的失效率为产品的故障总数与寿命单位总数之比,一般用λ表示,当产品的寿命服从指数分布时,其失效率的倒数为MTBF。目前,国内的SSD企业一般标称其产品的MTBF值为1 000 000 h以上。由于MTBF值比较大,为了减少测试成本和测试时间,SSD的MTBF测试,一般需采用温度加速方案进行。

MTBF测定试验,一般需制定好测试方案。首先,试验者需要确定样本数量、测试温度和测试时间。样本数量、测试温度和测试时间在置信度为60%时需满足公式1、公式2的要求。

公式1中,T为总的测试时间;SS是SSD的样本数量;Af为加速因子。

公式2中,e =2.71828;Ea为激活能值,单位为电子伏(eV),一般取1.1 eV 或0.7 eV;k为玻尔兹曼常数,k= 8.617×10-5eV/k;Tuse为正常使用温度,单位为开尔文(K),消费级为40 ℃,企业级为55 ℃;Ttest为测试SSD本体温度,单位为开尔文(K),测试温度为样本实际的温度,测试时不能低于正常使用温度。

在确认好样本数量、测试温度和测试时间后,确定好抽样方案,抽取所需要的样本数量后,测试者将SSD样本按照确定的加速方案的温度条件,放置于恒温箱中,然后通过负载生成软件,运行JEDEC219码流,对被测SSD进行不间断读写测试,测试时间为高温加速方案确定的时间。测试者在整个测试时间中收集并记录输入输出(IO)错误、数据不一致次数和失效样本个数,如无IO错误、数据不一致和失效样本,则通过本项测试。

四、耐久性和数据保持试验

SSD的耐久性是指SSD经受连续多次数据重写(编程/擦除循环)的能力。数据保持是指在规定的时间内,SSD保持数据的能力。SSD的耐久性和数据保持能力是衡量其可靠性的重要指标。根据JEDEC JESD 218B.01-2016和JEDEC JESD 219A.01-2022对SSD的分类,SSD的不同应用场景,它可分为消费级和企业级。不同类别的SSD对于可靠性关键指标的要求不一样,对于耐久性指标主要采用平均失效工作读数据位数m1作为量化指标,数据保持指标主要采用一定温度下的数据保持时间作为量化指标。

根据GB/T 5080.7-1986、JEDEC JESD 218B0.1-2016和SSD行业情况,SSD的耐久性和数据保持指标技术要求详见表1。

表1 耐久性、数据保持指标技术要求

1.耐久性试验

对于耐久性试验测试,其指标采用m1进行衡量,试验方案依据GB/T 5080.7-1986进行。GB/T 5080.7-1986有截尾序贯和定时(定数)截尾试验方案,不同试验方案对于生产方风险α、使用方风险β和试验的周期不一样,总的规律是试验周期越长,生产方风险α和使用方风险β越小。因此,本文需根据试验的周期和成本,选用合适的试验方案。

以采用GB/T 5080.7-1986的截尾序贯试验“方案4:7”的试验方案为例,本文对耐久性试验的样本数量和验收标准进行计算,SSD失效数为数据错误数,则具体样本数量和验证标准需满足公式3—公式5的要求。

当数据错误数为0个时:

当数据错误数为1个时:

当数据错误数为2个时:

式中,CP/E为最大P/E次数;C为SSD容量,单位为GB。

数据错误数超过3个,则试验失败。

在确定好样本数量后,测试人员还需确定耐久性试验的试验温度,参考JEDEC JESD 218B.01-2016,将样本分为两组,各占50%,一组在低温下进行低温耐久性试验,一组在高温下进行高温耐久性试验。

进行低温耐久性试验时,样本在温度T≤25 ℃环境条件下,通过负载生成软件运行JEDEC219码流,对被测SSD进行不间断测试,直到被测的SSD达到最大P/E次数。

进行高温耐久性试验时,样本按照公式6规定的温度条件和试验时间进行,通过负载生成软件运行JEDEC219码流对被测SSD进行不间断测试,直到被测的SSD达到其最大P/E次数。

其中,C为常数,消费级SSD取1.318 25 ×10-14,企业级SSD取1.675 59×10-13;Ea一般取1.1 eV;k= 8.617×10-5eV/k;Ts为试验温度,单位为开尔文(K),消费级SSD≥45 ℃,企业级SSD≥60 ℃;ts为试验温度,单位为h。

在进行耐久性试验的每个P/E循环之间允许增加间歇,间歇不能仅在耐久性试验结束时插入,且插入的间歇时间和高温耐久性的实际时间的相加,需要满足规定的对应值。间歇的方式包括SSD断电或通电但未写入数据,如果SSD通电,应确保不执行实际使用过程中进行的任何后台维护。

2.数据保持试验

依据《非易失性存储器耐久和数据保持试验方法》(GB/T 35003-2018),数据保持试验主要考核SSD的数据保存的可靠性,一般对于数据保持试验,如不采用加速,需按照表1的要求进行试验,试验周期比较长,特别对于消费级SSD,需要1年的试验时间,这不利于企业新产品的研发销售,因此,一般业内采用高温加速方案进行数据保持试验。对于试验所需的样本数量,本文选用进行高低温耐久性试验后的所有样本。在进行数据保持试验时,测试人员需在温度40 ℃(企业级SSD)或30 ℃(消费级SSD)条件下,先将所有SSD的样本进行全盘写入数据一遍,然后断电放置于温度为66 ℃高温条件下,放置时间 为≥96 h。

当最高温度< 66 ℃时,数据保持试验的高温加速温度需降低,其相应的试验时间也需增加,一般建议采用其最高贮存温度和对应的试验时间进行数据保持试验。具体试验时间可采用公式7进行计算[1]。其中,Ea一般取1.1 eV,k = 8.617×10-5eV/k 。

所有样品进行高温加速放置试验后,测试人员需对所有SSD读回所存取的数据。在试验过程中,测试人员需收集并记录所有样本的IO错误、数据不一致次数和失效样本个数,数据保持试验最终的验收准则为无IO错误、数据不一致和失效样本。

五、结语

目前,国内企业正在大力发展SSD产业,在技术和产品工艺上不断取得进步,同时也急需提升SSD测试方法和测试技术来保证产品的质量。本文重点研究了SSD的MTBF测定、耐久性和数据保持等可靠性相关测试方法,为SSD测试提供参考。

猜你喜欢

测试方法耐久性硬盘
氯盐环境下提高电厂混凝土耐久性措施研究
PCle 4.0平台的性价比之选!WD_BLACK SN770固态硬盘
沥青混合料沥青用量测试方法研究
影响桥梁结构耐久性的主要因素及其应对措施
基于耐久性的建筑工程混凝土结构设计分析
关于桥梁设计中的安全性与耐久性问题的几点思考
无人驾驶车辆认知能力测试方法
一种嵌入式数控系统的体系结构与系统设计
AEBS场地测试方法
插拔硬盘所引起的硬盘启动顺序更改