存储服务器及存储BOX设计及测试要点
2020-02-22谭世伟张翔宇陈思睿丁兆鹏
谭世伟 张翔宇 陈思睿 丁兆鹏
摘要:在后互联网时代,计算是生产力,数据是生产资料,数据的存储与应用越来越引起关注。针对热数据采用NVME协议的SSD用于快速存储与计算,针对冷数据采用SATA或者SAS形式的机械硬盘作为存储数据与应用。相应的为了满足当前对数据量的需求,大容量的存储服务器,存储Jbod,存储Jbof越来越应用到互联网行业中。存储Jbof作为热数据进行快速存储,存储Jbod作为冷数据为大容量数据进行长期存储,形成数据存储保护的硬件基石。存储服务器,存储Jbod及存储Jbof因为满足了大容量数据的存储需求,越来越得到行业的大力发展。本文章将通过结合实际的应用场景提出存储服务器,存储Jbod及存储Jbof的设计及测试要点.
关键词:存储服务器;设计要点;存储Jbod;存储Jbof;测试验证
中图分类号:TP311 文献标识码: A
文章编号:1009-3044(2020)36-0047-03
Abstract: In the post-Internet era, computing is compression, data is production material, and data storage and application are attracting more and more attention. SSDs using NVME protocol for hot data are used for fast storage and calculations, and mechanical hard drives in the form of SATA or SAS are used for cold data to store data and applications. Correspondingly, in order to meet the current demand for data volume, large-capacity storage servers, storage Jbod, and storage Jbof are increasingly used in the Internet industry. Storage Jbof is used as hot data for fast storage, storage Jbod is used as a storage server, and storage Jbod and storage Jbof are more and more vigorously developed in the industry because they meet the storage needs of large-capacity data. The actual application scenario proposes the design and test points of storage server, storage Jbod and storage Jbof.
Key words: storage server;design points; store jbod; store jbof; test verification
后互聯网时代,AI以及边缘计算崛起,但是计算是生产力需要大量的数据作为分析的源泉。数据的发掘分析成就了互联网时代的兴盛,而数据量成指数型规模化增长,带来了数据存储的大量需求。用于数据存储的存储服务器,存储Jbob,存储Jbof等硬件架构,为数据存储提供了PB级别的数据存储能力。存储Jbod以机械硬盘为主,重点用于冷数据存储;存储Jbof以SSD以及最新的nvme SSD为主,以近内存的速度提供快速的数据存储与应用。文中将存储Jbod和存储Jbof全部归为存储BOX。鉴于存储BOX可以改配成任何形式的机头,使其应用场景非常广泛。只要机头(服务器)拥有pcie插槽,支持相应的SAS卡or RAID卡or 100G网卡,均可以改配连接后端的存储BOX。存储服务器兼具计算节点和存储节点,存储BOX纯数据存储节点。本文重点探讨研究存储服务器,存储BOX设计以及测试验收要点。
名词解释:
1) 存储BOX:指存储Jbod与存储Jbof的总称。
2) JBOD: Just a Bunch Of Disks,磁盘簇,是在一个底板上安装的带有多个磁盘驱动器的存储设备,SAS or SATA 机械硬盘柜。
3) JBOF:Just a Bunch Of Flash,非机械硬盘组成的存储柜,SAS-SSD SATA-SSD NVME-SSD等非机械硬盘组成的存储柜。
4) 存储服务器以偏重数据存储为重点,支持多硬盘大存储容量的服务器,对计算能力要求不高,可支持单CPU,双M.2等简单服务器配置。
1 存储服务器及存储BOX测试常见故障
分布式存储中存储服务器,存储BOX,在研发设计和测试中经常遇到如下常见设计以及测试故障:
1) 掉盘;
2) 性能差;
3) 关键核心部件没有温度监控;
4) Jbof与机头SAS接口连线顺着插和反着插均可用,外观指示灯无差别均显示正常;
5) 插拔Jbod后,链路状态显示正常,但是跑出来的性能极差;
6) BOX不支持先开机头再开BOX;
7) 硬盘单体没有efruse保护机制;
8) 硬盘背板以及硬盘无过流保护;
9) 硬盘背板,PDB供电板等设置OCP点过低;
10) 高速信号链路余量不足等;
11) 一些升级需要AC断电才生效;
12) 存储服务器系统盘不支持冗余设计等。
以上种种问题导致耽误大量的人力和时间去分析定位根因。测试中测试前准备工作不足,设计工作做的不充分,导致实际测试工作中,各种掉盘问题,掉带宽问题等等,研发定位分析问题测试复现问题等超过1个月才完成问题定位。
存储服务器,存储BOX,因为缺少设计以及测试规范,缺少合理的测试流程和测试手法,导致投入大量人力和时间去分析定位问题,项目一直延期。
2 存储服务器及存储BOX设计及测试要点
现针对存储服务器及存储BOX,提出如下实际设计与测试总结的要点,方便后期研发设计以及测试人员参考。
存储服务器及存储BOX测试要点[4]:
实际中应以硬盘采用的芯片决定Server使用的 SAS卡or RAID卡的型号。比如硬盘使用的Expander芯片是LSI的,Server端的SAS卡 or RAID卡必須也是LSI的;硬盘端采用的Expander芯片是PMC的,Server端的SAS卡 or RAID卡也必须是PMC的卡子。
1)如果Server 主板BMC不支持SAS卡 or RAID卡的监控功能,SAS卡 or RAID卡就配置成不支持监控功能的NVDATA版本。
2) 一般硬盘数量超过40块,SAS卡 or RAID卡NVDATA配置参数需要设置成不扫描后端硬盘的配置参数;一般硬盘数量过多将导致开机等待时间过长,bios需要更长的检测时间等。
3)存储服务器在测试之前,使用SAS卡 or RAID卡芯片厂商提供的工具检测一下误码率,防止没有检查误码率的情况下进行开展大量测试;一般Expander or Switch芯片厂商均会提供芯片的治具来能够直接查看误码率和带宽。
4)存储服务器 or 存储BOX测试之前,需要对测试硬盘进行选型,必须选用能够支持的功耗最大的盘进行测试,比如空气盘,比如双磁臂硬盘,比如SAS SSD等;
5)在测试之前,对最大功耗的硬盘进行压测时,认真参考此款硬盘的功耗说明书,检查一下硬盘在哪种模式下功耗最高,大多数机械硬盘,在随机读写时功耗最高,测试脚本需要优先使用此模式进行测试。 如下两种模式是压测中功耗比较大的配置参数:随机写 4K小块(Random RW 4KB Qd=8)(random read 4K16Q)。
6) 在进行满配最大功耗硬盘进行压测时,要进行拔掉一块PSU线缆等异常测试。单PSU情况下,PSU输出压降会变大,故障率会比较高。此时实时查看单PSU供电情况下压测是否存在硬盘或者硬盘背板电压降低的告警和故障。
7)存储服务器测试,重点关注硬盘背板OCP点,PDB供电板最大输出功率等;需要进行全链路压降测试。
8) 针对通过线缆给硬盘背板供电的,重点关注供电线缆的压降情况。
9) 需要进行所有的硬盘由sleep到wake最大整机输入功耗测试,此种情况下功耗最高。
3 存储服务器及存储BOX测试报告及评审要点
针对存储服务器及存储BOX测试验收标准重点关注如下测试报告验收项。
4 存储服务器及存储BOX硬件变更测试要点
现针对存储服务器及存储BOX SIT测试验证验收,提出如下实际测试总结的测试策略和大纲,方便后期测试人员参考:
1)异常场景测试;
2)最大化满配配置测试;
3)核心部件温度传感器监控温度测试;
4)硬盘单体efruse保护机制测试;
5)AC DC Reboot测试;
6)BOX与机头插拔测试;
7)BOX与机头插拔测试后压力测试;
8)BOX与机头插拔测试后性能测试并对比;
9)客户实际应用场景模拟测试;
10)设计需求验收测试;
11)最大化配置下压力稳定性长期测试;
12)可维护部件热插拔测试以及插拔寿命测试;
13)硬盘热插拔测试并插拔后速率检查;
14)性能测试以及性能瓶颈点分析验收;
15)可维护部件更换时间测试;
16)结构丝印验收测试;
17)所有硬盘由sleep到wake时,整机最大输入功耗测试等。
5 结论
存储服务器、存储Jbod及存储Jbof,随着数据量的剧增,将越来越大量地应用到市场端。所以存储服务器、存储Jbod及存储Jbof的长期稳定性及产品质量要求也越来越严苛,这就对存储服务器设计以及测试验收等研发阶段提出更高的要求和技术能力提升。产品质量是企业的生命线,数据安全关乎企业的生存,所以存储服务器及存储BOX设计及测试要点需要不断更新完善。
参考文献:
[1] 田洪元.高密度存储服务器可靠性设计和实现方法研究[D].北京:中国科学院大学,2017.
[2] 刘建峰.基于FPGA的SAS控制器设计与实现[D].武汉:华中科技大学,2008.
[3] 沙超群,尤扬,胡长军,等.高密度存储服务器热设计[J].计算机工程与科学,2015,37(12):2228-2232.
[4] 谭世伟,丁兆鹏,陈思睿.存储Jbod测试规范[J].电脑知识与技术,2020,16(15):260-261.
[5] 朱晨松.冷存储系统关键模块设计与实现[D].北京:北京邮电大学,2019.
【通联编辑:梁书】