门禁工作站硬盘发热现象分析及解决
2022-03-21田斌
田 斌
(苏州市轨道交通集团有限公司运营一分公司,江苏苏州 201568)
0 引言
苏州轨道交通2 号线正线(2013 年12 月开通)门禁工作站采用DELL 公司生产的T5600 型号主机,配置2 块SAS 硬盘(300 GB,15 000 r/min),并通过DELL H310 磁盘阵列控制卡组合成RAID 0 阵列格式。
2 号线延伸线(2016 年9 月开通)门禁工作站采用DELL公司生产的T5810 型号主机,配置1 块SATA 硬盘(500 GB,7200 r/min)。
自2013 年12 月投入运行以来,门禁工作站整体运行情况良好,但T5600 型号主机在重启或断电再开机时,存在阵列配置丢失的现象。由于未作冗余配置,一旦故障就会影响车站值班人员对门禁进行操作;同时由于磁盘阵列结构配置繁琐,导致设备恢复时间较长。
1 现状
在室温20 ℃情况下,H310 阵列控制卡工作温度约38 ℃,SAS 硬盘工作温度最高为66 ℃(图1)。门禁工作站频繁出现卡顿、死机等现象,故障率约为35%。同时硬盘托架(塑料材质)长期受温度影响逐渐产生脆化、发黄等老化现象,存在较大的电气火灾隐患(图2)。
图1 硬盘温度
图2 发黄、脆化的硬盘托架
同时由于RAID 0 格式自身的缺陷,一旦阵列结构发生丢失,硬盘上的数据会全部丢失。由于工作站不支持Ghost 还原,每次必须重新配置RAID 后才可以继续安装系统和配置软件,维修时间约4~5 h。因此,如何杜绝电气火灾隐患,减少维护成本,缩短维修时间就成了专业研究的方向。
2 磁盘阵列简介
RAID(Redundant Arrays of Independent Disks,磁盘阵列)可以将许多磁盘组合成一个容量和带宽巨大的磁盘组,利用所产生的加成效果提升整个系统的读写效能。常见的磁盘阵列格式有以下4 种:
2.1 RAID 0
优点:可以整倍提高硬盘容量和数据吞吐量。
缺点:任何一块硬盘出现故障,整个硬盘的数据都将会受到破坏。
2.2 RAID 1(磁盘镜像结构)
优点:当一块硬盘失效时,系统会忽略该硬盘,转而使用剩余的镜像盘读写数据,具备很好的磁盘冗余能力。
缺点:磁盘容量利用率仅为50%,不适合于数据访问频繁的环境。
2.3 RAID 5(分布式奇偶校验结构)
优点:读出效率高,奇偶校验稳定性高,同RAID 1 一样具备很好的冗余能力。
缺点:写入效率低,成本较高,至少需要4 块硬盘。
2.4 RAID 10
优点:融合了RAID0 和RAID1 的优点。
缺点:组建技术复杂,成本较高,至少需要4 块硬盘。
3 发热原因分析
3.1 磁盘阵列卡发热原因
目前实现磁盘阵列主要分为两种方法:一种是主板集成控制芯片;另一种是扩展磁盘阵列控制卡。对于磁盘阵列控制卡来说,数据存储是关键。通常有约80%以上属于不活跃性数据,只有约20%属于活跃或者热点数据。特别是在Web 服务器、工作站、虚拟桌面(VDI)对热点数据有频繁的读操作。因此,拥有一个专门的存储器,不仅能高速缓冲数据,同时还能降低CPU 和内存使用率。
经向戴尔代理商咨询,由于H310 阵列卡在设计时并没有集成控制器高速缓存,随机写性能比较有限,所以它在每次写入数据时都会强制执行多次读取操作,导致阵列卡和硬盘温度升高。同时T5600 工作站内没有为阵列卡和硬盘设计独立的散热风扇,也是引起温度升高的一个潜在原因。
戴尔代理商建议升级为H710 型号,该型号集成RAID 控制器,512 MB NV 高速缓存,同时配置电池,当系统意外掉电时,1 GB DDR 缓存中还未写入硬盘的数据将被写入到NVRAM 中,在写入NVRAM 的过程中保证供电。NVRAM 中的缓存可以长期地保存下去。
3.2 SAS 硬盘发热原因
厂家配置的SAS 硬盘为15 000 r/min,比普通硬盘的转速快了近1 倍,理论上转速越快发热量越大。由图2 可知,该硬盘使用DELL 定制的PVC 托架,托架部分直接与芯片接触,不利于热量散发,继而导致塑料发黄、脆化现象严重。
4 改进措施
4.1 在阵列卡增加散热风扇
经测试,在阵列卡散热片上增加风扇(5 V)后,芯片温度虽然大幅下降,但仍然无法解决H310 本身性能的不足,且硬盘处无法加装风扇,温度仍无法下降。
4.2 改用RAID 1 格式
改用RAID 1 格式后,硬盘发热更为明显且运行卡顿,主要原因为RAID 1 格式会同时在两块硬盘上进行数据读写,磁盘容量利用率仅为50%,不适合于数据访问频繁的环境。
4.3 撤除阵列控制卡,改用单块硬盘
一般情况下,SATA 硬盘的性能即可满足工作站需求。本文对1、2 号线工作站硬盘使用情况进行了统计,1 号线ISCS 工作站、1 号线ACS 工作站、2 号线ISCS 工作站和2 号线延伸线ACS 工作站均使用单硬盘,未配置磁盘阵列结构。
改用单块硬盘后,硬盘工作温度从66 ℃下降至25 ℃,且运行流畅,重启后无需担心阵列信息丢失(图3)。
图3 硬盘温度(单块硬盘)
从经济角度考虑,SAS 硬盘价格约为950 元,磁盘阵列控制卡约为700 元,即采用磁盘阵列控制,每台门禁工作站的维修成本约为2400 元;而单块500 G 的SATA 硬盘价格仅为500 元,较磁盘阵列控制维修成本下降了80%。
5 结语
综上所述,硬盘发热的主要原因是H310 阵列卡无高速缓存导致读写频繁;次要原因是工作站散热性能不足,无法满足磁盘阵列卡的散热需求;同时门禁工作站配置磁盘阵列卡属于高配低用,经济性不佳。
采用单硬盘方案有如下优点:
(1)硬盘工作温度下降明显,彻底杜绝了电气火灾隐患。
(2)维修成本从3000 元下降至500 元。H310 阵列卡和2 块SAS 硬盘的成本约3000 元,而500 GB SATA 硬盘的成本仅为500 元且通用性高。
(3)维修时间从4~5 h 缩短至0.5~1 h。
采用磁盘阵列结构时,每次故障或都需要配置磁盘结构和手动安装阵列卡驱动,否则无法识别硬盘,重新配置1 台门禁工作站的时间为4~5 h。更换为SATA 硬盘后,可通过Ghost 还原或硬盘拷贝的方式恢复系统,维修效率提升了75%。
2 号线门禁工作站主要供车站人员观察门禁锁闭状态和控制通道门的开启,对性能要求不高,使用SATA 硬盘即可满足性能。同时考虑到门禁工作站无需存储刷卡和报警记录,为进一步提高数据读取速率,节省硬盘更换成本,后期建议逐步更换为小容量固态硬盘(如120 GB)。
同时自3 号线开始(2019 年开通),通过将门禁软件安装到综合监控工作站中(Windows 系统),取消了门禁工作站的配置,进一步降低维护成本。