采用QC因果分析法查找大型IDC数据机楼疑难故障案例
2021-03-14慕家骁罗森文宗凌黄建华马波
[慕家骁 罗森文 宗凌 黄建华 马波]
1 引言
某运营商在西北某省公司大型IDC数据机房内的IP数据设备、电源设备先后发生200多台次以上的大面积重启、瞬断、宕机等故障,该运营商集团公司汇集了国内顶尖的数个通信设备制造商、集团级技术权威专家数十人,历时超过大半年时间均未能找到造成这些设备发生故障的任何原因,后通过采用QC因果分析法,终于找到了造成这些故障的原因,并予以排除这些故障。
2 QC因果图解分析法
全面质量管理产品质量控制因果分析法简称QC(Quality Control),QC因果分析法在我国制造业推广应用较多,但在运营商行业维护工作中应用较少,QC的因果分析法如图1所示。
图1 产品质量控制因果图
3 利用QC因果分析法查找大型IDC数据机房疑难故障案例
3.1 IDC设备故障情况
某大型IDC数据机楼内共发生电源、IP数据设备重启、宕机、误码等故障逾数百台次以上,其中大量交、直流电源和IP数据设备每次重启的设备在时间、厂家、型号等方面都不完全一样,具有明显的离散性;其中数据设备共发生重起22次,涉及设备重起事件104次,涉及的设备有某设备供应商163网国家骨干设备2台12 008,163网省网核心设备1台12 816,省网汇聚设备1台12 416以及省网接入设备2台6 509、2台3 750、1台3 550、2台7 513、2台4 500、2台7 513;某设备厂家的1台窄带接入服务器A8010、1台接入交换机A8016、2台BRAS 5200G、1台接入交换机6506R、1台接入交换机3 528;某设备厂家的接入交换机1台T64G、6台3 952;某公司BRAS设备ERX 705一台。部分设备故障发生如图2所示。
图2 部分设备频繁启动记
3.2 利用QC因果法分析IDC数据机房的故障
根据IDC数据机房电源和IP数据设备维护管理实际情况,我们可以做出如下排除疑难故障的分析方法和思路,如图3所示。根据图3我们逐一进行故障原因排查。
图3 IDC数据机房莫名其妙故障原因因果图
3.2.1 关于电源问题
(1)关于市电输入:根据动环监控系统和现场示波器监控显示,市电在发生故障期间一直正常,尽管从市电在现场的示波器上观察情况来看,输入的电源确有干扰,有振荡波形和毛刺尖峰较多,但这幅度很小,都在规范要求范围之内,跟据这些检测到的现象并不会对设备造成直接的故障因素,除此之外示波器并未记录下任何电源的波动情况会引起电源和IP数据设备的故障。因此市电输入原因可以排除。
(2)关于二次交、直流电源:相关电源设备厂家研发专家专程到现场确认,二次交流(UPS)、直流(开关电源)设备的软硬、件均正常,二次交、直流电源设备模块工作也正常,并未出现工作异常,因此二次交直流电源无问题。
为了进一步排除由于二次交、直流电源引起的嫌疑,设备厂家重新更换了全新的二次交、直流电源设备,这些二次新电源设备安装后,IP数据设备故障依然在不断地发生……因此可以完全确认二次交直流电源设备的引起故障的因素也完全可以排除掉。
(3)关于地线系统:①大楼接地电阻值:通过三角法测量大楼接地电阻为0.35 Ω,远低于A级机楼1 Ω 的规范要求;②大楼地线连接:经检查,各接地线、接地铜排、地线线缆接头等接触良好可靠;③零地电压:直流电源设备正极对地电压均为0 V,交流设备零线对地电压均小于1 V,均属正常;④地线电流变化:人为重启MA5200G、S8016设备,冷重启(开关电源),监测到地线电流发生突变(0.5 V到1.5 V左右),属正常;热重启(网管命令操作),均未监测到地线电流明显变化,但IP数据设备疑难故障依然在不断发生……说明地线系统不是引起这些疑难故障的原因。
为了更进一步排除地线系统引起的故障,该IDC数据机楼重新花费20多万元的投资,全面改造了整个IDC机楼的地线系统,然而故障依然,说明故障原因并非地线系统所引起,也可以完全排除地线系统的故障原因。
3.2.2 关于硬件问题
各有关IP数据设备厂家的研发高级工程师也专门对其设备进行过DIA检测,可确认设备硬件均未出现异常,此类设备在网运行数量很多,且在其它机楼均未出现类似故障,故也可以排除IP数据设备硬件工作异常导致。因此硬件所引起的原因也可以排除。
3.2.3 关于软件问题
若是软件原因,则系统软件会留下计算错误、死循环类的意外事件纪录,各个IP数据设备厂家研发的专家多次对设备检查,并未发现任何此类纪录,且此版本在网运行数量很多,均未出现类似故障。故也可以排除由于IP数据设备软件运行异常导致这些疑难故障的发生。
3.2.4 关于人为问题
为了排除人为因素,故障排除人员作出了如下的措施:
(1)对口令管理制度逐条进行落实,对口令定期修改、口令字的组成要求、口令的使用登记、厂家口令的使用管理以及远程登陆的口令管理等进行了全面的自查,对登陆设备设置的登陆帐号和口令绝对不允许在两台及其以上的设备设置相同的帐号和口令;对口令管理和使用人员进行清理,相应设备的口令只允许包机人和中心主任掌握;清除所有为厂商支撑等设置的登陆权限和登陆帐号及口令。
(2)在数据局局域网的互联网出口设备上采取端口映射的方式,使用SNIFFER软件对所有与局域网交互的流量进行抓包监控分析。
(3)将该机楼所有IP网数据设备的日志集中自动上传至日志服务器,并定期对所有上传的日志进行了认真、细致的分析。
(4)采用NTP的方式将所有IP网设备时间进行了统一。
(5)对该IDC数据机楼IP网所有数据设备的配置进行了逐一梳理和核对,同时加强了对该数据机楼内的IP网所有数据设备的数据制作的审核,凡是涉及到局部数据增加和修改时,必须由中心主任审核;涉及到全局数据修改时,必须由运维部主任审核,并对所有的操作的操作时间、操作内容、执行的命令等进行严格的登记,严禁未经允许的操作。
(6)严格规定了IP数据设备和电源设备的操作审批流程,所有涉及到对该机房内数据设备、电源等的操作必须经过公司运维部的审核批准。
(7)在重起期间,进入机房的外来施工人员和操作情况进行了逐一核实,并加强了对外来人员进入机房的管理,所有外来人员到机内房进行的操作必须有相应的人员陪同和监督。
通过以上严格的人为操作管理,避免人为因素的影响,然而电源设备和IP数据设备的重启、宕机等故障依然在发生,因此完全可以排除人为的因素。
3.2.5 关于黑客外部攻击
(1)该IDC数据机楼一楼、三楼、四楼所有IP网数据设备只容许采取本地终端的方式进行登录。
(2)对于高级的黑客而言是可以实现控制大量设备同时或不同时间进行复位,并且在日志中无法查到相关信息(可通过编译代码、修改日志代码输出实现);但是在现场出现了多次设备在未启动完全的时候,设备再次重启的情况发生,对此,就目前的认知而言黑客基本无法做到;设备在启动的时候是有类似于PC上BIOS一样的BOOTROM芯片在控制,这是黑客很难侵入系统,无法对设备进行控制。
由以上情况来看,认为因素和黑客破坏因素也完全可以排除。
3.2.6 关于环境问题
环境因素包括:温度、湿度、洁净度、电磁感应、静电感应。
(1)关于温度:为了准确检测机房内的温湿度,机房维护单位新购置了6台温湿度计,经过一个星期的校准后,检测室内温度基本都保持了20~25℃范围之内,完全符合机房规范对温度的规定和要求。
(2)关于湿度:该数据机楼内的相对湿度非常低。为了准确检测机房内相对温湿度,维护部门专门新购置检测相对湿度的仪表,且都经过了一个星期检验和校准。根据近一个月的检测,该IDC数据机楼内的相对湿度都非常低,一般相对湿度都在15%以下,有时甚至还低于10%,该IDC数据机房内的环境相对湿度远远超过了一类通信机房规范要求的30~70%,如图4所示。为何该机楼的机房内相对湿度是如此之低呢?根据现场调查和了解,原来该机楼的机房精密空调原本是有加湿功能的,但由于出现过加湿水管漏水现象,故维护人员把该机房精密空调的加湿功能全部擅自取消了,才导致该机楼里机房内的相对湿度极低。
图4 IDC数据机房内相对湿度低于15%
(3)关于洁净度:该IDC数据机房内的洁净度堪忧。目视就可以看到各种设备上落有厚厚的积尘,用人手即可以在IP数据设备上和数字电路板上面随便写字,如图5所示。
图5 IDC数据设备电路板和金属外壳上厚厚的灰积尘
(4)关于电磁干扰影响:经过对射频电场强度、射频磁场强度、射频功率密度等相关技术指标测试后,现场电磁环境测试数据完全符合相关标准和规范的要求。
电磁测试项目监测数据:电磁测试项目监测数据如表1所示。
测试数据分析:现场电磁环境测试数据符合相关标准要求,7月24日16:00~17:30之间S8016设备重启,在该时间段仪表监测到电场强度最大为11.53 V/m,这一突变数据,分析有三种可能产生:(1)外界突发电磁干扰,仪表捕捉到这一变化,该干扰导致S8016设备重启;(2)S8016设备由于其他原因重启,其自身在重启过程中产生一定的电磁辐射(不同于稳态运行状态),仪表捕捉到这一变化;(3)人为干扰,在仪表附近使用无线电设备(GSM、(GSM、PHS等)。7月25日,人为重启S8016设备,仪表监测数据无较大变化;同时,到7月27日期间,机房多次多个设备发生重启故障,仪表监测数据均无较大变化。
表1 电磁测试项目监测数据
小结:机房电磁环境正常,达到一级机房要求标准。外界电磁环境正常且无突发干扰,不会导致设备重启;设备重启过程产生的电磁辐射也属正常;7月24日仪表捕捉到的突变数据可能为人为干扰影响;除此之外长时间监测无突发干扰,且设备重启故障前后,仪表数据均无明显变化,故也可以排除电源和IP设备故障是由电磁感应干扰引起的因素。
(5)关于静电感应:静电感应电压非常高。经测试,该机房内静电感应电压非常之高,一般都达到1 000 V以上,甚至到达2 000 V以上的也不少。远远超过IDC数据机房内绝对值不超过│200 V │的绝对值规范要求(如图6),而且不断发生重启、瞬断、宕机的故障特点也与静电感应电压引起故障的特点极为类似和吻合。
4 故障原因分析
根据以上对电源、硬件、软件、人为、黑客和环境等六个方面的全部检测和分析可知。前面五个因素完全符合IDC数据机房内设备的软硬件要求,因此可以排除在外。现在就剩环境因素,而环境因素中的电磁感应干扰影响也可以完全排除在外,现在就剩下环境因素中的相对湿度、静电感应和灰尘三个因素均远远超过IDC数据机房对环境条件的要求,而且超出标准要求也非常之多和严重,现进一步分析如下:
4.1 关于相对湿度的分析
该IDC数据机房内的相对湿度极低,而且远低于IDC数据通信机房环境条件标准下限30%的要求,就是说机房内相对湿度一般都在15%以下,有时甚至低于10%,造成IDC数据机房内非常干燥,而相对湿度极低又会导致IDC数据机房内静电感应电压非常之高,这个自然现象就像我们在干燥冷冻的冬季里到处会碰到被静电击到的现象一样。
4.2 关于静电感应电压的分析
图6 IDC机房内静电感应
在IDC数据机房内对静电感应电压有明确的要求,静电感应电压的绝对值不得高于│200 V │,然而现场测试静电感应电压则远远超过这个最大值的数倍,乃至10倍以上,如图6所示。当这些静电感应电压高于这些设备主控电路板上的电子电路彼此之间的绝缘强度时,就会发生瞬时静电感应电压放电现象,从而引起设备自动重启、产生误码、宕机等故障现象,而当静电感应电压放完静电之后,这些电路板卡上又恢复了正常运行,由于室内空气非常干燥,这些电路板卡上又会不断产生静电感应电压……而电源控制电路板和IDC数据机房内的IP数据设备的数字电路板卡无规则且多次大面积重启现象的特征也正是与静电感应电压引起的故障特征现象非常吻合。
4.3 关于灰尘的分析
机房内普遍积尘很大,各类电源设备和控制电路板卡及IP数据设备的金属外壳甚至这些设备的电路卡板上的积尘也非常大,如图5所示。积尘的厚度完全可以用手在上面随便写字。那么灰尘大会对设备的正常运行究竟会造成哪些影响呢?
当机房内灰尘掉落在各种电子设备的电路板上时,由于现在电路板卡上都是精密电子元器件和电路构成,电路板卡上的电路之间彼此距离都非常靠近和密集,若空气中的相对湿度比较大时,这些空气中的大量水分子就会被沉积在数字电路板上的大量灰尘所吸收,导致这些精密电路板卡上的电路之间的绝缘强度下降,甚至造成瞬间短路,从而产生数据设备控制电路板卡的自动重启、误码和宕机等故障现象。由此可见,把电子设备内电路板卡上灰尘清洁干净是非常重要,这些灰尘也是导致在潮湿季节里电路板卡瞬时短路而造成自动重启、瞬断、误码和宕机等故障的极大隐患之一。
4.4 故障原因进一步综合分析
综上所述,由于上述机房存在特殊的环境条件,最终造成了设备自动重启、宕机、误码等疑难故障:当机房相对湿度很低时,就会产生极高的静电感应现象,这些极高的静电感应电压就会造成电源、IP数据设备的自动瞬断、误码、宕机等故障;而当这些电源设备和IP数据设备由于静电感应太高而发生静电感应电压放电而这些设备瞬间宕机后,这些电源和IP数据的电路板卡上的静电感应电压瞬间就消失,于是这些电源和IP数据设备就恢复正常状态,就会重新再次起动,造成这些电源设备和IP数据设备不断地随着静电感应电压的重复放电和不断地发生自动重启、宕机、瞬断和误码等故障现象的发生。
而当该IDC机楼机房内相对湿度很高时,比如夏季湿度达到80%以上时,电源和IP数据设备上沉积的大量灰尘会由于灰尘会吸附空气中大量的水分子,这些大量的水分子加上灰尘一起就会造成这些精密电子电路板上的电子元器件和电路之间的绝缘下降,同样也会造成精密数字控制电路卡板上电路之间瞬间短路故障,产生自动瞬断、误码、宕机等故障现象;而当这些电子元器件放电产生热量后,这些精密数字电路卡板上电路上的相对湿度就降低,密数字电路卡板上电路上的绝缘强度又会恢复正常启动,于是这些电源和IP数据设备又会自动恢复正常运行状态,这才造成了该机楼里疑难故障的复杂性。
5 故障的排除
根据上述分析,故障原因基本就可以锁定为该机楼的机房内相对湿度极低而导致静电感应电压奇高和该机房内灰尘大这两个方面,于是该IDC数据机房维护人员全面清理该机房内设备内外及数据板卡上的积尘,并把机房内精密空调的加湿功能重新启用,且保持机房内相对湿度到达45%以上,如图7所示。
图7 IDC数据机房相对湿度达到45%以上
该IDC数据机房内的静电感应电压也大幅下降到规范标准要求之内,同时全面清理该IDC机楼机房内的灰尘后,困扰维护人员达大半年之久的该大型IDC数据设备机楼的达数百台次以上的自动重启、瞬断、误码等故障亦随之消失。该大型IDC数据机楼里的所有设备至今运行正常,再未出现过此类疑难故障现象。
6 GB国标和YDT行标对各类通信和IDC数据机房的环境条件要求
在我国国标GB和行标GBT 50174-2008-I、YDT 1821-2018、YDT 983-2018、GB/T 2887-2011等相关的标准中,对各类通信和大型IDC机房的环境要求如下:
(1)对各类通信和IDC机房内对洁净度的要求:
A~D类通信和IDC机房内不应有导电的、铁磁性和腐蚀性的粒子,其浓度应满足直径大于0.5 μm的灰尘粒子浓度<18 000粒/升。对通信设备有腐蚀性的气体和对人身有害的气体以及易燃易爆的气体,应防止流入机房内。
(2)对各类通信和IDC机房内对温度和相对湿度的要求:
有冷热通道隔离各类通信和IDC机房内对温、湿度的要求如表2所示。
表2 有冷热通道隔离各类通信和IDC机房内对温、湿度的要求
表3、无冷热通道隔离或设备无进风口机房内对温、湿度的要求
(3)A~E类通信和IDC机房的静电感应电压要求:
静电感应电压绝对值不超过<│200 V │。
(4)电磁场干扰要求
无线电干扰环境场强:机房内无线干扰磁场在频率范围0.15 MHz~1 000 MHz时不大于126 dBμV。
磁场干扰场强:机房内磁场干扰场强不大于800 A/m(相对于100 e)。
7 结语
对于大型IDC数据机楼和综合性枢纽机楼里发生的疑难故障建议严格按照GBGBT及YD等国标和行标执行,才能保障大型IDC数据机楼和各类通信机房里所有设备正常安全可靠地运行,尤其环境条件往往会被忽略,这才是造成IDC机楼和核心枢纽机楼疑难故障的很大隐患。如果大型IDC数据机楼和综合枢纽大楼机房里和其它机楼里出现了自动重启、误码、宕机等疑难故障时,建议应该采用QC因果分析法不失为一种很好的分析和解决问题的方法,逐个故障因素去排除,最后锁定到产生故障的真正原因上面,并予以排除和解决,它是解决此类疑难故障的很有效的方法,可以达到事半功倍的效果。