可靠性监视器全面排障一例
2021-01-06北京段旭升范洁
■ 北京 段旭升 范洁
编者按:笔者通过单位服务器出现的不定时死机问题,对其从安全、软件、硬件方面逐步进行排查,并通过可靠性监视器最终锁定问题根源。
笔者单位一台Windows Server 2008 服务器架设了Hyper-V 虚拟化服务,承载了FTP、图书查询等业务系统,已经稳定运行多年。最近一个月该服务器出现不定时死机问题。
具体问题表现为:每周死机一次,基本上都是周一发现业务宕机,服务器屏幕无显示,重新插拔电源后正常启动。起初笔者没有多加怀疑,只是认定一般软件故障。但在出现3 次以后,通过结合固定的宕机时间(周末),笔者推断该问题有些特殊,于是从安全、软件、硬件三方面逐步排查故障原因。
硬件方面
磁盘阵列自检正常,没有任何故障灯和异响,风扇和温度也无异常情况。
安全方面
因为本身是服务器且系统版本老旧,笔者重点怀疑安全攻击导致。但单位配有深信服安全防护设备,且机器访问外网还需要二次认证,本身也安装了安全防护软件。最终经查深信服日志未发现对此设备的恶意攻击。
软件方面
软件方面的问题排查起来难度大,而且难以理清头绪。笔者和很多管理员一样,先从“服务”、“计划任务”和“服务器日志”查起。但是,除了日志中有些安装更新失败的记录,均未发现其它有价值线索。
锁定问题根源
正在一筹莫展之际,笔者打开了监视工具中的“可靠性监视器”,只看一眼便找到了问题的根源:原来是系统更新过程中造成了中断性关机(如图1 所示)。该监视器用图表的样式清晰的展示了各类故障,配合稳定性分值从0 至10 详细打分,在图中可以看出伴随着4 次故障点,稳定性分值均出现明显的下行变化。
图1 系统更新造成中断性关机
图2 控制面板中的可靠性监视器工具
笔者猜测可能是因为系统补丁不完整或者安装过程中认证失败导致死机。于是笔者将服务器联网进行手动更新,不出所料,依然更新失败。
接下来就开始排查系统更新问题,笔者首先检查C:Windowssystem32catroot2 文件夹,该文件夹存储Windows Update 软件包的签名,发现文件的更新时间比较久远。
于是笔者在CMD 界面通过“net stop cryptsvc”命令,暂时停止数字签名服务,这样才能清空该文件夹内容。同时,清空C:WindowsSoftwareDistributionDown load 文件夹,该文件夹用于缓存系统补丁。最后,通过“net start cryptsvc”命令恢复服务。
再次运行系统更新程序,发现可以正常安装系统补丁了。至此服务器故障解决完毕,通过一段时间的运行未发现死机问题。
可靠性监视器工具界面友好,内容详细,相比系统日志更易解读。该工具在后期的2012 和2016 版中移动到了控制面板内(如图2 所示),可喜的是,Windows10 系统也内置了该工具,所以当你遇见难缠的故障时,打开它试一试吧!