PC服务器故障预测分析及维护处理
2020-11-26来风刚李济伟董耀众宋瑞华李伟良
文/来风刚 李济伟 董耀众 宋瑞华 李伟良
(1.国家电网有限公司信息通信分公司 北京市 100053)
(2.国电南瑞科技股份有限公司信息系统集成分公司 江苏省南京市 211102)
在信息化时代的今天,计算机技术的发展有目共睹,而PC 服务器作为与计算机息息相关的一项技术,其因自身价位较低且性能较高的优点被广泛应用于各行各业的工作中,如国网数据中心等,现今也在实施现代化的管理,PC 服务器正为这项工作提供了强有力的技术保障[1]。
1 关于服务器的概述
技术上的服务器主要的概念就是管理资源,而后给用户提供一系列服务。作为计算机软件,其包含数据库服务器、应用程序服务器以及文件服务器等,令此类软件正常运行的各种计算机以及计算机系统被叫做服务器。和一般的PC 比较,这类服务器的性能、稳定性以及安全性等都有较高的要求,且在网络、内存、硬盘系统、PU 以及芯片组等方面也和普通计算机存在差异[2]。其是网络节点服务器,所以可以处理或存储网络里80%的数据和信息,还一直被叫做“PC 网络灵魂”。受到操作系统的控制,服务器可以将和它所连接的打印机、de、硬盘、磁带或其他的通讯设备作为共享给网络客户的站点,同时还可给用户提供信息发表、数据管理以及集中计算等各项服务。服务器的高性能一般体现在长时间的运行能力、强大的外部数据传播能力以及高速运算的能力。
2 PC服务器的故障预测分析
2.1 常见的故障
在所有的故障中,比较常见就是服务器的软件故障,这种情况大概占整体故障的70%,而其余的30%则是硬件故障。其中,软件故障主要有人为造成、治理软件例存在BUG、服务器的驱动程序问题、应用程序冲突或BIS 版本太低等[3];而硬件故障则主要包括:操作系统加载问题、上电自检的故障、系统运行的故障、安装阶段的故障以及开机问题等。服务器的构成相对来说比较复杂,所以在排查是应保持谨慎。
2.2 服务器故障的预测分析
服务器的主要组件无外乎CPU、内存、硬盘、主板、I/O 板卡、RAID 卡、电源、风扇等,我们可以从这些组件来探讨如何预测服务器不久可能出现的问题,从而提前做出相应准备,做好相应应急措施,减少服务器出问题时定位和恢复服务器的时间,减少服务器出故障出现的负面影响,提高我们的平均修复时间(MTTR)。
2.2.1 PC 服务器构成主要部件
(1)中央处理器(CPU):CPU 是服务器的计算单元,其功能主要是解释计算机指令以及处理计算机软件中的数据。我们平时有什么方法来知道它的状态及运行情况,在不同的操作系统上,我们可能通过命令或图形操作知道CPU 的信息,如:Linux:/proc/cpuinfo,Windows 我的电脑-属性及Windows 任务管理器,通过脚本或者工具检测其状态,如:Super Pi forlinux,CPU GrabEx–Windows 测试工具,以便对有其稳定性、性能、隐形问题进行分析和预测,根据问题和频繁程度预测CPU 情况,做出相关应对措施。
(2)内存:内存就是随机存取存储器(RAM),在计算期间被用作高速暂存记忆区,物理上是我们平常看到的内存条,它的检测方法有很多,很多服务器本身在bios 里面就有memory test,或者自带的检测光盘,通过这些检测手段,在检测完毕后可以看到检测的结果和问题,如果存在某一根内存有较多的ECC 报错,我们可以预测它出问题的概率很大,如果只是几次ECC 报错,那么我们可以继续观察,它认为是没有问题。在系统上我们也能使用工具memtester、Windows memory diagnostic 测试,测试完毕后可以分析内存存在的问题,预测内存出问题的可能性。
(3)硬盘:硬盘(harddisk)是服务器中的存储器。计算机需要正常运行所需数据及软件都存储在硬盘上,现在有一项技术--S.M.A.R.T., 全 称 为“Self-Monitoring Analysisand Reporting Technology”,即“自我监测、分析及报告技术”。通过硬盘内的检测指令对硬盘如磁头、盘片、马达、电路的运行情况进行监测、记录并与厂商所设定的预设安全值进行比较,若监测情况超出预设安全值,它就通过主机的监控硬件或软件自动向运维人员发出警告,这样我们就可以对硬盘进程预测,提前做出准备。
(4)主板:主板是负责连接服务器各组件的桥梁,其工作的稳定性直接影响着服务器能否正常。由于它所集成的组件和元器件复杂,因此发生故障的原因也比较多,要预测服务器上主板的问题,一般没有很好的方法,主要是查看日志,比如:BMC日志,温度、电压,系统日志等,能做个基本的预测。
(5)I/O 板卡、RAID 卡、电源、风扇:这类板卡、电源及风扇检测相对比较容易,如:网卡在系统上就可以使用命令或者软件做到,Ethtool 和Windows perfmon 看看其丢包率,HBA 卡通过交换机看到相应端口的光衰情况,命令fcping 也能做出相关检测,raid 卡使用megacli、storcli 查看raid 的报错情况和频率做出判断,风扇和电源在BMC 上可以查看其转速和电压情况与厂家给出的正常范围做出比较,如果经常临近阀值时,我们可以预测此部件可能不久会出问题,我们可以提前做好更换的准备。
2.2.2 常见故障可以分为两大类
(1)死机故障:以国网数据中心为例,其对PC 服务器的稳定性与安全性要求很高,一旦服务器出现数据丢失等情况,则可能影响正常工作,所以对PC 服务器的故障进行预测和分析至关重要。就死机故障又可以分为三子类:
1)硬件故障,所有故障中最常见的就是死机的问题,有时系统无法正常启动,如开机之后不显示、在启动的过程中发生终止、浏览信息后出现死机或运行中出现永久性和间歇性死机的情况。导致这些问题的原因经过分析发现:首先可能是器件的故障问题,如AHE、主板、PU 或内存条等出现问题;然后就是部件的安装问题,安装不到位、插接的松动或连接缺乏准确性等,或在安装时,不恰当的操作导致部件变形,进而引发死机[4];同时,系统配置问题也可能造成死机,主板跳线开关、硬件设备、系统BIS 和系统配置存在很大关联;还有一点就是软件在安装和配置时令内部发生了冲突,进而导致死机的情况发生,其中S 参数和系统被病毒破坏,就很可能引发死机;除此之外,使用和维护也很重要,一旦维护不当,也很可能造成死机,如出现板卡和芯片引脚氧化的情况,会导致接触不良,部件受潮或积灰等也易引发死机,服务器的板卡和外设接口出现松动,当发生闪电或雷击等意外时,就会使电源、主机以及其他的设备被损坏,进而导致死机;
2)性能故障,此类问题一般比较隐蔽,它出现死机的情况一般都是有规律的,在固定的日期或者时间出现,一般日志不容易发现,等你检查了很多东西后发现还是没有什么头绪。服务器重启后也许就好了,也许过一段时间又出现这种情况,运维人员才把注意力放到服务器性能上,我们的惯性思维认为服务器一般是满足应用需要的,只有在日积月累中服务器的性能才会慢慢的不能匹配业务需要,种类问题才会发生,分析性能问题是需要安装软件的,在Linux 中我们使用nmon,Windows 有自己自带的Performance Monitor,在分析中我们可以看到某些性能达到极限值,最后导致服务器死机;
3)程序故障,程序出故障导致服务器死机我们在平时也能见到,特别是新上线的软件程序,它的兼容性、稳定性都有待提高和改进,程序对不同系统版本的支持,和其他程序是否有冲突,程序是否存在漏洞及程序的逻辑错误等都会导致程序出问题,从而最终导致服务器死机。
(2)无法访问网络或IP 地址冲突的故障:PC 服务器在运行的过程中,还会发生无法访问网络等问题,这也会给工作单位带来诸多困扰,所以要及时分析原因。
导致这种情况最主要的因素有两个:
1)计算机硬件的问题,如网络连线和网卡安装等导致;
2)网络属性的设置问题。
除此之外,在利用计算机进行登录时,有时还会发生IP 地址冲突等现象,导致这种情况的原因就是使用计算机的过程中,局域网IP 地址被认为改动,导致IP 地址发生资源重复的现象,这种故障在很多领域都会发生。PC 服务器在运行过程中,遇到的故障有很多,这些故障很可能导致工作的无法进行,如国网数据中心使用PC 服务器时,如发生故障,则可能使工作受到影响,进而引发严重后果,所以一定要进行处理。
3 PC服务器的维护处理措施
3.1 维护处理死机故障
导致PC 服务器死机故障的因素众多。
(1)当硬件出现故障,如出现电源无法开机的情况时,需取下服务器里的所有电源模块,同时还要检查电源模块和电源笼的接口,这种做法主要是对电源模块和电源笼的接口松动情况进行确认,观察其是否可以经过重装达到加固的效果,但如果是固定卡被损坏,则需更换电源,进而对电缆进行控制;另外,如果出现其他电缆接口被损坏的情况,则需更换备件;当开机无法显示,且系统日志里表明CPU 的电压为OV 信息,而系统的指示灯也在不断的闪烁,则表示为VRM 出现问题或CPU 发生故障,此时应该把CPU换到其他CPU 插槽中,但如果重启之后还是出现此类现象,则表示CPU 发生损坏,此时可将CPU 取出,而后仔细擦拭金手指;当开机之后未出现系统的信息提示时,则分析可能为电源因素,但如果检查之后认定电源没有问题,则可能为PC 服务器的电源管理板发生故障,对此,只要更换电源管理板即可解决;在自检的过程中,按CTRL+M 键但没有检测出硬盘,且此时硬盘于其他服务器里可以正常使用,说明应该清除CMOS,如果还是没有恢复正常,则需升级BIOS,此时依然没有将问题解决,则需全面检查电源线、数据线以及硬盘笼子,如果还是无法解决,则需检查服务器I/O 板,进而对异常网卡予以清除[5]。另外,当遇到系统死机、蓝屏或反应迟钝等现象,表示服务器的软件系统有问题,此时应该将重要文件备份之后重装系统;
(2)出现性能故障的时候,需要借助分析软件,综合分析服务器的性能瓶颈,做到有的放矢,增加内存、增加网络带宽、提高处理器处理能力、调整系统核心参数,通过一系列测试,将服务器的性能引起的死机问题处理解决;
(3)出现应用程序故障,我们一般是从系统或者应用的日志中能查询到相关报错,抓取程序日志、系统日志、服务器BMC 端口日志,综合分析。
3.2 维护处理无法访问网络或IP地址冲突的故障
遇到这种情况且无法进行查看时,需考虑以下几方面问题。如果为硬件原因,则首先要仔细检查,做好安装和连接;如果是因网络属性的设置原因,则要进行专门的设置操作,首先需检查网络标示,具体的步骤为:打开“我的电脑”中“属性”选项,检查计算机,而后对计算机名进行修改,在对话框中检查网络的标示,检查“工作组”或“域”,然后就是检查IP 地址的设置,准确设置网络地址,最后则是对网络协议进行设置。而当IP 地址发生问题时,则需重新规划IP 地址,或对IP 地址进行动态的分配,这样即可解决问题。
4 结束语
总而言之,PC 服务器故障问题可能会对整个工作区域造成影响,所以要做好预测分析和维护处理。只有保证PC 服务器正常、安全、有效地运行,才能使工作顺利进行,推动各单位的信息化发展。