防患于未然 那些“救命”的蛛丝马迹
2015-09-10
对硬件产品而言,最令人揪心的就是不知道它何时“寿归正寝”。如果能从设备运行的蛛丝马迹中发现隐患并第一时间解决,不就可以尽可能避免因硬件问题而导致的损失了吗?在这里举出一些硬件问题出现前的征兆,以及发现问题后的解决替换方法。
鼠标
积劳成疾的按键问题
自从图形化操作系统Windows开始逐渐取代DOS系统,鼠标就开始逐渐超过键盘成为我们操控电脑的第一外设了。不过高强度长时间的频繁使用,也会给这个小工具带来一些问题,其中最为常见的就是按键问题。
不知道用户有没有遇到过这种现象,鼠标在单击选中桌面图标时突然打开了程序,本来单击的操作变为了双击,这就是双击问题。另外在按住左键选中数个目标的时候目标突然丢失,这也是按键问题的一种,十分影响用户的正常拖拽操作。由于左键在实际操作中的使用频率远高于右键,一般这两种问题集中发生在左键上。
其实Windows本身提供了双击相关的选项,可以排查究竟是鼠标问题还是设置不当。打开Windows开始菜单选择控制面板中的鼠标一项,在鼠标属性中第二项就是调整并检测鼠标双击的相关功能。一般在速度这里的速度条选择成中间附近,然后用鼠标去双击右侧的文件夹图标。正常情况下一秒内的两次按键会正常使文件夹图标打开(图1),但如果鼠标有问题,文件夹图标有可能单击就已经打开,或者双击后出现先打开又关闭的情况。
鼠标内部PCB板上有一个小零件负责按键功能,我们按下鼠标发出的清脆声音也是由此而来的,这个零件叫做微动(图2)。一般鼠标出现的按键问题,都是这个微动导致的。微动问题的解决有两个办法,自己动手更换或者维修,或者返厂修理。如果鼠标在质保期内,强烈推荐用户返厂修理,如果自己拆开鼠标更换配件会失去质保,不过如果已经过了质保期,就需要自己解决了。
更换微动有几样工具是必需的,首先就是电烙铁(图3)和吸锡器(图4)必不可少,其次是合适的微动,更换的时候需要用户有不错的动手能力。不过也别过分紧张,其实这是一个熟能生巧的过程。首先是拆掉老微动,把吸焊器的吸气头和电烙铁头尽可能地凑在一起,电烙铁点在你需要吸掉的PCB焊点上,肉眼看到焊点融化,吸焊器按在焊点上方吸掉已经被软化的焊锡。注意不要因为一次没有吸掉就不停地用电烙铁焊,正确的方法是等PCB温度降下来之后再次加热焊点重复吸焊,不然容易烧毁PCB板。
更换新微动使之固定在PCB上,然后把焊锡丝点在需要焊接的微动针脚上,用电烙铁加热焊锡丝,锡丝融化以后就会顺着针脚流动到焊盘上。具体点多少合适,请参考PCB板上的其他焊点。
杜绝蓝屏死机
排查系统不稳定的根源
蓝屏、死机、电脑自动重启,相信使用过电脑的用户都遭遇过这类问题(图7)。不过同样的症状却可能是由不同的问题引起的,电脑中的配件很多,不同用户的使用环境也各不相同,如何排查问题所在呢?即便是专业的电脑维修人员也不一定能100%准确判断每一台电脑的症结所在,我们在排查系统不稳定的根源时需要的只是一个合理的思路。
一台始终正常的电脑,在某次用户添加了一块硬盘之后却出现了问题。具体症状表现为Windows中程序无征兆假死、偶尔死机(图8)。一般这种问题首先应该遵循先软后硬的原则,检查Windows本身出了什么问题。比如近期对Windows进行了哪些改动,或更换了哪些驱动程序,安装了哪些新的大型程序等。但实际情况是这台电脑在出问题前软件方面没有任何大的变动,唯一的差别是增加了一块硬盘。硬盘有问题?使用工具检测新硬盘,通电时间和磁盘状态都正常,确实是一块全新的HDD硬盘,硬盘本身没有任何问题。
最后将电脑报修后才知道,由于这位用户使用的是品牌机,其内部电源为OEM电源,并没有为系统后期升级留出余量。用户在购买电脑两年间先后增加了三块硬盘,前两块还在电源可以接受的幅度内,最新添置的一块硬盘成了压倒骆驼的最后一根稻草。别看硬盘小小不起眼,但对于很多品牌机的电源来讲也是会不堪重负的(图9)。
不少DIY用户喜欢购买可超频的CPU和主板,使用超频将CPU运行在更高的频率上获得更好的性能。一般选择超频的用户都对超频的相关知识略知一二,所购买的产品也确实适合超频使用,现在处理器超频也比较简单,根据教学能很容易让系统稳定。
之前的读者来信中一个例子就是这样,他选用了Intel的酷睿i5-2500k和Z68主板,之前一直是在CPU电压1.25V左右将处理器超频至4.5GHz使用,这个频率下处理器的性能超过了目前所有i5处理器的默认性能(图10)。不过近期问题来了,在这个超频状态下用户在进行游戏时经常蓝屏,有些时候在Windows待机状态下也有死机现象。用户选择稍微调高CPU电压以求稳定却没有任何帮助,这是怎么一回事呢?
理论上只要CPU电压和PLL电压在合理范围内,并且做好散热基础,即便在超频状态下长时间使用CPU也不那么容易出现电子迁移问题。就算出现,我们稍微调高CPU电压也能保持系统的稳定。但这位朋友的情况并不符合,首先他的超频电压很安全之前也一直能够保持系统稳定,近期却突然频繁死机蓝屏,增加电压也无法解决他的问题。
经过交流得知,由于近期游戏大作对内存的要求愈发夸张,他将系统内存从原来的4GB×2双条升级为4GB×4四条,这是在最初的来信中没有提及的。于是回复他内存的频率依旧保持1866MHz,稍微降低一下内存的时序,由原来的9-9-9-24降为10-10-10-27,一切问题都得到了解决(图11)。
这位用户认为增加了两条与原本内存完全一致的内存条不会产生任何兼容性问题,所以完全忽视了内存导致蓝屏死机的可能。实际上在他的系统中内存确实没有兼容性问题,但是在主流平台上,将四条内存插满时给系统带来的压力远非两条内存可比(图12)。在这种情况下适当放弃一些内存的时序小参数或者内存频率,保证CPU的超频是弃卒保车的策略。
硬盘
及时发现潜在问题
其实很多用户根本不知道如何查看自己硬盘的状态,硬盘常年处于问题当中而不自知。其实在HDD诞生后就有一种技术专门提供用户检测自己的硬盘,那就是S.M.A.R.T信息(图14)。S.M.A.R.T全称为“Self-Monitoring Analysis and Reporting Technology”,即“自我监测、分析及报告技术”。支持S.M.A.R.T技术的硬盘可以检测磁头、盘片、马达的运行情况、历史记录及预设的安全值进行分析、比较。当出现安全值范围以外的情况时,就会自动向用户发出警告。最早只有HDD支持S.M.A.R.T信息,SSD支持得比较差,经过几年的发展现在几乎所有家用的硬盘都能比较好地支持S.M.A.R.T信息了(图15)。
硬盘负责PC系统的数据存储,一般来说只要我们打开电脑,硬盘就始终处于读写状态直到我们彻底关机。由于工作频率太高,硬盘也是PC系统当中比较容易出问题的一个,尤其是HDD由于内部存在物理运动,损坏的几率更高(图13)。
其实硬盘的问题并非只要出现就等于无法使用,很多硬盘出问题前甚至出问题时的症状都很轻微,并不影响使用。但是如果不加以防范任其进一步发展,可能最终会导致盘体损坏数据丢失的惨剧。一般来说PC异常断电或关机、磁盘突然产生噪音,都需要特别关照一下硬盘是否会产生问题。如何在硬盘刚开始出现问题甚至是即将出现问题之前发现隐患,是我们需要掌握的。
查看S.M.A.R.T信息需专业软件帮忙。经常玩硬盘的朋友肯定会知道HD Tune Pro这款小软件,这其实就是查看S.M.A.R.T信息最方便的通用软件(图16)。打开HD Tune Pro这款硬盘实用程序,点击健康状态选项卡,显示出来的ID (05)、(C5)、(C7)等数个状态项目及后面的数据就是由S.M.A.R.T信息展示出来的硬盘状态。
比如说最简单的(04)和(09)两项,是马达启动/停止计数和累计通电时间计数,一般数据以小时计算。比如说笔者这块希捷320GB硬盘,由于比较老,其马达启动/停止计数已经达到2790次,而通电时间达到16410小时,约为683天。用户如果新购买硬盘,其实就可以通过这两项查看硬盘的使用次数和时间,判断硬盘是否为新货。本次我们需要查看的比较关键的几项是(05)、(C5)、(C7)这几项,这关乎于硬盘的健康状态。
先看(C5),这是待重新映射的扇区计数。HDD由磁盘组成,而磁盘上有无数个扇区。在经年累月的使用过程中有一定几率会产生一些有问题的扇区,也有一些时候是由于电源或者是使用习惯的问题导致扇区出现不稳定。这一项上如果有数据而不是0,代表该驱动器有不稳定的扇区待重新映射。
(05)是重映射扇区计数,代表着HDD已经被修复的扇区计数。一般一块正常的硬盘这里的数值应该为0,而阈值代表不同硬盘允许的最大修复扇区数量,比如笔者这块希捷320GB硬盘就是36个。
再看问题最高发的(C7),名为CRC接口错误计数的本项目是SATA普及以来最常见的错误计数,不少用户刚买回来的硬盘就出现了数据,这是怎么回事呢?(C7)其实一般是由于用户的SATA数据线存在问题,导致接口通信错误出现数据。
问题高发的(05)、(C5)、(C7)这几项虽然都关乎硬盘的健康状态,但危险程度各不相同。一般来讲,(05)、(C5)是比较严重的,如果出现数据确实说明硬盘有安全隐患,但一旦出现后我们还要观察数据的后续变化。比如在某天出现了个位数的数据,但之后不再增长并能稳定使用,那就说明扇区错误在硬盘允许的范围内而且没有继续恶化;如果数值不断增长,应该立刻停止使用并全盘格式化硬盘重新分区,必要时可以在DOS环境下进行低级格式化,有可能会阻止硬盘继续恶化。具体硬盘何时出现数据,数据是否在继续增长,可选中具体ID点击右下角日志一项,里面有相关明细(图17)。
(C7)较特殊,前面说过这是由于SATA线缆引起的通信错误(图18),本身对硬盘没有特别坏的影响。即便如此,一旦出现通信错误,还是推荐将硬盘与主板间的SATA线缆两头都重新连接,避免问题继续存在。如果重连接后数据依然增长,推荐直接更换SATA线缆。