校园网Internet访问缓慢的分析与解决
2010-08-15欧运娟
欧运娟
广东省机械高级技工学校,广东广州 510450
校园网Internet访问缓慢的分析与解决
欧运娟
广东省机械高级技工学校,广东广州 510450
随着校园网规模的逐渐扩大和系统应用的不断深入,校园网实现了校际间的信息共享及与Internet共享连接,为学校的教学、管理等各方面提供全面、切实的支持。但网络问题也随之而来,网络系统在运行中会经常不断出现网络故障的问题,尤其是Internet访问缓慢的故障率最高,严重影响了校园网的正常使用。本文探讨如何分析和解决Internet访问缓慢的故障现象,为校园网的稳定运行排忧解难。
Internet;共享接入;缓慢故障
Internet访问缓慢是指访问网络是连通的,互联网上的服务器已经接受了用户的请求,但数据传输速度非常缓慢。有些规模较小的校园网,会选用带路由功能的ADSL Modem接入方式共享上网,更时常会遇到上网缓慢的现象,例如,IE浏览器长时间打不开目标网页,本地连接只有发送信息量没有接收信息量等,许多人会下意识地认为ADSL设备发生了断流现象,事实上造成共享上网速度下降的原因有很多。
采用Internet共享接入方式上网比单机上网无论在结构、配置和维护等方面,都要复杂得多,因此当Internet访问缓慢故障发生的时候,众多的故障原因造成对Internet访问缓慢故障的判断及解决有一定的困难,绝非像计算机单机上网故障那么简单。对Internet访问缓慢故障的判断,既需要长期的知识和经验积累,又需要按照一定的故障判断流程进行,以及依靠相关软硬件工具的帮助。
1 故障判断流程[1]
引起Internet访问缓慢故障的原因比较复杂,既有硬件原因也有软件原因;既有内网问题也有外网问题;既有病毒攻击也有人为攻击等。例如,受接入端带宽的限制、网络用户需求过大、网络广播风暴的影响、代理服务器I/O性能问题、防火墙的设置问题、计算机病毒的影响等均是引起Internet访问缓慢的诱因。为清晰、高效地判断故障原因,可按照一定的流程进行,其流程如下:
1)识别和描述故障现象
排故前,须确切地知道共享网络上是否真的发生Internet访问缓慢,还是在上网过程中经常掉线。识别故障现象时,通常应该向投诉故障的操作者询问以下几个基本的问题:
(1)故障现象发生时,正在运行什么进程(即操作者正在对计算机进行什么操作);
(2)这个进程以前运行过吗?
(3)以前这个进程的运行是否成功?
(4)这个进程最后一次成功运行是什么时候?
(5)从那时起哪些发生了改变?
根据询问结果,开始对故障现象进行客观的详细描述,例如在使用Web浏览时,无论键入哪个网站都返回“该页无法显示”之类的信息。使用ping命令时,无论Ping哪个IP地址都显示超时连接信息等。诸如此类的出错消息会为缩小故障范围提供许多有价值的信息。
在故障现场还要收集以下的故障信息:例如,故障的出现是否有规律,最近是否加入了新用户,最近是否添加了新设备,是否有设备移动、修改或更换,是否修改了用户权限,网络操作系统是否重新配置过等等。经过询问、核实和故障信息收集,确认所发生的故障现象的真实性。
2)列举故障疑似原因
引起Internet访问缓慢故障的原因比较复杂,既有硬件原因也有软件原因,有内网问题也有外网问题,既有病毒攻击也有人为攻击等。当故障发生时应综合考虑各种可能的原因,例如,网卡硬件故障、网络连通性故障、网络设备故障、网络协议故障或设置不当等等,并将其一一列举出来,以供故障排查参考。
列举故障疑似原因的思路应该是先硬后软,范围应集中在网络连通性、网络连接设备和服务设备、网络设置问题这几方面,列举的依据应该基于计算机网络的原理、实战经验的积累、以及对故障的描述。
3)分步排查故障原因
分步排查故障的基本步骤是:首先将所列举的故障疑似原因按优先级别进行排序,排序的原则是从外到内。例如应该第一优先排查Internet共享接入的服务设备(如代理服务器)和互连设备(如路由器),然后按顺序逐一对故障疑似原因进行隔离测试及排查,不断地缩小搜索范围,最终把真正的故障原因找出来。
在排查的过程中,除了利用先进的网络测试工具之外,为了提高排查速度,应先观察网卡、交换机、Modem、路由器面板上的LED指示灯。因为这些指示灯是网络当前运行状态的标志,以及可以立即告诉你故障发生的所在地。
4)故障点及原因定位
经反复测试和排查后,圈定故障点及故障属性,然后要进一步验证故障产生的真实原因。例如最终排查结果是代理服务器的问题,那么到底是主机的硬件故障还是服务软件出错?因此,在已确认故障点的情况下,还必须采用一些有效的手段对其故障原因进行确切的定位。
2 故障解决案例[2,3]
下面通过一例实际个案说明如何运用上述的Internet故障判断流程解决问题,希望可以作为故障排除的共性参考。
案例:某校培训中心是一个独立的局域网,划分为A、B两个子网,相互之间的通信可经路由器进行。其中A网原有32台机,后来增加了20台,合计52台;B网共有40台机。所有的工作站汇聚到路由器后通过代理服务器,按指定IP地址的方式共享访问Internet,代理服务器安装的是WinGate代理软件。宽带接入是一条2M的ADSL专线。故障现象是A网增加了用户之后,局域网中有些工作站能够正常上网,而有些工作站虽能接入Internet,但非常缓慢,甚至无法打开任何网站的网页。
第一步:识别和描述故障现象
通过在现场的询问和查看,知道在A网增加工作站之前,两个网段的所有工作站从未出现过上网缓慢的故障,但是A网增加了20台工作站之后,在上网高峰期,B网有些工作站连接Internet很慢,甚至无法打开任何网站的网页,而A网所有的工作站则上网速度正常,与未增加用户之前无异。
现收集到与本故障相关的主要信息如下:
1)A网增加工作站之前,B网所有工作站上网速度正常;
2)断开A网或减少开机的用户,故障现象立即消失或缓解;
3)在非上网高峰期故障现象不明显;
4)A网的主机型号是P4系列,外置网卡;B网的主机型号是P3系列,板载网卡;
5)电信部门提供的ADSL宽带上行512K,下行2M,申请扩容一直未批。
6)B网中同一个工作站上网缓慢的现象并不固定在同一个状态,即在某个时间段不是太慢,但在另一时间段慢至打不开任何网站的网页。
根据故障信息收集结果,基本上可以将本故障描述为:当A网用户增加时,在上网高峰期B网有些用户出现上网缓慢甚至无法打开网页的故障现象,而A网则完全正常;当A网新增用户退出或完全脱离网络时,上述故障则自然消失。该故障的主要特征是上网缓慢,直至无法打开网页。
第二步:列举故障疑似原因
Internet访问缓慢故障的疑似原因比较多,既有硬件方面的原因,也有软件方面的原因,还有人为因素的影响。本故障现象看似简单实则比较罕见,一般性的认为,该故障非常普通,只是ADSL带宽不足的问题,只需增加外网带宽即可。但进一步深入分析,发现若真是带宽不足问题,对全网所有用户都应该有一定的影响,为什么只有B网部分用户不正常。最费解的是,在A网增加工作站通常只会造成A子网的交换机或路由器端口阻塞,只影响本子网的用户上网,为什么A网自己一切正常反而波及到与之完全隔离的B网用户呢。还有,该故障即时有时无,更增加了判断的难度。因此,该故障原因很可能牵涉到局域网交换机、路由器和代理服务器的软硬件性能问题(如网络瓶颈、配置文件失效等),还可能牵涉到内网各节点之间的动态连通性(指用户访问服务器的实时连接状况)或线路干扰问题。
根据计算机网络的基本原理、实战经验和故障描述,列举以下疑似故障原因:
1)代理服务器可能出现性能瓶颈使带宽减少,或者是Win Gate代理软件的设置有缺陷。
2)A网增加用户之后数据量增大,可能会导致路由器过载,时延重大、带宽减少而影响用户上网。由于A网工作站的性能比B网的高,所以只影响到B网的用户。
3)两个子网之间可能存在线路干扰,因A网用户多,主干线路产生的磁场强度大,故干扰了B网的用户正常上网。
4)在上网高峰期,B网的用户与代理服务器之间的动态连通性(指数据传输丢包率)可能有问题。
第三步:分步排查故障原因
1)利用代理服务器操作系统自带的网络监视器和性能监视器,在上网高峰期查看是否存在服务器访问瓶颈,测试结果是:CPU占用率60%;内存占用率54%;网络利用率只有37%,显然代理服务器的性能不存在问题。再检查Win Gate代理软件的设置并无异常,每个用户的访问流量(带宽)自动调节在20K左右,满足了浏览Internet的基本要求(上网浏览一般有15K以上即可)。排除了这个故障原因。
2)采用Opti View网络综合协议分析仪,在上网高峰期测试路由器A端口的实际吞吐量、时延和带宽等参数,测试结果全部都在路由器额定技术指标之下(产品说明书提供),完全不存在路由器过载的问题。也排除了这个故障原因。
3)将A、B网的主干双绞线换成STP(屏蔽双绞线),意在抗线路干扰,但结果是故障依旧。排除了线路干扰的原因。
4)在上网高峰期采用Ping命令检查B网工作站与代理服务器之间的动态连通性能。在任意一台工作站中首先测试与代理服务器静态连通性 (直接ping代理服务器的IP地址),正常;接着测试动态连通性(执行“ping 10.176.6.112 -l 65500”命令),发现代理服务器无法Ping通,而且测试结果是连续四个“Request time out”,表明数据传输丢包率几乎达到了100%,将Sent Bytes数值逐步减少进行依次测试,当Sent Bytes数值大于2000时,线路连接丢包率就达到100%,再多选几台工作站测试,结果都是一样。若断开A网或削减用户数,则丢包率明显减少。测试结果说明B网的工作站与代理服务器之间的动态连接,在网络高峰期时出现丢包问题。为进一步证实,马上在A网作同样的测试,结果完全是没有任何问题。
第四步:故障点及原因定位
排查结果基本可以确定本故障的原因是B网的用户与代理服务器之间的动态连通性差,导致丢包率高,从而影响了上网速度。如何对故障原因进一步定位呢?实际上这又是一个更深入的原因列举和排查过程。
数据丢包率原因通常与路由器、交换机及网卡有直接关系,以此为据继续排查:
1)路由器是共用的,置换A、B网的路由端口,故障依旧,说明路由器无问题。
2)置换A、B网的交换机,故障依旧,说明交换机无问题。
3)怀疑B网的主机的网卡有问题,故任选一机,禁用其板载网卡,添加外置网卡;完成新网卡的驱程和设置上网参数后,立即访问Internet,目标网页迅速打开了,故障成功解决。
故障原因分析——板载网卡属于内置网卡,由于过多占用系统资源,其数据传输性能比外置网卡(硬网卡)差很远。在A网未增加工作站之前,代理服务器自动分配给各用户的带宽约为30K左右,但A网增加工作站之后自动减为20K左右;由于B网的用户主机的网卡传输性能差,带宽减少后访问请求的时间必然增长,访问速度降低,导致超时登录失而无法打开网页。但当上网用户数减少时,代理服务器又自动将每户的带宽增大,故障便悄然消失。
解决的办法可以向电信部门申请拓展ADSL带宽至3M或以上,但必须长时间支付所增加的线路成本,而更换B网工作站的所有网卡则属一次性投资。学校领导最后决定采取后一个方案。
3 结论
由于影响Internet访问缓慢故障的因素比较多,在网络的三个层面(物理层、数据链路层、网络层)都有产生故障的可能,对其故障的处理过程基于一定的知识和经验,以及相关的软硬件测试工具,通过由彼及此的排查手段,逐步缩小故障范围,最终确定故障部位及原因,采取有效措施把故障消除。
[1]谭珂,全惠民.网络典型故障分析及排除.1版.人民邮电出版社,2003:56,135-254,186-192.
[2]刘晓辉,王春海.网络常见问题与故障1000例.1版.清华大学出版社,2005:56,60-89.
[3]刘晓辉.网络故障与常见问题排查.1版.中国铁道出版社 2004:172-180,186-196.
TP393
A
1674-6708(2010)22-0213-02