几起不应由网络“背锅”的网络故障
2021-01-06湖南郭兆宏周序生李强
■ 湖南 郭兆宏 周序生 李强
编者按:造成网络故障的原因多种多样,其中很多未必都是网络本身的原因导致的。本文讲解了多起网络故障,但都由其他原因引起的。
最近一段时间笔者处理了多起网络故障,其中一些网络故障是因为网络问题引发,但却是用户人为造成的,一些网络网络看起来是网络问题实际是应用服务的问题。这些网络故障真的不能由网络来背锅。
某部门A 的某系统的1521端口服务不能打开,实际是IP 地址冲突了
某部门A 一个服务需要使用172.×.×.2 的1521 端口,由于6 月份网络中心机房的一次停电后此服务总是打不开,这次停电造成A部门多个系统无法正常运行。而该部门的系统管理员是刚轮岗过来的,对各个系统不是很了解,因此就将前系统管理员叫来查看该问题。但该故障未能解决。
于是请系统公司的人员远程查看,反馈说是网络有问题,不能相互Ping 通。因为服务器段是禁止互Ping 的,为帮助他们解决问题,管理员把相应几个机柜禁止Ping的ACL 取消,删除ACL 后可以相通Ping 通了。但这个172.×.×.2 的1521 端口还是打不开。
管理员查到172.×.×.2在交换机A 的3 号端口,于是检查对应的服务器,系统公司人员又说网络禁止了1521 端口,但管理员检查交换机及安全设备全部没有禁止1521 端口。直接通过172.×.×.2 所在交换机A 接笔记本还是无法打开172.×.×.2 的1521的服务,而将交换机A 端口上的ACL 全删除,还是打不开1521 端口。管理员又用端口扫描软件扫描172.×.×.2的端口,均未扫描出1521 端口。由此肯定是服务器有问题。
之后系统公司人员到现场用笔记本配置172.×.×.2在交换机A 的7 号端口测试服务,网络不通,因此断定网络有问题。而到机房后用笔记本电脑自动获取IP 的网络正常,手工172.×.×.2确实网络不通,而改用172.×.×.200 网络是通的,因此估计是IP 冲突了。
管理员想起以前检查的172.×.×.2 是交换机A 的3号端口,于是将该端口网线拔出,接在7 号端口笔记本上,172.×.×.2 网络恢复正常,而再将3 号端口网线接上,7号端口笔记本电脑立即不通了,可以肯定是IP 冲突了。
最后系统公司人员查明,交换机A 的3 号端口连接的是他们的备份服务器,7 号端口连接的是日常使用服务器,备份后未改IP 地址,且平时备份服务器虚拟机是关机的,因这次停电因新来的系统管理员把这台虚拟机开机了,没有发现有IP 冲突,也没有发现IP 172.×.×.2 所在交换机端口3 与真实使用服务器的在7 号端口实际是不同的服务器。同时还发现一个问题,服务使用的IP 太小,又未做DHCP 排除,于是管理员马上将172.×.×.1 ~100的地址在DHCP 排除。
这起故障是部门A 的服务器地址IP 冲突,造成服务端口无法打开,新任系统管理员对各服务器各系统不了解造成的,与基础网络无关。
某项考试的复试因用户将认证网页关闭而总是断网
单位多个部门要在网上进行某项考试复试,为保障50 Mbps 带宽需求,笔者新建了连接学生宿舍D 运营商出口策略组,新建的每个帐号可同时在线18 台设备。
建好帐号后进行监测时,笔者发现有些帐号是无线网IP,因无线网接入带宽只有8 Mbps,满足不了带宽需求,于是提醒相关人员注意考试时一定要用有线网络。同时笔者还发现部分帐号是网页认证,这种要连续进行几个小时的考试使用网页认证很容易关闭认证网页,从而造成断网。笔者发现后,多次发布通知提醒最好使用认证客户端进行认证。
在管理员放假的星期天,笔者还是接到电话反馈考试进行中总是断网,严重影响考试进行。因管理员不在现场,一时无法远程查看,因此只能通过电话询问情况。通过使用手机查看单位主页,显示运行正常,几个主要系统也都可以打开,单位网络肯定是正常的。笔者在询问使用什么认证方式之后,该人员反馈说是网页认证。
笔者明确说明,网页认证的网页一定不能关闭,可以网页最小化,如果有时间可以下载认证客户端,只需一两分钟就可下载安装完毕,且不需重启电脑可立即认证。其实这种网页认证的问题,笔者在日常监测时已经发现并提醒了,可还是有在考试进行中因关闭认证网页而造成断网的,这起断网故障与网络无关。
某部门B 的小交换机同时接入无线网和有线网,从而导致网络不通
某部门B 打电话反馈几间办公室都不能上网了。笔者检查此部门所在楼的交换机全部正常,此楼的认证也是正常的。
笔者让他们反馈几个帐号来检查,其中有一个帐号有多次认证记录并在线,可以断定该帐号IP 地址有问题,该IP 是172.23.X.X,是自动获取IP 的,该IP 是无线网设备管理段地址。再按认证记录登录相应交换机B,有几个其它端口也有认证,检查认证中的IP 是172.18.X.X,这是交换机B端口应获取的IP地址。在上网行为管理中有这几个IP 的记录,说明网络是正常的。
为什么报故障的用户IP是无线网的?于是笔者决定到现场查看。
笔者到现场检查后发现是某部门B 自行隔小房间并重新自行布置的网线,且连接了一台16 口交换机到几个房间,网线上并无标记,且部分线布置在墙内,无法分清哪根是上联线。笔者发现确实是自动获取到172.23.X.X,也可能是有小路由器。因无法把几个房间全部打开查看,B 部门的人也无法确定几个房间内是否有小路由器。由于无法查看到布线图纸,也无法及时联系到相关施工人员,且报故障的老师急需用网,于是笔者到DHCP 服务器上查看172.23.×.×,显示确实分发出去了,对应的MAC地址就是报故障用户电脑的MAC,基本确定这16 口交换机同时接了有线和无线网。
因单位各个楼内同时存在有线网、无线网、一卡通的交换机,大部分都在同一个弱电间内,外人分不清哪台交换机是属于哪个网的。以前就发生过接错交换机的现象。笔者把16 口交换机上的网线全部拔出,再一个个接上,同时接笔记本电脑检查自动获取IP 地址,直到找到自动获取到172.23.×.×的那个网线,再接入笔记本电脑还是获取相同地址,然后把此网线剪断,再到那个需上网的房间检查认证恢复正常,获取IP 也正常了,网页可以打开。
这个故障是因为部门B自行布网线并同时接入到有线网和无线网,造成自动获取到无线网设备地址而在有线网认证,从而不能上网,这起故障也与网络无关。
某新楼C 网络刚通就发现有的信息点网络不通,但指示灯亮
某栋新建的C 楼刚刚接通有线网,在一楼和二楼接入交换机上测试网络是正常的,在三楼一个房间C 却报网络不通。
笔者到房间C 内测试发现,电脑网卡的指示灯亮,用网线测试仪测试8 根线全通,交换机标记21 端口指示灯也是亮的。但网络就是不通,自动获取不到IP,手工IP 也Ping 不通网关。
笔者把信息面板拆下,然后将8 根线再次重连,通过寻线确认在交换机亮灯的21 端口是此根网线,通过换交换机端口网络还是不通。笔者在交换机端将此根网线水晶头重做,用网线测试8 根线全是通的,但房间C 的网络还是不通。之后用笔记本电脑接到三楼接入交换机上的几个端口测试认证正常,能自动获取IP,打开网页和视频直播都正常。通过换人做,改做水晶头等方式,房间C 的网络就是不通。笔者又打开隔壁两间房子,一间网络测试正常,另一间测试网络不通,因此感觉是布置的网线有问题。
笔者回到办公室做了一张几十米的长网线,一端接到三楼交换机的21 端口,另一端接到房间C 内,此时网络正常。由此断定是在布线或施工的哪个地方有质量问题。因房间C 急需用网,笔者试着将交换机端口从默认千兆强制改成100 Mbps,房间C 的网络终于通了。
该事例是因新投入使用的楼房布置的网线质量或施工质量有问题,造成交换机千兆端口中无法使用,从而强制百兆才能使用,这起网络故障也与网络无关,是施工的原因。
某考试系统在考试时非常卡
在期未考试时,某部门G要使用自己的考试系统。该系统是某部门自己开发的,在单位内已经使用了多年。此次是第一次大范围公网上考试使用,每次考试约有8 000 人,分二次考试。
为此,在出口设备上为该考试服务器带宽限制由100 Mbps 提高到700 Mbps,连接数和新建连接数不限制。
该部门人员表示,某天23 点进行压力测试,监测当时考试服务器接口带宽仅为1 Mbps 左右。第一次考试时监控考试服务器接口峰值只有8 Mbps 左右,出口设备上连续数峰值在6 000 左右时考试页面已经打不开了。而且学生后来反映一是登录不上,二是登录上后不出题,三是无法交卷。
第一次考试快结束时,相关领导检查出考试服务器接口上的ACL 有影响,因此就取消了。该ACL 是用来禁止445、138、139 等40 多个端口的,是单位每个楼的汇聚交换机端口上都有的。G 部门的老师表示这些端口考试服务全未使用。第二次考试时,考试服务器接口带宽只有2 Mbps 左右了,出口设备上连续数峰值在6 000 个,有时用内网地址可打开而用公网地址打不开。部门G 的老师询问是否公网有限制,这时办公出口带宽还未用到一半,在线IP 数量只有2 000 个左右,而出口设备在线IP 峰值最高有过7 500 个,到G 楼的带宽只有几十兆,且考试系统直接使用的IP 地址,笔者试打开其它几个映射都正常。用单位另一个系统J 做交叉映射,公网IP 相同但端口号不同,系统J 都正常,而系统G 的考试系统不正常。因该考试系统不在网络中心机房而在G 楼内,笔者就把多个网络安全设备全部放通考试系统内网IP,同时在出口上将考试系统G 的IP 的连接数限制在1 万。
第二次考试还是出现问题,但学生反映少了很多,通过询问部门G 的考试服务器情况,相关人员反馈说是只有一台考试服务器,还是多年前的。一个星期后,部门J 的J 系统进行学生大面积应用,J 系统一天访问量达到175 万次,一小时访问量峰值是35 万次。而考试系统G 的服务器在考试当天一天访问量还不到1.5 万次,一小时访问量峰值不到3 000次。单位主页每天的访问量都在20 ~30 万次左右,单位的网络系统完全能够经受一天1.5 万次的访问。笔者认为这个考试系统的问题确实与网络无关。
总结
近期笔者遇到几例网络故障,其中某部门某服务无法打开,实际是因为IP 地址有冲突,是相应系统管理员因轮岗才上任对相关系统不了解,查出IP 对应的交换机端口实际服务器接在另外的端口上;某考试时因关闭认证网页,从而造成断网。这两起网络故障是用户网络能力不足直接影响了网络的使用。
某部门自行重新布线时同时接入有线网与无线网,而造成自动获取无线网IP 而在有线网认证;某新建楼信息点千兆网络不通,只能将交换机端口强制百兆才能网通。这两起网络故障是因单位的网络部门无法管理和参与网络布线,只提供网络服务,无形中增加很多网络问题。
某部门的考试系统卡顿,该考试系统一天的访问量才1.5 万次,一小时峰值3 000次,而同期另外一个应用可以达到一天175 万次访问量,一小时峰值35 万次。近期遇到的多起网络故障都不是基础网络的原因造成的,不应由网络来背这个锅。