由现象着手定位问题点
2015-12-10
某地市公司反映办公网使用OA办公软件有问题,主要表现为不能上传附件,有时网速较慢。
图1 问题聚类
现象收集
为尽快确认影响范围,特对此类信息进行了全面收集,现象汇总如下:
1.在办公网下使用公文和邮件,易发生上传附件失败现象,同时办公网网速较慢,另外其他外网邮箱上传附件同样有此类现象。但下载、访问网页等均一切正常。
2.此类现象,其他地市并未发生。
3.上传失败的主机涉及整个地市公司,包括下属的县公司。
4.办公网组网架构中不含安全设备,网络边界不具有阻断功能的安全设备部署。
5.个别通过修改电脑MTU值(最大传输单元),解决了上传附件问题,但上传速度未明显改善。
如是少量电脑出现此类问题,可以通过修改MTU值处理。处理方法详见附1(修改MTU值方法)。由于本次问题涉及面广,同时每台终端都设置一遍也无法在根本上解决问题,故需找到问题根源。
问题聚类
首先对现象进行归类,将所有现象归到对应资源中。
对资源划分定义如下:
云:泛指基础资源,包括技术、存储、网络、应用资源等。
管:泛指网络通道,包括核心网,承载网、接入网等。
端:客户端,如智能手机,PC机,平台电脑等。
对资源可能出现此类问题原因进行预估。
端:终端本身问题,如大面积病毒感染等。
云:应用系统服务问题。
管:网络原因,如防火墙,路由策略设置等。
问题定位
经过上面的问题聚类,结合网络现状和影响范围,围绕问题现象定位问题点。
端:终端本身问题,影响范围个体或成片,但终端防毒软件未见异常。
云:服务器端限制原因,影响范围为对其应所有的服务对象,问题出现随机不会单独在某个区域出现。
管:网络原因,如防火墙,路由策略设置等,影响范围视组网方式而定。
结合现象可以发现问题出现在管道,即网络层(判断使用排查法,见图1),且集中在上行链路。
后根据网络拓扑和组网方式,查看地市路由设置(因每个路由器具体查看方法不一致,在此不举例,按操作说明书操作即可)和服务端MTU值设置(Ping大包)初步判断故障由省级核心路由器到市级路由间的MTU值异常引起。
问题解决
经上述定位,联系网络负责人得知,前一阶段核心路由器NE80升级后,该公司也反映邮件附件上传有问题,由于其他地州均无此问题,故未在设备方面考虑。通过我方的定位分析,怀疑核心路由器NE80和该地市公司NE40路由器之间端口参数协商出现问题,经端口重启(shutdown /undo shutdown端口操作)后业务恢复正常。
经验总结
1.应用故障已趋向综合故障,单从某个专业线条,很难准确判断其故障点,应多收集现象表象,收集越多越接近事实。
2.在进行各项业务割接及升级调整后,应进行多项完善业务测试(包含进行Ping大包测试)。
3.修复问题并非终点,只是一个新的起点。通过案例建立知识库,积累经验,减少重复劳动。
附1:修改MTU值方法
Windows平台下(通用方法)
1.运行regedit,打开:HKEY_LOCAL_MACHINESYSTEMCurrentControlSetServicesTcpipParametersInterfaces。
2.Interfaces下有多个子项,每个子项对应一个网卡。请按如下方法选择网卡:
确定本机用来连接Internet的网卡或拨号连接的IP,如192.168.0.19,用 鼠 标 点 击Interfaces上的子项,查看键值列表中的IPAddress项。如果IPAddress的键值与上面的IP相同,即192.168.0.19,则该子项就是要找的网卡。
3.进入该子项,在右边的窗口里按鼠标右键,选择“新建→DWORD 值”,输入名称“MTU”,按回车。再用鼠标双击“MTU”,弹出修改窗口,填入MTU的值(一般为十进制的1480)。填写前请先把基数设为十进制。设置好后,需要重启机器才能生效。
Windows 7下
1.使用管理员权限运行cmd,用netsh interface ipv4 show subinterfaces命令看看MTU以及本地连接名称。
2.使 用netsh interface ipv4 set subinterface "连接名" mtu=300 store=persistent,这里的连接名是你使用上面命令看到的MTU值对应的这个连接名,在右边显示。
如何查看网络可接受的值MTU值:在cmd下使用Ping命令,以不被拆包的最大字节数为准。以最大1500为例,使用是 要 减 28,即 1500-28=1472,命令:ping -l 1472 -f www.baidu.com。