使用维护过程中的电缆光缆检测及故障诊断
2010-06-07美国福禄克公司
文|美国福禄克公司 尹 岗
1 光纤万兆升级失败
这是千兆向万兆升级时常见问题,被称作“升级阵痛”。主要表现是升级后误码率高,或无法实现升级。
单模光纤通常是因为光纤衰减值过大或者跳线、连接点光纤端面脏污所致,一般经过清洁端面就可以改善。
多模光纤的情况稍微复杂一些,多模62.5μm的光纤万兆只能实现稳定的26m长度,超过26m则可能无法实现升级连接。所以,升级前需要确认光纤是否是50μm的OM3光纤,如果是还要检查长度是否超过300m,光纤的衰减值是否超过2.6dB。满足上述条件一般可以成功升级为万兆光纤链路,但仍有部分链路会出现误码率高或者不能实现连接的情况。这里面的原因主要是光纤链路中存在质量较差的连接点或者熔接点,虽然总的衰减值没有超差,但这些问题“点”会引起误码率上升。不少网管和维护人员往往花费大量时间去尝试更换交换机/路由器的光模块,甚至更换主机,直至精疲力竭无计可施的时候才开始再次怀疑光纤本身是否有问题,但如果有多余备用光纤,则这个问题会继续潜伏下来,直至下一个升级失败。
由于OM3是“激光优化”光纤(折射率渐变光纤),所以光纤熔接的质量(比如端面是否对齐)会严重影响信号的色散表现。同样,连接器脏污、直径不匹配、轴心不匹配等都会明显地影响色散值,导致误码率上升直至无法连接。
显然,最好的办法是在现场对万兆信号的色散进行测试,但由于现场测试设备价格昂贵(一般是基于实验室的台式设备),使用不变,故TSB140建议了另一种间接的测试方法,那就是光纤链路的二级测试,二级测试是指在一级测试的基础上增加OTDR曲线测试,以便确认链路中是否存在引起质量下降的“事件”。此处所指的OTDR曲线的测试方法使用常见的高解析度OTDR,测试结果将反映出光纤链路中每个连接点的反射值、脉冲变形、隐形短跳线、熔接点、过度弯曲、光纤气泡、直径不匹配、材料混用等问题,这些因素是造成万兆链路色散超差的重要原因。虽然不能直接测试色散值,但用这个方法可以解决98%以上的升级阵痛问题,如图1所示。
图1 OTDR曲线举例(反射峰是接头,下跌处是熔接点或弯曲过度点)
测试的时候需要注意三个问题:
一是一定要使用高解析度的OTDR。由于长途干线OTDR一般设计为大动态范围,长距离量程,低解析度,故不适合短距离万兆链路的精确测试,应选用高解析度的OTDR测试仪(通常这类OTDR被称作园区网类OTDR,适合短距离、多跳接、数量庞大的局域网/园区网)。
二是使用补偿光纤。由于OTDR存在发射死区和事件死区,所以被测链路与OTDR测试端口的第一个“连接点”往往是不能被准确测试的,常见问题就是虽然OTDR测试合格,但链路还是不能升级至万兆,退回到千兆则工作“仍”很正常。解决的办法就是使用一段发射补偿光纤“嵌入”到OTDR和被测链路中,这样被测链路的第一个连接点就被移至发射补偿光纤的另一端,由于发射补偿光纤有一定长度(比如100m),一般都能避开事件死区和衰减死区,让第一个连接点完全暴露于精确的检测段之中。
与发射补偿光纤类似,被测链路的末端由于OTDR测试时是开路的,所以反射的光信号“波形”与非开路状态是不同的,而实际工作中均处于非开路状态(后面一定连接有链接器),所以,为了正确评估一条光纤是否能支持万兆,还需要在末端加上一条接收补偿光纤(通常也是100m),这样就能完整地检测出被测光纤链路从“头”至“尾”连接质量,如图2所示。
图2 面包(补偿光纤)
三是双向测试。由于多模万兆光纤链路一般都很短(300m),绝大多数都在室内设置不止一个跳接,用来跳接的跳线一般都很短,比如2m的跳线在OTDR曲线的“事件评估表”中会被标注为隐藏事件,也就是说跳线的一端质量会被评估,而另一端质量则被隐藏。为了准确地评估整条链路,则需要反向再测试一次,以便观察跳线另一端连接点的质量。
诊断及处理方法:根据高解析度OTDR提供的测试曲线和事件评估表,我们可以清楚地定位出现问题的连接点/熔接点以及事故点的精确位置。如果是接头脏污,则清洁之;如果是端面研磨质量问题(比如破损,检查工具如图3所示),则需要重新更换跳线或者更换尾纤;如果是熔接点质量问题,则需要重新熔接光纤;如果是气泡则需要更换光纤;如果是弯曲半径过小或者捆扎过紧则需要采取对应措施。
图3 光纤显微镜
2 电缆万兆升级失败
电缆链路及其连接的万兆设备总造价比光纤设备低20%~40%,是部分预算偏紧的用户的最佳选择。
一般Cat.6的电缆链路不能支持100m万兆连接,但如果距离较短(比如37m以内),则支持万兆没有问题。屏蔽的Cat.6支持万兆100m基本没有问题,如果要采用非屏蔽,则Cat.6A是较好选择。
那么,升级前如何保证所选择的链路能支持万兆链路呢?是不是所有Cat.6链路就不能支持100m万兆链路?
升级前的评估很重要。如果是Cat.6屏蔽线,升级前一般只要检查单根电缆满足Cat.6电缆要求以及接地检查没有问题即可胜任。如果是Cat.6非屏蔽电缆,则需要加测外部串扰参数,比如PS ANEXT、PA AACR-F等,如果符合要求也可以稳定地支持万兆。外部串扰测试不合格的链路可以采取减小电缆束的方法,这样可以减少电缆线束间的外部串扰,直至达到要求。需要注意的是,这类电缆链路需要加注,不允许今后再次增加敷设电缆链路的数量,否则可能制造出新的“失败链路”,并引发在用链路的批量性能故障。
诊断及处理方法:使用HDTDR和HDTDX等工具可以直观地查看问题出现的精确物理位置。如果是电缆受伤或者弯曲半径过小、捆扎过紧、连续弯曲布线等,则需要在故障位置采取对应措施;如果提示是模块处出现问题,则需要重新打接模块、更换模块、更换跳线或者水晶头等;如果是电缆质量本身有问题,则需要更换电缆或者启用富余的备用电缆;如果是因为电缆束过大则需要重新分束或者重新敷设高质量的电缆。
3 新增设备或网络拓扑调整失败
为了控制因人员因素引发的不安全事故,广泛采用数据集中的数据中心建设方法。这样可以把对人员的控制减少到少数几个人,大大减少了人员控制的风险。但这会造成设备升级的速度加快。通常最常见的升级内容是增加服务器和存储设备的数量,这需要使用新的跳线来连接服务器、交换机和存储设备,形成新的网络拓扑结构。跳线质量问题是引发这类升级失败的最常见原因。
光纤跳线不合格主要集中在端面污染、轴心不匹配和回波损耗超标。投入运行前应该对选用的跳线进行质量检验(这个环节在10/100M低速链路中通常不需要),检验的内容是参数检验和光学检验。参数检验主要是检测跳线损耗和回波损耗是否符合要求,光学检验主要是使用光纤显微镜检查跳线端面的清洁度和研磨质量。参数检验合格的跳线有可能端面不经意中受到像指纹等类似“事件”的污染,导致误码率上升甚至连接失败。参数检验不合格的跳线经过清洁后多数也都能恢复正常,所以,在升级高速链路的时候一般都要求安装工艺中一定要执行检查和清洁端面这个最有效的质保环节。
电缆跳线不合格主要集中在水晶头不合格、跳线与设备插座不匹配等情况。Cat.6和 Cat.6A对部分厂商的产品来说存在兼容性要求的,也就是说必须使用厂商指定的跳线。使用制定跳线虽然会提高链路的整体质量,但也会带来一些麻烦,最大的麻烦就是不兼容。如果一个网管人员习惯使用某个厂商的跳线,则新来“接班”的网管人员则可能因为不了解这种默认“嗜好”而在新增设备或者调整网络拓扑结构的时候使用他喜欢的其他厂家的跳线,这就可能引发升级失败的风险。如何保证系统所用的跳线是兼容的?最简单的办法是:使用兼容性的永久链路适配器进行链路检测,如果检测通过则证明此链路是支持跳线互换的。然后,在接入新的跳线时对批量采购回来的跳线进行兼容性检测,如果检测合格则可以大胆使用这种可互换性兼容跳线。
诊断及处理方法:测试光纤跳线的衰减值和回波损耗值,查看和清洁光纤端面,直至更换新的合格的光纤;测试电缆跳线的参数,确认跳线是否参数达标且符合互换性要求,否则更换电缆跳线及品牌,直至合格。
4 问题的预防
由于计算机网络的可靠性要求规范体系建立比较缓慢,造成系统管理维护上普遍采用“事后维护”的方式进行,“事后维护”是指不出问题不去维护,出了问题采取维护这样一种维护观念和方式,它对高可靠性网络往往带来灾难性的后果和巨大损失,人们此时往往热衷于谈论如何“亡羊补牢”,仍然较少讨论如何未雨绸缪,防患于未然。这种非常落后的方式之所以大行其道,主要还是因为目前个体用户的实际使用带宽较低,特别是视频带宽供应不足造成的。对要求较高的数据中心用户,在国际国内标准中均有部分涉及(比如TIA 942、GB 50174等),但对可靠性和电缆光缆系统的对应要求上还是比较模糊的。
其实,达到高可靠性的手段很简单,那就是合理采取选型测试、进场检测、监理测试/随工检测、升级评估检测、开通检测、定期检测、进货检测等手段。目前的现状是,验收测试是第一次也是最后一次质量把关的机会,对于建成后的网络虽然至关重要,但是其中坚持定期检测才是最有效防止问题出现的简便手段。遗憾的是,这是整个可靠性保证环节中最难控制的环节,也是最容易被忽视的手段,即便我们为此付出高昂代价也“在所不惜”。
光纤、跳线等的质量检测属于元件级检测。同样地,电缆、模块、跳线也属于元件级检测范畴。一般应使用对应的标准和适配器去进行检测。比如,电缆检测应使用电缆测试标准和电缆测试适配器,不应使用通道测试标准和通道适配器来进行检测;跳线则应该使用跳线测试标准和跳线适配器来进行检测,而不应使用通道测试标准和通道测试适配器来进行检测。事实上,使用通道标准和通道测试适配器来进行电缆和跳线的检测曾经在集成商和工程商中间非常流行,在部分生产商特别是跳线生产商当中至今也没有绝迹。
另一个需要注意的问题就是电缆的兼容性问题,也就是前面提到的居中性问题。从Cat.6到Cat.6A都存在这个问题,这造成跳线互换使用的过程中出现种种问题,给甲方造成巨大的困惑。
对于Cat.5e及以下规格的链路,虽然基本上不存在兼容性问题,但仍然存在只是检测连通性的普遍问题。