外观光鲜的布线系统背后隐藏的质量问题
2013-03-22尹岗
1 外表光鲜的万兆铜缆布线背后隐藏的质量问题
桥架走线如图1所示,机架配线的布线施工如图2所示。两张图中的布线系统理线非常“规范”,甚至可以当作工艺品看待。如果作为优秀布线施工的样板图,相信多数读者都会赞同。但从数据传输可靠性上看,这两张样板图却有可能在传输万兆甚至更高数据流时出现误码率超标的问题。主要的原因有三:一是线捆太大、线缆平行过长、线间隔离不足(如图1所示);二是捆扎密度太高(如图2所示);三是捆扎太紧(图1、2中不存在此问题)。下面逐一分析这三种情况导致误码率上升的成因及预防措施。
1.1 为什么线捆太大会引起误码率上升
我们知道,电磁波信号在电缆中向前传输时也会同时向电缆周围的空间直接辐射一部分电磁波能量,这些能量同样也会被周围的电缆通过电磁感应的方式接收,从而进入邻近的电缆中,这种感应信号将作为干扰信号扰乱电缆中正常传输的数据信号。TIA 568C和ISO 11801等标准化组织将其定义为外部串扰(AXT)。单根电缆对邻近电缆造成的外部串扰数量有限,一般不会引起误码率上升。但如果一根被干扰的电缆周围有多根电缆存在并且也在传输数据信号,则此时累积起来的干扰能量就可能改变原来的信号能量结构和信号波形,从而造成波形失真和抖动,导致对端信号接收电路误识别,形成“误码”。如果数据电缆用于运行10G以上应用,数据码传送的密度会越来越高,数码信号占用的基带带宽就越高。标准中要求电缆的基带带宽上限频率要达到500MHz。由于频率越高,信号传输时对外辐射越强,所以速度越高的应用对周围电缆的干扰就越大,换一个角度看,则是信号传输电缆受到来自周围其他高速电缆的影响越大。因此,在实际敷设支持高速应用的电缆(比如10G)时,一般每个电缆捆的数量不宜过大。TIA 568C等标准则要求对实际的干扰程度进行实地测量,并纳入验收文件。图1中左侧布放的电缆只有平行的一层,不必担心外部串扰的问题。而右侧电缆被大量堆积在了一起,虽然布放非常整齐,但却很可能出现外部串扰测试不合格的问题。如果手里有福禄克公司的DTX-1800电缆分析仪,则可以选配外部串扰测试模块进行外部串扰测试。外部串扰测试是抽样测试,通常挑选一捆电缆中干扰情况预估最严重的几根做代表来进行测试。对于外部串扰测试不通过的链路,如果判断是线束太大,则需要改小。比如,48根一捆测试不通过,则需要改成24根一捆,还不通过,则改成12根一捆,甚至6根一捆。
1.2 为什么线束中的电缆平行布放的距离过长也会引起误码率上升
每根电缆的结构是大致相同的,所以两根邻近电缆中的对应的双绞线对(比如A电缆中的线对A1/2和B电缆中的线对B1/2)也是平行关系,两者之间的绞接率是一样的,这导致彼此辐射的信号因为持续的平行关系而很容易被对方吸收,从而引起误码率上升。所以,布放电缆的走向并不是越平行、整齐越好,反而是适当的错乱有助于消除外部串扰信号的累积。不过,习惯于布线时使用穿孔板的“高水准”的施工人员会自然地倾向于将平行距离尽量延长,在一片赞扬声中,设下高速应用的误码率陷阱。如果改小线束直径仍然不能解决问题,则可以尝试打乱理线的平行距离,此时很可能使问题得到解决。
1.3 为什么线间距不足也会造成误码率上升
虽然改小线束可以很好地解决多数外部串扰不合格的问题,但大量改小的线束仍然可能堆叠在桥架和地板下,彼此之间的干扰虽然有所减弱,但毕竟还存在。此时需要适当增加线束之间的间距,并允许线束排放不那么“整齐”。增加间距可以使用一些类似支架一类的布放设施,或者采用混叠排放的方法。后一种方法需要承担一定风险,那就是如果测试仍然不合格,则事后进行追加隔离支架的施工难度就会明显增加。
1.4 为什么捆扎过紧、密度过高会令误码率上升
为了良好地固定布放的电缆,捆扎是必要的。通常捆扎密度高,有利于整齐理线,不过你也许需要谨慎对待这种看似增加外观漂亮的高水准施工行为。因为捆扎过紧会令电缆的线对与线对之间、电缆与电缆之间的间距空间被压缩,为内部串扰和外部串扰提高了辐射效率,使得干扰量增加,并且,捆扎处的特性阻抗值通常也会改变。所以,捆扎过紧和过高的捆扎密度都会导致串扰增加,在赢得美观的同时牺牲的是速度。一般建议如下:如果一定要提高捆扎密度,则选择松散捆扎,尽量避免因为捆扎应力过大改变线缆的特性阻抗和串扰系数。这两个参数可以通过测试NEXT和RL等参数直接、间接地反映出来。其他的建议来自经验丰富的工程商和集成商,比如,采用间密捆扎——多数捆扎较松,仅少量关键位置(比如上下桥架和进出机柜)的捆扎稍紧一些。对于由于捆扎过紧、过密造成的串扰和回波损耗参数超标,可以在不影响捆扎效果的情况下适当剪开一些扎带,这通常会使测试结果得到改善。测试的时机:剪开扎带后立刻进行测试并不是最好时机,而应于次日再进行测试,以免因电缆挤压变形后恢复慢、应力消除不彻底令改善效果不明显。
2 规范美观的10G/40G/100G光纤布线背后隐藏的质量
万兆及以上速度的光纤布线目前主要局限于在数据中心布线系统中采用。数据中心中使用的高速光纤在新的国际标准中已经不再采用OM1、OM2选项,直接建议采用OM3和OM4光纤。这给光纤质量的检测带来了一些挑战和新要求。由于设备的高速度、高密度和多次跳接结构使其布线系统与普通布线系统相比有比较明显的特点,比如预端接布线、高密度布线、短距离布线、超短距布线(跳线直接连接)、多跳接/转接链路布放等。这些特点大大提高了设备的空间效率,但也给布线系统的质量保证增加了难度。需要工程商、集成商和设备供应商更关注以下四个“质量控制因素”:
第一,要尽量避免预端接光纤的“一废俱废”问题。预端接布线使得安装光缆的工作大大简化,安装质量和安装速度明显提高,受CIO们的欢迎程度较高。但在运输、拆装、布放、开通等环节对规范施工的要求明显提高,这是因为一旦这些环节(特别是拆装、布放环节)出问题造成光纤链路质量测试验收不通过,则可能需要批量废弃光缆(比如MPO光缆布线)——此即常说的“一废俱废”,如图3所示。造成预端接光缆现场废弃的原因主要是布放时牵拉过度、没有做好现场保护、路由过度弯曲、捆扎过紧、受力不均匀、端面损伤等。预端接光缆由于订货时间普遍较长,由此造成的返工延误会成为工程商验收时的一大麻烦。
第二,检测验收或设备开通前要遵循较严格的安装操作规范。高密度布线普遍采用MPO端接,如果按照以前习惯常规方法而不是规范的方法进行安装,则因端面污渍导致10G/40G设备很容易出现误码率过高、端口频繁重启等现象。规范的安装必须进行现场端面清洁、检查和测试后再安装设备,空余的布线端口要严格做好防尘、防潮和固定。
第三,短距离、多跳接光纤链路只考察链路损耗值是不够的,还需要将反射值(ORL光回波损耗)纳入考察范围,以确保链路误码率达到要求。由于数据中心的设备密度和速度的快速增加,与空间局促的矛盾日益明显,采用设备分区、顶置机架、MPO布线等改善方案导致短距离、多跳接光纤布线的大量出现。短光纤链路由于本身损耗值较小,常给人一种错觉,那就是损耗测试很容易通过——即便因为施工不规范造成损耗偏大也不会引起设备工作出问题。但事实是,一方面,10G/40G/100G应用为光纤链路预留的“损耗预算”本身就比较紧张,如果“粗糙施工”再加上检测的时候使用耦合误差比较大的光源误差可达40%,经常会被误判为不合格。为提高测试精度,新的标准(TSB 4979)建议损耗测试宜采用光环通量(Encircled Flux)控制的光源和专用测试参考跳线(TRC)来进行测试。图4所示的垂直光纤路由转弯点内侧与机架接触点的部分光纤由于缺少缓冲支撑,长时间受力后可能出现裂纹,且损耗也可能增大,将影响到高速链路的误码率。
第四,较大的回波损耗会导致光传输码出错及误码率不合格。这是因为来自光纤连接器的多次反射回波会增加色散且破坏正常传输的光脉冲波形,造成误码率上升。如图5所示,LC接口的设备使用MPO预端接光缆,须先在设备端口前使用MPO-LC转接盒,再用现在最常用的LC设备跳线接入链路,这样会人为增加连接器/跳接点的数量,如果再加上忽视LC-LC跳线的进货质量,那么习惯于“粗放施工”的工程商/集成商在数据中心项目中必然会遭遇“不合格”的高风险事件。引入高解析度的OTDR测试来帮助确定跳接点/连接点质量水平是一个很有效的现场测试解决方案,可以识别反射较强的连接点/跳接点,并给出通过/失败判断。目前ISO 11801给出的光回波损耗ORL的判别门限是-20dB,虽然有些偏低,但也算是一个较大的进步。
3 为布线系统全寿命期把控质量:从设计选型、安装验收到使用维护
数据中心高速链路承担的计算数据流很大,涉及的用户数量众多,为避免总是在设备开通或检测验收阶段才发现大量因产品选型不过关和粗放施工等引发的质量问题,以及在系统使用维护阶段出现高频率的升级困难和故障率,提高系统可靠性,减少总体拥有成本,从设计选型阶段就要将质量控制观念和措施纳入整个工程流程。但因为我国设计标准和施工规范普遍落后于设备创新和突破的速度,按部就班、循规蹈矩的质量控制方式在机房建设中一直都存在风险,给用户带来的损失也是无以计数的。
3.1 设计选型阶段的质量控制措施
这个阶段比较简单,除了设计规范、产品手册和供应商推荐的方案外,应搭建仿真链路进行测试,这样可以把产品存在的缺陷、一致性问题、匹配性问题在安装施工事前就排除掉。比如电缆是否能通过6包1测试,光纤、跳线、耦合器等是否匹配。
3.2 施工安装阶段的质量控制措施
施工安装阶段的前期是进场检测,这个环节是对采购的“入网”合格产品进行抽测,确保采购的产品和选用的产品质量一致,并排除运输、转存过程中的质量风险(比如过度挤压损伤、弯折损伤、雨淋等)。然后是施工环节的自检自纠和监理测试,这个环节主要是考察施工工艺是否合格。建议的方案是小批量“预验收检测”,这样可以及时发现施工过程中存在的问题,避免后期检测验收“批量问题”的出现,导致项目停工延期,造成巨大损失。
3.3 使用维护阶段的质量控制措施
电缆链路存在各厂商之间不兼容的问题,虽然居中性的永久链路测试可以保证电缆链路支持后续的跳线互换,但如果跳线本身不支持互换,则仍可能引起链路误码率超标甚至不能联通的问题。所以对采购待用的铜缆跳线也要进行“进场检测”,只有居中性检测也符合要求的跳线才能支持跳线的任意互换。对于光纤跳线,则需要在“进场检测”时,测试损耗值和回波损耗值,有条件时还要进行兼容性测试,只有这样才能确保待用光纤跳线上架后的100%可用。ORL兼容测试需要使用OTDR和补偿跳线,如果被测跳线和约定的补偿跳线之间有较大差异,则存在异质光纤的可能性较大。比如使用OM2光纤跳线仿冒OM4光纤跳线,仅看外观和测试损耗值是不能发现问题的。
由于数据中心设备变更比较频繁,所以TIA 942A要求备用物理链路也要100%检测合格,并需定期进行检测,以确保100%的可用性。目前标准中均没有规定定期检测的周期,业界给出的建议是根据布线系统的开通、增删、变更、扩容频繁程度,可以选择1.5~3年为定期测试周期。对更新、扩容、拓扑结构调整、故障诊断恢复运行前,均要求进行开通测试,确保布线系统100%可用。