下一代数据中心的Ethernet(40G/100G)的发展与基础布线
2010-02-26罗森伯格亚太电子有限公司
文|罗森伯格亚太电子有限公司 周 炜
下一代数据中心的Ethernet(40G/100G)的发展与基础布线
文|罗森伯格亚太电子有限公司 周 炜
1 数据中心与下一代以太网
自从2002年IEEE 802.3ae 标准正式出台以后,以太网络的速度得到了极大的提高,比如阿姆斯特丹和东京互联网核心交换节点的流量已经突破600Gbps。尽管10Gbps的传输速率已经极大地发挥了普通多模光纤和双绞线的潜力,但是随着网络应用的发展,特别是随着当前网络视频、手机智能化等多种业务的快速发展,10GBase已经体现出局限性。2009年11月中旬,Intel开始发售10GBase-T网卡。可以预见,随着IEEE 802.3az标准的成熟以及芯片技术的进步,10GBase-T的功耗会进一步降低,将来PC服务器甚至是普通电脑都会采用10Gbps以太网络。
所以在2006年10GBase-T标准出台后,IEEE根据网络发展的趋势,于当年6月就成立了HSSG(Higher Speed Study Group)研究小组,并于2007年12月批准PAR(Project Authorization Request) 发展下一代网络40G/100G以太网标准。按照计划,下一代标准IEEE 802.3ba将于2010年6月份出台。目前看来40G与100G,将来的应用主要集中在数据中。当服务器大范围采用10GBase-T时,核心交换的速度必须随之进行大幅的提升。此外,数据中心中的FCOE、iSCSI等技术使得SAN/LAN网络融合成为趋势,这也对以太网络的速率提出了更高的要求。而且现在以太网还面临象Infiniband这样最高可以支持120G传输技术的竞争压力,所以新标准的出台已经迫在眉睫。
当前在核心交换机市场,已经有相当多的交换机厂商宣布他们的交换机背板已经支持100G的标准,Juniper等厂商已经开始推广100G以太网的接口板;在终端市场,40G以太网的网卡也已经开始发售,如Mellanox于2009年9月推出ConnectX-2 EN 40G PCIe网卡,支持IEEE Draft P802.3ba/D2.0 40GBASE-CR4,-SR等协议。与Mellanox垄断infiniband芯片的情况不同,IEEE 802.3ba芯片的竞争会更激烈,将来产品的价格优势会很明显。
40G和100G以太网到底是什么?简单地说就是将以太网的速率提高到40Gbps/100Gbps。其中会牵涉到MAC参数、物理层和管理部分的变化。本文主要介绍802.3ba的物理基础部分,因为目前标准仍然处在草案(D3.0)阶段,没有最后定稿,所以本文的介绍可能会与将来出台的标准有细微的差别,但是基础的物理链路已经不会有大的变化,所以我们现在新建数据中心时,为了考虑将来的升级问题,就有必要对下一代网络有一个大致的了解。
2 40G/100G与布线系统
通常来讲,我们要提高传输速率大致有几种途径(如图1所示):其一是更高效率的编码方式,其二是更大的传输带宽,其三是多路传输(复用)。
在万兆时代,OM3 与Cat.6A的应用大大增加了传输的带宽,再加上芯片技术的进步和DSP处理能力的增强使得编码能够更有效率,最终使万兆以太网能够得以推广。但是到了万兆之后,介质的传输带宽增加不明显,OM4相比OM3和Cat.7A 相比Cat.6A都只增加了2倍多的带宽,如果要达到100G的传输速率,就必须在其他方面取得突破。但是靠提高编码效率的方式来提高带宽面临两大瓶颈:其一是编码效率的提高多依赖于电磁波传输,光传输的编码效率很难大幅提高;其二是编码效率的提高直接导致处理成本的增加(需增设昂贵的设备)。再加上一些其他因素如时间的紧迫性、防止技术的垄断性等多方面的要求,导致了目前主要的研究方向在并行与复用系统。采用该方案最大的好处就是可以直接借鉴过去的标准,减少新元器件的开发和研制,加速新标准的推出,降低系统的成本。
目前40G/100G 以太网的标准如表1所示。
表1
根据表1所示,40G/100G的实现方式可以分成3种,即单模光纤、多模光纤和铜缆/背板。先来看一下单模的传输方式。单模光纤理论上拥有无限的带宽,标准研究初期讨论过有两种基于SMF的实现方法,即串行、WDM波分复用。如果采用串行40G方式,成本大约是WDM的6倍,同时功耗也大大高于WDM,而且部分新元器件需要重新开发,这会极大地阻碍标准的按时发布和市场推广,而WDM已经是成熟技术,所以经过委员会的激烈讨论和投票,WDM以微弱优势胜出(领先2票)。所以目前基于单模光纤的40G/100G采用WDM的波分复用方式实现,4×10G或者4×25G,如图2所示。
无论是现在的波分复用方式还是将来可能会出现的串行方式,都仍然是在一对单模光纤内传输双工系统,对布线系统没有特殊的要求,所以目前的单模光纤已经能够满足将来的需求。
上面提到的OM4 光纤的EMB为4700MHz·km。虽然多模光纤的EMB最高可以做到9000MHz·km以上,但是仍然不能满足串行40G和100G的要求,而且器件成本也太高,所以基于多模光纤的40G/100G基本上都采用并行系统,就是在多根光纤上部署并行收发器。出于兼容现有的连接类型的考虑,采用单个连接器12芯光纤的MPO/MTP是最好的选择。在开始讨论的时候曾经有过2×20G和4×25G的方案,基于和串行40G SMF相同的原因,这个方案最终被放弃。目前IEEE基本确定采用4×10和10×10的方案,40G为单个MPO连接器上4根收,4根发(如图3所示);100G采用2个MPO连接器(如图4所示),1个收,1个发。
多模光纤和单模光纤不同,对带宽是有限制的。在上一代10GBase-SR标准中OM1与OM2光纤是可以采用的,只是OM1光纤只能支持33m的距离。到了新一代标准中只有OM3和OM4两种类型的光纤可以采用,可支持的传输距离分别为100m和125m。设定这个距离主要出于两个方面的考虑:其一是根据统计,数据中心内的骨干光纤链路88%小于100m,94%小于125m,100%小于300m,100m已经基本够用;其二是成本和实现难度较小,方案比较稳妥,因为并行传输对传输的衰减等指标要求较高。但是目前关于距离这部分的争议仍然很大,有多家研究机构提出,采用一些方法可以让OM3支持150m以上,OM4支持250m以上的距离,也许将来的标准在这方面会有变化。
所以,如果现在要新建一个数据中心,要考虑升级到下一代网络,最好的选择就是采用OM3或OM4光缆,配合MPO/MTP连接器加预连接的解决方案,这样至少在升级网络的时候,原有的光纤布线系统还能够继续使用。
基于铜缆和背板的传输方式,因为不在综合布线的范畴内,所以本文不做详细介绍。该方式基本上也都采取多路并行的传输方式。另外CR与KR的传输距离非常接近,只有在最核心的部分才会采用。
也许有人会问到基于双绞线的10GBase-T将来会如何再发展?很遗憾,目前IEEE还没有公布相关的研究结果,不过象PAM256这样的编码应该会出现在下一代网络中。主要的困难在于双绞线的传输速率已经达到一个相当高的水平,再提高就很难了。
我们知道香农公式可以用来描述给定带宽和信噪比的极限速率。
上式中C为速率,W为带宽,S/N为信噪比。假设我们要在4对双绞线上运行40Gbps的双工传输(10Gbps每线对),传输带宽1GHz,从公式可以推算出,S/N为1023。也就是说要在4对双绞线上传输40Gbps,信噪比至少要达到30.1dB,相比10GBase-T18.8dB的极限信噪比,提高了近12dB。这样的要求只有采用双屏蔽的7A类系统才能达到,而且功耗会相当高。
考虑到目前IEEE至少要2年以后才会开始研究基于双绞线的下一代以太网,而一个标准从开始研究到成熟至少需要4~5年,从标准成熟到网卡设备成熟又需要4~5年,所以目前采用6A类系统的水平布线,可以说已经完全能够满足现在和将来相当长一段时间内的需求,基本上在数据中心内的整个生命周期里都不会有升级的需求。
3 成本问题
在考虑使用哪种网络的时候,成本始终都是一个重要的参与标准。那么40G与100G以太网的成本如何?是否会上升到无法接受的地步?一般情况下一个完整的光链路可以大致分为三个部分:交换机端口、收发器、光纤。即两端的各一组交换机端口+各一组收发器+光纤链路。经过Intel等公司的研究,40G以太网的费用情况大致如图5所示。
如果把2009年的10G-SR系统的费用设为1,初期40G-SR的费用将是3.5/3.6(OM3/OM4),基于单模光纤的40G-LR将是7.1,将来随着32nm芯片技术的成熟,40G-SR系统的费用将降低到1.8左右。
100G以太网的费用情况如图6所示。
初期基于多模的100G系统的费用在8.4以上,基于单模的还没有一个比较明确的预估,不过估计至少在多模100G的基础上增加8倍。到2015年,估计基于多模的100G能够降低一半的费用。
4 布线系统对下一代网络的准备
现在电信已经开始普及光纤到楼甚至光纤到户。比如到2012年,上海电信的城市光网计划将使300万用户的带宽达到100M,用户对流量的要求会比当前大大增加。届时随着IEEE 802.3ba标准的成熟,以及设备成本的降低,40G/100G以太网将会得到应用。布线系统的寿命一般都高于网络设备,所以在系统升级的时候需要尽可能地减少布线系统的改动,以便大大减少升级的时间,节约费用。通过上面的分析,我们建议在数据中心内,超长链路部分仍然采用单模光纤;在中短距离的核心链路上,采用高密度MPO-MPO预连接OM3/OM4 光缆的解决方案,并且预留部分光纤为升级备用;水平布线采用Cat.6,甚至Cat.6A类系统。这样既能满足现在的需求,又能为将来升级预留空间,同时不会带来明显的整体成本的增加。