关于建立数据中心中综合布线运维标准的探索
2020-10-10李磊操明立廖新荣赵峰曹芳勇
李磊,操明立,廖新荣,赵峰,曹芳勇
(深圳市联讯通讯技术有限公司)
1 引言
Uptime Institute检查三年期间所有公开报告的数据中心中断(级别1到5)原因,IT系统和网络问题超出电源作为主要原因(见图1)。
当比较逐年的原因时,这种趋势尤其明显。2017年,28%的停电事故的罪魁祸首是电力。在接下来的一年中,仅有11%的断电被列为主要原因,与IT系统相关的故障保持相当一致。在2017年和2018年分别有32%和35%的故障是由它们引起的。网络中断的主要原因显著增加,2017年19%的网络中断归咎于网络,而2018年这一比例为32%。
这些东西不是通过一个或两个站点连接的,而是通过三个或四个或更多站点连接的。网络在“IT弹性”中扮演着越来越重要的角色。
此外,随着更多IT资源被移交给服务提供商,并且不再受使用它们的企业直接控制,IT将增加管理和操作复杂性。
此观点和笔者的观点较为接近,目前数据中心行业出现一个类似汽车行业的切割线,投资、规划、建设是属于前期,一旦数据中心验收评测移交以后,属于运维的人员来管理整个数据中心。可能前期规划、设计、建设的人员都不会去参与任何的运维事宜,或者说,运维外包或者后续的运维人员,对于前期的事情也只能靠文档、资料、经验去工作,以移交为时间切割线,分成了两个明显的阶段。
图1 Uptime研究所针对数据中心在2016年-2018年宕机的公开记录的主要原因的数据分析
但是纵观综合布线行业规范、数据中心行业规范、数据中心运维规范,都没有涉及到综合布线网络运维的详细要求和规定,而根据市场的情况,目前已经有了提升综合布线运维效率的产品和方案,那么从设计和运维两方面的标准而言,就亟待出台相对应的要求和规范了。
2 《数据中心设计规范》GB50174-2017条文[1]
①在条文10.2布线系统中,10.2.1,要求数据中心的辅助区、支持区和行政管理区布线系统设计应符合现行国家标准《综合布线系统工程设计规范》GB50311的有关规定。这也就是说,在数据中心的综合布线系统设计,和传统的综合布线系统设计基于趋同。只是在10.2.3的条文中说明了,数据中心的网络结构。
②在条文10.2.7中要求,A级数据中心宜采用智能布线管理系统对布线系统进行实时智能管理。此条文针对布线智能管理采用的针对“宜”,“宜”表示允许稍有选择,在条件许可时首先应这样做的,且只针对A级的数据中心说明,对B、C级并没有涉及。同时,在条文解释中,10.2.7中,智能布线管理系统可以随时记录配线的变化,在发生配线故障时,可以在很短的时间内确定故障点,是保证布线系统可靠性和可用性的措施之一。但是否采用,应根据机房的重要性及工程投资综合考虑。
所以结合实际的数据中心的情况看,使用实时智能管理的,就少之又少。那么在新的标准和规范中,针对已经出现了有助于数据中心的布线管理系统提升管理水平和能力的非智能布线管理的方案和产品,是否需要规定,就显得尤为重要了,使所有的数据中心的设计初期有依据可依。
3 GB/T 51314-2018《数据中心基础设施运行维护标准》的条文[2]
①在数据中心最重要的运行维护标准中,3.1的运行维护范围中,提及了4个系统,电气系统、通风空调系统、消防系统和智能化系统。在3.1.2中的电气系统中没有提及综合布线系统,只提及配电线路布线系统。在3.1.5智能化系统中没有提及综合布线系统。
②当然,GB/T 51314在 1.0.1中明确的提出了:为实现数据中心基础设施系统与设备运行维护的规范性、安全性和及时性,确保电子信息设备运行环境的稳定可靠。但数据中心(电子信息系统机房)的主要任务是信息的交换、存储,而作为信息交换的最重要的物理链接的综合布线系统,在该标准中未体现,较为遗憾的事情。毕竟,运维团队都可能涉及到网络跳线数量增加、移动和变化等情况,如果没有强大的跳线程序,就会导致对昂贵的有源组件连接到网络的跳线管理松懈。尤其是运维人员对跳线贴错标签的故事,或者使用了不规范的标签的事情,使得工作人员难以找到网络链路的另一端,也有错拔跳线的失误等等发生。
所以在运维规范中,增加针对综合布线的运维标准条文,是十分有必要的。
4 其他相关的标准和规范等
在其他的,例如:GB/T 33156-2016《信息技术服务 数据中心服务能力成熟度模型》,CQC8302-2018《数据中心基础设施运行与维护认证技术规范》CQC1312-2017《数据中心场地基础设施认证技术规范》等等,都是概括了提及运维的能力分级和认证。
所以从标准的角度而言,在数据中心中,针对网络(综合布线系统)、IT设备的运维,并没有明确的条文规范规定,从标准的角度而言,是缺失的,也是后续在相关的行业标准中,值得关注的地方。
5 目前行业针对综合布线运维方面的探索
那么为什么需要强调在标准里面增加综合布线的运维要求的部分内容,主要是在数据中心的网络中,出现问题是因为人为的因素影响最多,所以在增加数据中心的综合布线系统的跳线跳接或者寻线的标准,是非常有意义的。
同时行业中,针对综合布线的运维效率和准确率提升,各家也在做积极的推进和研发工作,效果也比较显著。
5.1 电子配线架主动寻线方案
各类电子配线架,包括9针10针链路型、端口侦测型、RFID射频标签型(含U位管理)等等,此类产品,通过硬件和软件的结合,可以实时的侦测配线架的端口变化和链路变化。但是问题点在于,当端口达到一定的数量时,因为发射的侦测信号不断增加,导致实时反馈的速度会降低,影响整个网络的使用,而且信息点的增加,还会带来整个网络成本的几何倍增加。这也是目前电子配线架在数据中心无法全部使用的重要原因。包括电子配线架无法实时的侦测到综合布线的终端端口;还有因为本身机房可能有DICM管理软件,两者是否可以兼容,是否还需要一个单独的操作人员操作电子配线架的软件等情况。
所以在GB-50174中,只是采用在A级机房中使用了“宜”字字眼,这也说明,大家对于此方案的担心和顾虑。
5.2 可见光的快速寻线方案
在目前使用的方案中,有通过在光纤跳线中增加塑料光纤的方案,在光纤跳线中的塑料光纤的一端摄入可见光光源(塑料光纤可以传输波长450-650nm的可见光)从而实现在数据中心众多的光纤跳线,快速找到光纤跳线的两端对应关系。在MPO光纤跳线和普通的光纤跳线中,已经有了成熟的应用方案和案例,包括华为在5G的项目中,已经有了应用。
此方案的缺点在于距离比较短,另外如果在光纤跳线的端口上去增加光源,多次使用或者光强大小的问题,是否对光纤端口的传输性能的稳定性有影响,有待商榷。
5.3 利用复合缆的快速寻线方案
通过光电混合缆的特殊性,传输信号源相互不干扰的原理,在光纤跳线、MPO光纤跳线中,增加铜芯,跳线两端增加LED灯发光的方案,可以实现在线时一秒寻线的功能。
此方案是目前比较合理的一种方案,产品本身所需要的传输要求并没有做出任何的改变,只是增加了有利于综合布线系统中运维效率提升的功能。而且在数据中心的长信道中,可以实现长距离的找线以及跨机柜找线。缺点在于,此方法是被动找线,即在出现问题的时候,需要快速确定光纤跳线、铜跳线两端对应关系的时候,实现一秒寻线的功能。
6 结语
目前针对数据中心的实际情况,包括各个厂家的一些创新方案和产品,建议在后续的标准中增加综合布线运维的相关标准条文,尤其是针对跳线的移动、增加、变化的时候,相关的流程、时效、准确率等等,做出规定,有助于数据中心的运维人员有据可依。关键是能让数据中心综合布线的用户、运维人员,能够真正的重视综合布线的作用,从而推动综合布线产品在数据中心更大的发展和创新,为未来的智能化运维、未来的超大规模的数据中心更加规范、更加高效、更加节能做好标准准备。