高性能计算机系统搬迁与集成的规划与实施
2016-08-16马迅飞张进铎李硕尹龙向光阳陈翔
马迅飞 张进铎 李硕 尹龙 向光阳 陈翔
摘 要: 高性能计算机系统在企业中的应用越来越广泛,随之而来的是机房内设备的日益复杂化,系统搬迁与集成已成为IT领域中的一项任务。文章就计算机系统搬迁与集成的目标、原则、方案设计、准备工作,以及在具体任务实施过程中应高度关注的各个环节进行了总结与归纳,给出了高性能计算机系统搬迁与集成的成功实例。希望能为超级计算机或高性能计算中心以及类似数据中心的机房设计和建设,高性能计算机系统的搬迁和集成等提供借鉴。
关键词: IT; 高性能计算机; 系统搬迁; 机房; 搬迁方案
中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2016)08-35-05
Abstract: The application of high performance computer system in enterprise is more and more extensive, and the following is the increasing complexity of equipment in the computer room. The relocation and integration of the system has become a task in the IT field. In this paper, the objectives, principles, scheme design, preparation of the computer system relocation and integration, and the various aspects should be highly concerned about in the specific implementation process are summarized in detailed. And a successful example of high performance computer system relocation and integration is given; hope to provide reference for the design and construction of the computer room of the supercomputer or high performance computing center and the similar data center, and for the relocation and integration of high performance computer system.
Key words: IT; high performance computer; system relocation; computer room; relocation scheme
0 引言
随着高性能计算机系统的更新换代以及其自身规模的不断扩大,数据中心的机房无论是从面积还是基础配套设施等方面,都逐渐不能满足用户新的需求。另外,由于城市规划与发展,导致需要新建、扩建数据中心机房,或者由于机房的租约到期,或者为满足建设绿色机房等要求,需要对现有机房内的计算机系统进行搬迁与集成,而系统搬迁与集成任务正日益成为一项常规的IT业务内容[1-2]。
东方地球物理公司研究院计算机技术服务中心,自二十世纪七十年代开始,就全方位致力于高性能计算机系统集成、软件开发与信息化建设等服务。多年来,中心在持续为研究院提供技术保障的同时,也造就出一支高素质的IT专业化技术人才队伍。
中心的IT技术人员对高性能计算机软硬件及网络系统等,有着透彻的理解和广泛应用,在超级并行计算机、大型服务器、工作站,以及PC集群等系统的集成与维护方面,都具有独特和丰富的宝贵经验,并在石油系统的IT领域中享有一定的声誉(图1)。
1 搬迁的各项准备工作
1.1 系统搬迁目标
计算机系统搬迁与集成过程,就是将原有机房内设备搬迁至新建机房内,并将系统原有的全部设备再重新集成起来的过程。这些系统设备包括不同种类的服务器、存储、网络设备,以及为系统提供保障的安防设备、动环监控系统、UPS、精密空调及新风设备等。系统搬迁的主要目标有以下几点。
⑴ 系统现状梳理。对原机房内的系统现状进行详细整理,理清原机房内所有设备状况、设备和应用之间的对应关系、设备连接关系、信息点状况、信息系统架构、应用关联关系、应用服务要求等基础信息,并编写成原机房的详细勘察报告,为搬迁方案的制定及后期系统维护提供重要的基础信息。
⑵ 新机房合理规划。在满足现有搬迁设备运行需求的基础上,从长期业务发展的需求角度出发,有责任帮助系统拥有方对机柜、设备布局、网络分区、应用分类等进行规划与部署,以期达到建设成一个更易于管理、便于维护、绿色节能的新机房。
⑶ 系统平稳搬迁。通过对硬件关联、应用关联、业务影响及风险因素等进行分析,制定出一套行之有效的整体搬迁方案,减少业务中断次数与时间,最低限度地减少对业务的影响,同时还要规避搬迁风险,最大限度地保障业务的连续性。
⑷ 资源有效投入。对业务需求所用硬件及应用中的关键节点进行认真分析,以降低搬迁风险并提高搬迁效率,合理投入备机、备件、备品,以期节约新投入的费用。
⑸ 搬迁周期可控。充分分析主机、存储、网络、业务等各种关联关系,按计划、按步骤、分批次进行搬迁,把搬迁时间控制在预订的周期之内[3-5]。
1.2 搬迁准备工作
⑴ 搬迁前新机房要开展强电网络、弱电网络、供电系统工作状态的测试工作。
⑵ 编制新机房服务器布局图表。在搬迁之前,要提供新机房详细的机柜位置布局图、设备物理位置图、线缆连接线图。
⑶ 如果有异型机柜需要搬迁,则必须测量异型机柜尺寸,精确地预留好异型机柜所需空间。
⑷ 如果被搬迁的设备需要使用新机房内的机柜,则要提前调研原设备的导轨或托盘,以确定其是否符合新机房机柜的要求,调研内容包括导轨间距、孔径、卡扣螺丝、托盘的宽度与深度,以及固定螺丝孔位置等信息。
⑸ 关键业务设备要进行备机、备件准备。
⑹ 对系统的应用软件,包括中间件、数据库、操作系统等安装程序,集中准备、归档、打包以备急需。
⑺ 分析应用系统之间的相互联系、逻辑依存关系、数据交换、共用硬件设备情况等,从而得出系统停机、开机顺序,确保系统搬迁科学有序。
1.3 拓补图与连接表
根据系统设备在原、新机房的安装位置,制作原、新机房的机柜布局图,以及机柜内设备的安装位置图,这些图纸是机柜在新机房内的摆放、设备下架、上架和再集成时的重要依据。
⑴ 网络拓扑图及其端口连接表。原机房的网络拓扑图及网络设备端口连接表,用于记录原机房的网络连接,便于了解原设备和网络交换机的端口连接情况;新机房的网络拓扑图及网络设备端口连接表,同时记录了新机房网络连接的变动情况,既为再集成时提供网络连接依据,也为网络的快速连接提供技术指导。
⑵ KVM拓扑图及其端口连接表。原机房的KVM拓扑图及端口连接表,用于记录原机房的KVM连接,便于了解原设备和KVM交换机的端口连接情况;新机房的KVM拓扑图及端口连接表,同时记录了新机房KVM连接的变动情况。
⑶ 存储拓扑图及其端口连接表。原机房的存储拓扑图及存储设备端口连接表,用于记录原机房的存储连接,便于了解原设备和存储交换机或服务器的端口连接情况;新机房的存储拓扑图及存储设备端口连接表,同时记录了新机房存储连接的变动情况。
根据系统在新机房内的机柜、设备的命名规则,对所有搬迁的设备进行统一命名,并对每台设备及其连接的线缆进行标记,其目的是用于在设备搬迁之后能快速连接,避免由于线缆连接错误而导致服务、数据不能正常访问(图2)。
1.4 系统操作与场地检查
⑴ 系统数据备份操作。系统在长时间运行后关机或在搬迁过程中,可能会由于磁盘损坏或文件系统破坏而造成数据丢失,而交换机的配置丢失可造成网络连接错误。因此,在系统搬迁之前,必须由系统管理人员认真完成最后一次系统数据备份,以确保搬迁前后数据的完整性和正确性,确保在搬迁过程中一旦设备出现故障能快速恢复。如果条件允许,一定要对重要的操作系统进行磁带或磁盘备份。
⑵ 系统重启操作。系统在长时间运行之后,即使是正常关机再启动,也有可能造成主板、CPU、内存、磁盘、扩展卡、电源等硬件的损坏。因此,搬迁前的系统重启操作是必要的,以进一步确定搬迁前的系统硬件状态。
⑶ 系统软硬件状态检查。系统运行中的软硬件状态检查,其目的是为了在搬迁之后,如果系统出现故障能方便分清责任。系统检查的内容主要包括:查看设备外观是否有破损;设备故障报警灯是否有报警情况;查看系统运行、CPU、内存、磁盘使用情况;以及系统日志分析等。
⑷ 重要场地环境设施检查。在搬迁设备之前,需要检查新机房内的必要设备和设施,看是否符合要求且可用,检查的内容包括场地环境设施如装修、UPS、配电、空调、温湿度、洁净度;设备配套设施如新购机柜、网络、综合布线系统;安保消防设施包括安防系统、消防系统、接地与防雷系统等。
2 搬迁与集成的实施过程
2.1 系统关机断电
当系统运行状态正常,并已具备关机条件时,由相关负责人下达关机指令。系统的关机断电操作必须按照操作规程按顺序执行,在每一步操作正确完成之后,才能对系统进行关机断电操作。
在系统关机并切断电源之后,需等到设备内部原件充分放电(尤其是UPS系统)之后才可以拆迁,以避免触电风险,减少搬迁过程中对原器件的损坏。
2.2 设备下架过程
在设备下架之前,要再次确认设备的连线是否被全部拔除。在设备搬迁过程中,要防止静电给设备带来的致命伤害,尤其可能对主板芯片造成永久性损坏。防止静电危害发生的主要措施有以下。
⑴ 搬迁设备要远离能够产生静电的手机、对讲机等。
⑵ 机柜接地良好。
⑶ 搬迁人员佩戴防静电手套、穿防静电服装。
⑷ 设备在打包装箱之前,先用防静电薄膜和气泡膜进行包裹或包装。
⑸ 如果有接触设备内部部件的操作,须佩戴防静电护腕;在接触部件之前,先用手触摸金属机箱外壳。
⑹ 对没有接地的设备,先用导线对其进行放电操作。
⑺ 在设备运输过程中,要尽量避免设备之间、设备与运输工具之间的摩擦。
机柜里的设备按从下到上的顺序拆卸,防止在拆卸上面的设备时,由于向下滑动而造成与下面的设备发生碰撞。
在设备下架时,所有设备都要轻拿轻放,以免造成不必要的损坏;应将下架后的设备放在指定区域内,然后,再搬运到指定地点,并对设备进行除尘处理。
2.3 系统设备运输
系统设备装车完之后,在从原机房到新机房的运输过程中,要严格按照提前踏勘的行车线路行进,并由技术人员随车对整个运输过程进行监督。如果是在高速公路上行驶,车速应控制在最低速度要求;在其他路段上行驶时,车速应控制在每小时30公里以内。
2.4 系统重新集成
所谓计算机系统集成就是指以计算机为应用基础,把各个复杂、分散部分的设备、结构、功能、信息等,经过处理将其整合形成一个整体、一个系统,并能够高效运作。计算机系统集成又分为设备系统集成和应用系统集成两部分[6-7]。
⑴ 系统设备现场清点与检查。在系统设备运抵新机房装卸区之后,要对设备进行现场卸货、清点、搬运工作,其技术要求与设备在原机房的装车、清点、搬运相同。在设备拆包之前,要对其外包装和外观进行现场检查,如果发现有破损或磕碰情况,需要立即照相,并在装箱清单上标注清楚。
⑵ 防静电与设备上架。在设备上架时,也需要严防静电对设备的损害。严格按照标定的设备位置进行上架,由具有多年施工经验的专业技术人员现场对上架操作进行监督和指导。设备上架按从上到下的顺序进行,以防止在安装上面的设备时,由于向下滑动而造成设备碰撞。在所有设备上架完成之后,要再次确认安装位置是否与所标定的设备位置一致。
⑶ 确保各种拓扑图与端口连接表的对应关系正确。在设备上架完成之后,严格按照网络拓扑图、KVM拓扑图、存储拓扑图,网络设备端口连接表、KVM设备端口连接表、存储设备端口连接表等对应关系,对各种线缆进行准确无误的连接,以保证系统各设备连接的正确性。
⑷ 设备加电测试操作。设备加电测试分为两种情况:一种是在设备测试间进行,另一种是设备在机房上架就位后进行。在设备测试间完成的测试工作,主要是在加电后对单个设备的硬件状态进行测试,以便查看在搬运过程中是否有设备部件损坏。而设备在机房上架就位后完成的测试工作,主要是对高端磁盘存储、磁带库等不易单独加电测试,或不要求单独在测试间加电的设备进行测试操作。
⑸ 系统应用测试操作。在所有设备上架、线缆连接、设备加电测试完成,且已满足系统运行条件之后,即进入最后的系统应用测试,在此期间,要安排相关技术人员进行现场值守,以保障业务正常运行。
3 成功案例分析
北京某单位高性能计算机系统被部署在数据中心内,其系统总共涉及到86个机柜(其中异形机柜70个)内的不同设备。主要设备包括EMC Symmetrix DMX存储设备、HP Superdome小型机,以及服务器、交换机等设备。其中最核心的设备就是4套22台EMC Symmetrix DMX存储设备,用于存放重要的应用数据。
搬迁前的主要准备工作包括核对设备信息、贴标签和地面保护。按照设备信息、机房安装位置、新数据中心安装位置贴标签,并对搬运路线上的地面、电梯进行保护,以防止在搬运过程中发生不可预知的事故。
按照新数据中心对接收设备的要求,对所有进入新数据中心的设备进行除尘处理,以满足A级机房环境对设备的进入要求。利用防静电薄膜和气泡膜对整机柜的设备进行包裹,这是由于冬季的北京气候干燥,防静电薄膜能够有效防止静电对设备的损害,而气泡膜能够有效缓冲对设备产生的震动。
在系统安全到达新数据中心之后,首先对所有设备进行清点,对照规划中的安装位置图进行上架安装。然后,对服务器、交换机等重点设备进行加电测试,所有设备均能启动并正常运行,设备的所有功能全部达到了搬迁前的水平。
4 结束语
高性能计算机系统搬迁与集成是一项复杂的工程,特别是针对及时性要求很苛刻的系统,这就要求参与系统搬迁与集成工作的IT技术人员既要有精湛的专业知识,又要有丰富的工作经验,更要有高度的职业责任心,因为所搬迁与集成的高性能计算机既精密又昂贵,一旦在执行搬迁与集成任务过程中出现问题,其产生的后果和由此导致的影响将难以想象。
在系统开始搬迁之前,一定要制定一个完善的搬迁方案。应尽可能考虑到各种因素存在的可能性,要有针对解决出现各种问题的预案,多去现场实地了解与系统搬迁相关的情况。
在系统开始搬迁之后,要确保按已制定好的搬迁方案完成各项任务。在遇到问题时要冷静处理,如果不能及时解决问题,则应果断按应急预案处置。注重搬迁过程中的每一个环节,要特别注意设备清点与登记、系统关闭、测试和开机等各个关键过程,将系统出现问题的可能性减少到最低程度[8-9]。
参考文献(References):
[1] 伊露,许春玲,宋应文.超级计算机机房搬迁策略与实践[J].科研信息化技术与应用,2011.5:58-61
[2] 韦庆宝.供电局数据网和信息机房搬迁安全风险管控措施研究[J].广西电力,2013.36(1):35-39
[3] 王鹏.关于数据中心机房搬迁的几点建议[J].计算机光盘软件与应用,2013.10:160-162
[4] 彭伦刚.关于通信机房搬迁的要点解析[J].通讯世界,2014.5:31-32
[5] 彭江强.企业信息化机房搬迁解决方案[J].湖南邮电职业技术学院学报,2015.1:32-35
[6] 迟学斌,顾蓓蓓,武虹,等.高性能计算机系统及平台发展状况分析[J].计算机工程与科学,2013.35(11):6-12
[7] 梁瑞虹.探讨高性能计算机的可靠性技术与发展趋势[J].网络安全技术与应用,2014.10:187-189
[8] 吴鑫.中心机房搬迁的总结与思考[J].网络安全技术与应用,2014.4:232-233
[9] 王晶.上海超算中心机房基础设施建设与管理[J].建筑电气,2011.9:69-72