北京大学数据中心迁移中的虚拟化力量
2019-04-11张乃帅杜晓峰
文/张乃帅 杜晓峰
高校教学科研的发展离不开图书馆的支撑。在信息技术高度发展的今天,图书馆已经不再是一个简单借还书的地方,更是一个基于信息技术的资源中心。从入馆身份识别到图书的借还流通、再到数字文献资源的发现获取,无不依赖信息技术。图书馆数据中心作为承载信息的基础设施,支撑图书馆正常运行、稳定运行已成为必然要求。然而,在特定条件下如数据中心扩建、楼宇修缮等,数据中心不得不迁移至其他空间。如何确保数据中心迁移期间图书馆各项业务和文献服务正常开展,是数据中心运行维护人员不得不面对和解决的问题。本文以北京大学图书馆东楼修缮期间数据中心的迁移实践为例进行分析,鉴于数据中心迁移的复杂性和操作难度,其经验分享弥足珍贵。
北京大学图书馆(以下简称北大图书馆)东馆建成20余年,馆内基础设施、馆舍布局已无法满足当前读者服务的需求。为此,北大图书馆于2017年正式启动东馆大修。位于图书馆东馆的数据中心(以下称为旧数据中心)必须在正式启动前迁移至西馆过渡数据中心。
为确保数据中心迁移顺利进行,尽量降低对图书馆正常服务的影响,北京大学图书馆从2016年开始着手准备数据中心迁移的前期工作,讨论制定了迁移三步走战略。首先梳理了当前数据中心的现状,并基于梳理结果制定迁移方案及准备过渡数据中心环境,一切就绪后实施数据中心迁移,确保服务不间断。
数据中心现状梳理
数据中心不仅仅是服务器合集,还包括一整套复杂的设施。根据各类设施的作用不同,可将其分为以下四类。
1. 环境控制设备
环境控制设备用于满足数据中心对温湿度、电力、监控设施等的需求。包括机房精密空调、不间断电源(UPS,Uninterruptible Power System)、温湿度报警设备、自动灭火设施等。北大图书馆已有的2台UPS、3组机房精密空调中,有1台UPS、2组空调已在线运行超过10年,稳定性已大幅降低,特别是机房精密空调,夏季高温时频发停机故障。这部分设备已不适合继续用于数据中心。
2. 网络设备
网络设备用于提供数据中心网络接入和网络安全防护,包括各级网络交换机、光纤交换机及防火墙。其中核心交换机用于将图书馆网络接入校园网,如果直接停机迁移,将会中断图书馆内所有网络服务。
3. 服务器
服务器提供所有网络服务所需的计算资源,既包括运行图书馆自动化管理系统的小型机,也包括独立提供服务的物理服务器以及虚拟化服务器。北大图书馆共有各类物理服务器100余台,虚拟服务器160余台。
4. 存储系统
存储系统提供数据集中存储与管理功能。北大图书馆使用的存储系统共3套,其中2套已在线运行接近或超过10年,在性能、稳定性及容量上均已无法满足馆内数据日益增长的需求。
制定迁移方案
为确保迁移有序平稳且对外服务稳定,首先需确保过渡数据中心与旧数据中心并行运行,同时满足数据中心环境需求及网络需求。本着“绿色发展”的理念,过渡数据中心还应充分复用已有环境控制设备和存储设备。结合已有设备的使用寿命,北大图书馆制定了环境迁移、网络迁移、存储系统与服务器迁移的顺序迁移方案。
1.环境迁移方案
购置2套精密空调及1套UPS,先行部署于过渡数据中心,用于满足基本的温湿度及电力需求,也用于替换老化的旧设备。大部分设备迁移至过渡数据中心后,再将可继续使用的精密空调和UPS迁移至过渡数据中心,并机运行。尚未迁移的数据中心设备暂时由待淘汰的精密空调和UPS保障,直至迁移全部完成。
2.网络迁移
“兵马未动,粮草先行”。对数据中心及图书馆而言,网络的重要性堪比“粮草”。新购一台交换机部署于过渡数据中心,升级为核心交换机,原核心交换机降级为汇聚交换机,完成网络平滑迁移。
3.存储系统与服务器迁移
服务器和存储系统密不可分,共同构成了数据中心对外服务的主体。新购高性能和大容量存储系统各一套,部署于过渡数据中心,用于替换2套超期服役的旧存储系统,满足未来对存储系统的性能和容量要求。整理所有服务器连接存储系统的链路方式,分类迁移:
独立运行、不连接存储系统的服务器夜间在逐台迁移;虚拟化服务器工作时间在线迁移;其他服务器与存储系统周末集中打包迁移。确保将中断服务的时间降到最小。
迁移实践
1.环境迁移实践
环境迁移过程中,精密空调和UPS的迁移时间点都可通过计算得出。随着迁移工作的不断进行,根据剩余设备的耗电量计算所需的制冷量,再根据待淘汰精密空调的功率计算出其能提供的制冷量,简单对比即可确定迁移时机。通过对比两路UPS的总负载与待淘汰UPS的输出功率,即可确定UPS迁移时机。由于数据中心内所有设备都使用冗余电源,分别使用两路UPS供电,迁移前还需将所有电源接入到待淘汰UPS。
2.网络迁移实践
过渡数据中心内的新购交换机配置相应路由策略,上联至校园网核心交换机节点,作为独立的核心交换机运行。连接过渡数据中心核心交换机与旧数据中心核心交换机但保持端口关闭状态。在线关闭旧数据中心核心交换机原有上联链路,打开新旧数据中心互联链路。旧数据中心核心交换机作为过渡数据中心核心交换机的下联交换机(也就是逻辑上的汇聚交换机)继续提供网络接入功能,完成网络的在线迁移。整个过程仅有短暂的链路调整和路由调整时的网络中断,基本不影响数据中心对外提供的各类服务的网络访问。
3.存储系统与服务器迁移实践
根据迁移方案,分类别迁移不同类别的服务器及存储系统。
虚拟化服务器迁移
虚拟化平台的VMotion功能非常适合用于数据迁移。过渡数据中心部署虚拟化计算节点服务器并加入已有集群,通过光纤直连新存储系统。旧数据中心虚拟化节点通过iSCSI协议连接新存储系统,实现数据存储共享。利用Storage VMotion功能将所有虚拟机迁移至新存储系统,再利用VMotion功能将计算资源迁移至过渡数据中心计算节点,即可完成所有虚拟服务器的平滑在线迁移。整个迁移过程用户无感知,服务无中断。
独立服务器迁移
独立运行、不连接存储系统的服务器利用夜间逐台迁移,迁移一台上线一台,尽量减少停机时间。从旧数据中心关机下架,迁移至过渡数据中心上架开机,全程控制在10分钟以内,尽最大努力减小停机时间,降低对读者服务的影响。
存储服务器迁移
存储系统及使用存储系统的服务器作为有机整体,分开迁移的意义不大,利用周末时间整体停机迁移。备份所有服务器及数据,用以应对关机迁移后可能出现的硬件故障。关闭所有服务器并进行下架迁移,同步进行关闭存储系统及迁移过程。存储系统迁移至过渡数据中心后,开机进行软硬件检查,确保一切正常后,根据各服务器的优先顺序逐台开机恢复服务。
图1 网状网络拓扑
思考与展望
得益于前期周密的规划及迁移过程谨慎、细致、密切的配合,整个数据中心迁移过程进展顺利、成果显著。所有设备顺利迁移至过渡数据中心,同时完成了新旧设备更替,既保证了东馆大修工程的按期推进,又为未来几年图书馆对数据中心的设备需求奠定了基础,还为不远的将来,数据中心迁回东馆提供了丰富的经验储备。
数据中心顺利迁移的背后,也暴露出了一些问题,这些问题不仅影响到了迁移的进度及迁移时的读者服务,也为后续提供稳定的读者服务带来了一定的隐患。
1. 网络拓扑不合理,存在单点故障。
当前的网络拓扑存在单点故障,一旦图书馆数据中心核心交换机故障或者核心交换机到校园网的链路故障,都将导致图书馆网络中断,影响图书馆的各类网络服务。东馆改造完成后,新建数据中心应着重提高网络拓扑的健壮性,构建双核心、双上联的网状网络拓扑(如图1所示)。从结构上避免单点故障,确保网络满足未来服务的需求。
2. 虚拟化技术优势明显,服务器传统使用模式弊端显著
在数据中心迁移过程中,虚拟化技术优势表现得非常明显,迁移过程服务无中断、用户无感知。服务器独立运行提供服务的传统使用模式则不得不面临停机停服务的局面。经过近几年的不断努力,北大图书馆已将半数服务器迁移至虚拟化环境,但仍有大量网络服务运行于独立的服务器上。这也为不远的将来,东馆数据中心启用及数据中心迁移带来挑战。
北大图书馆通过将数据中心迁移至西馆过渡数据中心,不但保障了东馆大修期间图书馆各项网络服务的稳定,也发现了已有数据中心存在的问题、明确了未来的建设方向。北大图书馆将继续完善数据中心基础设施建设、调整数据中心架构,不断提高信息服务保障能力,为北京大学创建世界一流大学提供更加有力的文献资源保障。