浅谈MEC 健壮性组网方案
2022-06-24肖洪胡兆烜李松根高博苏水军
[肖洪 胡兆烜 李松根 高博 苏水军]
1 引言
随着2019 年5G 在我国正式商用,各大云服务商、运营商、设备商等都纷纷以自身优势为切入点,加码布局边缘计算领域。经过2 年多时间的发展,MEC 作为助力垂直行业政企客户数智化转型的重要抓手,已逐渐融入千行百业。5G MEC 业务已从单个地市、省份的试点验证,逐步进入全国规模部署阶段,同时,近年来,不断有企业因重要业务中断、业务数据丢失等系统事故,影响企业信誉、形象,甚至威胁企业生存,造成这一系列系统灾难的事故原因包括自然灾害、基础设施故障、系统故障和人为等各种因素。
针对不同行业不同规模的企业调研发现,33%的企业曾因数据中心发生故障而丢失过数据,超42%的企业经历过停机事件,而这些企业中,60%以上都使用云作为数据保护的一部分,超过半数的企业都有从云上恢复数据的经历。大中型企业普遍要求业务不中断,特别是一些特殊行业,例如金融、电力和政府等业务系统,容灾能力与业务连续保障能力都有严格的要求,本身就要求具备同城异地等多种备份方案来抵御突发性灾难。
灾难备份主要是为了减少灾难发生后造成的业务中断和数据丢失而采取的一系列防范措施,当IT 系统出现故障,硬件设备因意外损坏的时候,企业可通过灾难备份和快速的恢复能力避免长时间停机带来的损失。在应用部署的同时,如何通过合理的组网架构、全面的数据安全保护方案和应急预案,使得企业面临意外的时可以做到有备无患,对于企业至关重要。因此,企业对于应用云化部署在MEC 上时业务连续性和数据安全保障,存在强烈的需求。
MEC 平台的架构可分为硬件层、平台层和应用层3个层面,传统的服务器部署的应用主要依赖应用层进行备份,应用上云之后,安全容灾备份方案变得更加灵活和多样。本文针对MEC 上平台、应用和硬件三个方面,设计了冗余备份架构,并对目前的现状进行了总结,对未来发展提出了新的方向。
2 MEC 健壮性组网价值分析
随着新一代通信技术的发展,企业对于柔性生产、联网设备的需求越来越多,移动网络接入的终端数量快速增长,对大带宽、低时性的要求越来越高,传统移动通信技术和云计算的架构,无法满足业务的需要。MEC(多接入边缘计算)是5G 网络低时延、大带宽等关键能力实现的原因之一,借助5G SA 服务化架构,将用户面和控制面分离,用户面网元与MEC 下沉,解决了迂回路由、网络拥塞、带宽浪费等问题,为新业务提供低时延、大带宽和本地化的边缘云网环境。
MEC 是5G 网络的重要组成部分,可以针对各行业多样化的需求特点灵活按需提供定制化服务能力。针对文旅、教育、娱乐类场景,MEC 作为云的边缘扩展,通过将内容及业务能力下沉到MEC 节点,动态按需部署,用户就近接入,改善用户体验。针对制造业、交通物流业、医疗行业场景,MEC 能够保障工业控制、远程驾驶等业务对极低时延要求,以移代固,同时从生产数据安全角度出发,满足的业务本地化要求。因此,MEC 在承载不同行业核心业务的同时,还需满足业务对可靠性、健壮性、容灾备份的差异化要求。一般来说,单个节点的MEC 支持虚机热迁移、存储热迁移,当组件出现故障时,业务能够快速通过热迁移进行恢复,确保业务不中断。MEC 采用独立的计算、存储、网络资源,以安全域进行划分,并与其他资源池隔离。在组网架构上,服务器双路上行接入不同的交换机,交换机集群堆叠,并通过多路冗余上联至承载网和核心网,在链路上实现备份。
当单节点的容灾备份方案难以满足业务需求时,还可以通过节点级备份、硬件级备份以及基于云边协同、边边协同的他云异地备份方案,为行业客户提供不同等级的备份方案。
3 MEC 健壮性组网方案
3.1 MEC 节点级备份
主要指2 个或多个MEC 平台节点之间的互为备份,一般包括独享MEC 节点与共享节点间备份、独享MEC之间的备份。主要方案为独享MEC 与共享/其他独享节点间依靠专线连通。节点级备份实现前提与部署的客户应用架构强相关,应用需支持负载均衡/多活等运行及数据自动同步,当发生故障时依靠UPF 进行业务数据流切换,如图1 所示。
图1 三种MEC 健壮性组网方案示意图
以上三种方案具体组网情况如下:
(1)企业园区不同机房MEC 节点异地备份:如图2所示,将主备2 套MEC 平台及硬件部署在客户不同机房位置,实现平台及硬件备份效果,防止单点故障而导致的业务中断。适用于对数据隔离安全和时延要求高,但成本不敏感的客户。
图2 企业园区不同机房独享MEC 异地备份网络图
保护方式:当主用MEC 节点故障时,业务数据流切换至备用MEC 节点。保障应用和业务的连续性,提供数据可靠性,业务质量(如延时等指标)切换前后保持一致,客户感知最高。
(2)企业不同园区MEC 节点异地备份:如图3 所示,将主备2 套MEC 平台及硬件部署在客户不同园区机房,实现平台及硬件备份效果,防止单点故障与网络故障等导致的业务中断。适用于对数据隔离安全要求高,但时延要求不苛刻、成本不敏感的客户。
图3 不同园区机房独享MEC 异地备份网络图
保护方式:当企业园区1 主用MEC 节点故障时,业务数据流切换至园区2 的备用MEC 节点。保障应用业务的连续性,提高数据可靠性,业务质量(如延时等指标)因路由距离有所降低,切换后客户感知有轻微影响。
(3)园区机房与运营商机房MEC 节点异地备份:如图4 所示,将主备2 套MEC 平台及硬件分别部署在客户园区机房与运营商机房,实现平台及硬件备份效果,防止单点故障与网络故障等导致的业务中断。适用于对数据隔离安全要求不高、时延要求不苛刻,成本相对敏感的客户。
图4 园区机房独享MEC 与运营商机房(共享)MEC 异地备份网络图
保护方式:当企业园区主用MEC 节点故障时,可手动或自动切换至运营商机房的备用MEC 节点。保障应用业务的连续性,提供数据可靠性,业务质量(如延时等指标)因路由距离有所降低,切换后客户感知有轻微影响。
3.2 MEC 硬件级备份
主要指部署单个独享型MEC 平台,但在不同机房里部署2 套MEC 硬件实现平台及硬件备份效果,两套MEC硬件作为一个集群,由MEC 平台统一管理。机房可为运营商机房或客户机房,节点之间以专线相连。如图5 所示。
图5 跨机房MEC 硬件级健壮性组网
此种组网方式与节点级备份中的同园区/不同园区独享型MEC 组网基本相同,同一客户园区可拉通客户内网线路,跨园区需要开通点对点专线。MEC 内网一般以10GE 以上线路互联,与节点级备份的主要差异为仅部署1 套MEC 平台对2 套MEC 硬件跨机房管理。特点为集群管理节点(大于三个)可均匀分布在两个机房,客户应用无需考虑跨集群数据同步问题,但两套MEC 硬件之间东西向流量受专线/内网互联链路的带宽制约。适用于对数据隔离安全高、时延要求苛刻,成本不敏感,且应用不支持主备/多活的客户。
保护方式:当集群内的计算节点(单台物理机)出现故障时,业务在集群内迁移到其他正常节点,可在短时间内恢复业务。
3.3 MEC 组件级备份
MEC 平台内各组件级相关硬件均采用主备冗余设置,主要应用了基于虚拟路由冗余协议(Virtual Router Redundancy Protocol,简称VRRP)的Keepalive 高可用架构,本身已具备组件的高可用性,节点级备份方案面临着成本和客户IT 技术的双重制约,因此,实际项目中仍以硬件级备份方案落地验证为主。
具体平台组件主备情况如下:
(1)Mysql 采用双主模式+keepalived,单台组件故障,虚拟IP(VIP)即漂移,由正常组件接替故障组件通过VIP 提供服务。
(2)Harbor 采用双主模式+keepalived,单台组件故障,VIP 即漂移。
(3)Redis 采用主从模式+keepalived,单台组件故障,VIP 即漂移。
(4)MEC 和MEO 组件使用k8s 的deployment 部署,单pod 故障时自动删除重建。
具体硬件冗余情况如图6 所示。
图6 MEC 组件健壮性组网
(1)端口聚合:将两个设备间通过多条物理链路捆绑在一起组成一条逻辑链路,不仅达到带宽倍增的目的,还可以在多条链路上均衡分配流量,起到负载分担的作用;当一条或多条链路故障时,只要还有链路正常,流量将转移到正常的链路上,起到冗余的作用,整个过程在几毫秒内完成,对客户的影响小,能保证网络的稳定性和安全性。
(2)防火墙与交换机的堆叠:2 台交换机经过堆叠形成一个堆叠单元,可以保证高可靠性,接入交换机堆叠还可以避免物理环路。当1 台交换机不可用,流量将转移到另1 台的交换机上,提高安全性。同样防火墙也有备2台的冗余考虑,防止单点故障而导致的网络中断。
3.4 他云异地备份
如图7 所示,MEC 同样支持在其他公有云或者私有云的虚拟化层上部署,如天翼云、地市业务云/属地云等,实现与客户边缘机房MEC 进行异地备份。此种方式对客户来说成本低廉,不需要客户另外购买整套设备,但时延变化会相对较大,特别是云资源池所在位置距离相对较远时,可能产生较大时延,难以满足业务需求。同时,此方案不仅对应用架构也存在类似节点级备份的改造需求,还可能涉及到边缘云-中心云之间的协同和多云对接。因此,此方案成本相对可控,但存在较高技术门槛,且可能引起时延进一步增加。
图7 他云资源池MEC 健壮性组网
4 结语
针对上述的四种容灾备份的方案架构,本文从容灾效果、成本、数据安全、业务时延、带宽消耗、运维和可行性验证7 个方面进行了简单总结,按照高-较高-中-较低-低,五种分类,如表1 所示。
表1 MEC 健壮性组网容灾备份方案对比
由于MEC 具备低时延、大带宽、高数据安全等优势,目前MEC 在垂直行业中的应用不断深入,正逐渐融入制造、矿山、电力、交通、警务等关系国计民生的重要领域。此类场景业务对连续性、可靠性要求极高,因此也对前述MEC 的健壮性提出了进一步的需求和挑战。主要的挑战包括以下三个方面:
一是技术挑战,在节点级备份方案中,主要面临着解决在多个节点间应用数据的实时迁移、同步和业务的无感知切换的问题。由于MEC 一般部署在相对分散的企业园区、边缘机房,部署时各节点在机房、网络等资源上相互隔离,因此节点级备份可参考公有云的不同Region 间业务迁移和备份,在打通两个节点间网络的基础上,一方面需在Redis、Mysql、Ceph 等底层组件进行相关配置或自行开发同步工具,另一方面需要应用架构上支持或进行相应改造,例如实现跨Reigon 的Redis 双活,应用侧要进行双写改造等,对于一般企业存在较高的技术难度和门槛。
二是成本挑战,硬件级备份方案类似公有云中同Region 下的跨AZ 区(即不同的物理机房)高可用或主备,技术方案相对成熟,但企业园区或边缘机房通常不具备公有云大型数据中心的机房环境和网络条件,因此当业务运行或迁移时,可能产生较大的东西向流量,瓶颈在于不同物理机房间的网络带宽,该方案不可避免的要极大的增大园区间的专线或VPN 带宽成本,并且引入了多套MEC 硬件,使得设备投入成倍增长。除此之外,在平台组件级备份方案中,应用的高可靠HA、多副本等机制,虽然极大可提高了MEC 的可用性,但也导致了对物理资源的进一步占用和损耗。
三是安全挑战,无论是前述任何一种备份方式,都会使企业数据在园区外进行传输,因此不可避免地面临着传输过程中数据泄露、窃取、篡改等安全风险。同时,主备模式下的数据同步也使得安全问题更加复杂,入侵者植入的病毒、木马可能会从企业园区复制扩散至运营商机房,甚至利用区域共享的MEC 进一步渗透至其他企业。除此之外,通过公有云等其他云备份,还会面临着近年来公有云愈发凸显的数据安全问题。
MEC 上云、网、应用相互融合,使得运营商网络中引入了云计算、虚拟化、容器等IT 能力和特征,通过不同层级的主备方案虽然可以提高MEC 的健壮性,但主要提供的是平台层以下的备份冗余,整体流程实现仍需要企业、运营商、第三方应用开发商乃至公有云服务商等多方的通力合作和验证。