公有云资源调度中的几个问题研究
2018-11-15靳雯婷北京市中关村中学
靳雯婷(北京市中关村中学)
1 概述
云计算是一种便利的、按需访问资源的使能能力[1],是当前信息化建设中的热点,世界主要国家、知名IT厂商和服务商纷纷投入巨资建设云计算中心,期望在云计算发展热潮中引领风尚。公有云[2]通常指第三方服务商为众多租户提供云服务。云计算供需双方(即云服务商和租户)的价值实现和收益保障是云计算运营与管理的根本问题之一,为此,应深入研究如下问题:
(1)供需双方的价值目标;
(2)云服务的计价问题;
(3)服务商的资源调度问题。
云计算资源调度基准包括最优跨度、服务质量、性能、经济收益四种,调度算法是基于调度基准的寻优算法,目前调度算法以考虑云服务商收益为主,侧重于寻优调度算法(如各种智能算法)的数学细节,对供需双方的关系考虑不足,调度基准和调度寻优方法参见参考文献[3]~[10]。
2 供需双方的价值目标
2.1 供需双方的服务关系
服务是在组织和顾客之间需要完成至少一项活动的组织的输出,服务具备无形、购买与消费同步、需要顾客体验等特性。Dorothy建立的经济模型中,服务处于经济活动的中心[11],云服务也应具备这些特点,租户、云服务、云计算资源之间的对应关系见图1。
图1 租户、云服务和资源对应关系
在付出购买成本的情况下,租户主要关注业务流程的运作情况以及相应运营绩效,期望价值高的业务活动优先占用云服务;服务商将资源分配给级别高的租户,在同等资源成本的条件下,期望提高资源利用率,且优先分配给级别高的租户,以获得更多的收益,供需双方的联系纽带是云服务及服务级别协议(SLA)。然而,租户的业务活动级别与云服务商的租户级别很可能不一致,因此,需要兼顾租户业务优先级和云服务商收益优先级,建立均衡供需双方收益的调度算法。SLA是双方静态关系的体现,而双方的动态关系则通过资源调度来体现和协调。
2.2 租户的价值目标
企业运作于流程之上,研究企业运营绩效就必须深入业务流程,流程[12]是利用输入实现预期结果的相互关联或相互作用的一组活动。业务流程运营最基本的绩效指标包括流转率V、库存S、流转时间或流转周期T,其他综合指标包括产能、产能利用率、关键路径、流-时效率、最小库存、安全库存等[13]。以这些指标为基础,可以扩展到成本、收入、客户满意度等指标。
租户的期望是增加收入,降低成本,针对所购买的云服务,在不优化业务流程和业务模式的情况下,有如下要求:
(1)期望云服务中断时间越大越好,当出现各种情况导致的中断,应快速通过资源调度获取资源,恢复运行,降低因中断导致的业务损失;
(2)在等待获取资源时,租户优先级越高越好,以降低资源等待时间,尽快让业务进入运营状态,提高正常运营时间;
(3)在满足业务运营绩效的情况下,云服务成本越多越好,这与云服务计价模式及购买规模相关。
2.3 云服务商的价值目标
云服务商的收益由其投入成本和租费之差决定,在人员和管理成本一定的情况下,资源成本构成和服务产出构成的关键因素见图2。
图2 资源成本构成和服务产出构成的对应关系
服务产出计算中,资源有效利用率是重要的评价因素,在租费相同的情况下,资源有效利用率低的表明云计算资源的产能未得到有效利用,还可进一步挖掘租户,提高利用率,增加收入。
对资源有效利用率,期望通过调度管理,确保同一资源,在安全、可用的前提下:
(1)有效利用率尽可能高;
(2)尽可能被高级别的租户占用。
2.4 供需双方的价值视角
综合供需双方的价值目标,在资源调度中,应兼顾双方的价值视角见图3。
在实际运营中,服务商需要针对租户的租用和费用情况,建立租户级别、确定需求优先级,尽量让高级别租户优先占用资源,实现预期的收益目标。租户的经营决定了其业务级别,租户需要将业务级别高的关键业务活动优先占用云服务商提供的资源,并及时度量业务绩效,确定服务SLA是否满足业务绩效要求。
3 公有云计价模式
目前云计算的计价模式[14]包括如下三种:
(1)分级计价:按服务实例不同级别配置(如CPU)的单位时间费率与时长计费;
(2)单位计价:按用户实际资源使用量及单位使用费率计价;
(3)订阅式计价:按用户数、使用时长及单个用户时间费率计价。
Amazon EC2、微软Azure computer VM是典型的分级计价,云存储和数据传输服务通常是单位计价,微软Azure Commitment计费方案,cloudEX-弹性计算云服务的包时计费等均为预定式计价。
三种计费模式所包含的计费决定性因素包括:
(1)运行示例类型:指计算资源、存储资源、网络资源等被租户占用的资源实例;
(2)数据传输带宽;
(3)存储量;
(4)存储操作量:指对存储的读写等操作数量和频率;
(5)对实例的使用时间长度;
(6)单位资源费率,如1M带宽的费用。
4 公有云资源调度
4.1 调度问题描述
为使租户专注于业务运营,本文考虑SaaS模式的公有云资源调度问题。为简化问题,假设网络和存储资源的调度可以随时满足业务需求,仅针对服务器VM讨论资源调度问题。当出现租户业务运营管理异常、业务操作故障、云服务故障,以及新租户进入抢占资源等情况下,云服务商需要资源调度,满足各方需求。
云计算资源调度问题描述:
(1)一个云服务商具备M个虚拟机资源;
(2)云服务商服务于N个租户,每个租户可能具备K个任务,M<N·K;
(3)实际运行中,租户的每个任务可能会分解为若干个子任务;
(4)考虑云服务商和租户的利益,建立调度基准,包括:
a)建立云服务商的调度基准(可能是多个目标指标的组合);
b)针对每个租户选择合适的调度基准;
(5)结合每个租户的调度基准,考虑服务商的调度基准,形成互为约束条件的最优目标和优化方程;
(6)选择求取最优值的算法,结合最优目标,持续执行资源调度计算和资源分配。
4.2 考虑供需双方利益的调度算法
(1)假设:
a)某租户复杂业务(如ERP)租用公有云的SaaS;
b)业务绩效指标是某一个工作周期内(通常为1天)的业务处理单据数量SM;
c)业务活动Ai因中断需要等待分配资源。
(2)租户最优资源需求
式中:
TPLN——该工作周期内规划可用时间,如8小时;
Δt——由于各种原因导致的业务中断时间;
VM——一个工作周期内的平均流转率。
在相对稳定的运营阶段,TPLN、VM是固定值,因此,式(1)的最大值取决于中断时间的最小值,即需求取:minΔt
式中:
DTAi——业务活动Ai在通过调度获取资源的等待时间;
WTAi——业务活动Ai获取资源后在就绪队列中的等待时间;
RTAi——业务活动Ai使用资源运行后恢复到中断前状态的时间。
WTAi由租户业务流程算法决定,RTAi由中断后数据备份水平决定,二者与资源调度并无深入的关联,因此:
式中:
LM——租户级别;
ΔAvaM——该工作周期内租户可容忍的最大可用性偏差;
n——该租户中断的业务活动进入资源等待队列中的次序编号。
利用层次分析方法、神经网络等方法可以建立DTAi与式(4)中各要素间的对应关系,随之可求取获取资源的最小时间。该时间等价于获取资源的最终次序编号m所对应的等待时间,通常应该小于n。次序编号m确定后,调度资源的等待时间等于前m-1个资源释放进入资源队列的时间,即其他前m-1个活动资源调度的等待时间。
在中断时间确定的情况下,SLA中的可用性偏差见式(5):
式中:
AvaM——SLA中期望的可用性目标指标,通常用百分比表示,如99.9%。
(3)服务商收益
考虑服务商的收益最优,调度算法变得更为复杂。假设在某工作周期内,共N个租户使用SaaS服务,服务商总收益是这N个租户费用之和:
式中:
RoM——某工作周期内,云服务商总租费;
URi——第i个租户的费用;
Rei, j, q——第i个租户占用q类资源,在j级计价方式下的单位费用;
UTj, q——使用q类资源,j级计价方式上的持续时间。
服务商总收益最大,需要将计费级别较高的资源优先分配于优先级高的租户,当然,前提是资源满足业务需求,且费用在租户期望范围内。
考虑服务商总收益最优,调度算法变为:
在实际情况下,云服务商总收益需要落实如下内容:
a)监视所有资源运行状态;
b)获取所有租户业务级别、业务运行所需的资源需求、业务活动运行时长;
c)将费用较高的资源与租户级别高的业务活动匹配,并保证其运行时间;
d)若不能确保匹配关系和运行时间,可能需要等待或调度低级别租户所占用资源来满足高级别租户需要。
全局优化调度算法具体落实可以使用各种智能算法,如神经网络算法、遗传算法、蚁群算法等。
实际公有云调度中,调度算法还需增加云服务商资源约束和租户容量(即业务)约束。
5 小结
本文调度算法考虑了租户的收益,期望兼顾供需的利益,与侧重云服务商利益的调度方法相比,本文算法贴近租户业务运营,更能体现云平台集中利用资源对租户专注业务的促进作用,资源调度结果有助于均衡相关方利益。在实际情况中,存在租户数可能极大、租户的业务类型和运营绩效相差较大、租户业务的时间敏感性强等问题,这些都将增加计算复杂性,降低调度效率,需要继续深入研究。