基于多元回归和Tiebout模型的云服务定价优化方法

2018-12-20张德成蒋秀林余超平

长春师范大学学报 2018年12期

张德成，王杨，蒋秀林，余超平

(1.蚌埠医学院公共基础学院，安徽蚌埠 233000；2.安徽师范大学计算机与信息学院，安徽芜湖 241000)

1 研究背景

近年来，随着云计算及大数据市场的日益成熟，相应产品的市场定价问题成为当前的研究焦点之一[1-2]。在此背景下如何合理制定云服务价格，从而既使云服务提供商持续盈利，又让终端用户获得价格可接受的共享资源，是这种服务模式能够继续发展并保证市场相对均衡所要考虑的核心问题之一。

目前，比较典型的云服务定价策略是根据传统价格理论，通过边际成本与边际收益之间的关系，找到理想状态下的均衡价格作为产品定价[2]。由于云服务产品的市场供需变化高度动态且影响云服务定价的因素较多，采用传统经济理论进行定价难以满足云服务定价的市场需要。因此，本文提出了一种基于Tiebout模型[3]和多元回归的定价优化模型。

2 相关工作

云服务提供商一方面希望向用户收取更多的费用来实现收入最大化；另一方面，如果把云服务的价格设定得太高，则可能会有失去用户的风险。因此，如何在吸引云用户的同时设置适当价格使市场保持稳定均衡是云服务价格优化的主要目标。

当前的云服务定价优化模型主要包括以下几种：(1)价格—需求模型，该模型基于用户需求与价格之间的关系来最大化CSPs的利润[4]；(2)弹性加权需求定价模型，主要通过在线拍卖IaaS云实现弹性用户需求和加权异构虚拟机的定价，以最大化IaaS云提供商利润[5]；(3)时变需求响应价格模型，根据市场需求目标和消费者反应，最大限度降低运营成本[6]；(4)逆向拍卖模型，用户根据服务价格和服务质量，基于VCG选择服务市场[7]；(5)最佳混合模型，通过分析PaaS平台中的计费成本和收入，使用混合系统最大化CSP利润[8]。

由于云服务定价受众多因素影响而波动，经综合分析发现，上述模型在考虑影响云服务定价因素和动态性方面不够全面。

3 相关理论及技术

3.1 理论基础

3.1.1 多元回归

多元回归是指一个因变量(预报对象)、多个自变量(预报因子)的回归模型。基本方法是根据各变量值计算出交叉乘积和Si。多元回归可以加深对定性分析结论的认识，并得出各种要素间的数量依存关系，从而进一步揭示出各要素间的内在规律。

3.1.2 Tiebout模型

美国经济学家蒂布特(Charles Tiebout)分析了在公共部门存在的条件下，各级政府提供公共产品的最佳效益问题。他认为，各个地方政府之间的相互“竞争”，也会促使其更有效地提供人们所需要的公共产品和服务。按照蒂布特模型，通常情况下，哪里能有效提供符合人们消费偏好的公众产品和服务，哪里就会有较多的人口流入；如果不能有效提供适合于居民偏好的公共产品，就会出现人口流出现象。

根据蒂布特模型，可以提炼出影响云服务定价的因素主要包括政策干预x1、用户偏好x2和业内竞争x3。

3.1.3 相关定义及公式

令O={o1,o2,,oN}为Rt中N行向量的数据集，dij指代对象oi与oj之间的距离。对于N个数据点定义距离矩阵D={dt,t=1,2,,N2}，dt是两点之间的距离。令ρ(假设ρ=2%)为数据集O对象所占的百分比。dc∈D是一个截断距离,其中c=⎣N2*p+0.5」。对于每一个数据点i，其局部密度和距离定义分别来自公式(1)和公式(2)。

(1)

(2)

如果dij

对于具有高密度的数据点，δi通过公式(3)定义。

(3)

Rodriguez和Laio也提出了公式(4)中的计算局部密度的方法：

(4)

对于dc，本文在UCI数据集中的Zoo数据集上进行了实验。结果表明dc取值为0时将会导致除0的错误。聚类评价指标反映出，当dc=0时，对于数据集Zoo的聚类效果非常差。同时也证明了dc对聚类结果有着重要影响。为了提高资源利用率、降低成本，引入密度峰值聚类算法(DPC)[4]对资源进行分类。

3.1.4 模型评价参数

云服务定价受服务类型层次性x4、资源规模尺寸大小x5的影响显著。其中，服务类型层次的标准，依据服务等级协议(SLA)进行评价。

聚类分析中广泛运用于测评聚类质量的是总均方量化误差(MSE)。

本文中，具有聚类C的数据集O的聚类的适应度定义如公式(5)。

(5)

其中，‖oi-Cj‖表明点vi和聚类中心Cj的相似度。

召回率(recall)是一种评价聚类算法的典型的标准，定义如公式(6)。

(6)

其中，A为系统检索到的相关测试集元素，C为相关但是系统没有检索到的测试集元素。

3.2 云服务定价优化模型

3.2.1 模型建立

通过以上分析，可以得到影响云服务定价y的自变量x1,x2,,xk，1≤k≤5，n组观测值(ya,x1a,x2a,,xka)，a=1,2,,n，因此多元线性回归模型的结构方程为：

ya=β0+β1x1a++βkxka+ε0.

值得注意的是，在某些情况下部分因素并不独立，这时考虑交叉项(如x1x2)能使所建立的云服务定价优化模型更加精准。

3.2.2 动态时间因子

随着时间变化，政策干预x1、用户偏好x2和业内竞争x3等因素对云服务定价优化模型的影响在一定程度上有所改变，所以在云服务定价优化模型中加入动态时间因子x7对模型进行修饰。

3.2.3 模型检验

建立模型后，需要对其进行显著性检验。在多元线性回归分析中，回归平方和表示所有k个自变量对y变差的总影响。计算公式如(7)所示。

(7)

其中，Liy为y的第i个离差平方和。

而剩余平方和为：

其中，Lyy为y的离差平方和。

3.3 相关算法

3.3.1 云服务类型的判别

由于云服务与一般公共产品不同，因此需要进行云服务类型判断：(1)若云服务为竞争性，且具有排他性，则属于私有云；(2)若该云服务为竞争性，且不具有排他性，则属于混合云中的公有云；(3)若该云服务为非竞争性，且不具有排他性或排他成本很高，则属于公有云；(4)若该云服务为非竞争性，且排他成本不高，则属于混合云中的私有云。

3.3.2 多元回归算法

算法1 Multiple Regression Algorithm

该算法的时间复杂度为O(n2)，空间复杂度为O(n)。

3.3.3 密度峰值聚类算法(DPCA)

DPCA主要有两个需要计算的量：局部密度ρi与高密度点之间的距离δi。算法伪代码如算法2所示。

算法2 Density Peak Clustering Algorithm

该算法的时间复杂度为O(n2)，空间复杂度为O(1)。

4 实验与分析

为了验证模型的可用性和合理性，从某云服务公司的原始数据中随机抽取200组数据作为本实验的样本空间。同时，将该公司提供的用户服务等级按照SLA由低到高抽象为数字1～5，用以评价服务等级对定价的影响，并将用户服务等级作为变量x1。由于用户对不同云服务的偏好程度无法直接获得，因此以某云服务点为中心，采用密度峰值聚类的方法，计算该云服务点周围的用户密集度，从而间接得到用户对不同云服务的偏好程度，以此作为变量x2。最后根据所给的资源尺寸大小x3，同时考虑业内竞争x4和政策干预x5，并通过多元回归分析，建立如下云服务定价优化模型：

Y=6.29x1+0.191x2+0.101x3+0.002x2x3-0.056x1x2-0.028x4-1.318×10-5x5+36.11.

4.1 模型合理性检验

首先，考察该云服务定价优化模型是否存在共线性特性。该特性可能导致参数估计量不存在、近似共线性下OLS估计量非有效等问题，从而使模型失去合理性。由表1和表2可以看出，方差膨胀因子VIF小于10，DW值在0～4之间，由此可以判断该云服务定价模型不存在多重共线性。其次，由表1可知，sig的值均小于0.05，故该多元回归方程每个自变量对因变量影响均较为显著。又由图2可知，所选取的自变量对因变量有很强的线性关系。因此，该云服务定价模型是合理的。

表1 多元回归模型系数

表2 模型预测误差估计

4.2 对比实验

图1 云服务原始定价

图2 云服务优化后定价

由此可知，优化后的价格稳定性更强。从经济学角度分析，在一段时间内，经济发展程度相似，物价水平大致相同。价格的稳定取决于供求关系的相对平衡，在优化后的价格水平上，该定价更加适应市场的供求关系，因此优化后的定价更加优于优化前的定价。

在数学领域，除了上述的自身前后对比，还可以将该模型与较为常见的逐步回归模型对于该定价问题就结果进行比较。相较于多元回归模型，对所有变量全局考虑建立模型，最终进行F检验。逐步回归的基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面的解释变量的引入变得不再显著时，则将其删除，以确保每次引入新的变量之前回归方程中只包含显著性变量。

为了对比验证多元回归对于云服务定价问题有优化作用，运用数据逐步对回归模型进行试验，从而得到该种方法下的云服务定价，如图3所示。

图3 逐步回归定价

图4 双目标优化定价

同理，由方差公式可得E2=52.2693，由此可以得到E1

在经济学领域，常用的定价方法是多目标优化，多目标优化是指在一定条件下多个目标同时达到最优时的一个较为均衡的状态。双目标优化定价如图4所示。方差公式可以得到E3=52.4793。

在统计学领域，常用的定价方法为神经网络预测的方法，其通过调节影响定价的因素之间的关系从而预测出优化价格，神经网络预测定价如图5所示，由此可以求得该种方法下E4=48.9613。虽然神经网络的准确性更高，但是在实际应用中，其成本较大，所考虑的因素复杂，稳定性不高，故多元回归在实际应用中更有优势。

图5 神经网络预测定价

5 结语

在基于多元回归分析以及蒂布特模型的基础上，提取可能影响云服务定价的因素，通过统计分析的方式，在原有定价的基础上汇总了一般云服务的定价优化模型。由于所获取到的数据繁杂，为了使理论基础与实际应用更好地联系，首先对数据进行预处理，根据实例的特定条件采用密度峰值聚类的算法处理数据并进行分析。通过实例比较优化前后的云服务定价结果，验证了定价优化模型建立的合理性。