APP下载

空间众包环境下的任务定价模型研究
——以“拍拍赚”平台为例

2018-12-03童天语郭沛然李润尧

赤峰学院学报·自然科学版 2018年11期
关键词:定价半径会员

童天语,郭沛然,李润尧

(北京师范大学,北京 100875)

1 引言

众包(Crowdsourcing)是移动互联技术快速发展产生的新的商业模式,最早由记着Jeff Howe[1]在美国《连线》杂志2006年6月刊上提出,目前公认的定义为“众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法.(就是通过网络做产品的开发需求调研,以用户的真实使用感受为出发点)”[2],也就是说众包是一种在线、分布式问题的解决模式和生产模式.

现阶段的空间众包平台已经日益成熟,如美团外卖、滴滴出行等众包平台更是与我们的生活密切相关.在目前关于空间众包平台的研究中,研究最多的是众包平台的任务分配方式,这其中大部分是关于在线决策算法的平衡的研究,也称多臂赌博机问题[3],而很少有关于任务定价模型的研究.实际上任务的定价在很大程度上会影响到任务完成的概率,从而影响到整个平台的运行效率和资源配置效率.任务标价过高的话,虽然可有吸引更多会员完成任务,但并不会提高任务的完成质量,同时也容易吸引欺诈者;任务标价过低的话,任务不容易被完成,导致资源浪费[4].

因此,本文将通过对拍拍赚平台某次任务的详细数据进行分析,提出可行的任务定价模型,以及这类问题的一种研究思路.

2 样本数据的描述与处理

图1

图2

此次任务的样本初始数据有任务的经纬度,会员的经纬度、预订任务限额、预订任务开始时间和信誉值.由于目标任务定价模型是以任务的相关属性为自变量,我们需要通过这些数据生成关于任务的一些二级属性,比如任务密度、任务周围会员的平均信誉等,然后将这些数据的分布与下文的任务定价、任务是否完成的分布图进行比较,选出其中对任务定价、任务完成有影响的指标,参与后续的回归分析.

以经度为X轴,纬度为Y轴,首先运用MATLAB软件绘制了任务定价以及任务是否完成的分布图,见图1和图2.

继而对样本数据做相应处理,在处理中,本文最终仅选取了任务位置在经度112.68°~114.50°,纬度22.49°~23.88°之间,会员位置在经度 112.62°~115.38°,纬度 22.26°~23.64°之间的数据,因为这个范围之外的位置数据偏离过大,会对回归结果产生影响.同时剔除了一组异常数据:会员编号B1175.最终得到可能影响任务定价和任务完成与否的指标,此处列出10个样本数据作为范示.

图3

然后将数据用MATLAB软件处理后得到的各种指标的分布图与图一和图二进行比对,再加上理论上的分析,确定了下面四个对任务定价规律和任务完成情况有影响的指标:

(1)任务密度(个/25km2):首先将经纬度换算成地表实际距离,每一纬度代表的距离为111.3214 km,每一经度代表的距离与当地的纬度有关,其中北纬22°上一经度表示实际距离102.4841km.将经纬度换算到实际距离之后,生成以该任务所在地为圆心,5km为半径的区域内的任务数量,由此得到任一任务点的任务密度.

(2)会员密度(个/25km2):处理方法与任务密度相同,得到每一个会员周围5km为半径区域内的会员数量分布.

(3)周围会员平均信誉:将每一个任务点周围5km半径区域内所有会员的信誉值进行加权平均,得到该任务点的周围会员平均信誉.由于样本对数据的解释中提到“任务分配时实际上是根据预定限额所占比例进行配发”,因此各会员的预定任务限额与周围会员总预定任务限额之比即作为该会员的信誉权重,最终加总求得每一任务周围会员的平均信誉.

(4)周围会员平均开始时间:首先将每个会员的预订任务开始时间处理为虚拟变量,6:30-8:00之间的一个半小时时段平均分成六份,分别赋值为1-6.然后将每一个任务点周围5km半径区域内所有会员的开始预订时间进行算术平均,得到周围会员平均开始时间.

3 任务定价的一般模型

3.1 任务定价空间计量模型的选取

3.1.1 空间相关

首先,本文引入空间相关(也称空间交互、空间依赖)的概念:某一特定区位的经济地理条件或特征会受到其相邻区位的经济地理条件或特征的影响[5].在本题目中,引入这一概念即意味着位于某一特定区域任务的定价会受到其邻近区域的任务价格的影响.因此,除了考虑上文提出的指标对某一任务定价的影响之外,我们也应该考虑加入一个空间交互项,来描述邻近区域任务定价的空间溢出效应.如果在回归模型中忽略了这一重要的交互因素,即认为空间事物是同质的、无关联的,则会导致解释变量的系数被高估,而且误差项不满足同方差和渐进服从正态分布的假定,无法对系数估计进行统计推断.

对任务定价的影响因素进行空间计量分析,第一,需要设置空间权重矩阵W.第二,需要检验研究对象的空间相关性,判断相邻区域的研究对象之间是否相互影响.第三,需要在不同的空间计量模型设定之间进行选择.第四,分析回归结果.

3.1.2 空间权重矩阵W的设置

首先,运用Geoda软件,我们得出关于任务空间分布的冯洛诺伊图(Voronoi Diagram).图中,每一个小圆代表一个任务的位置,实线代表边界,边界围成的图形称为泰森多边形(Thiesson Polygons).该图的性质有:(1)每个泰森多边形中只包含一个任务点.(2)多边形内部的任意一点到相应任务点的距离最近.在下文中,我们将一个泰森多边形区域简称为一个区域[3].

图4

其次,我们定义一个一阶n×n空间权重矩阵W1,若区域i和区域j存在公共边界或公共顶点,就定义两者“邻接”,Wij=1;否则,就定义两者“不邻接”,Wij=0;另外,Wii=0.容易看出,W 是一个对角线元素都为0的对称矩阵.

再次,我们讨论p阶空间权重矩阵,Wp=(W1)p,p∈N+.以二阶空间权重矩阵为例,此矩阵表示邻居的邻居(2阶邻居)的关系.p值越大,邻居的数目越多,“邻接”区域的范围越大,不同距离邻居的权重也不同.对于不同阶数W的选择,我们试验性地对SEM模型进行极大似然估计,通过比较不同方程的对数似然函数值(拟合优度),选择具有最大对数似然函数值的模型对应的空间权重矩阵[4].估计结果如下:

阶数p 对数似然函数值1-2194.099124 2-2210.164015 3-2219.047947 4-2227.251447 5-2234.016543 6-2240.771568

从表中可知,我们应选取一阶空间权重矩阵进行系数估计.

3.1.3 空间相关性检验

Moran(1950)提出的全局Moran I指数是检验区域变量空间相关性的常用方法,其定义为:

其中,Wij是空间权重矩阵第i行第j列的元素,Yi表示第i个区域的观测值,n为区域的总数,是所有区域观测值的平均数.Moran I指数的取值范围是[-1,1],且取值越靠近-1或1,空间相关性越强.当-1≤Moran I<0时,不同区域观测值呈现空间负相关,即一个区域的取值越大,其邻近区域的取值越小;当0<Moran I≤1时,不同区域观测值呈现空间正相关,即一个区域的取值越大,其邻近区域的取值越大;当Moran I=0时,不存在空间相关.计算任务定价的全局Moran I指数的结果如下.

(各区域任务定价的Moran I统计值)

(各区域任务定价的Moran散点图)

由计算结果可知,各区域任务定价之间存在着较强的且显著的空间正相关性,说明任务定价的空间分布并非完全随机的,而是表现出相似值之间的空间集聚.也就是说,从整体上看,定价较高的任务更倾向于与其他定价较高的任务相邻近,定价较低的任务更倾向于与其他定价较低的任务相邻近.Moran散点图表示,大多数的观测点位于散点图的第一、三象限,也就是意味着,大多数的任务定价服从高-高(H-H)和低-低(L-L)的空间分布.

3.1.4 空间计量模型的选择

空间相关性检验的结果显示,对于任务定价模型的建立,如果忽视了研究对象的空间异质性和空间相关性,系数的估计和统计推断就不准确,也不符合实际情况.因此,我们在空间滞后模型(Spatial Lag Model,SLM)和空间误差模型 (Spatial Error Model,SEM)之间进行选择.两种模型的设定如下:

其中,price表示某一区域的任务定价;λ1表示空间自回归系数,反映被解释变量price的空间相关性,λ2表示空间误差自相关系数,反映扰动项的空间相关性,可以理解为邻近区域任务价格和其他空间交互因素的影响;W是空间权重矩阵;taskden表示周围的任务密度,memden表示周围的会员密度,goodwill表示周围会员的平均信誉,litime表示周围会员的平均开始时间;u、v是服从iid的随机误差项.

利用给定的835个任务定价数据,运用Stata软件分别给出稳健OLS、稳健SLM和稳健SEM的估计结果.

(任务定价OLS模型、SLM、SEM的稳健估计结果)

图4

?

从回归结果中可以看出,OLS相对于SLM和SEM高估了litime、memden两个变量的系数,相对于SLM高估了taskden的系数,意味着若不考虑空间相关性,OLS的模型设定是欠妥的,估计的系数也是有偏的.同时,对空间自回归系数λ1、空间误差自相关系数λ2的瓦尔德检验(Wald test)和拉格朗日乘子检验(LM test)均在1%的显著性水平上拒绝了系数等于0的原假设,更加证明了选取空间计量模型的科学性.通过比较SLM和SEM估计的对数似然函数值(Log-likelihood,可作为拟合优度),我们选取对数似然函数值较高的SEM模型做进一步的估计.

3.2 空间误差模型(SEM)的稳健估计

为了建立任务定价模型,剔除不显著的解释变量litime,同时为了减少随机误差项的异方差性,使用Stata软件对SEM进行异方差稳健的最大似然估计[5],结果如图4.

由此,我们的任务定价模型可以表示为:

由结果可知,空间误差自相关系数的估计值在1%的显著性水平上显著大于0,Wald检验和LM检验也在1%的显著性水平上拒绝了空间误差自相关系数等于0的原假设,表明存在误差项空间交互效应,邻近区域任务的价格越高,本区域任务的定价就越高.

同时我们发现,taskden、memden、goodwill这三个解释变量的系数估计为负,说明这三个指标值越大,本区域任务价格就越低.其中,周围5km半径区域内的任务数量每增加1个,本区域任务的定价就会下降约0.12元;周围5km半径区域内的会员数量每增加1个,本区域任务的定价就会下降约0.05元.这种现象的产生可能有以下原因造成:第一,某一区域任务密度的增加意味着任务的供给增长,根据供需理论,任务的均衡价格下降.第二,某一区域会员密度的增加意味着这消费者对任务的竞争增强,更低价的任务也愿意完成,因此均衡价格下降.第三,周围会员加权平均信誉的增加令任务发布者承担的风险减少,任务定价的风险溢价下降.

4 模型的检验

图5

在任务定价的一般模型中,设定任务周边空间圆形区域的参数半径为5km.下面我们进行这一参数的变化对任务定价一般模型所得结论影响的灵敏度分析,分别用2km、3.5km、7km、10km为半径的圆形区域来衡量.相应地,变量taskden、memden、goodwill也将因为参数半径的改变而发生变化.在进行灵敏度分析时,我们仍然使用横截面SEM模型进行稳健的MLE估计,下表为灵敏度分析的结果.

由图中数据可得到如下结论:

(1)半径的选择对空间误差模型中的估计系数的符号并没有影响,taskden、memden、goodwill的系数皆为负且显著,常数项估计皆为正且显著,空间误差交互系数λ的估计都为正且大都在5%的显著性水平上显著,说明误差项的空间交互效应普遍存在.

(2)半径越大,taskden系数、memden系数、常数项的估计值越小,说明随着半径增大,周围任务密度、周围会员密度对任务定价的反向作用越小;而goodwill系数、Lambda的估计值越大,说明随着半径增大,周围会员平均信誉对定价的反向作用越大.而且,随着半径增大,定价的空间交互效应越大,即周围任务的定价对本区域任务定价的正向作用越大.但是,由于正负系数的效应相互抵消,对最终价格的预测影响不大.

(3)从各个方程的对数似然函数值可以看出,当半径定为5km时,Log L值为-2279.89,在5个不同半径对应的结果数值中最大,即表明对应方程估计的拟合优度最高.因此,模型假设中选用区域参数半径为5km是合理且可靠的.

5 结论

本文以“拍拍赚”平台某次已结束任务的数据为样本,研究得到该平台上任务定价的空间计量模型.任务定价是空间众包平台研究中的一大难题,是影响任务完成情况的最主要因素.研究中,本文的创新之处在于考虑了空间交互的影响,设置空间权重矩阵,稳健估计出任务定价的空间误差模型(SEM),并通过对样本参数的检验,证明了提出的任务定价模型是合理可靠的.

猜你喜欢

定价半径会员
30万元的MPV搅局者来了!传祺M8宗师系列为什么定价贵?
会员之窗
本刊2020年36卷第12期版权页定价勘误
会员之窗
会员之窗
会员之窗
连续展成磨削小半径齿顶圆角的多刀逼近法
基于分层Copula的CDS定价研究
一些图的无符号拉普拉斯谱半径
热采水平井加热半径计算新模型