基于多元回归分析的拍照任务定价模型
2018-02-15吕一虹王云川程光辉
吕一虹,王云川,李 彤,程光辉
(1.电子科技大学 信息与通信工程学院,四川 成都 611731;2.电子科技大学 电子科学与工程学院,四川 成都 611731;3.电子科技大学 数学科学学院,四川 成都 611731)
随着互联网的日益发展,劳务众包这种商业模式逐渐兴起。“众包”这一概念最早由美国《连线》杂志的记者Jeff在2006年提出[1]。“拍照赚钱”是一种基于互联网的自助式众包模式,用户可通过下载对应的APP,领取拍照任务,完成后可获得平台提供的报酬。在APP中如何给任务定价是核心问题,如果定价不合理,有的任务就会无人问津,从而导致商品检查的失败。2017年全国大学生数学建模竞赛B题给出了某拍照APP的位置及价格信息,数据在题目及附件中给出,其中包括:已结束项目的任务数据,包含每个任务的经纬度坐标、定价和完成情况;会员信息数据,包含会员的经纬度坐标、信誉值、参考其信誉给出的任务开始预订时间和预订限额;一个新任务的数据表,只有任务的经纬度坐标信息。因此,任务价格的制定问题要求对于给定的任务,通过考虑地理位置,会员分布等信息确定任务定价,使得任务能够被较好的完成。
1 基本假设
为简化问题,根据题目中所给的数据作出如下基本假设:
1)只考虑题中所给因素,对于其他不可量化的未知因素(例如,会员对任务感兴趣程度、任务性质、天气原因等)不予考虑;
2)只考虑广东省内的任务和会员位置,对于其他省市的数据不予考虑(经统计可知,其他省市的任务占总任务的0.12%,其他省市会员占总会员的0.90%,比例均十分小,故可舍弃其他省市的数据);
3)假设题中所给数据在新方案实施时不随时间变化。
2 任务定价规律的分析
分析任务定价规律可从建立定价规律函数模型入手,考虑任务及任务周边位置的特征,以多元线性函数的形式反应定价规律。而要分析具体某一城市的定价规律以及其对任务完成度的影响,需要将分析范围缩小。可先对城市内部进行区域划分,设立若干影响任务价格的指标作为定价函数的自变量x1,x2,,xn,将任务价格作为因变量Y,分区域建立定价规律的函数Y=f(x1,x2,,xn)来描述这一城市任务定价规律。
根据题目所给数据中的指标可建立定价函数的3个指标:距离d、活跃会员匹配程度P1和活跃会员任务限额匹配程度P2。
2.1 定价函数的指标
1)距离d。
由于数据给出的是经纬度坐标,无法准确衡量两点之间的实际距离。故需要将经纬距离转化为实际距离。经纬度转化为实际距离的Haversine公式[2]为:
(1)
式中,d为转化后的实际距离,R为地球半径,可取平均值6371km,φ1、φ2表示两点的纬度,Δλ表示两点经度的差值。且,
(2)
对于某一个城市而言,在考虑任务的偏远程度时,需确定每个任务距某一参考点之间的距离,由此需要合理设定距离参考点。为简化问题,假设需要完成拍照任务的商品聚集的地方是活跃商区中心位置所在的地方。针对每个城市,选取此城市的四个活跃商区,以其中心位置作为距离参考点,这样可得到四个距离参考点。对某一特定城市,可求出每个任务到四个商区中心位置的距离,分别为d1,d2,d3,d4,以此作为此城市任务的距离(偏远程度)指标。
2)活跃会员匹配程度P1。
利用会员的信誉值对会员进行分类,可分为活跃会员和非活跃会员。某一区域内活跃会员数越多,则该地区任务更有可能被完成。具体处理过程如下:
由于数据中所给出的会员的信誉值范围在0.0001~67997.3868,数据范围很大,故先对信誉值进行归一化处理,将信誉值转化为在[0,1]区间内的值。引入如下归一化函数对信誉值处理:
(3)
式中,α为信誉值。通过式(3)可以把信誉值都转换为在[0,1]区间内的值。当用户通过做任务提高信誉值后,会员活跃程度有效提高。而对于信誉值低于初始值的会员。再进行如下步骤:
a)会员活跃程度。
定义α归一化处理后的值h为一新变量:活跃程度。对h的值做如下规定:当h≥0.9时,会员活跃;当h<0.9时,会员不活跃。
b)活跃会员数。
某一区域内活跃会员数越多,则该地区任务更有可能被完成。故为简化问题,可仅考虑活跃会员数对某地区任务定价的影响。以每个任务周围10km为半径做一个圆形区域,然后统计这个圆域内活跃会员的人数,将其与整个城市的活跃会员总数相比,定义圆域内活跃会员匹配程度P1,如下:
(4)
式中,N1为任务周围10km圆形区域内所包含的活跃会员人数,N2为该城市所包括的所有的活跃会员人数。由此可得到针对每个城市,每个任务周围10km圆域范围内活跃会员匹配程度P1,以此作为量化该城市定价规律的函数的一个指标。
3)活跃会员限额匹配程度P2。
上述仅考虑活跃会员在某一区域内的匹配程度是不全面的,因为每个活跃会员都有任务限额,且限额大小与活跃程度不成正比。为综合考虑会员任务限额对任务定价的影响,在上述指标的基础上定义活跃会员任务限额匹配程度P2:
(5)
式中,Ni为任务周围10km圆形区域内第i个活跃会员的任务限额,N为该城市所有活跃会员的任务限额总和。
由此在上述指标的基础上,可得到针对每个城市,每个任务周围10km圆域范围内活跃会员任务限额匹配程度P2,以此作为量化该城市定价规律的函数的另一个指标。
2.2 定价规律函数的多元线性回归
根据以上建立的指标,可分城市构造定价规律的函数Y=f(d1,d2,d3,d4,P1,P2)。以东莞市为例,首先对东莞市进行分区域分析,将东莞市分为4个活跃商区,对每个活跃商区选取一个中心坐标,结果如表1所示。
表1 东莞市活跃商区中心坐标
利用上述对位置指标的定义,计算每个任务对东莞市四个商区的距离作为距离的指标;利用上述对活跃会员匹配程度P1,活跃会员任务限额匹配程度指标P2的定义,计算每个任务对应的P1、P2的值。
综上可得东莞市对应的每个任务定价规律的函数Y=f(d1,d2,d3,d4,P1,P2)的自变量d1,d2,d3,d4,P1,P2的值,以及对应任务价格Y的值。再利用SPSS软件进行进入式多元线性回归分析[3-5],故可得东莞市任务定价规律的函数为:
Yg=-0.543d1+1.499d2-1.869d3+0.912d4-
21.258P1-100.166P2+73.368
式中,Yg为利用SPSS多元线性回归拟合出的每个任务的定价。对上述SPSS多元线性回归拟合出的定价规律函数做稳健性检验:以拟合出的任务定价Yg与原定价Y做对比分析,二者部分对比值的部分结果如表2所示。
由表2数据可看出,拟合出的定价规律函数给出的定价与实际定价之间的相对误差均在6%以内,可认为上述定价规律函数模型的稳健性较好,即用上述定价规律函数表征该市的任务定价规律是合理的。
表2 东莞市任务模拟价格与真实价格误差对比
将上述经稳健性分析验证合理的函数模型推广到其他三个城市,可得其他三个城市的任务定价规律函数,如下:
深圳市:
Yg=-5.332d1+3.093d2+2.302d3-0.112d4+
5.348P1-22.813P2+65.912
广州市:
Yg=0.061d1+0.142d2-0.340d3+0.274d4-
2.318P1-50.469P2+65.787
佛山市:
Yg=0.961d1+1.503d2-1.282d3-1.089d4+
28.829P1-1203.953P2+71.914
2.3 基于定价规律函数分析任务未完成的原因
由于不同市之间存在地理位置、经济水平、人口素质等难以量化的差异,对不同城市未完成任务分析原因误差较大。将任务分为已完成和未完成的,通过分析已完成任务得到其定价规律函数,计算未完成任务在该定价规律下的理论定价,比较理论定价与实际定价的差距即可分析任务未完成的原因。由于东莞市只有2个未完成任务,可认为是随机因素的影响,不予以考虑。故只对深圳、广州、佛山3个市未完成任务做原因分析。以深圳市为例,具体计算过程如下:
首先利用上述基于回归分析构造定价规律函数的方法,拟合出深圳市已完成任务定价函数:
Yag=-5.330d1+3.090d2+2.300d3-0.110d4+
5.340P1-22.810P2+65.910
再将未完成任务的对应指标:距离指标d1、d2、d3、d4,活跃会员匹配程度P1和活跃会员任务限额匹配程度P2带入上述拟合函数,计算出未完成任务理论标价[6-7]。实际标价与理论标价之间的对比(部分)结果如表3所示:
表3 深圳市未完成任务实际与理论标价对比(部分结果)
分析表3中数据的特点,可以得到如下结论:
1)实际与理论标价之间的差值负值较多,这说明价格偏低仍是任务不能完成的主要原因;
2)当实际比理论标价高出较大价格时,对应任务活跃会员匹配程度P1明显较低,这说明有一部分任务不能完成的原因是该地区活跃会员人数较少;
3)当实际比理论标价高出较大价格,并且对应任务的活跃会员匹配程度P1也较高时,仍存在一部分未完成的任务,这说明剩余少部分任务不能完成的原因是由于其他未知因素的影响。
将上述方法推广到广州市和佛山市可得到相同的结论。
3 新任务定价方案
前面已经得到了反应定价规律的函数,所以可以直接利用这个线性的表达式。由于该表达式涉及比较多的指标,并且某些指标反映的都是同一意义,所以首先对原来函数表达式中的指标进行降维处理,最终得到如下所示的表达式:
式中,k1、k2、k3、k4都是参数。因此,新的定价方案就是要确定表达式中四个参数的值。
3.1 任务完成度模型
1)引入logistics回归
由于要重新确定任务的标价,价格就变成了一个变量,而在线性回归中价格是一个因变量且有具体数值,所以不能继续使用线性回归来分析。既然价格也是一个自变量,就要重新寻找一个可以衡量的因变量,注意到完成度是一个取0、1的二值变量,价格、距离、活跃会员匹配度、活跃会员任务额度匹配程度都会影响到完成度,分析可知,完成度和价格、距离、活跃会员匹配度、活跃会员任务额度匹配程度之间可以利用logistics回归分析[8]。
假设因变量y是一个取值为1和0的二值变量,x是一个影响y的危险因子。令在x条件下y=1的概率是p=p(y=1|x),其函数表达式如下:
这里是一个影响因子的情况,当考虑到多个影响因子时,就变为了多元logistics回归分析,其函数表达式为:
p=p(y=1|x)=
式中,α、β1、β2、β3、β4都是参数,分别为影响y的危险变量。
考虑将描述任务的参数:x1,x2,x3,x4(分别代表任务定价、距离、活跃会员匹配度、活跃会员任务额度匹配程度)当作影响任务完成度y的危险变量,使用SPSS软件的多元logistics回归[9],求解各参数值,进而能够建立任务完成度评价模式。
2)合理性检验
新建立的方法,要先利用已有的数据对其进行合理性检验,看它是否对于解决问题有正面的帮助,所以通过所给出的数据来验证logistics回归函数模型是否合理。用前一问处理之后的数据,借助SPSS,利用logistics回归分析能够得到各个参数α,β1,β2,β3,β4的值分别为:11.12538、-25.58566、617.43981、-0.18387、-0.18268。所以logistics回归函数的表达式为:
通过此函数利用已知的数据求得任务的完成率如表4所示。
表4 利用回归函数估计的任务完成度与实际完成度对比
从表4可以看出:就深圳市来说,估计的完成度与实际的完成度之间的正确率是87%,误差较小,故logistics回归函数模型比较合理。
3.2 求解新方案定价规律函数的四个参数
以深圳市为例,求得的新的定价规律函数为:
将上述方法推广到广州和佛山市,求得的这两个城市的新的定价规律函数如下:
广州市:
佛山市:
3.3 新方案定价规律的合理性
为验证上述新定价规律的合理性,计算上述新定价规律函数下的任务完成率[10],并与原任务完成率进行比较,结果如表5所示。
表5 新定价规律函数下的任务完成率与原任务完成率比较
由表5数据可知,新定价方案下的任务完成率:深圳为74.2%;广州为81.3%;佛山为80.9%,与原完成率相比均有较大提高。故制定的新方案有较好的合理性。
4 任务打包定价
4.1 打包发布模式下的定价模型
在上述的定价模型中,会产生两个弊端:任务发布者的成本将提高;会员集中在某一特定区域,产生扎堆情况。故考虑对任务进行如下处理:根据任务位置对任务聚类。经过打包处理之后,在该包附件的人通过衡量之后就可能会离开该包所在的区域,这样既可以降低某一个任务区域的人员密度,缓解扎堆情况,又能在提出优惠政策之后,使任务发布的成本降低。同时可以使各个城市的完成率在原始完成率的基础上有一定的提升。
根据任务的经纬度指标,以深圳为例,对任务进行系统聚类[11],通过设置距离的限制,使得聚类得到的类型和每一个类型里面的任务数处在合理的范围之内。通过系统聚类,对每一类都看作为一个包,最终得到43个包,具体的结果如表6的第2列所示。
表6 深圳市打包定价结果
同理可以得到其他城市打包的结果,对于一个已经打包好的任务,从会员的角度看,完成这一项任务既可以使自身的收益提高,又可以获得较多的信誉累计值,所以对会员是有利的。从任务发布者的角度看,打包可以通过制定价钱的优惠政策降低任务发布者的成本。考虑到打包类似于打车中的拼车,经过对数据的模拟并结合会员的匹配程度,制定了如下的定价优惠政策[12]:
(6)
式中,wi为调整后的包中每一个任务的定价,w为一个包原始的定价,p为该包的活跃会员匹配程度。
由式(6)可知定价随着活跃会员的匹配程度的增大而降低,其原因是匹配程度越大表明在这一地区的人数越多,类比于拼车过程中人越多车钱越便宜的经验,所以定价就会越低。以深圳市为例,最终得到每个包的定价如表6的第3列所示。同理可以得到其他城市打包之后每一包的定价。
为了分析经过打包之后城市总体的完成率,对于每一个包,定义单个任务包完成率:
式中,T表示已完成任务数,TM表示总任务数。
以深圳为例,其原始的任务完成率为21.1%,利用这个任务完成率,结合单包完成率P,当P≥22%时,认为整个包任务是完成的;当 P<22%时,认为整个包任务没有完成。
同时引入城市总体完成率,根据单个任务包完成率P的判断标准,统计得到该城市中完成的包数和未完成的包数,用完成的包数占总包数的比值作为城市整体的完成率。以深圳市为例,打包定价调整之后深圳的任务完成率为43.86%。同理,其他城市经过打包定价调整之后的完成率与原始完成率的对比如表7所示。
表7 原始完成率与打包定价后完成率对比
由表7中的数据可以看出,经过打包和重新定价之后,三个城市的完成率都有了大概20%的提升,说明打包定价模型的稳健性更好。
5 模型运用
为探究模型的实际运用情况,针对2017年全国大学生数学建模竞赛B题给出的新任务数据,带入上述两个定价模型中,分析任务的完成情况。
5.1 利用定价规律函数定价
将题目中新任务的位置数据,以及题目附件二给出的会员信息数据,带入式(6)所示的定价规律函数中,即可求得每个任务的估价。以深圳市为例,结果如表8所示。
由表8完整结果中数据可统计得到,新任务的完成率为85.23%,任务完成效果较最初任务的完成率(21%)更好。
表8 深圳市新任务定价及完成情况(部分结果)
5.2 利用打包的方式定价
将题目中新任务进行基于位置的系统聚类,制定出合理的打包方案,并根据式(6)对每一个任务包进行总价的计算,结果如表9所示。
表9 深圳市新任务打包模式下定价及完成情况(部分结果)
由表9完整结果中数据可统计得到,打包模式下新任务的完成率为86.28%,任务完成效果较最初任务的完成率(21%)更好,与基于定价规律函数来定价的方案的完成率(85.23%)没有较大差距,但任务的平均费用得到减少,减少了任务发布者的成本,可激励更多的任务发布。
6 结束语
该模型通过对影响任务定价的多个因素综合考虑,利用多元回归方法,分析计算了基于定价规律的定价模型和基于打包模式下的定价模型,并对任务的完成效果进行合理评估,为新任务的定价提供参考。