基于竞争导向的移动劳务众包任务定价模型
2018-01-09王怡谭莉��朱晓文王天浪
王怡+谭莉��+朱晓文+王天浪
摘 要:
本文针对2017年全国大学生数学建模竞赛本科组B题的前两个要求,建立模型,研究位置、完成情况对任务定价的影响。
关键词:竞争导向;劳务众包;回归分析
一、问题重述
(一)问题背景
随着互联网产业的迅速发展,各类移动APP被迅速推广。“拍照赚钱”APP运用了移动互联网下的一种自助式服务模式,需要用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务,即可赚取APP对任务所标定的酬金。
这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本。
(二)需解决问题
题目所给附件一是已结束项目的任务数据,包含任务的位置、定价和完成情况;附件二是会员信息数据,包含会员的位置、信誉值、参考信誉值给出的任务开始预订时间和预定限额;附件三是新项目的任务数据,仅包含任务位置信息。
根据附件一、附件二、附件三中的数据信息,对下列问题分析并解决:
1.根据附件一中给予的每个任务的位置、定价和完成情况,找出附件一中项目的任务定价规律。
2.根据问题一建立的数学模型,结合附件二中数据,对附件一的定价规律进行调整。设计新的任务定价方案,并与原方案进行比较。
(三)问题假设
3.1 假设不考虑实际地势与城市建设的情况;
3.2附件中数据真实可靠,准确性较高;
3.3样本容量足够大,样本数据真实,能够反映具体其情况;
3.4假设数学模型没有出现人为因素中途破环;
3.5假设附件中的每个属性以及属性下的数据没有非常规的异常;
3.6假设问题二只考虑会员人数与会员分布面积,任务的完成状态,以及附件一种的任务原标价等三个因素。
二、问题分析
2.1 问题一
对于任务定价规律,我们主要研究每个任务距城市任务中心点的距离与任务标价之间的关系。建立一元二项式回归模型,输入数据,求出系数。并对数据进行预测和误差分析,用于检验模型一。
根据所得结论和ArcGIS软件作图,分析四个城市任务未完成情况的原因,在问题三模型建立中,分地区进行讨论。
2.2 问题二
在竞争导向定价公式的基础上,综合附件一的完成情况、价格,附件二的经纬度,对定价公式进行增改。当任务参考价格系数为0.78,仅提高了价格。对模型进行修改,当任务参考价格系数为0.75,同时对任务完成情况分段讨论,通过绘制价格频率图,最终得到效果较好的模型二。
三、模型的建立与求解
3.1 模型一的建立与求解
3.1.1 数据预处理
附件一中包含了每个任务的位置、定价和完成情况,将任务的经纬度导入 ArcGIS软件,同时导入地图,将每个任务的位置在地图上进行标注。绿色点代表任务完成,红色点代表任务未完成。结果如下图1所示。
图1 任务完成情况分布图
在附件一的835个任务中,使用Excel表格中的rand函数,将任务充分打乱后,抽取210组经纬度数据作为样本。在SPSS软件中,通过聚类分析将其为3组。对抽样分组后的每组数据求平均值,用以代替原样本中每组任务的平均值,得到3个中心点的位置。对照地图,得到以“广州——佛山”、“东莞”和“深圳”3点为中心点的任务区。
使用ArcGIS软件,对835组经纬度数据进行处理。计算每个数据到“广州——佛山”、“东莞”和“深圳”3个中心点的距离,同时对距离进行无量纲化处理。上述3个距离,分别用X\-1、X\-2、X\-3表示。对于每个任务,在3个距离中选出最短距离X\-\{min\},及对应任务标及任务标价Y。
3.1.2 模型一的建立
在模型一中,我们仅考虑距离对任务标价的影响。因此,对每个任务到其最近中心点的距离X\-\{min\}作为自变量,对应的任务标价Y作为因变量,研究两者之间的关系。
ArcGIS作图后无法使两变量呈现较为明显的函数关系,因此对上述两变量进行回归分析。即假设模型y=f(x\-1,x\-2,x\-3)中函数f是多项式形式。
经过多次尝试,使用一元二项式回归对数据进行分析,公式如下。
y=a\-1x\+m+a\-2x\+\{m-1\}+…+a\-mx+a\-\{m+1\}
确定多项式系数的命令[p,s]=polyfit(x,y,m),其中x=(x\-1,x\-2,…,x\-n)、y=(y\-1,y\-2,…,y\-n)是输入的数据,
p=(a\-1,a\-2,…,a\-\{m+1\})是系数,s是一个用以估计预测误差的矩阵。
通过在MATLAB软件中输入数据,利用命令做一元二项式回归,得到回归模型:
y=68.8985+4.2008x-12.1004x\+2
对回归模型进行预测和预测误差估计使用命令C=polyconf(p,t,S),得到835个任务标价预测值,如下图
3.1.3 定价规律的分析
因一元二项式回归曲线效果不明显,另用多元二项式回归中的完全二次模型繪制图形,如图3。
得到上述图形后,图左边给出y的预测值及其置信区间。剩余标准差为4.5037,说明此回归模型的显著性较好。最终,认为最短距离与任务标价之间具有相关性。
在此回归模型的基础上,将任务标价的数据导入SPSS软件,对其频率进行统计,得到直方图。
根据直方图可以得出任务标价的分布范围较广,且频率偏差性较大。峰值在65.1,而65、70、75和85四个价格中,都有相对较高的频率。另外可以观察到,任务标价有类似正态分布的价格分布情况。因此,在问题二的新任务定价方案中,将针对任务标价的价格分布情况,进行建模与修改。endprint
使用ArcGIS软件,将底图中的商店与商场进行显示,底色越密集的地方,商业越发达,以此来印证3个中心点位置的正确性。同时,越繁华的地段,任务标价越低,任务争抢越激烈。
如下图4所示,暖色系颜色标识任务为已完成任务,冷色系颜色标识任务为未完成任务,颜色越深,任务价格越高。
3.1.4 模型一的检验
使用3.1.2中一元二项式回归模型,对回归模型进行预测和预测误差估计。利用预测值,将其带入模型一中,对模型一进行检验,到验证价格的频率直方图。
分析直方图可知,任务的价格集中在69,有少量价格分布在67.5。虽然价格分布集中,能够得到正态分布曲线,但由于价格分布本身应具有高地价的区分,因此后续模型应做改进。
3.1.5 未完成原因分析
从地图中可以看出,任务未完成的情况集中在佛山中部、广州西部和深圳全区。佛山除去中部偏南部分任务未完成,其余任务完成度较好;广州集中在市中心的低价区,完成与未完成任务地点重合;东莞所有任务均完成;深圳的任务完成在主干道西部较集中。
佛山未完成任务特点:未完成任务集中在中部偏南地区,即禅城区。佛山市作为广州市周边的二线城市,地区经济发展水平近几年正飞速提升。但佛山市较有历史底蕴,市民注重生活与饮食,生活节奏较慢。任务未完成较集中的禅城区,位于佛山市市中心,也是佛山市政府所在地,人均收入高,生活条件好,周边的南海区人均收入在佛山市收入居于次高。因此,较低价格的“拍照赚钱”任务无法吸引禅城区和南海区人民的兴趣,未完成任务较多且集中。
广州未完成任務特点:集中在市中心的低价区,与完成任务地点重合。广州因改革开放而迅速发展,特别是位于广州西部的主中心分区,GDP常位于全国前列。市中心人流量较大,任务价格较低且争抢较激烈。因此,认为广州市的任务未完成情况是由于在市中心一人接多单,但是接单未做完导致的,也有可能是由于任务金额较低导致。余下的价高任务,是由于地处偏远地区而未完成。
深圳未完成任务特点:任务完成在主干道西部较集中。深圳市地处沿海,靠近南部沿海区域发展的更好。通过对比,可知任务完成多集中在福田区。福田区是深圳市的市中心,深圳外来务工人员较多。与东莞不同,深圳的技术人员占据较大比例。处于市中心福田区的低价任务,由于市中心人流量大,因此完成率较高。
3.2 模型二的建立与求解
3.2.1数据预处理
将附件二中会员位置导入ArcGIS软件中,对数据进行处理。除去地域偏远的会员,仅对3个中心点周边区域的会员人数进行统计。
对选中的会员集中区域,划分为16个小区域。用ArcGIS软件,对选定的区域进行会员
人数R与面积S进行统计可知,市中心任务价低,竞争激烈。因此将参考任务的竞争弹性系数E,对模型二进行完善。而任务的竞争弹性系数,将由会员密度代替。得下式:
Ei=[SX(]S\-i[]R\-i[SX)](i=1,2,…,16)
区域竞争弹性系数E\-i,区域会员人数R\-i,部分区域面积S\-i。
对完整数据分别求出16个E\-i,通过MATLAB软件,求出调和平均数E,作为任务的竞争弹性系数。最终,求得竞争弹性系数为2.7。
3.2.2 模型二的建立
根据竞争导向定价公式[1],对服务产品的价格弹性进行设定。定价公式为:
y=[SX(]1[]2[SX)](3-[SX(]1[]│E\-d│[SX)])y\-0
其中,服务产品需求价格弹性Ed,调价前任务价格y\-0。
用竞争弹性系数E代替需求价格弹性Ed,同时根据附件二的经纬度,附件一的完成情况和价格,对上述定价公式进行增改。
为增强模型的针对性,模型二加入了附件一中提供的同类位置任务的价格,将其作为任务参考系数α。
α=0.78时,建立模型二,对附件一中任务价格数据进行处理,绘制第一次价格模型直方图,对比前面绘制的直方图中的标准差,可知4.6484大于原数据的标准差。由于建模效果不理想,因此对模型二进行修改。
α=0.75时,加入对应的任务完成情况,作为任务完成度β,同类任务的参考价格P\-c。
y=[JB({](1/2)×(3-(1/│E│))×y\-c×α
(1/2)×(3-(1/│E│))×y\-c×α+
[KF(](1/2)×(3-(1/│E│))×y\-c×0.09[KF)][JB)]
当β\-i=1时,选择第一个公式;
当β\-i=0时,选择第二个公式。
由此,在MATLAB软件中,对第二次建立的模型二进行数据处理,得到新的任务价格,并用SPSS软件绘制价格模型直方图
图6 模型二第二次价格直方图
3.2.3 模型的比较
由上图可知,标准偏差的关系为
4.3968<4.513<4.6484
模型二第二次建模效果,比较原模型,能够明显看出任务价格的正态分布情况。得知任务价格峰值为67,价格在63~69较为集中,73也存在较高频率。价格集中在偏低范围的同时,较高价格仍有存在(例如:84)。由于任务价格本身存在一定差异性,所以模型二的第二次建模较为成功。
四、模型综合评价
4.1 模型的优点
1.模型简单,易于实现。
2.引入竞争弹性系数与奖励金机制,具有创新性。
4.2 模型的缺点
1.模型一中涉及的无量纲距离容易经纬度的影响
2.模型整体考虑的变量因素不够全面,与实际的复杂规律有一定偏差。
[参考文献]
[1]刘晓钢.众包中任务发布者出价行为的影响因素研究[D]重庆:重庆大学,2012.
[2]吴瑞杰,孙鹏,孙昱.分布式任务计划动态调整模型及算法[J].系统工程与电子技术,2017, 39(2):322-328.
[3]宋天舒,童咏昕,王立斌,等.空间众包环境下的3类对象在线任务分配[J]. 软件学报,2017,28(03):611-630.
[4]孙信昕.众包环境下的任务分配技术研究[D].扬州大学,2016.
[5]林素芬.众包商业模式特殊性的理论诠释[J].长春大学学报,2013, 23(5):544-546.
(作者单位:武汉商学院,湖北 武汉 430056)endprint