APP下载

基于定性数据分析对“拍照赚钱”任务定价的研究

2019-01-23朱家明王欣宇张一鸣

焦作大学学报 2019年1期
关键词:经纬度完成率定价

王 妍 朱家明 王欣宇 张一鸣

(1.安徽财经大学统计与应用数学学院,安徽 蚌埠 233030;2.安徽财经大学金融学院,安徽 蚌埠 233030)

当今社会,随着移动互联网的发展,各种基于网络平台的APP应运而生。“拍照赚钱”是移动互联网下的一种自助式服务模式,用户下载APP,注册成为APP的会员,然后从APP上领取需要拍照的任务,便可赚取APP对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供了各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据的真实性,缩短了调查周期,成为当下发展的一种新潮流。这种基于移动互联网的自助式劳务众包平台,APP是该平台的运行核心。而APP中,任务定价又是整个APP运行的核心要素。如果定价不合理,有的任务就会无人问津,而导致任务的失败。因此笔者对“拍照赚钱”任务的定价问题进行研究,从而分析任务未完成的原因并设计一套新的任务定价方案。

1.数据来源和模型假设

本文数据来源于2017年全国大学生数学建模竞赛B题中附件一:已结束项目任务数据;附件二:会员信息数据;附件三:新项目任务数据;2016年广东省统计年鉴。为了便于研究问题,提出以下几条假设:⑴假设题目中的数据全部来自于同一款APP,用户不存在体验感受上的差异;(2)假设所有会员领取的拍照任务均是亲自拍摄所得,不存在他人远程帮忙的可能;(3)假设每一位会员只有一个账户,不存在一位会员开设多个账户的情况;(4)假设在对所有任务进行区域划分时,每一个任务都属于某一区域内,不存在某一任务出现在区域边界线上的情况。

2.任务定价模型

2.1 研究思路

为了探究任务定价规律与任务未完成的原因,首先为便于距离计算需将经纬度的坐标转化为二维距离。其次需要对数据进行分类整理,结合数据可视化图表探究任务点的分布规律与价格分布规律;继而建立任务定价模型,在模型中引入决定价格变化的参数并对模型的优劣性进行验证;最后对任务未完成的原因进行具体的分析。

2.2 建模准备

2.2.1 经纬度坐标到二维距离的转换

由于任务点与会员的位置信息都是以经纬度坐标给出的,而且任务与会员之间的经纬度差距不大,纬度主要集中在北纬22.49308312~23.87839806度之间,经度主要集中在东经112.6832583~114.4936096度之间,经纬度的差值过小,直接利用角度差表现距离会造成较大误差。加之考虑到地球表面曲面性的特点,为了便于直观地反映各个点之间的位置关系,需要参考GPS导航软件中将经纬度转化为实际直线距离的原理,把各个点的经纬度坐标转化为直线距离[1]。原理如下:

地球赤道的周长是40075.04公里,则每度在赤道上的长度计算公式为:

结合位置点的经纬度坐标,任意两点的距离计算公式为:

其中,A、B表示需要计算距离的两个点,λ表示纬度,φ表示经度。

根据上述原理,利用MATLAB进行编程,分别得到任意两个位置点之间的平面距离。

2.2.2 任务点的分布

首先为了实现数据可视化,便于直观地看出结果,将任务点经纬度坐标批量导入地图规划软件中(本文使用的是地图无忧平台),将全部任务点坐标标注在地图上,得到平面图如图1所示。

图1 任务点地理位置分布图

从图1任务分布图中可以直观地看出,所有的任务点都分布在广东省,并且任务点呈现聚类趋势,集中分布在广州、深圳、佛山、东莞四个城市。对任务点的经纬度坐标进行聚类分析,得到四个任务点群体的中心坐标为:深圳(114.061355,22.629373)、广州(113.252081,23.172494)、佛山(113.130199,23.034212)、东莞(113.755707,23.042726)。

2.2.3 任务点的价格分布

对附件一的数据进行整理。为便于计算,将23种价格分成四个分布区间,并得到如表1所示的各个价格区间任务的分布情况。

表1 任务价格区间分布

由表1可以看出,超过一半任务的价格集中在66~68价格区间内,68.5~75价格区间中的任务占38.6%,80~85价格区间的任务占总体任务的5%不到。

将不同价格区间的任务点分布反映在地图上,得到如图2所示的分布图,其中红色表示66~68价格区间的任务,蓝色表示68.5~71.5价格区间,紫色表示72~75价格区间,黑色表示价格是80和85的任务点。

图2 不同价格区间内的任务分布图

从图2可以看出:红色的点集中在四个城市的中心区域,蓝色和紫色的点沿道路向外分散在城市的郊区地带,而黑色的点散乱分布,没有明显的分布规律。价格所呈现的特点为:任务集中在城市中心繁华地段时,定价会偏低,离市中心越远,定价越高。

根据经纬度坐标,对价格高的点进行数据挖掘,发现价格高的点一般都是政府机构、银行、高档宾馆和大型商贸城等,这说明价格高的任务可能与任务自身的难易与属性有关系,并且数量较少,分布具有随机性。

2.3 模型的建立与求解

2.3.1 任务定价模型

根据上述对价格分布规律的探究,得出:任务的价格主要是受到任务点地理位置和任务自身的难度两个因素的影响。将地理位置对任务价格的影响定义为某点的繁华程度,它受到人口密度情况和经济状况的综合作用,不同城市具有不同的取值且越偏远的地方取值越小。将任务自身难度定义为任务点的特征属性,它的出现与否具有随机性,所以特征属性需要与随机虚拟变量(0-1变量)结合使用。

现给出任务定价模型:

其中,P表示任务的价格,70表示基础价格,

为城市繁华度带来的价格变动,wj表示各城市由人口密度、GDP、人均消费水平等因素通过层次分析法得到的各城市繁华度权重,fij表示城市j对任务i的繁华度指标,g表示价格波动影响参数;λi为任务自身因素而带来的价格变动,为0-1随机变量且1出现的概率为5%,b为[0,20]的随机数。

一个任务点的地理位置越靠近市中心,繁华程度参数越大,价格越低;当虚拟变量为1的时候,任务点因自身原因加价,价格越高。

2.3.2 模型的完善

首先,选取人均GDP、平均工资、人口密度、工业总产值这四个指标来衡量城市的繁荣程度。2016年的四个城市指标数值如表2所示。

表2 四个城市经济与人口的指标数值

然后,使用层次分析法[3],将决策问题分为三个层次:目标层O、准则层C、方案层 P,每层有若干个元素,如图3所示。

图3 层次分析图

其中,目标层:城市繁华程度。

准则层:人均 GDP、平均工资、人口密度、工业总产值。

方案层:广州、深圳、佛山、东莞四个城市。

综合实际经验和参考文献分析可近似得到以下系数:

a12=1:2,a13=1:3,a14=1:4,a23=2:3,a24=2:4,a34=3:4,

从而得到正互反矩阵:

经过MATLAB归一化处理,得到标准化特征向量:

w=(0.2857,0.3571,0.1429,0.2143)

即四个城市的权值分别为:0.2857,0.3571,0.1429,0.2143。

其次,由于同一个城市不同的区域繁华程度也各有差异,任务点的分布主要集中在每个城市半径30公里之内。通过对任务点价格的分析,发现价格在同一个城市呈现向外递增的趋势,而且繁华程度每五公里递减一个等级(即每五公里价格递减0.5单位),并且部分点落在两个不同的城市任务圈内。

由于高价位任务分布存在随机性的特点,且高价位的任务占总体的5%左右。按照固定的5%的比例,随机设定高价位的任务点,即为0-1随机变量且1出现的概率为5%,并设定他们的特征属性值为[0,20]的随机数。

根据模型参数设定规律,通过MATLAB软件进行编程,对每个任务点利用上述任务定价模型进行定价计算,得到预测价格。由于数据过多,现给出部分任务点的原有价格与预测价格数据,如表4所示。

表4 部分价格预测值与原有价格的比较

2.3.3 模型的检验

为了能直观地反映我们给出的任务定价模型是否符合原有规律,做出原假设:价格预测值与原有定价有显著差异。利用SPSS将全部任务点的价格预测值与实际标价进行配对样本的T检验[4],得到如表5所示的计算结果,结果拒绝原假设。

表5 成对样本检验

2.4 任务未完成原因分析

(1)价位越高,完成率越低。根据表1任务价格区间分布情况可以看出,任务价格在65~68区间内完成率为46.61017%,完成率最高。价格越高,完成率反而低,这可能与高价位任务难度大,地理位置偏远,鲜有人特意为完成任务而到达某地有关。

(2)人均收入越高,完成率越低。结合已完成任务与未完成任务分布点的分布图 (如图4,红色方块表示未完成,紫色方块表示已完成),可以看出东莞的任务完成率最高,广州和佛山次之,深圳的任务完成率最低。综合考虑城市的人均经济水平与边际生产力分配理论,发现人均收入越大的地方,对任务的执行率越低,即任务是否完成与地区的人均收入有关。

图4 已完成与未完成任务分布图

图5 会员与未完成任务分布图

(3)任务区域内会员数量越少,完成率越低。通过对比未完成任务点的分布及会员位置的分布,不难看出,有些区域任务完成率低与会员分布稀少紧密相关。在局部地区软件推广不足,会员注册人数较少,导致任务未完成,如图5所示(其中红色圆点表示未完成的任务分布,蓝色星表示会员分布位置)。

(4)任务附近会员的信誉值越低,完成率越低。为了比较会员之间的差异,首先根据会员信誉值的大小将会员粗略地分成四类,然后根据四种不同的等级会员分布情况对比任务未完成点的分布图,发现低等级会员分布越集中的地方任务未完成率越高,如图6所示(灰色星代表会员信誉度较低的会员分布点,红色表示未完成的任务分布)。

图6 会员等级分布图

3.基于熵值法的会员分级评价模型

3.1 研究思路

首先综合考虑会员的各项指标建立模糊综合评价模型,将会员分成不同的等级,并赋予每个等级不同的数值,在原有的定价模型上加上会员等级这一新的影响因素。此时会员等级越高,可完成的任务数量越多,单价越低。最后利用所得的综合得分对会员进行分级,再结合每一位会员的GPS经纬度,便可得到四个城市会员的分级情况。

3.2 研究方法

附件二中给出的会员指标存在多个,故先利用熵值法[3]对会员的几个指标计算权重。

构建原始指标矩阵。假设有m个会员,n项指标,则原始指标数据矩阵为:

为了消除各评价指标的量纲影响,需对原始数据进行无量纲化处理。对于正向指标,计算方法为:

对于负向指标,计算方法为:

式中:Xij为无量纲化后的数据值,maxXj和minXj分别为j项指标的最大值和最小值。

对无量纲化后的数据进行归一化处理,方法为:

式中:gj为差异性系数,ej为熵值。

3.3 结果分析

选取附件二中会员的预定任务限额、预定任务所需时间、信誉值这三个指标,经过MATLAB软件编程,得到权重矩阵为:

w=(0.3371,0.6271,0.0358)

在附件二中,代入求出第i项指标的权重,求出每一位会员的综合得分,以此来对会员进行分级,得到各个等级会员的数量。再结合每一位会员的GPS经纬度,可得到四个城市会员的分级情况,结果如表6所示。

表6 各城市各等级会员数量百分比

4.改进的任务定价模型

4.1 模型的建立

原有的任务定价模型为:

P=70+g(wj·fij)+λib

结合问题一中对任务未完成原因的分析我们可以发现,会员的数量和信誉值均会对任务的完成率产生影响,而原模型中并未考虑到会员的影响因素。考虑到附件二中会员的信誉值和完成任务的时间等指标,以及上文得出的会员在各个城市的分布情况,因此需从会员的质与量两个方面进行分析。

设j地区第i个任务会员的影响度为 hij,I是对应的价格影响参数,各城市权重为设改进后的任务定价模型为:

P=70+g(wj·fij)+I(wj·hij)λib

4.2 模型的求解

经过新的模型求解,得到新的定价方案部分如表7所示。

表7 部分任务点新预测价格的数值

通过表7可以看出,已完成任务的新旧定价差别不大,说明定价合理;未完成任务的新定价方案大多都高于原价格,推测对任务完成情况有利,综上所述,新的定价方案优于原定价方案。

5.灵敏度分析

改进后定价计算公式:

其中g和I分别为繁华度和会员因素对价格波动变化的修正参数,wj·fij和 wj·hij为城市 j分别对任务i的繁华度指数和会员综合指数,将地区对任务的两种因素指数作为自变量,变动范围在[0,10]、[0,5]之间,最终定价视为因变量,随机变量λ取0,任务的定价方案取经纬度为113.9356769,22.51592012的定价为65.75。针对I和g的不同取值,运用MATLAB软件编程进行灵敏度分析,得到结果如图7所示。

由灵敏度分析可知,在价格变化出现波动时,等量的对应因素修正参数所引起的价格变化很小。故此次灵敏度分析效果较好,即两种因素对价格变化的波动参数对最终价格的影响很小。

图7 灵敏度分析图

6.结论

本文的突出特色是运用数据可视化和定性数据定量化分析。前者将GPS经纬度转化为平面地图上多个点的分布,能更简便、直观地对数据进行观察分析;后者将影响价格的不同因素定量化处理,能更直接地对定价产生影响。本文模型的应用背景是基于智能手机和移动互联网的劳务众包平台,如外卖应用、滴滴打车、快递跑腿服务平台等都涉及到商品定价与地理位置、会员积极程度的关系,以上各模型在建模过程中通过相应的软件检验,具有一定的合理性。

猜你喜欢

经纬度完成率定价
30万元的MPV搅局者来了!传祺M8宗师系列为什么定价贵?
国有企业更容易“走出去”吗?——基于跨境并购完成率的分析
多措并举:洪雅联社提前完成6项指标
关于提高航天型号计划完成率的思考
基于经纬度范围的多点任务打包算法
利用Fabozzi定价模型对房地产金融衍生品定价的实证分析
基于分层Copula的CDS定价研究
自制中学实验操作型经纬测量仪
澳洲位移大,需调经纬度
自主定价基本不可能