大数据环境下劳务众包APP平台运营的影响因素及预测研究<br/>——以珠三角部分城市为例

大数据环境下劳务众包APP平台运营的影响因素及预测研究
——以珠三角部分城市为例

2018-07-24陈光慧陈嘉倩

统计与信息论坛 2018年7期

陈光慧，陈嘉倩，宋祯，韩潇

(暨南大学经济学院，广东广州 510632)

一、引言

近年来，随着知识经济时代的到来，知识更新的速度越来越快，这使得企业外部创新资源持续涌现，开放式创新已成为企业与外部协同发展的必然选择[1]。互联网的普及与发展使得一种基于Web2.0网络技术的信息化创新组织形式——“众包”应运而生。众包(Crowdsourcing)这一术语最早是由Jeff Howe在《连线》杂志上提出并推广使用的，具体定义为：“众包是指公司或机构将原本由内部员工完成的工作以自愿的形式外包给非特定的(通常是大型的)大众的行为[2]。”劳务众包APP平台为众包开辟了一种新的自助式商业模式。企业在APP上发布任务，用户在APP上获取任务，赚取酬金。众包平台不仅有利于企业整合分散闲置的资源和能力，还保证了调查数据的可信度，提高了劳动力市场的效率和信息市场的交流速度。

与此同时，大数据时代带来了一场以“数据驱动”为特征的人类思考决策模式的变革，这一变革要求企业能够实时收集、存储时刻变化的运营数据，及时处理分析，从中挖掘出有益的信息。数据分析的重要前提是数据，大数据时代下，大量多维度数据的获得给数据分析带来了巨大的机遇，产生了基于大量数据的科学算法。以机器学习、数据挖掘为基础的分析技术具有可扩展性、并行处理和实时分析等性能，能够满足海量数据带来的复杂性、实时性和全方位的分析要求，因此大多学者认为，海量的信息使得企业可以使用多种方法进行内部客观数据的分析，其结果将更具可信度[3]。对于劳务众包APP平台来说，频繁变动、快进快出的会员和任务的数据组成了一份“大数据”，数据更为客观真实。我们可以从多个角度，同时也可以运用多个数据挖掘模型，在这些数据中挖掘出变量信息，帮助企业迅速地把握运营现状。

本文以劳务众包APP平台的运营情况为研究对象，依据学者对劳务众包平台模式的研究，选取任务完成度作为运营情况的衡量指标[4]。以“拍照赚钱”平台为例，利用该平台实际收集到的运营数据，从中挖掘出影响该劳务众包平台任务完成度的因素，构建并优化预测模型：使用随机模拟的方法计算出影响显著且能加入模型的变量“距离”的值；通过Fisher线性判别模型反映影响效果的方向性；为提高预测准确率，尝试使用多个机器学习模型，选择预测准确率最高者成为最后的预测模型。

二、研究现状及述评

(一)劳务众包模式与平台运营

现有研究一般将众包参与主体划分为三个角色：发包商家、众包平台以及接包方(平台的市民用户)。众包的共性在于：(1)地理位置的分散特征。众包参与者通过互联网聚集在众包平台上，众包参与者在地理上均为独立个体[5]；(2)用户的自主性。众包参与者之间没有雇佣关系的约束，用户根据自身需求和能力理性选择参与任务[6]；(3)用户贡献的是业余时间[7]50-70；(4)开放式信息需求。众包方的信息需求大且分散，利用众包形式可以降低信息收集的成本，改进企业生产效率[6]。

随着众包模式的发展，众包的类型逐渐增加，近年来相关研究人员多将其分为合作和竞标两种模式：问题由集体共同完成的，称为合作式；以竞赛形式完成任务的威客模式属于竞标式[8-9]。本文研究的“拍照赚钱”劳务众包的模式便是竞标式：一个任务同一时间段只能由一位用户完成，用户之间存在竞争关系。

当前国内众包的研究主要集中在众包的概念性质、众包参与者的行为等方面，很少从众包平台的角度去探索。而互联网是众包发展的前提，众包平台是众包模式发展的最好载体[10]。中国在众包模式探究与实际运营方面处于相对落后的位置：国内关于众包平台的研究很少，有学者对国内的猪八戒平台进行一些数据调查、模式介绍之类的研究[10]，其他平台的研究更是少之又少，这与中国众包平台发展还不成熟的现状相关。近两年，劳务众包平台兴起，其中有较大一部分平台主打“拍照赚钱”，这类平台的信息值得挖掘。如果能通过挖掘平台实时数据获得一些有助于平台运营的建议，将促使众包模式本土化，这也正是本文研究的角度与出发点。

(二)劳务众包平台完成度的影响因素

前人研究一般集中在参与动机对平台用户参与数量及完成质量的研究，从心理学的角度来分析用户参与众包活动的动因，将吸引用户参与众包的因素归结为内在激励和外部激励两大类，因而大多数研究使用调查问卷或量表对用户的动机进行衡量，获得主观数据。但是，问卷问题略显冗杂，且前后相关性较强，模型信度不强。

本文认为动机只能作为行为的主观影响因素，探究用户行为决策还应从客观环境出发，了解其物质性的一面。实际上，大众的参与行为也与众包平台的环境氛围、众包任务的相关属性关系密切。例如，张媛对大众参与众包的行为影响因素的实证研究表明，大众对于众包平台的信任对用户参与行为有正向影响[11]。此外，师蕾在探索众包项目属性对参与者行为的影响的实证调查研究中，得到工期较长、难度系数较低以及竞争强度较弱的任务能吸引更多参与者的结论[12]。与此同时，中国的劳务众包平台的运营模式是以用户所在城市为限，在平台上公布任务，参与者之间存在着竞争，用户具有不确定性。行为研究过程中不考虑个人因素可使研究更具有普适性，也更适用于中国劳务众包平台的现状。与此同时，大数据的兴起也为这一问题的解决提供了方法——可以使用平台上大量的客观数据，挖掘出那些问卷中无法捕捉到的影响任务完成度的原因。

因此，本文计划基于实际运营数据，从任务属性和市场状况这两个方面分析任务完成情况的影响因素。任务属性主要体现在价格上，Yang等应用社会网络工具分析平台上用户的行为模式，发现奖金越高，用户参与度越高；但是现金不是激励用户的唯一重要因素，当用户参与一个特定的任务面临一个更高的机会成本，会降低其完成的可能性[13]。任务离用户的距离、用户的收入水平都能体现任务的机会成本。具体总结得出如下五个假设。

假设一：任务价格影响完成情况。

假设二：任务与用户之间的距离影响完成情况。

假设三：任务所在城市的人均可支配收入影响完成情况。

Frey认为尽管人们的行为会受到外部激励的影响，但是如果一个任务难度较大并且最终的收益较小，那么这类任务就代表高时间成本和高精力成本，很难吸引人们来参与；反之，如果参与一项任务的机会成本较低，就会有更多的人来参与[14]120-140。与此同时，Fullerton等的研究表明任务完成成本较高时，用户一方面可以最大化个人价值获取成就感，另一方面在完成过程中会考虑到已经投入的时间、精力成本，这类任务的完成度反而高[15]。

假设四：人均交通支出反映任务执行途中的资金成本，距离反映时间、精力成本，影响完成情况。

市场状况既体现在任务之间的竞争，又体现在平台注册用户之间的竞争。Leimeister等研究发现竞争性任务属性、市场成熟度等对任务解决产生显著影响，具有拥挤效应[16]。Howe等认为用户在众包任务完成过程中贡献的是业余时间[7]，因此可以考虑用失业率、非户籍人口比例来量化拥挤效应。

假设五：失业率、非户籍人口比例反映竞争力度，影响完成情况。

因此，本文将影响任务完成度的因素定为价格、距离、用户所在城市的人均可支配收入、人均交通支出、失业率和非户籍人口比例。

三、数据来源及变量设置

(一)数据获取

由于“拍照赚钱”这一新兴模式在珠三角地区活跃度较高，由此我们主要选用了珠三角的4个城市进行分析，分别是深圳、广州、佛山和东莞。数据来源于某“拍照赚钱”平台一个已结束项目的任务数据，真实可靠。数据涵盖任务和用户，任务信息包含每个任务的位置、定价和完成情况；会员信息包含会员的位置、信誉值、参考其信誉值给出的预订限额。其中任务数为835，用户数为1 877，无缺失值。数据的详细说明如表1所示。

表1 数据集信息说明表

注：数据来源于2017年高教社杯全国大学生数学建模竞赛B题。

利用XGeocoding软件将任务和用户的经纬度转换成对应的具体地址。将每个任务的完成情况按照所属城市进行汇总，结果如表2所示。

表2 各城市任务完成情况统计表

由表2可知，东莞市的任务完成情况最佳，177个任务全部被完成；广州市和佛山市的完成情况接近，三分之二左右的用户会完成任务；深圳市的任务完成率只有0.21。为更好地构建预测模型，变量的值一部分来自于该数据，另一部分宏观因素的值从每个城市的统计局网站获取。

(二)变量设置

根据上文的分析，本文考虑的影响因素分别有价格、距离、人均可支配收入、全年人均交通支出、失业率、非户籍人口比例。

1.价格：从给定数据中直接得到，记为pri。由表3可知，深圳的任务均价最低，而东莞的任务均价最高，东莞的任务完成率(100%)远大于深圳(21%)。初步估计：价格越高，任务完成度越高。

表3 各城市不同完成情况下任务价格平均值统计表单位：元

2.距离：由随机模拟方法计算得出，记为dis。平台中没有“任务与用户之间的距离”这一数据。在以往的研究中，研究者明知这一变量重要，但苦于无法获知，未能加入后续的模型分析。本文提出，可以利用任务和用户的经纬度数据，按照平台实际使用规则，采用仿真的方法，计算每个任务与其对应完成用户之间的距离。

平台使用规则：用户注册平台后，都会被赋予一个“信誉值”以对应的“预订限额”(该用户在同一个时间段内可以预订的最多任务数)。用户成功完成任务后，系统自动增加用户的“信誉值”和“预订限额”；用户打开APP后自动定位到所在城市，平台根据用户所在城市，筛选出该城市的所有任务推荐给用户；一个用户可以在“预定限额”内预订多个任务，系统默认将任务分配给预订用户中“预定限额”值最大的用户。因此，任务和任务执行者在同一个城市，首先将任务和用户按照城市归属地进行划分，再按图1所示的计算流程计算出距离。这里，i=1,2,3,4；1=深圳，2=广州，3=佛山，4=东莞。

图1 距离求解流程图

根据流程图，先说明如何确定预订比例以及经纬度转化为距离的方法：

(1)确定用户的预订比例

用户根据任务价格、距离，综合个人情况等因素，选择预订或者不预订，因此需要估计每一个城市的预订比例。查看用户信息中的信誉值、预订限额和开始预订时间，可以认为信誉值大于或等于2的用户是至少预订、执行或者完成过一次任务的活跃用户。统计每一个城市的活跃用户数量，进而计算每个城市的预订比例，公式如下：

(2)两点经纬度坐标转换为平面距离(单位：千米)

假设地球是一个完美的球体，那么它的半径就是地球的平均半径，记为R。以0度经线为基准，根据地球表面任意两点的经纬度就可以计算出这两点的地表距离。符号标记：第一点A的经纬度为(LonA，LatA)，第二点B记为(LonB，LatB)，距离记为dis。球面上两点间的距离(C)公式：

C=sin(MLatA)×sin(MLatB)×cos(LonA-LonB)+cos(LatA)×cos(LatB)

经纬度数据均位于北半球和东半球，则可以直接代入公式，计算得到每一个任务的经纬度坐标和每一个完成用户的经纬度坐标之间的距离。

(3)随机模拟构成“预订用户池”

预定比例乘以城市用户总数，求得每一个“预订用户池”的用户数量ni。在R中使用sample()函数，从该城市的所有用户中随机抽取用户构成人数为ni的“预订用户池”；再从“预订用户池”中挑选出配额最大的用户作为“完成用户”，并得到该用户的经纬度坐标，使用距离公式求得该任务与完成者的距离；随机模拟n次，分别计算抽选出的用户与该个任务的距离，并取n次模拟的平均值。通过R软件模拟，发现当n=100时，距离平均值已经十分稳定，所以用此时的平均值作为每一个任务与其完成者距离的估计。

3.其他变量：人均可支配收入、全年人均交通支出、失业率、非户籍人口比例，分别记为inc，tra，unemp，non。相关数据汇总情况详见表4。

表4 人均可支配收入等四个变量数值汇总表

注：数据从4个城市的2017年统计年鉴或政府报告中整理得到。

四、预测模型分析

(一)Fisher线性判别模型

将6个因素全部加入Fisher线性判别模型，令第n个任务的完成情况的符号为Sn(0,1)(0表示任务未被完成，1表示被完成)，同时沿用前述各变量的符号，得到：

Sn(0,1)=α1pri+α2dis+α3inc+α4tra+α5unemp+α6non

在R软件中，得到标准化后的线性判别的判别函数为：

Sn(0,1)=0.087 4pri+0.286 9dis-

2.001 2inc-3.050 4tra-

1.698 4unemp+0.029 4non

本文用混淆矩阵评价模型(见表5)，并定义准确率η。

表5 Fisher线性判别模型混淆矩阵

通过计算得到线性判别模型的准确率是73.74%，说明Fisher线性判别模型有一定的解释度。Fisher线性判别模型显示：价格、非户籍人口比例越高，距离越远；城市人均可支配收入、全年人均交通支出、失业率越低，任务完成率越高。

(二)随机森林模型

考虑到Fisher线性判决的准确率只有73.74%，为了提高准确率，在R中尝试多种机器学习的模型，最终得到准确率最高的算法是随机森林。

随机森林(Random Forest)是一种基于分类树的算法，它需要模拟和迭代，通过反复二分数据进行分类或回归，在保证准确度的前提下，大大降低了计算量。随机森林可以解释若干自变量(X1,X2，…，Xk)对因变量Y的作用。在变量(列)的使用和数据(行)的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林对多元共线性不敏感，结果对缺失数据和非平衡的数据比较稳健，可以很好地预测多个解释变量的作用[17]。随机森林模型的实现步骤是：

第一步，输入训练集S={(xi,yi),i=1,2,…,n},(X,Y)∈Rd×R。

第二步，输入待测样本xt∈Rd，Fori=1,2,…,Ntree。

对原始训练集SBoostrap抽样，生成训练集Si；使用Si生成一棵不减枝的树hi，从d个特征中随机选取Mtry个特征，并在每个节点上从Mtry个特征依据Gini指标选取最优特征；重复上一步骤直到树长到最大。

第三步，通过输出树的集合{hi,i=1,2,…,Ntree}，对待测样本xt，决策树hi输出hi(xt)。

分类方程：f(xt)=majority vote{hi(xt)}Ntreei=1

针对于本次研究，将前述的所有变量的值加入随机森林模型中，用原数据的70%构建训练集、30%作为检验集，分别得到训练集、检验集的混淆矩阵，分别计算出准确率，详见表6～7。

表6 随机森林模型训练集混淆矩阵

表7 随机森林模型检验集混淆矩阵

使用随机森林模型得到的训练集的准确率为83.53%，检验集的准确率为78.49%。随机森林模型比Fisher线性判别模型的准确率更高，能够更好地进行预测。同时，也可以得到每个自变量对因变量的作用：自变量的重要性的衡量标准是准确率平均减少值(Mean Decrease Accuracy)，该数值体现了把一个变量的取值变为随机数时随机森林预测准确性的降低程度，该值越大表示该变量的重要性越大[17]。

如图2所示，得到自变量对任务完成的重要性强弱依次是：距离、失业率、非户籍人口比例、任务价格、人均可支配收入和全年交通支出。

图2 各自变量准确率的平均减少值图

(三)结果讨论

根据模型结果，可具体解释分析各影响因素的影响机制：

1.效益与成本对比。用户的效益主要来源于完成任务后所获得的商家给予的奖励金以及相应的信誉奖励，因此任务标价越高，任务完成情况越好。而用户的成本主要分为3个，即资金成本、时间精力成本和机会成本。

(1)资金、时间、精力成本

成本主要存在于用户执行任务时。资金成本主要是任务执行途中所花费的交通费用。在相等距离的条件下，过高的交通费用导致用户不愿意为了一笔收入不高的任务花费较高的成本，因此在4个城市中，全年人均交通支出越高，完成率越低。模型中用距离可以衡量用户完成任务的时间精力成本。该成本可视为沉没成本，一旦付出较高的成本，用户会更可能强迫自己去完成任务，因此出现了“距离越远，完成率越高”的情况。

(2)机会成本

根据统计局数据表明，2016年深圳的人均可支配收入有4 057.92元/月，而东莞的为3 491.83元/月。用收入价格比来直观显示任务价格和收入对完成率的影响：

若不计成本，深圳人要完成60件任务，才能赚到相当于1个月工资的收入，而东莞人完成50件任务便可达到月人均收入水平。由此相较于东莞人，深圳人对于“拍照赚钱”这一赚钱方式的需求不大。任务的低廉价格对于他们而言没有吸引力，所以深圳的完成率较低，这也是线性判别函数中“价格”变量前系数为正、“人均可支配收入”变量前系数为负的经济解释。

2.市场竞争。用户竞争主要用非户籍人口比例和失业率来量化。众包平台上每个任务设置的奖励金数额较少，任务发布频率也较低，用户不可能以任务奖励金作为收入的主要来源。非户籍人口渴望更多收入，会更有动力选择这种方式赚外快，且更有压力去迫使自己必须完成拍照任务，取得奖励金，因此非户籍人口比例越高，完成率更高。完成情况越好，更多商家认可平台带来的经济效益，会在平台发布更多的任务，形成良性循环。

劳务众包平台的任务本质上是一种兼职。由于时间地点距离的限制，失业人员有意愿工作但未能如愿。劳务众包平台的任务并不能带来持续稳定的收入，不能维持日常开销，因此他们对该平台的认可度不高，从而失业人员越多，反而完成率越低。与此同时，不少上班族有可能会利用闲暇时间去赚小额外快，所以出现失业率越低，完成率越高的现象。

五、研究结论与建议

本文基于平台内部实际运营数据，在前人研究基础上，通过锁定影响任务完成情况的因素，并根据平台现有数据，采用仿真的方法获得“距离”这一变量的值，随后采用Fisher线性判别和随机森林两大预测模型，最终能较好预测任务的完成情况。根据以上结果的分析，可认为该研究思路具有一定的延伸性和推广性。

第一，变量的选择具有一定的创新性。以往的研究都没有将用户和任务之间“距离”加入模型，这是因为学者很难获得平台内部数据，“距离”自然无从得知。还有一个原因是平台数据也只能提供任务和用户的经纬度，如何将这一数据转化为距离是一个难点。本文采用仿真的方法，成功解决了这一问题，得到了每一个任务与其完成用户之间的距离。从随机森林模型的结果可以看出，距离这一因素对于完成度的影响程度最大，加入这一变量会使得对用户行为影响因素的分析更为完整。

第二，与以往研究不同，本文充分考虑了区域因素，并将区域因素量化。将任务和用户都依据城市进行划分，每一个城市的人均可支配收入、交通支出费用、非户籍人口比例和失业率都不一样，而这些变量分别可以反映用户执行任务的机会成本、资金成本和竞争情况。依据从Fisher线性判别中得到，价格、距离、非户籍人口比例对完成率有正向影响，而城市人均可支配收入、交通支出费用和失业率具有负向影响，这与大多数前人的研究结果一致。

第三，在模型的优化环节，随机森林方法的预测结果准确性高达83.53%，可以认为用该模型去预测新任务的完成情况是合理有效的。

基于上述研究结论和研究思路，本文提出以下三点建议：

第一，任务众包的完成情况与任务所在地域的地理人文环境密切相关，因此劳务众包平台的推广需要本土化、区域化。平台可依据每个城市的收入水平、人口构成、人口素质等协助商家制定个性化的定价策略，平台也可以制定针对性的任务分配规则。

第二，在本文研究的六大因素中，距离和价格是商家和平台可控的因素。奖金是任务执行者完成任务的重要驱动力，任务执行者会根据奖金额度来筛选任务，有吸引力的奖金才能吸引更多能力强的参与者。因此，企业应在定价上下功夫，定价应既具有吸引力又有一定的区分度。距离是影响任务完成度的最重要因素，商家和平台应该给予重视。平台可以考虑更换任务分配规则：不是每次都将任务首先分配给限额最高的用户，而是同时考虑将任务分配给距离最近的用户。与此同时，商家和平台可以考虑采用“临近任务打包”等手段，缩短用户与任务之间的平均距离，从而促进用户参与度，提高任务完成质量。

第三，最终得到的随机森林模型具有较高的准确性。因此，在任务发布之前，可先使用模型进行预测，根据预测结果，商家可以适当调整价格，而平台可以调整挑选执行任务的用户的规则，让“更合适的人做事”，保证任务完成质量，提高任务的完成度，为双方创造更大的价值。