基于信任模型的鲁棒众包数据分析方法
2021-06-03焦玉全
孙 杰,陈 敏,焦玉全
(1.南京邮电大学 计算机技术、软件工程、空间安全学院,江苏 南京 210003;2.南京邮电大学,江苏 南京 210003)
0 引 言
随着通信基础设施和网络信息技术的迅速发展,依托于网络环境的众包[1]研究也在逐步深入。互联网具备的覆盖面广、无地域限制等优势,也使得过去只能面向专业机构的外包可以通过互联网扩展到全社会,国内外众多网络化众包服务市场日趋完善。
大量的志愿者得益于众包提供的工作模式,获得了不小的报酬。但是,在这一过程中,有些志愿者并没有认真地完成任务,为了骗取佣金,使利益最大化,往往会提供虚假数据[2],导致众包任务结果准确度不高。针对这一问题,现有的解决方式多为采用基于黄金标准数据策略[3-4]的研究方法,在任务开始之前,对工作者的工作能力进行检测评估,筛选出符合要求的工作者来完成任务。但是这种方式局限性比较大,对于恶意工作者[5-7]的预防效果比较低,最终所得结果准确度不高,无法满足雇主的需求。
该文提出一种新的方法,在考虑众包工作者历史信誉度的基础上,对部分任务结果采用投票一致性策略[8-9]进行分析,然后将二者结合于贝叶斯模型[10-12],推算出工作者在此次任务中提交任务结果的验后准确度。下面分别对信任模型构建、计算过程、具体实施流程以及实验结果进行介绍。
1 贝叶斯信任模型构建
该文提出贝叶斯信任模型(Bayesian trust model,BTM),主要将工作者历史信誉信息[13]和此次任务结果结合于贝叶斯算法来分析,提高对众包任务结果质量判别的准确度。贝叶斯信任模型的流程图如图1所示。
图1 贝叶斯信任模型流程图
模型构建主要分为三步:
首先,评估工作者的历史信誉度。众包工作者的工作态度无法直接通过观察来了解,但是,雇主可以通过分析每次任务审核方(例如教育众包平台[14])的反馈信息来分析该名众包工作者的历史任务完成满意度,得出该名工作者对待任务的态度,即众包工作者的可靠性。因为工作者的工作状态往往在某一段时间内比较稳定,所以模型中选取众包工作者最近完成的k次任务结果准确度来计算工作者的历史信誉值。
其次,分析此次任务结果。众包工作者在提交任务结果之后,雇主对任务结果进行预处理,然后随机选取其中部分任务结果,采用投票一致性规则对选取的任务结果进行检测分析,得出工作者精度的条件概率分布。
最后,在求得工作者精度的验前分布和条件概率分布之后,将二者结合于贝叶斯算法模型,得出工作者本次任务中的工作精度。
2 贝叶斯信任模型计算
2.1 工作者精度验前分布
工作者工作精度a,表示工作者完成任务的准确度。a的验前分布g(am),m=(1,2,…,m),表示工作者总数为m。此处,采用贝塔分布来计算众包工作者工作精度的验前分布。
贝塔分布的概率密度函数为:
(1)
其中,α、β分别为贝塔分布的两个参数,Γ为伽马函数,其中:
(2)
Γ(α+β)=αΓ(α),α>0
(3)
当α为正整数时:
Γ(n)=(n-1)!
(4)
贝塔分布的均值为:
(5)
方差为:
(6)
因为众包工作者的工作状态大多在某段时间内相似,所以,在算法中取众包工作者最近完成的k次任务结果精度来计算工作者历史信誉值,任务完成精度用a=(a1,a2,…,ak)表示,由此可得:
(7)
(8)
通过式(7)和式(8),可以得到α和β的值分别为:
(9)
(10)
求得α和β的值以后,即可以求得众包工作者工作精度的验前分布。
2.2 工作者精度条件概率分布
以往,雇主在发放众包任务之前,会先提供一些黄金标准数据任务来让众包工作者完成(任务结果已知),通过众包工作者在黄金标准数据任务中的表现来评估工作者的业务能力,达到筛选可靠众包工作者的目的。但是,这种筛选方法存在局限性,有些不良工作者为了达到接任务的目的,在做黄金测评时很认真,甚至,有些能力不足的工作者会通过其他手段来通过测评。但是,一旦接到众包任务,在接下来的任务完成过程中会出现对待任务态度消极的现象,更有甚者会出现恶意捣乱,草草了事等情况,这些情况会导致工作者提交的任务结果不准确,无法满足雇主的要求。所以,针对这一情况,对以往在任务开始之前对工作者进行黄金标准数据测评的方法进行改良,改为在工作者提交任务结果之后,抽取部分任务结果来检查,评估所抽取任务结果的准确度。对于抽检部分,采用投票一致性规则来进行检测分析。由于完成一个任务或者回答一个问题并不能完全体现工作者的工作精度,对众包工作者工作情况的判断存在局限性,所以在文章中,将多个任务分给多名工作者来完成,然后通过投票一致性策略来聚合所有的投票结果,达到更加精确地计算工作者的工作精度的目的。
具体过程如下:
假设将n份任务发放给m名工作者去完成(m,n均已知),工作者提交的任务结果用Rn,m=(r1,1,r1,2,…,r1,m;r2,1,r2,2,…,r2,m;…;rn,1,rn,2,…,rn,m)表示,其中n表示问题数量,m表示众包工作者数量,r1,1,r1,2,…,r1,m表示所有众包工作者提交第一个问题的答案。
根据众包工作者提交的任务结果,可以得到所有问题结果的一致性数据为:
(11)
式(11)表示m名工作者提交第n个问题结果的均值,即工作者提交第n个问题结果的一致性数据。
m=(1,2,…,m),n=(1,2,…,n)
(12)
由式(12)已知可得,每位工作者提供任务结果的准确度为:
(13)
由式(1)和式(13)可以求得条件概率为:
m=(1,2,…,m)
(14)
其中,0<τ<1是预置参数。g(am)表示参与任务的m名工作者信誉度,即根据历史行为数据所求出的综合信誉度信息。
2.3 工作者精度验后分布
求得工作者精度的验前分布和条件概率之后,由贝叶斯公式可得,工作者精度验后分布为:
(15)
在求得工作者精度的验后分布之后,雇主可以根据自己对任务准确度的需求,设定阈值,筛选出工作者精度符合要求的工作者提交的任务结果数据。
3 实 验
为验证介绍的信任模型数据分析结果的准确度,选用Dog and Cat Recognition(DCR)数据集[15]和Comment Sense Question(CSQ)数据集[16]进行仿真实验。两种数据集都是二元类问题数据集,问题答案均为是或否。并将实验结果与黄金标准数据策略检测方法(简称Gold方法)作对比。
3.1 实验参数设置
实验采用的编程语言为Matlab,采用的编辑工具为Matlab R2017(a)。
实验中选择数据集前20%的问题答案作为评估数据来获得工作者精度验前分布参数(α、β)。DCR数据集中共包含300名工作者提供的1 000张图片答案,选择前200张图片答案,分为10组,每组20张图片答案,表示众包工作者前10次工作完成准确度。CSQ数据集中包含164名工作者提交的164个问题答案,选择前80个问题答案,分为10组,每组8个问题答案,表示工作者前10次工作完成的准确度。
在数据集剩下的80%数据中,选择20%作为抽检数据,对工作者的当前表现情况进行评估,剩下的60%数据作为正式任务评估该方法的有效性。另外,两个数据集中所有问题的答案均为已知。
对于ω的确定:因为问题的结果都已转化为二元类问题答案,所以根据投票一致性规则,在式(12)中,r的均值肯定接近0或者接近1,最不可能出现的情况为0.5,所以选择0.5作为阈值,在此处应为最佳,式(14)中,τ=0.1。
3.2 实验结果
在实际任务中,雇主对任务精度的需求各不相同。有的雇主对任务精度的需求比较低,例如为70%,只要工作者提交的任务结果准确度达到70%就可以被采纳使用。但是有的雇主对任务结果的精度要求比较高,例如为90%,他们的任务比较特殊,任务精度越高越好,只有达到90%才可以满足需要。因此,分别计算出基于信任模型的鲁棒众包数据分析方法(简称Trust方法)和黄金标准数据策略(简称Gold方法)在不同精度需求时候筛选出的人数,如图2和图3所示。
图2 DCR数据集中两种方法筛选的工作者与实际合格工作者数量的比较
图3 CSQ数据集中两种方法筛选的工作者与实际合格工作者数量的比较
通过分析两种方法在不同数据集中的实际效果,可以发现,选用Trust方法筛选的工作者数量比使用Gold方法筛选的工作者数量更多,更接近于数据集中实际合格的人数,并且,雇主需求的精度越高,使用Trust方法筛选出的工作者数量越接近实际工作者数量。
图4和图5中将给出两种方法所选人数的准确度信息。
图4 CSQ数据集中两种方法选择的工作者数量和实际合格数量的比较
图5 DCR数据集中两种方法选择的工作者数量和实际合格数量的比较
通过图4和图5可以发现,使用Trust方法筛选出实际合格工作者数量高于使用Gold方法筛选出的实际合格工作者数量,且筛选结果准确度更高。为了更好地展示实验效果,表1和表2中详细列举了在不同数据集中使用两种方法筛选出的工作者准确度情况。
表1 DCR数据集中两种方法实验结果比较
表2 CSQ数据集中两种方法实验结果比较
如表1和表2所示,可以直观地发现,使用Trust方法对众包数据结果进行分析筛选出的结果要比使用Gold方法筛选出的结果更好,筛选的合格工作者数量更多,质量更高。使用Trust方法筛选出工作者提供的数据鲁棒性要高于使用Gold方法筛选出工作者提供的数据。
4 结束语
主要讨论了众包数据分析方法,针对现有数据分析方法存在的不足,提出了基于信任模型的鲁棒众包数据分析方法,将工作者历史信誉信息和此次任务结果数据结合于贝叶斯信任模型,提高了数据数据筛选的准确性。对于众包行业的稳定发展有十分长远的意义。