APP下载

基于社交平台的众包质量控制算法研究

2018-01-09丁岳伟王飘

软件导刊 2017年12期
关键词:信誉度参与者工作者

丁岳伟+王飘

摘要:

众包产生于比较复杂的互联网平台上,必须对互联网平台上的众包质量进行控制,研究基于社交平台的众包质量控制算法尤为必要。根据众包问题涉及领域,将用户在社交平台领域的直接信誉度算法与用户对历史任务完成情况的质量评估算法相结合完成用户筛选,并根据筛选用户给出的方案集,利用最大期望算法(E-M算法)获取正确率相对较高的方案。实验结果表明,即使在加入了一些恶意工作者的情况下,利用直接信誉度算法与用户质量评估算法筛选用户,并使用E-M算法处理方案集能够使社交平台上的众包质量得到较好控制。

关键词:

众包;社交平台;质量检测;领域信誉度;最大期望算法

DOIDOI:10.11907/rjdk.171970

中图分类号:TP312

文献标识码:A 文章编号:1672-7800(2017)012-0090-04

Abstract:As crowd-sourcing is generated on the Internet platform complex relatively, it is necessary to control the quality of crowd-sourcing on the Internet platform. So far, however, there has been little research into crowd-sourcing quality control on social platforms. Mainly studies the quality control algorithm of crowd-sourcing based on social platform. Firstly, this paper adopts the user's direct reputation algorithm based on the social platform and the user's quality evaluation algorithm for the completion of the historical task to filter users, according to the domain covered of crowd-sourcing problem. Finally, according to the scheme set of the filtered users, the maximum expectation algorithm (EM algorithm) is adopted to obtain the scheme with correct rate relatively high. The experimental results show that, even in the case of some malicious workers joining in, using the direct algorithm of the reputation and the quality of the user evaluation algorithm to filter users, and using EM algorithm to process scheme set can make the quality of crowd-sourcing on social platform get control better.

Key Words:crowdsourcing; social networking platform; quality inspection; field of credibility; maximumexpected algorithm

0 引言

作為一种新兴的分布式计算模型,众包已成为一大研究热点。在这种分布式计算模型中[1-2],企业通过互联网平台分配任务招募优秀工作者,让他们为任务提供更合理的解决方案。目前,越来越多的企业开始使用众包模式[3]。对于企业而言,众包可以为他们降低成本并提高他们的技术水平和创造力。目前数据显示,使用亚马逊(AMT)众包的应用最为广泛,社交平台对众包的应用最少。随着Facebook等社交平台对众包的应用,以及社交平台的不断发展壮大,众包在社交平台的应用会越来越广泛。但是众包是一种面向互联网大众的分布式问题解决机制,它通过整合计算机和互联网未知大众完成计算机单独难以完成的任务。当面临诸多解决方案时,发包者很难作出选择。但并不是每个工作者都是合格的工作者,由于不同背景的工作者信誉和能力不同,甚至可能在众包平台上存在恶意工作者,因此,从大量的众包工作者中挖掘出工作者的信誉并判断工作者的意图十分重要。为了使众包在社交平台能够得到更加准确的应用,本文着重对社交平台上的众包质量控制算法进行研究。

1 相关工作

近年来,众包作为一种新型的分布式技术,已经得到了广泛应用,并且在很多领域已经运用于众包平台。目前数据显示,使用亚马逊(AMT)众包平台的应用最为广泛,社交平台上众包的应用最少。但随着Facebook等社交平台对众包的应用,以及社交平台的不断发展壮大,众包在社交平台上的应用也会越来越广泛。大多数众包都是依赖线下或人工方式对质量进行控制和评估[4],忽略了互联网平台上的质量控制问题,鉴于此,很多研究者[5-7]开始关注互联网平台上众包的质量控制。其中,Kamar等[8]提出了一个模型使得系统能够平衡预期收益和雇佣工作者的成本。Vakharia andLease[9]在其调查中将质量精确度控制作为调查的重要部分,在很多众包平台上使用不同方法和不同控制工具以控制工作者的质量。这些方法或多或少都需要人工干预,对工作者质量的人工控制严重影响了众包发展,对在线工作者的质量评估[10]已经吸引了越来越多人的注意力。

Joglekar[13]基于对方案集的分歧评估工作者质量,同时为了提高评估精确度,使用置信区间评估工人。Rzeszotarski和Kittur[11-12]通过讨论工作者的行为评判不同的工作者,这需要众包系统提供不同工作者的行为。这些方法大多是对商业平台的众包质量控制,没有考虑基于专门平台对众包质量的控制,同时也没有考虑到一些隐含因素。当前其研究方法虽有一定进展,但仍然受几大因素的限制:任务发布平台、时间、经济、参与者。

针对上述不足,本文基于社交平台,利用参与者的相关背景知识或者其在该领域的活跃程度,判断用户在该领域的信誉度,并结合参与者历史任务完成情况对参与者进行综合评价,选出优质参与者作为工作者,同时采用最大期望算法验证方案集的合理性。本文结合这两种评判指标对社交平台上的众包进行质量检测与控制。

2 社交平台上的众包质量检测

社交平台上的质量检测包含若干环节,本文主要讨论其中的两个环节:一是检查参与者是否为诚实的工作者;二是检测所得方案集的合理性。通过控制这两个环节提高社交平台上的众包质量。

2.1 用户直接信任度

本环节检测参与者是否为诚实的工作者,实质上是在所有参与者中过滤掉那些恶意的工作者。本文根据社交平台上发布的问题所涉及领域,计算工作者在该领域的直接信任度,再根据其值筛选工作者。

2.1.1 参与者领域衰减因子

现实生活中,每个人对不同领域的兴趣度持续时间不同,恶意工作者所持续时间比信誉度较高的工作者持续时间要短很多。因此,参与者衰减因子越小,代表用户越可靠,反之亦然。

可以选取社交平台的一段相对比较长的时间,然后将时间离散化,分成若干个时间段,给每一个时间段进行标号,序号按照时间依次变大。其中,时间间隔表示用户在该领域进行交互的时间段序号与现在时间段序号的差值。若用户对于某个领域的评分行为保持连续性,则认为该参与者对该领域有一定了解。因此,用户在该领域的持续性可用参与者从第一次在该领域互动的时间段序号与当前时间段序号之间,用户在该领域进行交互所占比例表示,比例越高,持续性越好,衰减速度越慢。

2.4 众包结果筛选

众包质量检测在收到所筛选的参与者给出方案集时,并不能保证所接受的方案是正确的,需要将正确率低的结果过滤掉。本文采用较为通用的最大期望值算法。

最大似然估计算法利用迭代过程,主要应用于存在缺失或者隐含数据情况下的最大似然估计。算法主要分为两步:①E步中对隐含数据的估計,需要根据已经观测到的数据和当前估计的概率模型参数确定;②M步根据E步中得到的隐含数据,通过最大似然函数估计新的概率模型参数。

4 实验结果与分析

由实验1可知,当取0.6时, Pselected得到的正确性最高;由实验2可知,在不断添加作弊者数目时,Pselected相对于TU,V、ScorceW影响更小;由实验3可知,E-M算法比M-V算法选择效果更好。由此可以得出,应利用参与者在社交平台上的直接信誉度与工作者质量评估函数相结合判断选择合适的工作者。同时,在所得到的结果中用E-M算法比其它算法得到的正确率更高。

5 结语

通过上述实验结果可知,通过计算参与者的直接信任度方法与E-M算法结合对社交平台上众包质量的控制与检测,增加恶意工作者数量显然使得最后方案集的准确率更高,影响也更少,这使得众包的优势得到很好体现。

本文重点探讨了众包在社交平台上的质量检测,而对于众包在其它平台上的质量控制方法尚有待进一步研究。同时,本文对于众包的质量控制并没有考虑一些隐含因素,比如:根据工作者每次提交任务的时间等进行工作者筛选,这在后续工作中需加以考虑。

参考文献:

[1] BRABHAM D C.Crowdsourcing as a model for problem solving: an introduction and cases[J].the International Journal of Research Into New Media Technologies,2008, 14(1):75-90.

[2] ALLAHBAKHSH M, BENATALLAH B, IGNJATOVIC A,et al.Quality control in crowdsourcing systems:issues and directions[C].IEEEInternet Computing IEEE Internet Computing,2013,17(2): 76-81.

[3] CLOUGH P,SANDERSON M, TANG J, et al.Examining the limits of crowdsourcing for relevance assessment[J].IEEE Internet Computing,2013,17(4):32-38.

[4] HOWE J.Therise of crowdsourcing [J].Wired Agazine,2006,14(4):1-5.

[5] WANG J, KRASKA T, FRANKLINM J, et al. CrowdER:crowdsourcing entity resolution,[J].Proceedings of the VLDB Endowment, 2012,11(5):1483-1494.

[6] MANISONNEUVEN,CHOPARD B.Crowdsourcing satellite imagery analysis: study ofparallel and iterative models[J].Crowdsourcing satellite imagery analysis: Study of parallel and iterative models,2012,7478(1):116-131.

[7] WU S, WANG X, WANGS, ZHANG Z, et al. K-anonymity for crowd sourcing database[J].IEE Transactions on Knowledge and Data Engineering, 2014,26(9):2207-2221.

[8] KAMAR E, HACKERS HORVITZ E. Combining human and machine intelligence in large-scale crowdsourcing[J].Proceedings of the 11th International Conference on Autonomous Agents and Multiagent Systems,2014,27(1): 129-164.

[9] VAKHARIA D,LEASEM.Beyond AMT:an analysis of crowdwork platforms[Z].Research Gate,2013.

[10] LIU Q,PENGJ,IHLER A.Variational inference for crowdsourcing[Z].2012.

[11] KARGERD R, OH S,SHAH D. Iterative learning for reliable crowdsourcing systems[J].25th Annual Conference on Neural Information Processing Systems (NIPS),2011:1-8.

[12] RZESZOTARSKI J M,KITTUR A. Instrumenting the crowd:using implicit behavioral measures to predict task performance[C].In Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology,UIST11, ACM,2011: 13-22.

[13] JOGLEKAR M, GARACIA-MOLINA H, PARAMESWARAMA.Evaluating the crowd with confidence[Z].2014.

(責任编辑:孙 娟)

猜你喜欢

信誉度参与者工作者
休闲跑步参与者心理和行为相关性的研究进展
关爱工作者之歌
致敬科技工作者
我们
——致敬殡葬工作者
普法工作者的“生意经”
浅析打破刚性兑付对债市参与者的影响
服装品牌营销策略分析
海外侨领愿做“金丝带”“参与者”和“连心桥”
蚌埠市住宿场所卫生信誉度A级单位各项指标得分情况分析
基于信誉度的合作式频谱感知