您的位置:首页 > 其它

【论文笔记】CSCW2017 A Glimpse Far into the Future:Understanding Long-term Crowd Worker Quality

2017-03-22 17:45 337 查看
原文出处 CSCW2017 What Works in Crowd Work 部分

http://dl.acm.org/citation.cfm?id=2998248&CFID=741971565&CFTOKEN=98940772

本篇记录个人论文阅读笔记,翻译和个人理解结合,有不足之处欢迎指正。

一、Abstract摘要

微型任务众包在大数据集的创建中变得至关重要。参与众包的工作人员需花费数周或数月做重复的任务,因此理解他们在长期工作中的行为显得非常重要。笔者通过部署在AMT平台的三个大数据集的创建工作,从长期工作的观察和收集来的九百万标记中来检测参与workers的疲劳与满意度的变化,判断是否因此产生了低质量的工作结果。然后结果与之相反,笔者发现workers的工作质量在整个标记工作中是非常稳定的。为了理解workers是否因为任务需求和接收率而改变工作质量,笔者设计了实验,将任务requirements作为控制变量,结果发现workers并不会因为任务的acceptance threshold而改变其工作质量:1、高于acceptance threshold的workers将保持其quality稳定不变; 2、低于的workers将不会选择高于他们自身threshold的任务(self-selected)。综上所述,笔者认为通过观察workers在五个小任务的完成质量可以预测他们在长期标注工作中的工作质量。

key words:众包 微型任务 疲劳度 保持 满意度

二、Introduction

作者首先介绍了AMT众包平台,然后指出最新的研究表明,众包任务中的工作分配遵从Pareto定律:小部分的workers通常完成了大部分的task。因此对于这些花费较长时间重复相同任务的workers,提出了一个疑问:How does worker‘s quality change over time?

在这里便提出了疲劳度和满意度两个定义:疲劳度指的是因长期工作而产生的疲劳导致的工作质量下降的程度;满意指的是worker提交的任务通过后他心理上获得的满足感对提高其工作效率的影响程度。为了学习workers在长期众包任务中受到的影响,这里在AMT平台设置了三种不同的任务:

1、图像描述(来自2674个worker长达9个月的500万以上的标记)

2、回答问题 (来自2179个worker长达三个月的80万个标记)

3、对错二选一(来自3913个workers的长达三个月的200万标记)。

将以上作为原始实验数据进行了一系列的分析,以标记精确度、标记密度和完成速度作为参考指标。结果发现“workers who complete large sets of microtasks maintain a consistent level of quality”(与之前设想的因长期工作疲劳而导致工作质量下降的假设正好相反)

继而作者又提出了一个问题“Are workers generally consistent or is this consistency simply a product of the task design?”(对workers的坚持表示深深怀疑…)于是有了下面的实验设计:控制了提交任务的接收门槛(threshold)这个门槛对workers的透明度两个变量,通过分析了来自AMT 1134名workers的676628份标记,发现workers的持续工作质量与任务的设置情况无关,因为workers们不会选择对于他们来说可能被拒绝的任务(谁也不想白干活…)。在以上两个问题的数据分析答案基础上,作者进而提出:是否能够通过观察workers在microtask上的工作质量来预测其在长期工作中的质量?(由短推长)。接下来作者指明了研究意义:可以通过前期workers提交的任务完成质量预测长期工作质量从而筛选出有更价值的workers(择其优而用),并且降低最这批workers的接收门槛,甚至将他们的标记作为gold standard,从而提高众包标记的工作效率。(任用值得信任的workers来提高标记工作质量)。

三、RELATED WORK

作者这篇论文的工作涉及心理学、决策学和工作管理领域,目的在于找出影响工作质量的主要因素。该论文的工作可以分为一下三步:

第一步通过观察workers的疲劳和满意这两个因素,从而研究如何将这些因素转化为众包领域。

第二步探索我们研究成果是否对更好地理解全球的众包协同系统起到作用。

第三步讨论对workers工作质量提高现有的方法。

疲劳

有研究表明,workers随着工作时间的变长而产生疲劳从而使得工作质量下滑,然后最近也有研究指出,众包属于非强制性、自由度较高的工作,worker能够自由选择任务。通过一系列数据分析也表明,众包工作者的工作质量在一个长期的观察中是处于较稳定水平的。(大概就是说疲劳的影响对众包工作者产生的影响很少)

满意

众包workers中,大部分认为自己能够胜任自己所选择的任务。众包工作者通常被称为通过提交micsotask并且期望自己的任务被接收的“自我满足者”。当他们完成了较高质量的工作后,且其工作得到认可,他们的自我满意度会提升。他们会避免接受自己认为过于困难的、比较耗时或者报酬与付出不成比例的工作,因此他们大多情况下都是处于较满意的状态。以前的研究也表明,满意度仅仅对一小部分的长期众包工作者产生影响。(以上大概就是说满意度什么的 对worker长期稳定的工作质量不会产生较大影响)

The global crowdsourcing ecosystem

当今全球的众包项目数量与日俱增,workers有更多的机会承担大型的任务。当workers遇到困难时,通常会寻求其他workers的帮助或者向任务发布者咨询。不仅如此,在一些公开的讨论中,workers之间也会互相分享well-paying的工作机会,互相学习交流,并要求task creators对他们的工作给出建设性的建议。而对于这方面的研究者们,通常会深入研究如何将复杂的众包工作流变得更加完整,从而提高系统的效率。趋向于更加复杂化、但是more powerful的系统,我们研究workers长期的工作质量变化也能够起到一定作用。我们的研究目的是为了发现并定义good workers,为他们提供较低的接收门槛,从而提高效率。因为good workers通常在长期工作中保持一个较稳定的工作质量。(大概就是说当前众包发展趋势良好,workers工作积极,而我们提出的工作能够为此作出贡献)

Improving crowdsourcing quality

当前在后续审查中提高众包质量的方法又gold standard(用标准的结果对比)、要求解释和多人投票等方法。以前针对众包的研究工作主要针对与如何将单调的众包任务设计得有意义,从而提高workers的效率。然而这些都没有考虑到worker在长期工作中的情况,而我们将探索workers在小部分任务中的工作质量变化 从而预测其长期工作的质量。

[综上 ,relate work部分主要就是提及前人的工作,分析当前的研究现状,然后提出自己的工作,突出创新性]

四、Analysis:long-term crowdsourcing trends

这个部分,笔者在实验的基础上提供了workers在长期工作中的分析。工作任务主要 包括三个方面:图片描述,回答问题,正误判断(二选一)。后期将以精确度,标注密度来检测工作质量。然后将根据分析结果回答workers是否因疲劳或者其他因素在长期工作中降低效率。

Data

The tasks and interfaces used to collect the data are describe in further detail in the VIsual Genome Paper数据部分也是根据上面的三种类型的任务来展开介绍,这里不再多说。



上图显示了不同数量的workers完成的不同任务数量。可以看出前20%的workers完成了几乎90%的工作。符号Pareto80-20 准则(翻译过来据说是帕雷托准则)





上面的图显示了data数据量和参与者的性别年龄。

workers are consistent over long periods

标记精确度:采用多人投票的方法 majority decision。



从图上中可以看出,workers整体的长期工作的精确度没有太大的变化。

标记密度:diversity=不同的标记数目总体标记数目

标记速度:测量每个worker完成一个单独认证任务所需的时间。结果如下图所示:当worker熟悉工作后,速度会有所提升。



Discussion

1、对于完成长期众包工作的workers来说,疲劳没有很重要的影响。2、对于一种类型的任务来说,精确度是持续稳定的,对于不同任务会有响应的变化。

3、长期的工作经验可以转化为效率。

五、Experiment:Why are workers consistent?

继而笔者提出了一个问题:worker的满意度是来自于通过最小的付出得到paid,还是他们的consistent与最小付出的程度无关?(可以理解成workers是否在意个人的付出与paid成比例?)为了回答这个问题,笔者设计了两个实验:1、将接收work的门槛作为控制变量(调查稳定quality的原因);2、将这个门槛的高低对workers透明(为了了解满意度对workers的影响)。简单来说,如果工人的工作质量一直都稳定,regardness of the threshold,他们将保持质量;如果满意度真的会影响workers,那么他们将根据threshold来调整个人的work质量。

Task

1、设置的二选一的任务如下图所示:(为每个workers随机设置了58个这样的任务,不严格控制时间)



2、进行check:check结果只有正确与非正确两种,如下图所示:



workers提交任务后系统给出当前提交的任务被接收还是被拒绝比率(通过计算最新的30个的标签正确与否,来自系统推荐),低于门槛的任务很可能被拒绝,由于接收门槛对workers是可见的,因此被拒绝的worker可以认真对待当前的任务,以保证后续任务被接受。

Experiment Setup

笔者实验的目的在于控制threshold来判断它是如何影响worker的quality的。

1、在100名被测工人中,通过实验发现worker的平均准确率在95.5%左右,最高门槛设置为96%正确率,最低设置为70%,结果发现高门槛结果下,workers一般30个错1个,而在低门槛下,会又30个错8个的结果。

2、在门槛对workers的透明度的设置中,设置了高与低两个程度,高透明度下,workers可以边做边看到自己的当前的整体准确率,并且每完成一小部分,会有提示说明他们当前的准确率。低透明度下,workers只有在提交了任务之后才可以看到结果。

Data Collected

总计1134名workers参与的实验,完成了总计11666个任务,包含了676628个二选一问题(11666乘58)。并不是所有的workers都完成了至少一个task。试验结果如下图:



从上表可以看出,在高门槛(要求正确率达到96%)下,low门槛透明度下,116个workers没有完成至少1个任务,而在低门槛下,人数更多。平均每个人做了576此二选一问题。表中的四种情况准确度参见下图:



结果表明高门槛,high透明度的结果高于高门槛,low透明度的情况。

Discussion

1、workers are consistent in their quality level.workers的工作质量是很稳定的。

2、workers minizine risk by opting out of tasks above their natural accuracy level.面对高风险的较难任务,workers会选择退出。(所以上面第三个图为什么开始准确率会有一个sharp drop,因为有人退出)

六、Predicting from small glimpses

通过上面的实验,可以得出:1、workers保持持续的工作质量与完成的工作量无关;2、与接收任务的门槛高低无关。因此作者提出通过workers的短期工作预测长期工作质量,从而能够提前筛选出有价值的workers。

Experiments Setup

在workers完成的第5—200个任务之间抽取,计算最新的(last)10%计算平均质量,然后预测长期质量。设置了average 和sigmoid两个模型,使用sigmoid模型因为发现workers有一个学习曲线,做刚开始的任务中,之后便会保持稳定的状态。

Results

预测误差的3.0%左右。workers的平均准确率达到87.8%。



Discussion

通过我们的model可以验证通过短期的5个task预测workers的长期工作室可能的,并且我们可以通过这个方法,选出更更有价值的workers进行长期的工作。

七、Implications for crowdsourcing

1、鼓励多样性:设计多样性的tasks不会影响worker的长期工作质量(因为前面表明不受一些因素的干扰)。

2、工人滞留:未来的工作不仅仅应关注如何留住好workers以完成更多的工作,也要关注如何发现good worker和给poor skill workers更多的干预和引导。

除此之外,也有研究表明workers的动机是主导疲劳的主要因素,而不是工作的时间长度主导疲劳。虽然众包任务也是一个内在动机,但是现在miscotask的机制表明,大多数的众包任务的设计更加偏向于高效性,而不是从worker自身出发,也有人提出未来应该考虑建立社区来交流关于众包工作流的设计和关于提高worker个体效率、产出和保持等问题。

3、以人为中心和以流程为中心的众包:

对workers进行准确的判断往往是一个挑战,这个挑战促进了控制质量方法和处理低质量问题的研究。以前也有人控制paid作为变量来改善worker的质量,但是所有结果表明,以流程为中心的众包( process-centric)对于改善工作质量没有太大的影响。当然,我们也同意控制流程的策略也是值得探索的,但是我们提出以人为中心的(person-centric)策略更加有效、因为可以从早期观察中定义worker的质量。

4、限制

我们仅仅研究了数据集标注的众包任务,没有研究我们的研究成果是否可以迁移、适用到其他领域,如设计广告词或者编辑文本的任务。未来我们将关注于weeks-to-months 的众包workers的行为,基于数月的数据集收集工作。

八、结论

依照帕累托定律,众包工作中,往往一小部分的workers完成了较多的tasks,在论文中,我们研究了workers的工作质量变化(在完成数以千计的任务观察中),和之前假定的疲劳与满意度的影响相反,实验表明workers会在整个工作中保持持续稳定的质量。说明他们一直采用着较稳定的策略,为了研究这个策略,我们设置了门槛和透明度的实验,然后我们发现如果worker的工作一直低于门槛,他们将不会满意并且会放弃退出任务(而并不会因此而调整个人的工作质量)。因此,我们可以提出工作质量是稳定的,可以以短期预测未来。我们希望workers的持续稳定性特性可以被用来设计更好的众包策略和获取good workers。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐