您的位置：首页 > 其它

众包数据标注中的隐类别分析

2017-04-13 21:22 399 查看

0. 写在前面

这时一篇关于田天、朱军的一篇论文的读后感和自己的一点思考。

1. 众包

众包（crowdsourcing）这个词，第一次听到还是众包数据库，是从老班长那里听到的。细想起来，我对外包(outsourcing)这个词更加熟悉。

其实众包就是大家一起外包，把部分工作交给一批人去做，这就是众包。准确来说，“众包”一词最早由Howe和Mark Robingson在2006年美国《连线》发表的文章中提出，它的描述正是一种基于网络的商业模式：公司或组织公开地把自己遇到的问题发布到一个分布式公共网络中，使得来自网络的各个个体可以协作地解决问题。

而这篇文章里，主要提到的是众包数据标注，这其实是非常必要的，尤其是对于大量数据的标注，单靠研究人员是很难标注完成的。

2. 众包标注的困难

众包标注由于是非专业标注，自然会遇到很多问题。这困难主要由以下三个方面组成：

1. 标注者的复杂程度

由于标注者是众包标注，因此其标注者的水平也参差不齐，其背景知识和行为习惯可能有较大的差异。这就相当于是给若干个已训练好的模型来做预测一样，其不同的模型有不同的输出结果。那么这种情况下，基本上使用多数投票的方法来解决。

2. 评价困难

标注的内容可以分为两类，一类是有明确标签的，就好比是试卷里的客观题一样，尽管各个标注都不同，但是还是在有限集合内的。另一类是开放式回答，这种标注如同试卷里的主观题一样，可能会有无限种可能的结果。甚至是截然相反的结果，比如什么是美，什么是丑，每个人的评价标准是不同的。

3. 标注稀疏性

如果一个需要标注的训练集中的数据本身就比较稀疏，而我们又需要把它们分割成一个个小块，这就有可能造成数据稀疏。比如，我们要进行鸟类图片标注，如果本身鸟类种类很多，而分给每个人的鸟的种类也很多的话，由于每个人认识的鸟的种类是不多的，因此可能存在每个人的标注都会有很高的错误率。这时候我们可能就需要让标注者之间有重叠的部分，然后使用多数表决来解决。

3. 标注整合基本模型

整合众包标注问题实际上可以分为两部分，第一部分是对标注行为的假设，第二部分是根据假设给出整合结果。这里我们给出2类模型。

第一类是多数投票模型，这种整合我们最熟悉，无论是在什么领域，多数表决都是一种高效而又简单的决策方法。但是这个表决法太过简单，以至于正确的标注很容易被噪声所掩盖。

第二类是混淆矩阵模型，这也是非常常见的整合模型，下面是一个混淆矩阵示例：


下观察值右真实值	水果	蔬菜
水果	0.4	0.1
蔬菜	0.2	0.3

也就是说，把预测对的值和预测错的值都给出，这样才称为是混淆矩阵。混淆矩阵比多数投票法要进步的多，但是仍然有一些缺陷。首先它对于标注者出错的来源有了一个初步的假设，并且通过概率的方法给出了一个较为严谨的问题表述，最终还提出了通过期望最大化算法求解问题的方法，总的来说是一套比较完整的思路。

但是它仍然存在两个问题：

1. 它对于正确的估量值更多的依赖跟它同出现的其他种情况。例如，对于黄色标注时，给他红色或者绿色作为对比时，其变化趋势是不同的。

2. 这一模型没有考虑标注者本身的倾向性。在同一类型的标注问题中，每个数据都可能有不同的要素来组成，因此标注者再给出标注时，对其产生影响的内容可能来自于多个方面，因此模型中仅仅把它用混淆矩阵来描述，事实上忽视了许多分类信息。

不过最近也有人提出了新的模型，例如Raykar是将训练分类器与标注整合相对模型，而zhou则使用基于最小最大化熵学习的整合模型，还有的提出了针对特定假设的模型。

4. 分类标注中的隐类别结构

所谓的隐类别，就是没有被标注的类别，就像是给出一个图片，我们去标注是水果还是蔬菜的时候，实际上也是包含了像香蕉-水果，黄瓜-蔬菜这种隐含的二级分类。但是对于这些二级分类，我们之前的方法并不能给出一个很好的描述，例如番茄，有的人认为是水果，有的人认为是蔬菜。而像南瓜这种，更多的人会被认为是蔬菜，因此这些隐含变量对于标注的结果也有相当大的影响。

因此，我们就对于这种未知的问题，提出两条新的假设：

1. 数据集中每一个项目属于一个特定的隐类别。

2. 每个隐类别属于一个特定的标注类别。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 众包数据标注隐类别混淆矩阵整合模型

相关文章推荐

新的分享

章节导航