众包数据标注中的隐类别分析
2017-04-13 21:22
399 查看
0. 写在前面
这时一篇关于田天、朱军的一篇论文的读后感和自己的一点思考。1. 众包
众包(crowdsourcing)这个词,第一次听到还是众包数据库,是从老班长那里听到的。细想起来,我对外包(outsourcing)这个词更加熟悉。其实众包就是大家一起外包,把部分工作交给一批人去做,这就是众包。准确来说,“众包”一词最早由Howe和Mark Robingson在2006年美国《连线》发表的文章中提出,它的描述正是一种基于网络的商业模式:公司或组织公开地把自己遇到的问题发布到一个分布式公共网络中,使得来自网络的各个个体可以协作地解决问题。
而这篇文章里,主要提到的是众包数据标注,这其实是非常必要的,尤其是对于大量数据的标注,单靠研究人员是很难标注完成的。
2. 众包标注的困难
众包标注由于是非专业标注,自然会遇到很多问题。这困难主要由以下三个方面组成:1. 标注者的复杂程度
由于标注者是众包标注,因此其标注者的水平也参差不齐,其背景知识和行为习惯可能有较大的差异。这就相当于是给若干个已训练好的模型来做预测一样,其不同的模型有不同的输出结果。那么这种情况下,基本上使用多数投票的方法来解决。
2. 评价困难
标注的内容可以分为两类,一类是有明确标签的,就好比是试卷里的客观题一样,尽管各个标注都不同,但是还是在有限集合内的。另一类是开放式回答,这种标注如同试卷里的主观题一样,可能会有无限种可能的结果。甚至是截然相反的结果,比如什么是美,什么是丑,每个人的评价标准是不同的。
3. 标注稀疏性
如果一个需要标注的训练集中的数据本身就比较稀疏,而我们又需要把它们分割成一个个小块,这就有可能造成数据稀疏。比如,我们要进行鸟类图片标注,如果本身鸟类种类很多,而分给每个人的鸟的种类也很多的话,由于每个人认识的鸟的种类是不多的,因此可能存在每个人的标注都会有很高的错误率。这时候我们可能就需要让标注者之间有重叠的部分,然后使用多数表决来解决。
3. 标注整合基本模型
整合众包标注问题实际上可以分为两部分,第一部分是对标注行为的假设,第二部分是根据假设给出整合结果。这里我们给出2类模型。第一类是多数投票模型,这种整合我们最熟悉,无论是在什么领域,多数表决都是一种高效而又简单的决策方法。但是这个表决法太过简单,以至于正确的标注很容易被噪声所掩盖。
第二类是混淆矩阵模型,这也是非常常见的整合模型,下面是一个混淆矩阵示例:
下观察值右真实值 | 水果 | 蔬菜 |
---|---|---|
水果 | 0.4 | 0.1 |
蔬菜 | 0.2 | 0.3 |
但是它仍然存在两个问题:
1. 它对于正确的估量值更多的依赖跟它同出现的其他种情况。例如,对于黄色标注时,给他红色或者绿色作为对比时,其变化趋势是不同的。
2. 这一模型没有考虑标注者本身的倾向性。在同一类型的标注问题中,每个数据都可能有不同的要素来组成,因此标注者再给出标注时,对其产生影响的内容可能来自于多个方面,因此模型中仅仅把它用混淆矩阵来描述,事实上忽视了许多分类信息。
不过最近也有人提出了新的模型,例如Raykar是将训练分类器与标注整合相对模型,而zhou则使用基于最小最大化熵学习的整合模型,还有的提出了针对特定假设的模型。
4. 分类标注中的隐类别结构
所谓的隐类别,就是没有被标注的类别,就像是给出一个图片,我们去标注是水果还是蔬菜的时候,实际上也是包含了像香蕉-水果,黄瓜-蔬菜这种隐含的二级分类。但是对于这些二级分类,我们之前的方法并不能给出一个很好的描述,例如番茄,有的人认为是水果,有的人认为是蔬菜。而像南瓜这种,更多的人会被认为是蔬菜,因此这些隐含变量对于标注的结果也有相当大的影响。因此,我们就对于这种未知的问题,提出两条新的假设:
1. 数据集中每一个项目属于一个特定的隐类别。
2. 每个隐类别属于一个特定的标注类别。
相关文章推荐
- 自己标注(不注意坑不少)-Spark+Kafka构建实时分析Dashboard案例——步骤三:Spark Streaming实时处理数据
- 大数据应用:五大地区喜新厌旧游戏APP类别之比较与分析
- 大数据分析的众包平台—Kaggle
- 数据分析重塑CRM
- 面向Web的数据挖掘 技术分析
- 使用MS ACCESS + MS EXCEL实现最简单的数据分析。
- Oracle数据库数据对象分析(中)
- 用 PHP 使 Web 数据分析进入更高境界 (PHP做类似流量分析)
- 一个画图类,类似ms_chart的线图,适用于科学仿真数据分析(一)
- vlc学习计划(7)--从接收到数据流到播放视频的过程分析
- 寻找发展方向 数据分析的5大技术走向
- 在ASP.NET下用Microsoft Excel进行数据分析与报表
- Linux中数据结构的分析——原创 转载请通知
- 挑战ASP+SqlServer动态列数据显示——之实战分析
- SQLSERVER数据仓库的构建与分析
- 数据挖掘的价值:寿险行业数据挖掘应用分析
- ASP.NET编程技术-在ASP.NET下用Microsoft Excel进行数据分析与报表
- Oracle数据库数据对象分析(上)
- 基于声卡的数据采集和分析软件
- 网站流量的数据统计和分析