谷歌发布Fluid Annotation,数据标注速度提高三倍!
基于现代深度学习的计算机视觉模型(如由 TensorFlow 对象检测 API 实现的模型)的性能取决于日益增大的标注训练数据集(如 Open Images)的可用性。然而,获得高质量的训练数据很快成为计算机视觉的主要瓶颈。对于像语义分割(semantic segmentation)这样的像素级预测任务尤为如此,语义分割在自动驾驶、机器人和图像搜索之类等有广泛的应用。实际上,传统的手动标注工具需要使用注释器仔细点击边界来勾勒出图像中每个对象,这种过程很令人乏味,如下面的视频所示。在 COCO+Stuff 数据集中标注一个图像需要 19 分钟,而完成整个数据集的标注需要 53000 个小时!
AI 前线注:
使用 TensorFlow 对象检测 API 实现的计算机视觉模型可以参见《http://ai.googleblog.com/2017/06/supercharge-your-computer-vision-models.html》(https://ai.googleblog.com/2017/06/supercharge-your-computer-vision-models.html)。关于标准训练数据集 Open Images,可参见《Announcing Open Images V4 and the ECCV 2018 Open Images Challenge》(https://ai.googleblog.com/2018/04/announcing-open-images-v4-and-eccv-2018.html)。
语义分割的应用可参见《Semantic Image Segmentation with DeepLab in TensorFlow》(https://ai.googleblog.com/2018/03/semantic-image-segmentation-with.html)
左图为 COCO 数据集的图像示例,右图为像素级语义标注
我们将在 2018 ACM Multimedia Conference 会议的 Brave New Ideas 公开论文《 Fluid Annotation:用于完整图像标注的人机协作接口》(Fluid Annotation: A Human-Machine Collaboration Interface for Full Image Annotation),在这篇论文中,我们探讨了机器学习驱动的接口,用于标注图像中每个对象和背景区域的类标签与轮廓,从而将标注数据集的创建速度提高三倍。
AI 前线注:
Fluid Annotation: A Human-Machine Collaboration Interface for Full Image Annotation 论文地址为:https://arxiv.org/abs/1806.07527
Fluid Annotation 从强语义分割模型的输出开始,人们要做标注工作,可以使用自然用户接口通过机器辅助编辑操作进行修改。我们的接口可以让标注者选择正确的内容和顺序,使他们能够有效地将精力集中在机器尚未知晓的内容上。
COCO 数据集中图像 Fluid Annotation 接口的可视化效果。
更确切地说,为了标注一张图像,我们首先通过预训练的语义分割模型(Mask R-CNN)来运行它。这将生成大约 1000 个带有类标签和置信度分数的图像片段。具有最高置信度的片段用于初始化标记,并将标记呈现给注释器。之后,注释器可以:
(1)从机器生成的候选列表选择现有片段的标签。
(2)添加一个片段来覆盖缺失的对象。机器识别出最可能预先生成的片段,通过这些片段,注释器可以滚动并选择最佳片段。
(3)删除现有片段。
(4)改变重叠片段的深度顺序。要更好地了解这个接口,请访问此网址 https://fluidann.appspot.com/ 来尝试 Demo(仅限于桌面)。
AI 前线注:
Mask R-CNN 论文参见 https://arxiv.org/abs/1703.06870。
在三幅 COCO 图像(左)分别使用传统手工标注(中)与 Fluid Annotation (右)的对比。虽然使用手工标注工具时,对象边界通常更精确,但标注差异的最大来源是由于人类注释器通常不同意确切的对象类。
Fluid Annotation 是使图像标注更快、更容易的第一步探索。在未来的工作中,我们的目标是改进对象边界的标注,通过加入更多的机器智能,使接口更快,最后扩展接口来处理以前看不到的类,而这些类最需要高效的数据收集。
- 谷歌发布 Android 2.2:运行速度提高2-5倍
- 谷歌发布 Android 2.2:运行速度提高2-5倍
- 压缩数据以节省空间和提高速度(网上摘取)
- SQLite查询优化,提高获取数据速度
- 谷歌Jeff Dean团队提出利用深度学习对「电子健康记录」数据进行分析,可提高医疗诊断预测的准确性
- 1.6万亿参数你怕了吗?谷歌大脑发布语言模型 Switch Transformer,速度碾压T5
- 提高vb -》excel数据的导入速度
- 如何提高sql查询100万条数据count(*)汇总的速度
- 提高mysql数据查询速度
- 处理百万级以上的数据提高查询速度的方法
- 提高上百万行数据insert速度的方法
- 处理百万级以上的数据提高查询速度的方法
- WinForm ListView虚拟模式加载数据 提高加载速度
- 谷歌发布全新TensorFlow库“tf.Transform” 简化机器学习数据预处理过程
- mysql技巧:提高插入数据(添加记录)的速度
- 【Winform】Winform + Webservice提高数据传输速度
- 处理千万级以上的数据提高查询速度的方法
- oracle提高数据移植速度.
- 关于mysql处理百万级以上的数据时如何提高其查询速度的方法
- 用php处理百万级以上的数据提高查询速度的方法