您的位置：首页 > 其它

一个时代的终结：ImageNet 竞赛 2017 是最后一届

2017-07-07 00:31 393 查看

2017 年 7 月 26 日，将标志着一个时代的终结。

那一天，与计算机视觉顶会 CVPR 2017 同期举行的 Workshop——“超越 ILSVRC”（Beyond ImageNet Large Scale Visual Recogition Challenge），将宣布计算机视觉乃至整个人工智能发展史上的里程碑——IamgeNet
大规模视觉识别挑战赛将于 2017 年正式结束，此后将专注于目前尚未解决的问题及以后发展方向。

根据“超越 ILSVRC” Workshop 官网介绍，这堂研讨会的内容主要包括以下 4 点：

发表 2017 年 ILSVRC 的结果

评估 ILSVRC 2017 图像、视频物体识别、分类的当前最佳结果

探讨这与当前在计算机视觉产业中应用的最优技术的关系

受邀讲者（目前确定的有加州大学伯克利分校的 Jitendra Malik，以及斯坦福大学教授、目前谷歌云首席科学家李飞飞）发表讲话，论述在他们看来从认知视觉到机器人视觉等领域存在的挑战

ImageNet：深度学习热潮的关键推动者之一

ImageNet 可以说是计算机视觉研究人员进行大规模物体识别和检测时，最先想到的视觉大数据来源。ImageNet 数据集最初由斯坦福大学李飞飞等人在 CVPR 2009 的一篇论文中推出，并被用于替代 PASCAL 数据集（后者在数据规模和多样性上都不如 ImageNet）和 LabelMe 数据集（在标准化上不如 ImageNet）。

ImageNet 从 Caltech101（2004 年一个专注于图像分类的数据集，也是李飞飞开创的）。ImageNet 不但是计算机视觉发展的重要推动者，也是这一波深度学习热潮的关键驱动力之一。

截至 2016 年，ImageNet 中含有超过 1500 万由人手工注释的图片网址，也就是带标签的图片，标签说明了图片中的内容，超过 2.2 万个类别。其中，至少有 100 万张里面提供了边框（bounding box）。

ImageNet 数据集中“猎狐犬”的部分示例

从 2010 年以来，ImageNet 每年都会举办一次软件竞赛，也即 ImageNet 大规模视觉识别挑战赛（ILSVRC），参赛程序会相互比试，看谁能以最高的正确率对物体和场景进行分类和检测，不仅牵动着产学研三界的心，也是各团队、巨头展示实力的竞技场。

从 2010 年以来，每年的 ILSVRC 都主要包括以下 3 项，后来逐渐增多：

图像分类：算法产生图像中存在的对象类别列表

单物体定位：算法生成一个图像中含有的物体类别的列表，以及轴对齐的边框，边框指示每个物体类别的每个实例的位置和比例

物体检测：算法生成图像中含有的物体类别的列表，以及每个物体类别中每个实例的边框，边框表示这些实例的位置和比例。

2012 年，Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个“大型的深度卷积神经网络”，也即现在众所周知的
AlexNet，赢得了当年的 ILSVRC。这是史上第一次有模型在 ImageNet 数据集表现如此出色。论文中提出的方法，比如数据增强和 dropout，直到现在也在使用，那篇论文“ImageNet Classification with Deep Convolutional Networks”，迄今被引用约 7000 次，被业内普遍视为行业最重要的论文之一，真正展示了 CNN 的优点，并且以破纪录的比赛成绩实打实地做支撑。

2012 年是 CNN 首次实现 Top 5 误差率 15.4% 的一年，当时的次优项误差率为 26.2%。这个表现震惊了整个计算机视觉界。可以说，是自那时起，CNN 才成了家喻户晓的名字。

ImageNet 历届冠军及技术回顾：

中国团队在 ImageNet 竞赛中的亮眼表现

2016 年的 ILSVRC，来自中国的团队大放异彩：

CUImage（商汤和港中文），Trimps-Soushen（公安部三所），CUvideo（商汤和港中文），HikVision（海康威视），SenseCUSceneParsing（商汤和香港城市大学），NUIST（南京信息工程大学）包揽了各个项目的冠军。

从下图中可见，无论的图像分类、物体检测、物体识别，计算机的正确率都已经远远超越人类。可以说，计算机视觉在感知方面的问题已经得到了很好的解决。

那么，计算机视觉的未来的重点将是什么，ImageNet 竞赛之后，又会出现什么呢？

超越 ILSVRC：侧重图像学习和理解的 WebVision 竞赛

WebVision 数据集是通过苏黎世科技大学计算机视觉实验室的网络数据团队收集的。这一数据集的开发得到了谷歌研究院苏黎世分部的支持。

WebVision 数据集使用与 2012 年 ImageNet 竞赛相同的 1000 个类别，涵盖了直接从网络收集到的 240 万张现代图像（包括谷歌图像搜索中获得的 100 万张，以及来自 Flickr 的 140 万张图像）和元数据。

在 CVPR 2017 上，也会举办 WebVision Challenge，这一比赛更加注重对图像和视频数据的学习和理解，它有可能会成为未来的 ImageNet 竞赛吗？

摘要

我们提出 2017 年 WebVision 竞赛，这是一项公开的图像识别挑战赛，旨在基于网页图像进行深度学习，而无需人手工对实例进行标注。此前的计算机视觉挑战赛，如 ILSVRC、Places2 和 PASCAL VOC，通过提供大量的注释数据，用于模型设计和标准化的基准测试，为计算机视觉的发展发挥了关键作用。为了延续它们的精神，我们在本届 CVPR 2017 举办研讨会，进行一项基于大规模网络图像数据集的公开竞赛。WebVision 数据集包含从互联网上用爬虫收集的 240 多万的网络图像，方法是使用从 ILSVRC
2012 基准中的 1000 个语义概念生成的查询（query）。元信息（Meta information）也包含在内。

此外，WebVision 数据集也提供检验数据集和测试数据集，这些数据集中的数据都带有人手工标注的标签，从而便于算法的开发。2017 年 WebVision 挑战赛分为两类，一是在 WebVision 测试数据集上进行图像分类，以及在 PASCAL VOC 2012 数据集上进行迁移学习。在本文中，我们描述了数据收集和注释的细节，突出了 WebVision 数据集的特点，并介绍了相关评估指标。

编译来源：

超越 ILSRVC 研讨会介绍：http://image-net.org/challenges/beyond_ilsvrc

WebVision Challenge 介绍：http://www.vision.ee.ethz.ch/webvision/about.html

WebVision Challenge 论文：https://arxiv.org/pdf/1705.05640.pdf

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航