#Paper Reading# Learning to Segment Object Candidates
2015-12-02 10:43
585 查看
论文题目:Learning to Segment Object Candidates
论文地址:http://arxiv.org/abs/1506.06204
论文大体内容:
作者为了实现识别出更多的图像对象,提出一个图像识别对象的新方法DeepMask。这个基于卷积网络的新方法能够比现阶段最高水平的结果好,能够达到更高的召回以及更好的识别准确率。
1、目前图像的对象识别主要有关键的两个步骤:(1)检测出所有候选对象;(2)将这些候选对象通过对象分类器进行筛选,产生最后的结果。前人的实验证明使用这两个步骤能够比较快且准确地识别出图片里的对象。
2、作者提出基于卷积网络(discriminative convolutional network)的新方法,也可以分为两步:(1)得到图像的一部分,给候选对象涂色(识别候选对象);(2)预测该部分图像是一个完整对象的可能性。该方法还能生成训练集中没有的对象类别。
3、作者识别图片对象是需要应用于Facebook的,他们希望能够识别图片中各个位置的对象,所以新方法需实现三个目标:(1)高的召回率(这里的recall=正确识别的对象个数/实际的对象个数);(2)使用较少的部分就能达到高召回率;(3)在高召回的同时,准确率也得高。
4、作者使用了ConvNets模型,对方法的两步分别使用单独的卷积网络。一个训练样本包括三个部分:(1)图像的RGB;(2)图像的涂***况(每个像素做一个标记,1代表涂色,0代表不涂色,存储第一步的结果);(3)一个标志,代表图像是否包含一个完整对象(第二步的结果,1代表该图像完整的包含对象,并且对象在图像中心部位)。
5、为了提高模型的鲁棒性,作者会将图像进行抖动、平移、缩放等(貌似所有图像识别之类的都需要这样做)。
6、作者使用MS COCO[1]的数据进行训练(训练过程在Nvidia Tesla K40m的机器上花了5天时间),测试集使用MS COCO和PASCAL VOC[2],实验环境都是使用Torch7[3],评价准确率的标准是Intersection over Union(IoU),IoU=(分割结果 ∩ Ground-truth(实际结果)) / (分割结果 ∪ Ground-truth),另外也使用了平均的召回率(average recall)进行对比,最后得出的结果相比目前的最高水平胜出一大截。
7、思考,通过应用深度学习的方法,图像识别、语音识别等领域产生了较大的提升,如果未来机器能够把描述一张图片的事做得得心应手,那么下一个发展方向将会是机器给盲人讲解视频。万一这方面有比较大的突破,就代表着AI能够通过视觉观察人类的动作,加上现阶段就已经比较成熟的语音识别,那么有了视觉跟听力的AI对人类行为的深入理解将指日可待。
8、Facebook图像对象识别的应用展示视频:
YouTube:https://www.youtube.com/watch?v=btda6infCeQ
Youku:http://v.youku.com/v_show/id_XMTM3NzMyODM0NA==.html
参考资料:
[1]、http://mscoco.org/
[2]、http://host.robots.ox.ac.uk/pascal/VOC/
[3]、http://torch.ch/
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
论文地址:http://arxiv.org/abs/1506.06204
论文大体内容:
作者为了实现识别出更多的图像对象,提出一个图像识别对象的新方法DeepMask。这个基于卷积网络的新方法能够比现阶段最高水平的结果好,能够达到更高的召回以及更好的识别准确率。
1、目前图像的对象识别主要有关键的两个步骤:(1)检测出所有候选对象;(2)将这些候选对象通过对象分类器进行筛选,产生最后的结果。前人的实验证明使用这两个步骤能够比较快且准确地识别出图片里的对象。
2、作者提出基于卷积网络(discriminative convolutional network)的新方法,也可以分为两步:(1)得到图像的一部分,给候选对象涂色(识别候选对象);(2)预测该部分图像是一个完整对象的可能性。该方法还能生成训练集中没有的对象类别。
3、作者识别图片对象是需要应用于Facebook的,他们希望能够识别图片中各个位置的对象,所以新方法需实现三个目标:(1)高的召回率(这里的recall=正确识别的对象个数/实际的对象个数);(2)使用较少的部分就能达到高召回率;(3)在高召回的同时,准确率也得高。
4、作者使用了ConvNets模型,对方法的两步分别使用单独的卷积网络。一个训练样本包括三个部分:(1)图像的RGB;(2)图像的涂***况(每个像素做一个标记,1代表涂色,0代表不涂色,存储第一步的结果);(3)一个标志,代表图像是否包含一个完整对象(第二步的结果,1代表该图像完整的包含对象,并且对象在图像中心部位)。
5、为了提高模型的鲁棒性,作者会将图像进行抖动、平移、缩放等(貌似所有图像识别之类的都需要这样做)。
6、作者使用MS COCO[1]的数据进行训练(训练过程在Nvidia Tesla K40m的机器上花了5天时间),测试集使用MS COCO和PASCAL VOC[2],实验环境都是使用Torch7[3],评价准确率的标准是Intersection over Union(IoU),IoU=(分割结果 ∩ Ground-truth(实际结果)) / (分割结果 ∪ Ground-truth),另外也使用了平均的召回率(average recall)进行对比,最后得出的结果相比目前的最高水平胜出一大截。
7、思考,通过应用深度学习的方法,图像识别、语音识别等领域产生了较大的提升,如果未来机器能够把描述一张图片的事做得得心应手,那么下一个发展方向将会是机器给盲人讲解视频。万一这方面有比较大的突破,就代表着AI能够通过视觉观察人类的动作,加上现阶段就已经比较成熟的语音识别,那么有了视觉跟听力的AI对人类行为的深入理解将指日可待。
8、Facebook图像对象识别的应用展示视频:
YouTube:https://www.youtube.com/watch?v=btda6infCeQ
Youku:http://v.youku.com/v_show/id_XMTM3NzMyODM0NA==.html
参考资料:
[1]、http://mscoco.org/
[2]、http://host.robots.ox.ac.uk/pascal/VOC/
[3]、http://torch.ch/
以上均为个人见解,因本人水平有限,如发现有所错漏,敬请指出,谢谢!
相关文章推荐
- Qt多线程间信号槽传递非QObject类型对象的参数
- objective-c 委托的理解与应用
- Delphi组件开发-在窗体标题栏添加按钮(使用MakeObjectInstance(NewWndProc),并处理好多消息)
- 用Spring+Hibernate做项目时候遇到 java.lang.NoSuchMethodError: org.objectweb.asm.ClassVisitor.visit
- Cloneable接口和Object的clone()方法
- Objective-C 编码建议
- runtime之Associated Objects
- Objective-C:Objective-C 和 Core Foundation 对象相互转换的内存管理
- Object-C,数组NSArray
- Object-C,数组NSArray
- Object-C,数组NSArray
- How Do I Declare A Block in Objective-C? [备忘]
- How Do I Declare A Block in Objective-C? [备忘]
- object-c之UITableView数据的编辑
- object-c之UITableView数据的编辑
- object-c之UITableView的数据索引控件UISearchController
- object-c之UITableView的数据索引控件UISearchController
- NotSupportedException-无法将类型“System.DateTime”强制转换为类型“System.Object”
- Objective-C NSArray & NSMutableArray
- object-c之自定义UITableViewCell