Review in Incremental Learning
2015-10-15 14:57
225 查看
1. 初识计算机视觉
计算机视觉(Computer Vision, CV)是近十几年来计算机科学中最热门的方向之一,而我个人是在上学期学习随机森林算法的时候,由于随机森林一个应用领域就是人脸识别,人脸识别是计算机视觉方面尤为突出的领域,于是我开始关注计算机视觉。后来在阅读文献的过程中,我发现视觉的很多领域如人脸识别、视觉检测以及3D扫描打印等等都非常火热,尤其是图像识别准确率由腾讯优图团队的无限制条件下人脸验证测试在LFW(MIT,国际权威,Labeled faces in the wild)已经做到99.65%,远远就超过人眼的97.52%。2015在这么薄弱的基础条件下,还是选一个还未被较大涉及的点,在查资料过程中,发现随机森林非常适合增量学习(Incremental
Learning),于是我给自己定的点是图像的增量学习。肯定会有疑问,为什么不用深度学习呢,大家都知道深度学习是深层的神经网络,一个数据集的计算非常耗时,对于一个在线的系统,我们不可能耗费这么长的时间对于新增加的几十张几百张图片进行重新计算分类,于是增量学习的目的就是说在尽可能少的准确率损害的条件下,较大的降低计算时间。
2. 热门方向
在国际计算机视觉与模式识别大会(Conference on Computer Vision and Pattern Recognition,简称CVPR)绝对是计算机视觉会议中的翘楚。
1) 2014年CVPR,研究的一些热点问题。http://blog.sina.com.cn/s/blog_4caedc7a0102uyjj.html
计算机是觉得问题可以根据他们的研究对象和目标分成三大类,low-level,mid-level, 和high-level。
l Low-level问题主要是针对图像本身及其内在属性的分析及处理,比如判断图片拍摄时所接受的光照,反射影响以及光线方向,进一步推断拍摄物体的几何结构;再如图片修复,如何去除图片拍摄中所遇到的抖动和噪声等不良影响。
l High-level问题主要是针对图像内容的理解和认知层面的,比如说识别与跟踪图像中的特定物体与其行为;根据已识别物体的深入推断,比如预测物体所处的场景和即将要进行的行为。
l Mid-level是介于以上两者之间的一个层面,个人理解是着重于特征表示,比如说如何描述high-level问题中的目标物体,使得这种描述有别于其他的物。
于是,可以大致认 为,low-level的内容可以服务于mid-level的问题,而mid-level的内容可以服务于high-level的问题。由于这种分类不是很严格,所以也会出现交叉的情况。深度学习在计算机视觉界主要是作为一种特征学习的工具,可以姑且认为是mid-level的。所以之前提到的high- level的问题受深度学习的影响很大就是这个原因。相比较而言low-level问题受到深度学习的冲击会小很多,当然也有深度学习用于去噪(denoise)和去模糊(deblur)等low-level问题的研究。对于受到深度学习良好表现困扰的年轻研究者们,也不妨来探寻low-level很多有意思的研究。这些年,MIT的Bill
Freeman组就做了一些很有趣的low-level问题,比如放大视频中出现的肉眼难以察觉的细小变化(Eulerian Video Magnification for Revealing Subtle Changes in the World),还有这次CVPR的文章Camouflaging
an Object from Many Viewpoints就是讲如何在自然环境中放置和涂染一个立方体,让其产生变色龙般的隐藏效果。诸如此类的研究也让研究这件事变得有趣和好玩。
2) 2015年CVPR,研究的一些热点问题。http://www.zhihu.com/question/31300014
DNN仍在程序不断升温,2015年的CVPR所做的最好玩的东西就是深度学习的兴起探索了很多DNN训练出来的模型和人类大脑的相似和区别,于是得到了一个惊人的观点:在图片分类任务中训练出来的深度神经网络模型与人类视觉神经的结构相似,并且DNN的每一层也与人类大脑某个神经区域相对应,这意味着,通过训练出来的DNN模型来研究人脑视觉神经是可行的。
3. 热门研究方向
1) Face Analysis
Face Recognition, FaceAlignment/Tracking, Face Detection, Face Sketch Synthesis and Recognition, FaceHallucination
2) Visual Surveillance
Human Detection, CrowdAnalysis, Tracking, Camera Network, Person Re-Identification
3) Image and Video Search
Re-ranking, Crowd Analysis,Person Re-Identification, Tracking, Camera Network
4) 3D Line Drawing
5) Image and Video Editing(滤镜)
4. 目前研究
1) 增量学习的概念:面对大规模的数据集来说,当新的类别的数据加入进来的时候,并非重新训练新生成的数据集,反而能够在较小的损失准确性的条件下,较大的缩短训练时间,我们将这种问题称为增量学习。
2) 应用背景
在线学习,比如在线图像分类面临两大挑战:
l 训练数据集越来越大
l 训练数据的种类随着时间的增长越来越大
3) 使用方法
NCM+Improved Random Forests with neuralnetwork
相关文章推荐
- iOS 基于FFmpeg的移动端Demo:IOS 视频转码器
- java使用siger 轻松获取本机硬件信息(CPU 内存 网络 io等)
- UML类图几种关系的总结
- 京东B2B的4种供销模式
- <iOS>数据缓存
- 多级反向代理下,Java获取请求客户端的真实IP地址多中方法整合
- HTML页面中<select>
- 提升用户体验的7大微交互
- 多级反向代理下,Java获取请求客户端的真实IP地址多中方法整合
- 一个初入程序员白丁的感受
- Java中的线程创建,以及使用四种线程池对线程进行管理
- struts2中常用constant命令配置
- Android Studio集成Facebook SDK Sample
- dropzone.js 拖拽上传文件
- Java中有两种实现多线程的方式以及两种方式之间的区别
- ThinkPHP3.2 使用PHPMailer 发送邮件
- 云相关
- Cocos2d-x win7 + vs2010 配置图文详解(亲测)
- 【转】认识物理I/O构件- 主机I/O总线
- Win8系统打开excel提示“向程序发送命令时出现问题”的解决方法