您的位置：首页 > 其它

CNN处理图像的一点总结

2016-10-21 16:09 155 查看

结合寒老师的课，对CNN近几年的发展进行总结，主要分两部分进行，1.cnn基础模型的改进。2.图像处理框架的改进

1.基础模型改进。

针对CNN模型的主要难点其实分为两个方面，（1）深度网络，难以训练，使用随机梯度下降法在将误差往前传的过程中可能就变成0了，（2）网络初始值难以确定，没有一个合适的初始值，想要训练好一个网络几乎是不可能的。对于第一个问题，除了一些大团队大量的计算外，就是对RELU函数的优化，由此出现的Leaky
ReLU，Maxout等激活函数，而且发现Tanh在处理某些问题上来说，有较好的效果。对于第二个问题，深度现如今的爆发其实很大程度的源于AlexNet给与我们一个训练的参数初始值，使人们能够基于已有参数的基础上去进行fine
tuning，但是，有一些参数问题并没有得到完全的解决，还有一部分是需要人为监控的，然后就有了一批文章专门来研究这参数的问题，如何去初始化，直到12年google提出了Batch
Normalization，在全连接层，激活函数前加一层，对权重进行处理（正态分布+线性变化）试权重能够处在一个既不发散也不收敛，在可控范围内震荡的状态。

2.图像处理框架的改进

图像框架的改进，这方面其实可以回归到事物的发展规律，从简单到复杂，从一个到多个，（classification，localization，object
detection）在发展过程中，问题的根本其实又回到了机器学习考虑的问题，将回归问题转化为分类问题，针对具体问题的优化，优化算法加快计算速度等。

最初的工作就是用CNN去识别图片中单一的物体（框架如下），发现效果很好，

于是就是考虑是否可以把缩小范围去对事物进行更具体的定位，即用一个框把小猫给框出来，所以就需要一些长宽以及坐标信息，分类问题也就转化为了回归问题。给出了如下框架在尾部加入一个回归层，在分类层训练完成的基础上，使用训练好的权重作为初始值，对回归层参数进行fine tuning。这样即可得到物体的位置信息。

接下来的出的文章就是在这个基础上的优化，因为毕竟回归问题的效果不如分类问题，因此，按机器学习的的思考方式，就是将回归问题向局部问题转化，就提出了，在之前的基础上，对图片不同位置，取不同大小的窗口，对窗口进行评分，取最高的评分这种思想。

取窗问题在单个物体来说，还不用考虑特别复杂，但是当物体从一个上升到多个的时候，即问题变成object detection的时候，就变得麻烦了起来。

15,16年大量的文章都是在对如何取窗进行讨论，比如窗的大小，滑动方式等，最具代表性的就是RCNN、Fast-RCNN、Fsater-RCNN、YOLO

RCNN和Fast-RCNN在取窗方面都是采用的selective search，当然有算法上的其他优化。

Fsater-RCNN就直接把取窗的工作交个了另一个神经网络RPN。YOLO则是直接分好了窗

目前来看效果已经达到了实时的程度，在这方面的有进展较难。

在物体能够非常精确识别的基础上，在加上文本模型上的成熟，因此能够实现对图像的精确描述，也是在情理之中，从大方向来看，也就是投入人力对区域更加细致的描述，工作量的问题要远大于创新上的问题。

然后把问题延伸到视频，其实也是相对图像引入了一个空间向量。因此16年微软就建立了针对视频描述的数据库MSR-VTT数据库包含了
41.2小时的视频和
200 K短语，覆盖了最全的种类和最多样化的视觉内容。在句子和词汇上目前做到了最大，并开展了相应的竞赛（目前复赛还没有结束），但是在刚结束的ECCV中，已经有基于该项目的成果出现，台湾国立清华大学林嘉文和孙民利的文章Title
Generation for User Generated Videos，使用一个重点检测器（highlight detector）对视频描述生成器进行初始化，让视频描述生成器能够关注重点部分。框架能够同时训练标题生成模型和视频重点定位模型。然后，我们将高度句子多样性引入视频描述生成器，这样生成的标题更加能吸引人。

然后，最近LIfeifei组包括微软的方向都在通过照片生成故事。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： cnn

相关文章推荐

新的分享

章节导航