思考: 根据 图片数据集 规律性 灵活设计 卷积结构
2018-01-07 09:57
239 查看
观察
针对不同问题所采集的图片数据集往往具有一定规律性:如果为 平视拍摄(例如普通相机拍摄),那么人们往往倾向于把要关注的事物(如人脸)置于 画面中央 。
如果为 -45°俯视拍摄(例如监控摄像机拍摄),那么同类实例(如行人)往往呈现 近大远小 。
现有卷积结构设计
现有的卷积结构大多 一视同仁 地进行 视野感受:缺陷
对整幅图片进行的 无差别卷积 意味着 注意力的平摊 。思考
设计一种 有差别卷积:平视拍摄 时,可以对 画面中央 采用 小卷积核 以 减少 细节信息 丢失 。
-45°俯视拍摄 时,可以使用 近大远小 的不同卷积核,以 增加 远距离个体 的 识别精度 。
实现
为了避免重新设计框架接口引起的不必要麻烦,可采用 卷积结果 相覆盖 的思路。平视图片
先用 大卷积核 对输入的整张 feature map 进行第一轮的常规卷积:再用稍小的卷积核对 feature map 中心区域 进行 第二轮 更精细的 常规卷积。并用第二轮卷积结果 替换 第一轮卷积结果中心区域 的数据值:
由此即可实现 “差别对待” 的卷积操作。
-45°俯视图片
先用 大卷积核 对输入的整张 feature map 进行第一轮的常规卷积:再用稍小的卷积核对 feature map 中上部区域 进行 第二轮 更精细的 常规卷积。并用第二轮卷积结果 替换 第一轮卷积结果中上部区域 的数据值:
再用更小的卷积核对 feature map 顶部区域 进行 第三轮 更更精细的 常规卷积。并用第三轮卷积结果 替换 之前卷积结果顶部区域 的数据值:
由此即可实现 “差别对待” 的卷积操作。
适用范围
该方法仅可适用于前几个网络层。因为越往深去,每个网络层输入的 feature map 中,单个数值映射到原图像的感受野会越大,乃至大到覆盖大半个原图像。那么这个时候,有差别卷积操作 也就不可行了。
附加
当然,也可以在卷积核滑窗的stride(平移步长)上大做文章。比如在 feature map 的 不重要区域 增大stride 以 减少 低性价比计算 的次数,从而 节省 GPU劳动力 。这里就不赘述了。相关文章推荐
- [转]设计思考:Flash Web结构浅析-浅谈数据显示层
- [转]设计思考:Flash Web结构浅析-综述、Flash web开发团队协作
- 根据类分层结构设计Hibernate Mapping与数据库表结构
- Jquery表单校验—思考测试提出的优化建议:如何设计灵活的软件
- 思考: 如何设计 输出结果 具有对称性 的 网络结构
- [Effective JavaScript 笔记]第57条:使用结构类型设计灵活的接口
- 网页设计中图片展现形式的思考
- 【阅读分享】阅读《根据设计》思考
- 网站设计思考网站的目录结构和链接结构
- 数据结构课程设计运行图片
- 设计思考:Flash Web的四层结构浅析
- 聊天室螺旋式体系结构设计——思考过程
- 千万级用户直播APP——服务端结构设计和思考
- 千万级用户直播APP——服务端结构设计和思考
- 目录树结构的数据库设计思考
- 关于水晶报表设计中 根据条件显示与隐藏图片
- android——根据MVC框架设计的结构
- 以金山界面库(openkui)为例思考和分析界面库的设计和实现——代码结构(完)
- 设计思考:Flash Web结构浅析
- 设计思考:Flash Web的四层结构浅析