CVPR 2015 Oral概览 - 第一天上午
2015-10-10 18:47
381 查看
第一天上午的两大主题:迅猛发展的深度学习和枝繁叶茂的3D摄像头。
D1-AM-A. CNN Architectures
【Hypercolumns for Object Segmentation and Fine-Grained Localizatio】
利用Hypercolumn进行目标分割和精细定位
(Ross Girshick, Jitendra Malik)
一个像素定义一个hypercolumn,表示vector of activations of all CNN units above that pixel.
分割结果既有高层语义,又精细。
给定BBOX,做目标分割。
给定BBOX,检测左手腕。
给定BBOX,分割头、躯干、腿、胳膊。
【Modeling Local and Global Deformations in Deep Learning: Epitomic Convolution, Multiple Instance Learning, and Sliding Window Detection】
深度学习中局部和全局形变的建模
(Google, INRIA)
传统DCNN用max-pooling对抗目标的平移和形变。
本文使用另一种方法:用epitomic(表率) convolution来模拟形变,用Multiple Instance Learning来学习不同位置和尺度。
【Going Deeper With Convolutions】
更深的卷积网络
(Google)
对DCNN本身进行提高,集中在优化利用计算资源。在ImageNet 2014(ILSVRC)比赛中第一名。
给出了GooLeNet的具体架构图。
【Understanding Image Representations by Measuring Their Equivariance and Equivalence】
通过Equivariance和Equivalence理解图像表达
从数学角度探讨HOG特征和CNN“为什么好使”。
Equivariance: 输入图像时如何被特征表达的
Invariance: 对输入做何种变化时,特征保持不变
Equivalence: 两种不同的特征表达,是否能表达同一种输入。
【Deep Neural Networks Are Easily Fooled: High Confidence Predictions for Unrecognizable Images】
欺骗深度神经网络
(Google)
以DNN的输出作为评分,用遗传算法合成一系列“似是而非”的图像。在DNN中获得高分,但根本不是此类图片。
D1-AM-B. Depth and 3D Surface
【DynamicFusion: Reconstruction and Tracking of Non-Rigid Scenes in Real-Time 】
(Richard Newcombe)
和KinectFusion同作者。
是一种密集的SLAM系统,能实时重建非刚体的场景。使用RGBD输入,摄像机和物体都可以运动。
和KinectFusion类似,精度逐渐提高。但KinectFusion的目标必须是刚体。
维护一个Canonical Model,表示中性模型。每一帧中把这个模型通过空间warp变形到当前帧。
【3D Scanning Deformable Objects With a Single RGBD Sensor】
(Shahram Izadi)
和Kinect Fusion同作者。
能接受一定的物体形变。核心是loop closure(LP)和Bundle Adjustment(BA)。
【An Efficient Volumetric Framework for Shape Tracking】
形状跟踪:在两个三维壳体之间建立对应关系。换言之:对于一个三维物体,在每一帧估计其姿态。
传统三维形状跟踪只考虑surface性质,对于较为脆弱的表面,效果不好。
而本文考虑体积volume性质,把形状分割成voronoi网格。
a) 输入的壳体,d)本文重建结果,注意模型是根据体积分割成小块的。
【Part-Based Modelling of Compound Scenes From Images】
输入物体的多个剪影,以及一个物体组成部件的library。本文选出部件以及其姿态。
简言之:拍了乐高,就知道怎么插。
利用了部件之间内涵的限制,只在稀疏的解空间中查找。
【SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite】
建立了一个RGBD数据库,包含10335图像。物体都标定完成。
用RealSense和Kinect v2分别采集了一部分,并包含了已有的一些数据库。
并给出了评测方法(benchmark design)
可用于训练场景理解算法。
【Small-Variance Nonparametric Clustering on the Hypersphere】
3D场景的分割一般可以通过表面法向量聚类来完成。
本文给出一种方向向量的聚类方法,考虑了时间信息。
用混合Dirichlet过程模型来模拟这样的分布,每个Dirichlet过程有生长、运动、死亡和重生。过程数(聚类数)是根据场景复杂程度自适应调整的。
D1-AM-A. CNN Architectures
【Hypercolumns for Object Segmentation and Fine-Grained Localizatio】
利用Hypercolumn进行目标分割和精细定位
(Ross Girshick, Jitendra Malik)
一个像素定义一个hypercolumn,表示vector of activations of all CNN units above that pixel.
分割结果既有高层语义,又精细。
给定BBOX,做目标分割。
给定BBOX,检测左手腕。
给定BBOX,分割头、躯干、腿、胳膊。
【Modeling Local and Global Deformations in Deep Learning: Epitomic Convolution, Multiple Instance Learning, and Sliding Window Detection】
深度学习中局部和全局形变的建模
(Google, INRIA)
传统DCNN用max-pooling对抗目标的平移和形变。
本文使用另一种方法:用epitomic(表率) convolution来模拟形变,用Multiple Instance Learning来学习不同位置和尺度。
【Going Deeper With Convolutions】
更深的卷积网络
(Google)
对DCNN本身进行提高,集中在优化利用计算资源。在ImageNet 2014(ILSVRC)比赛中第一名。
给出了GooLeNet的具体架构图。
【Understanding Image Representations by Measuring Their Equivariance and Equivalence】
通过Equivariance和Equivalence理解图像表达
从数学角度探讨HOG特征和CNN“为什么好使”。
Equivariance: 输入图像时如何被特征表达的
Invariance: 对输入做何种变化时,特征保持不变
Equivalence: 两种不同的特征表达,是否能表达同一种输入。
【Deep Neural Networks Are Easily Fooled: High Confidence Predictions for Unrecognizable Images】
欺骗深度神经网络
(Google)
以DNN的输出作为评分,用遗传算法合成一系列“似是而非”的图像。在DNN中获得高分,但根本不是此类图片。
D1-AM-B. Depth and 3D Surface
【DynamicFusion: Reconstruction and Tracking of Non-Rigid Scenes in Real-Time 】
(Richard Newcombe)
和KinectFusion同作者。
是一种密集的SLAM系统,能实时重建非刚体的场景。使用RGBD输入,摄像机和物体都可以运动。
和KinectFusion类似,精度逐渐提高。但KinectFusion的目标必须是刚体。
维护一个Canonical Model,表示中性模型。每一帧中把这个模型通过空间warp变形到当前帧。
【3D Scanning Deformable Objects With a Single RGBD Sensor】
(Shahram Izadi)
和Kinect Fusion同作者。
能接受一定的物体形变。核心是loop closure(LP)和Bundle Adjustment(BA)。
【An Efficient Volumetric Framework for Shape Tracking】
形状跟踪:在两个三维壳体之间建立对应关系。换言之:对于一个三维物体,在每一帧估计其姿态。
传统三维形状跟踪只考虑surface性质,对于较为脆弱的表面,效果不好。
而本文考虑体积volume性质,把形状分割成voronoi网格。
a) 输入的壳体,d)本文重建结果,注意模型是根据体积分割成小块的。
【Part-Based Modelling of Compound Scenes From Images】
输入物体的多个剪影,以及一个物体组成部件的library。本文选出部件以及其姿态。
简言之:拍了乐高,就知道怎么插。
利用了部件之间内涵的限制,只在稀疏的解空间中查找。
【SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite】
建立了一个RGBD数据库,包含10335图像。物体都标定完成。
用RealSense和Kinect v2分别采集了一部分,并包含了已有的一些数据库。
并给出了评测方法(benchmark design)
可用于训练场景理解算法。
【Small-Variance Nonparametric Clustering on the Hypersphere】
3D场景的分割一般可以通过表面法向量聚类来完成。
本文给出一种方向向量的聚类方法,考虑了时间信息。
用混合Dirichlet过程模型来模拟这样的分布,每个Dirichlet过程有生长、运动、死亡和重生。过程数(聚类数)是根据场景复杂程度自适应调整的。
相关文章推荐
- GTK+浅谈之十五GObject面向对象的继承
- 例10-6 uva1635(唯一分解定理)
- VMware vSphere与vCenter许可及价格分析
- 例10-6 uva1635(唯一分解定理)
- Vagaa, eMule and Apple
- codeforces 584C Marina and Vasya
- 云计算(6)--一些MapReduce的例子
- ScrollView嵌套ListView问题
- 5555
- Android Custom View NullPointerException
- Volley框架分析
- CodeForces 566B Replicating Processes
- LCA+主席树 (求树上路径点权第k大)
- json parser
- c++封装socket
- lightoj1292Laser Shot【共线判断求共线的最多点数】
- 1111
- UE4的Collision与Physics
- linux 各个文件系统之间的关系
- android 5.0新特性 RecyclerView使用初级