您的位置:首页 > 其它

CVPR 2015 Oral概览 - 第一天上午

2015-10-10 18:47 381 查看
第一天上午的两大主题:迅猛发展的深度学习和枝繁叶茂的3D摄像头。

D1-AM-A. CNN Architectures

【Hypercolumns for Object Segmentation and Fine-Grained Localizatio】

利用Hypercolumn进行目标分割和精细定位

(Ross Girshick, Jitendra Malik)

一个像素定义一个hypercolumn,表示vector of activations of all CNN units above that pixel.

分割结果既有高层语义,又精细。





给定BBOX,做目标分割。





给定BBOX,检测左手腕。





给定BBOX,分割头、躯干、腿、胳膊。

【Modeling Local and Global Deformations in Deep Learning: Epitomic Convolution, Multiple Instance Learning, and Sliding Window Detection】

深度学习中局部和全局形变的建模

(Google, INRIA)

传统DCNN用max-pooling对抗目标的平移和形变。

本文使用另一种方法:用epitomic(表率) convolution来模拟形变,用Multiple Instance Learning来学习不同位置和尺度。





【Going Deeper With Convolutions】

更深的卷积网络

(Google)

对DCNN本身进行提高,集中在优化利用计算资源。在ImageNet 2014(ILSVRC)比赛中第一名。

给出了GooLeNet的具体架构图。

【Understanding Image Representations by Measuring Their Equivariance and Equivalence】

通过Equivariance和Equivalence理解图像表达

从数学角度探讨HOG特征和CNN“为什么好使”。

Equivariance: 输入图像时如何被特征表达的

Invariance: 对输入做何种变化时,特征保持不变

Equivalence: 两种不同的特征表达,是否能表达同一种输入。

【Deep Neural Networks Are Easily Fooled: High Confidence Predictions for Unrecognizable Images】

欺骗深度神经网络

(Google)

以DNN的输出作为评分,用遗传算法合成一系列“似是而非”的图像。在DNN中获得高分,但根本不是此类图片。



D1-AM-B. Depth and 3D Surface

【DynamicFusion: Reconstruction and Tracking of Non-Rigid Scenes in Real-Time 】
(Richard Newcombe)
和KinectFusion同作者。
是一种密集的SLAM系统,能实时重建非刚体的场景。使用RGBD输入,摄像机和物体都可以运动。
和KinectFusion类似,精度逐渐提高。但KinectFusion的目标必须是刚体。
维护一个Canonical Model,表示中性模型。每一帧中把这个模型通过空间warp变形到当前帧。





【3D Scanning Deformable Objects With a Single RGBD Sensor】
(Shahram Izadi)
和Kinect Fusion同作者。
能接受一定的物体形变。核心是loop closure(LP)和Bundle Adjustment(BA)。





【An Efficient Volumetric Framework for Shape Tracking】
形状跟踪:在两个三维壳体之间建立对应关系。换言之:对于一个三维物体,在每一帧估计其姿态。
传统三维形状跟踪只考虑surface性质,对于较为脆弱的表面,效果不好。
而本文考虑体积volume性质,把形状分割成voronoi网格。
a) 输入的壳体,d)本文重建结果,注意模型是根据体积分割成小块的。





【Part-Based Modelling of Compound Scenes From Images】
输入物体的多个剪影,以及一个物体组成部件的library。本文选出部件以及其姿态。
简言之:拍了乐高,就知道怎么插。
利用了部件之间内涵的限制,只在稀疏的解空间中查找。





【SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite】
建立了一个RGBD数据库,包含10335图像。物体都标定完成。
用RealSense和Kinect v2分别采集了一部分,并包含了已有的一些数据库。
并给出了评测方法(benchmark design)
可用于训练场景理解算法。





【Small-Variance Nonparametric Clustering on the Hypersphere】
3D场景的分割一般可以通过表面法向量聚类来完成。





本文给出一种方向向量的聚类方法,考虑了时间信息。
用混合Dirichlet过程模型来模拟这样的分布,每个Dirichlet过程有生长、运动、死亡和重生。过程数(聚类数)是根据场景复杂程度自适应调整的。



内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: