您的位置：首页 > 其它

CVPR 2015 Oral概览 - 第一天上午

2015-10-10 18:47 381 查看

第一天上午的两大主题：迅猛发展的深度学习和枝繁叶茂的3D摄像头。

D1-AM-A. CNN Architectures

【Hypercolumns for Object Segmentation and Fine-Grained Localizatio】

利用Hypercolumn进行目标分割和精细定位

(Ross Girshick, Jitendra Malik)

一个像素定义一个hypercolumn，表示vector of activations of all CNN units above that pixel.

分割结果既有高层语义，又精细。

给定BBOX，做目标分割。

给定BBOX，检测左手腕。

给定BBOX，分割头、躯干、腿、胳膊。

【Modeling Local and Global Deformations in Deep Learning: Epitomic Convolution, Multiple Instance Learning, and Sliding Window Detection】

深度学习中局部和全局形变的建模

(Google, INRIA)

传统DCNN用max-pooling对抗目标的平移和形变。

本文使用另一种方法：用epitomic（表率） convolution来模拟形变，用Multiple Instance Learning来学习不同位置和尺度。

【Going Deeper With Convolutions】

更深的卷积网络

(Google)

对DCNN本身进行提高，集中在优化利用计算资源。在ImageNet 2014(ILSVRC)比赛中第一名。

给出了GooLeNet的具体架构图。

【Understanding Image Representations by Measuring Their Equivariance and Equivalence】

通过Equivariance和Equivalence理解图像表达

从数学角度探讨HOG特征和CNN“为什么好使”。

Equivariance: 输入图像时如何被特征表达的

Invariance: 对输入做何种变化时，特征保持不变

Equivalence: 两种不同的特征表达，是否能表达同一种输入。

【Deep Neural Networks Are Easily Fooled: High Confidence Predictions for Unrecognizable Images】

欺骗深度神经网络

(Google)

以DNN的输出作为评分，用遗传算法合成一系列“似是而非”的图像。在DNN中获得高分，但根本不是此类图片。

D1-AM-B. Depth and 3D Surface

【DynamicFusion: Reconstruction and Tracking of Non-Rigid Scenes in Real-Time 】
(Richard Newcombe)
和KinectFusion同作者。
是一种密集的SLAM系统，能实时重建非刚体的场景。使用RGBD输入，摄像机和物体都可以运动。
和KinectFusion类似，精度逐渐提高。但KinectFusion的目标必须是刚体。
维护一个Canonical Model，表示中性模型。每一帧中把这个模型通过空间warp变形到当前帧。

【3D Scanning Deformable Objects With a Single RGBD Sensor】
(Shahram Izadi)
和Kinect Fusion同作者。
能接受一定的物体形变。核心是loop closure(LP)和Bundle Adjustment(BA)。

【An Efficient Volumetric Framework for Shape Tracking】
形状跟踪：在两个三维壳体之间建立对应关系。换言之：对于一个三维物体，在每一帧估计其姿态。
传统三维形状跟踪只考虑surface性质，对于较为脆弱的表面，效果不好。
而本文考虑体积volume性质，把形状分割成voronoi网格。
a) 输入的壳体，d)本文重建结果，注意模型是根据体积分割成小块的。

【Part-Based Modelling of Compound Scenes From Images】
输入物体的多个剪影，以及一个物体组成部件的library。本文选出部件以及其姿态。
简言之：拍了乐高，就知道怎么插。
利用了部件之间内涵的限制，只在稀疏的解空间中查找。

【SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite】
建立了一个RGBD数据库，包含10335图像。物体都标定完成。
用RealSense和Kinect v2分别采集了一部分，并包含了已有的一些数据库。
并给出了评测方法（benchmark design）
可用于训练场景理解算法。

【Small-Variance Nonparametric Clustering on the Hypersphere】
3D场景的分割一般可以通过表面法向量聚类来完成。

本文给出一种方向向量的聚类方法，考虑了时间信息。
用混合Dirichlet过程模型来模拟这样的分布，每个Dirichlet过程有生长、运动、死亡和重生。过程数（聚类数）是根据场景复杂程度自适应调整的。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航