Tracking The Untrackable: Learning to Track Multiple Cues with Long-Term Dependencies
2017-11-27 13:38
549 查看
来源:ICCV2017
创新点:
对于多目标跟踪的问题,现有的大多数解决方案并没能以一种一致的方式把长期的线索联合起来。本文提出了一种在线的方法,能够编码多条线索的长期的时间依赖。跟踪方法的一个关键挑战就是精准地跟踪被遮挡的物体或者那些与周围物体具有相似外观的物体。为解决这一挑战,提出一种循环神经网络(RNN)的结构,在多条线索上用一个时间窗口联合推理。该方法允许矫正数据关联的错误,并且可以从遮挡的状态恢复观测。本文通过用目标的外观、运动和交互模型来跟踪多个物体的数据驱动方法是很鲁棒的。
本文提出了一种可以在一个时间窗口内编码多条线索的方法,所学习的多线索表达被用于计算一个跟踪框架中的相似性分数。
贡献:
提出一种基于RNN结构的框架方法,编码多条线索的长期的时间依赖,在这个过程中无需进行专门的手工设置参数或者权值。
总结:本文提出了一种方法在一个时间窗口中,编码多条线索的依赖。我们所学到的多线索表达被用于计算the similarity scores in a tracking framework。
在tracking-by-detection的方法中,MOT往往可以被看作是一种关于图的优化问题,每个检测被表达成为一种节点,用边来编码相似性分数。在传统的MTT方法中,目标表达(reprsentations)和相似性分数(similarity
functions)是手工设置的,旨在把相邻帧的相似外观和运动给捕捉到。In contrast,本文提出了一种方法编码多条线索的长期的时间依赖,无需专门的手工设置参数和权重。所提框架基于一个结构化的RNN,用于多条线索的联合推理。
Related Work
Appearance Model
本文中的外观模型可以handle occlusions and solve the re-identification task by learning a similarity metric between two targets。此外,使用different的网络结构和loss
function。
Motion Model
目标的运动模型是描述目标如何运动的。包括线性和非线性。然而线性运动模型不能很好的处理长期的遮挡,所以需要使用非线性的运动模型,以提供更加精准的预测。本文提出了一种LSTM模型which learns to predict similar motion patterns.同时,这个LSTM方法也是完全是一种数据驱动的方法,可以控制噪声检测。
Interaction Model
大多数的跟踪技术假定每个目标有一个独立的运动模型,这种简化在拥挤环境下是有问题的。这时就需要考虑到交互模型了。有两种类型:the social force model(group model)and
the crowd motion pattern model(用于过度拥挤的环境下)。在这里,有一篇FeiFei Li的文章,Social lstm: Human trajectory
prediction in crowded spaces.In CVPR2016.提到了使用LSTM网络来对多个个体进行联合推理,以forecast the long-term
trajectories of all targets。本文用一个与之类似的LSTM结构,但是我们训练出来的数据驱动的交互模型是用来解决re-id的问题,而非long-term
prediction。
在推理多条线索时,前人的工作主要是把多条线索在一个手工设计的模式下进行联合,而无需建模长期的依赖关系。前人工作并没有把外观、运动、交互给联合起来。在本文中,克服这一缺陷,We learn a representation that encodes long-term temporal dependencies across multiple cues,i.e.,appearance,motion,and interaction automatically
in a data-driven fashion.
创新点:
对于多目标跟踪的问题,现有的大多数解决方案并没能以一种一致的方式把长期的线索联合起来。本文提出了一种在线的方法,能够编码多条线索的长期的时间依赖。跟踪方法的一个关键挑战就是精准地跟踪被遮挡的物体或者那些与周围物体具有相似外观的物体。为解决这一挑战,提出一种循环神经网络(RNN)的结构,在多条线索上用一个时间窗口联合推理。该方法允许矫正数据关联的错误,并且可以从遮挡的状态恢复观测。本文通过用目标的外观、运动和交互模型来跟踪多个物体的数据驱动方法是很鲁棒的。
本文提出了一种可以在一个时间窗口内编码多条线索的方法,所学习的多线索表达被用于计算一个跟踪框架中的相似性分数。
贡献:
提出一种基于RNN结构的框架方法,编码多条线索的长期的时间依赖,在这个过程中无需进行专门的手工设置参数或者权值。
总结:本文提出了一种方法在一个时间窗口中,编码多条线索的依赖。我们所学到的多线索表达被用于计算the similarity scores in a tracking framework。
在tracking-by-detection的方法中,MOT往往可以被看作是一种关于图的优化问题,每个检测被表达成为一种节点,用边来编码相似性分数。在传统的MTT方法中,目标表达(reprsentations)和相似性分数(similarity
functions)是手工设置的,旨在把相邻帧的相似外观和运动给捕捉到。In contrast,本文提出了一种方法编码多条线索的长期的时间依赖,无需专门的手工设置参数和权重。所提框架基于一个结构化的RNN,用于多条线索的联合推理。
Related Work
Appearance Model
本文中的外观模型可以handle occlusions and solve the re-identification task by learning a similarity metric between two targets。此外,使用different的网络结构和loss
function。
Motion Model
目标的运动模型是描述目标如何运动的。包括线性和非线性。然而线性运动模型不能很好的处理长期的遮挡,所以需要使用非线性的运动模型,以提供更加精准的预测。本文提出了一种LSTM模型which learns to predict similar motion patterns.同时,这个LSTM方法也是完全是一种数据驱动的方法,可以控制噪声检测。
Interaction Model
大多数的跟踪技术假定每个目标有一个独立的运动模型,这种简化在拥挤环境下是有问题的。这时就需要考虑到交互模型了。有两种类型:the social force model(group model)and
the crowd motion pattern model(用于过度拥挤的环境下)。在这里,有一篇FeiFei Li的文章,Social lstm: Human trajectory
prediction in crowded spaces.In CVPR2016.提到了使用LSTM网络来对多个个体进行联合推理,以forecast the long-term
trajectories of all targets。本文用一个与之类似的LSTM结构,但是我们训练出来的数据驱动的交互模型是用来解决re-id的问题,而非long-term
prediction。
在推理多条线索时,前人的工作主要是把多条线索在一个手工设计的模式下进行联合,而无需建模长期的依赖关系。前人工作并没有把外观、运动、交互给联合起来。在本文中,克服这一缺陷,We learn a representation that encodes long-term temporal dependencies across multiple cues,i.e.,appearance,motion,and interaction automatically
in a data-driven fashion.
相关文章推荐
- 深度学习Tracking(1)——Learning to Track at 100 FPS with Deep Regression Networks
- 深度学习Tracking(1)——Learning to Track at 100 FPS with Deep Regression Networks(代码理解)
- 目标跟踪之GOTURN:Learning to Track at 100 FPS with Deep Regression Networks
- 论文笔记之:Learning to Track: Online Multi-Object Tracking by Decision Making
- Learning to Track at 100 FPS with Deep Regression Networks 论文笔记
- GOTURN——Learning to Track at 100 FPS with Deep Regression Networks
- 论文笔记:MDPTracking,Learning to Track: Online Multi-Object Tracking by Decision Making
- Learning to Track at 100 FPS with Deep Regression Networks
- 论文阅读报告 DCM BANDITS: LEARNING TO RANK WITH MULTIPLE CLICKS
- 计算机视觉之目标跟踪——论文Learning to Track at 100 FPS with Deep Regression Networks
- Learning to Track at 100 FPS with Deep Regression Networks 论文理解及应用笔记(一)
- Visual Tracking with Online Multiple Instance Learning (MIL)及Robust Object Tracking with **paper笔记
- Visual Tracking with Online Multiple Instance Learning (MIL)目标跟踪论文笔记
- Learning to Track at 100 FPS with Deep Regression Networks 论文理解及应用笔记(二)
- OpenCV_Corner Detect with Harris and goodFeaturesToTrack( 基于Harris及适合跟踪的优质特征的角点检测)
- Convert XAML Flow Document to XPS with Style (multiple page, page size, header, margin)
- Export to Excel with multiple worksheets in visualforce
- JSP 解决illegal to have multiple occurrences of contentType with different values错误
- End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning
- LSH(Learning to Hash with its Application to Big Data Retrieval)