您的位置:首页 > 其它

车辆计数“FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras”

2017-09-20 16:23 786 查看
使用深度时空神经网络,在低质量视频中计算车数目。为了使用视频时间信息,结合FCN和时间递归神经网络(LSTM),即FCN-rLSTM估计车辆密度和车辆计数。FCN进行像素级预测,LSTM学习复杂的时间动态。使用残差连接,将车辆数目回归问题作为残差学习函数,加速网络训练过程。为保持特征分辨率,提出Hyper-Atrous集合FCN中artous卷积,综合不同层卷积信息。

车辆计数是统计给定区域内车辆数目,如下图所示:



上图中列举了车辆计数所面临的挑战,即视频的低帧率,低分辨率,高拥堵,大视角。普通的车辆计数法有帧差法,检测法,运动法,密度估计法及深度学习法。目前的方法很少考虑帧间相关性,即时间关系。

FCN-rLSTM

FCN可以做像素级预测,允许输入任意尺寸图像,目前的目标计数方法是估计目标密度图,累加整幅图密度得到目标数量。但这种方法受大视角视频和大尺寸车辆干扰。因此提出FCN-rLSTM

网络通过残差的方式估计车辆密度和车辆数目。

FCN-RLSTM网络包含卷积网络,反卷积网络,hyper-atrous特征综合及LSTM层。结构如下图所示:



卷积层和反卷积层使用3×3小卷积核。递归神经网络RNN通过保持内部隐含层状态,对动态时间行为建模。LSTM对RNN进行了扩展,增加了3个gates:遗忘门ft,输入门it,输出门ot。这样LSTM可以学习序列的长相关,解决了RNN中常出现的梯度消失问题。LSTM还包含单元激活向量ct和隐含输出向量ht。将FCN的密度图reshape到1D的向量,并输入到LSTM中。为了加速训练,使用残差连接形式,如下图所示:



多任务学习

FCN-rLSTM包含两个任务,即像素级密度图和每帧全局车辆计数。如果目标使用点d来标记,车辆数目真值是点的数目,每个像素p的真值密度:由以点标记为中心且覆盖像素p的2D高斯核之和定义,即:



如果目标使用bbox标记,车辆数目是bbox数目,真实密度是:



FCN估计密度图,LSTM估计车辆数目,联合训练,车辆密度由FCN最后一个1×1的卷积层估计,欧式距离测量估计密度和真值的差距,密度图的损失函数为:



LSTM车辆数目有两部分:基础部分由密度图集合得到,残差部分由LSTM学习到,综合两者得到最终的车辆数目:



损失函数为:



最终网络的损失函数为:

L=LD+λLC

FCN-rLSTM的训练过程为:



实验结果

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐