您的位置:首页 > 移动开发 > Objective-C

【视频变化检测】2017CVPR Spatio-Temporal Self-Organizing Map Deep Network for Dynamic Object Detection from

2017-09-28 18:01 851 查看

Spatio-Temporal Self-Organizing Map Deep Network for DynamicObject Detection from Videos

Yang Du1,Chunfeng Yuan1∗,Bing Li1, Weiming Hu1 and Stephen Maybank2CAS Centerfor Excellence in Brain Science and Intelligence Technology,NationalLaboratory of Pattern Recognition, Institute of Automation, Chinese Academy ofSciences;Universityof Chinese Academy of Sciences, Beijing, China 针对动目标检测问题,更好的探索空域和时域的特性来描述复杂的背景。提出Spatio-Temporal Self-Organizing Map(STSOM)深度网络。总结复杂背景含有两个属性:1、    全局背景的空间变换,包括相机的变焦、抖动等。认为背景运动的空域属性。2、    局部背景随着时间的变化。主要指背景的动态属性,比如河流、泉水和坏天气等。认为为背景运动的时域属性。本文基于SOM进行背景描述。SOM(Self-Organizing Map)一个通常的SOM单元包含一系列神经节点,可以通过自己组织的神经节点的权重来学习输入刺激的特征模式。输入的元素与所有的节点是全链接关系,其中的关系可以用一个权重向量来表示。特殊地,获胜节点c被定义为其权重向量与输入图像有最小的距离。公式如下:SOM的学习规则为找到获胜节点,然后更新获胜节点和领域节点的权重。则可以考虑到领域平滑信息。其权重更新公式如下:为学习率,为领域函数,可保留空间拓扑结构。 STSOMDeep Network for Dynamic Object Detection整体结构输入图像连接一个SOM,然后通过阈值得到之后的图像,再经过多层SOM得到最后的结果。通过多层数来更好的刻画复杂的背景。不同于SOBS,每一层的节点数目很少,只有3*3,所以需要更深的网络结构来刻画背景。1. 预训练整个视频图像都被用作预训练STSOM,先转化为HSV空间,在笛卡尔空间中计算像素点i与节点之间的距离:
将会得到一个D的距离大矩阵。分为空域时域来分开更新权重。
1)    空域权重更新对于同一帧的不同像素来说,可以用来刻画背景的空域特性,则每一帧的距离为这一帧所有的像素到节点p的和,找到最小距离的节点,即为获胜节点,再根据更新权重规则进行更新。离获胜权重越近,影响越大,距离越远,影响越小。2)    时域权重更新对于同一像素的不同帧,可以刻画背景的时域特性,则每一个像素点的获胜节点为同一像素不同帧的对于节点p的最小距离的节点。结合空域和时域的更新,使得STSOM有了很好的背景表达能力。3)    前向传递(forward propagation)通过一层一层的预训练,我们已经有了很多的STSOM层。对于每一层来说,我们可以获得结合了空域和时域信息的阈值,用来过滤图像是否为背景。首先,我们通过平均所有的图像来获取一个粗的背景模型,然后利用贝叶斯参数估计方法来获取最后的背景模型。(没看懂这里怎么估计的)利用这个背景模型,进行前向传递,通过一层,将最大的空域节点距离除以所有的像素个数设为空域阈值,最大的时域节点距离设为时域阈值,对空域阈值和时域阈值取平均。然后通过阈值,可获得下一层的输入。对于之后的层,再分别通过权重更新和背景前向传递进行一层一层的更新。获得最终每层的初始结果。2.精调(Fine-tuning)为了让网络更适用于复杂场景的变化,在精调步骤中,输入一个新的视频帧,对每一层的权重进行更新,不更新阈值。更新公式为:与预训练一样,但是α会设置的更小一些3.动目标检测(Dynamic Object Detection)通过之前的训练会得到一个描述背景的网络,然后对于这个网络来说,输入一个新的帧,通过阈值,就会得到最后的动目标检测结果。越深的层数会更精确的表达背景模型。 实验结果l  动背景,包括河流、运动的树、泉水、坏天气、相机抖动等等,有很大的提升效果。l  热流、阴影也可以不错的解决l  间断物体运动和低帧情况,达到最好的效果,因为模型可以动态实时更新。l  PTZ夜晚视频,效果不佳l  整体效果超过了state-of-art一堆实验证明,pre-training的阈值效果比较好,相对大的阈值效果更好一些。每层结果,可以看出,STSOM对于动态背景的有效表达能力。 
                                            
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
相关文章推荐