亚马逊提出:用于人群计数的尺度感知注意力网络
前戏
最近出了真的很多论文,各种SOTA。比如前天po的商汤等提出:统一多目标跟踪框架,今天po的人群计数(Crowd Counting),又称人群密度估计。下次应该会po一篇目标检测方向的SOTA论文。
注意最新的论文,Amusi就不详细解读了(可能自己也不会)。更主要的是论文这玩意,还是要自己去品才有滋味。或许过两天,论文的作者团队会解读一番,对照着作者的解答来理解,这才原滋原味。
正文
《Scale-Aware Attention Network for Crowd Counting》
arXiv:https://arxiv.org/abs/1901.06026
作者团队:Amazon
注:2019年01月21日刚出炉的paper
Abstract:In crowd counting datasets, people appear at different scales, depending on their distance to the camera. To address this issue, we propose a novel multi-branch scale-aware attention network that exploits the hierarchical structure of convolutional neural networks and generates, in a single forward pass, multi-scale density predictions from different layers of the architecture. To aggregate these maps into our final prediction, we present a new soft attention mechanism that learns a set of gating masks. Furthermore, we introduce a scale-aware loss function to regularize the training of different branches and guide them to specialize on a particular scale. As this new training requires ground-truth annotations for the size of each head, we also propose a simple, yet effective technique to estimate it automatically. Finally, we present an ablation study on each of these components and compare our approach against the literature on 4 crowd counting datasets: UCF-QNRF, ShanghaiTech A & B and UCF_CC_50. Without bells and whistles, our approach achieves state-of-the-art on all these datasets. We observe a remarkable improvement on the UCF-QNRF (25%) and a significant one on the others (around 10%).
摘要:在人群计数的数据集中,人们以不同的尺度(scales)出现,具体取决于他们与摄像头的距离。为了解决这个问题,我们提出了一种新的多分支尺度感知注意网络,它利用卷积神经网络的层次结构,并在单个前向传播中生成来自架构不同层的多尺度密度预测。为了将这些 maps 聚合到我们的最终预测中,我们提出了一种新的 soft 注意力机制,其可以学习一组 gating masks。此外,我们引入了规模感知损失函数来规范不同分支的训练并指导它们专门研究特定的尺度。由于这种新训练需要对每个头部的大小进行 ground-truth 标注,我们还提出了一种简单而有效的技术来自动估计它。最后,我们对每个部分进行ablation study ,并将我们的方法与4个人群计数数据集的文献进行比较:UCF-QNRF,ShanghaiTech A&B和UCF_CC_50。实验结果表明,我们的方法在这些数据集上取得最先进技术的水平(state-of-the-art,SOTA)。我们观察到UCF-QNRF显著提高(25%),其他显著提高(约10%)。
Our multi-branch architecture
创新点
Baseline network for crowd counting
Scale-aware soft attention masks
Scale-aware loss regularization
Estimating the size of each head
实验结果
想要了解最新最快最好的论文速递、开源项目和干货资料,欢迎加入CVer学术交流群,旨在提供一个便于所有CVers进行学术交流的平台。涉及图像分类、目标检测、图像分割、人脸检测&识别、目标跟踪、GANs、学术竞赛交流、Re-ID、风格迁移、医学影像分析、姿态估计、OCR、SLAM、场景文字检测&识别和超分辨率等方向。
- 用于视觉问答的关系感知图注意力网络模型《Relation-Aware Graph Attention Network for Visual Question Answering》
- CVPR 2018 | 旷视科技Face++提出用于语义分割的判别特征网络DFN
- 邓力等人提出BBQ网络:将深度强化学习用于对话系统
- 人群计数-SaCNN论文翻译
- 设计用于环境监测的无线传感网多跳数据采集、传输系统。在PC机上能显示当前测得的温/湿度、光照等环境信息。当光照超过一定阈值时,感知节点通过LED信号灯给以报警。
- 图注意力网络的代码下载和分析
- STM32 定时器用于外部脉冲计数,修改版,解决3..4库对应的无响应外部脉冲的问题
- 剑指实体零售,亚马逊的网络品牌进化之路
- muduo多机协作网络编程示例一:单词计数及排序
- 大数据环境下网络安全态势感知研究
- 6经典卷积神经网络模型之AlexNet-6.1用于ImageNet的AlexNet网络计算图设计
- 残差收缩网络:信号处理与深度学习、注意力机制的又一次完美结合
- Joy:一款用于捕获和分析网络内部流量数据的工具
- 用C#实现实现简单的 Ping 的功能,用于测试网络是否已经联通
- MDNet -- 学习用于视觉跟踪的多域卷积神经网络
- 基于多尺度卷积神经网络框架结合语义标签和surface normals以及深度预测
- AS3.0中用于网络通信的类总结(转)
- ubuntu14.04有线网配置(用于和嵌入式板子网络通讯)
- U-Net:用于生物医学图像分割的卷积网络
- 深度残差收缩网络:深度注意力机制下的软阈值化