您的位置：首页 > 其它

seglink 论文阅读

2017-12-14 11:02 337 查看

题目：Detecting Oriented Text in Natural Images by Linking Segments

作者：Baoguang Shi1 Xiang Bai1∗ Serge Belongie2

cvpr2017

代码、论文、偏移生成

https://github.com/dengdan/seglink

https://arxiv.org/abs/1703.06520

http://fromwiz.com/share/s/34GeEW1RFx7x2iIM0z1ZXVvc2yLl5t2fTkEg2ZVhJR2n50xg

摘要

其主要思想是将文本分解为两个局部可检测的元素，即片段（分割）和链接。片段是对字符或者单词的方框，链接用来连接方框；最后检测是通过连接片段产生。f-measure达到75（ICDAR 2015），512-512超过20fps，而且可以检测非拉丁文。

1.介绍

特点：

鲁棒性：75 f-measure

有效性：20fps 512*512

概括性：非拉丁文检测（无修改，还是有训练吧？）

3.Segment Linking

输入固定大小，通过置信度输出固定数量的连接和片段，组合成边界框。bounding box是一个旋转的矩形：

3.1 CNN模型

VGG16改fc为conv，再加conv8-11

切片和连接在6个层上预测，conv4_3, conv7, conv8_2, conv9_2, conv10_2,conv11,一个3*3的卷积层接在这些层后面生成预测切片、链接的模型，这里对这些特征层和预测器加索引l=1,..6

3.2切片检测

在输入图片上根据feature map的置信度与偏移设置default box

default box的map上的坐标(x,y)到输入图像的坐标转换

根据map的宽高设置一个固定的al(相当于每个点都代表固定大小的框)

预测器生成7个通道的结果，俩个是设置是与不是文字，5个渠道设置以下参数

ps:这里就可以相当于，输入图像缩放到map大小，一块区域在这里代表一个点

经验值：

3.3层内链接

一个链接连接一对切片，连接一个单词的两个字母，分离两个单词（负样本）。

一个位置有八个方向的连接，预测器生成16通道，每个方向2个通道（是链接、不是链接）

3.4层间链接

一个单词可能在不同尺寸的map上被发现，所以提出这种方法，层间链接只连接相邻层

这里有个重要的特点，前面的map是后面的map的2倍，因为他们是经过池化或者是步长2的卷积，不过必须是偶数才可能有这样的关系，所以这里设置输入图像的大小要能对128整除

层间链接只在l=2…6做检测，每个点输出4个邻居的链接，每个链接还是用俩个值表示，所以是8个通道

ps:预测卷积核应该同时对两个map做卷积，具体得看代码才知道

每个feature-map输出大概如下(map1没有层间链接)

3.5整合碎片和链接

根据置信分数过滤，阈值分别是α，β，实验发现阈值不敏感，0.1变化对应f-measure小于1%变化。

碎片和链接可以被当作图，合并计算完整的bounding box遵循算法1:

大概是:

求平均角度

找直线，确认b，使得所有块中心到线距离最短

在直线上做垂直射线到各个片段，找到最长距离的（可能是射线经过片段边边，具体看代码）

计算bounding box

4.训练

4.1正样本定义

(a.中心在bounding box里

(b.大小满足下列

还有一个没理解： it is labeled as it is labeled as positive and matched to the word that has the closest size,i.e. the one with the minimal value at the left-hand side of Eq. 9 (多个单词的情况下如果大小相近还是可以连在一起？)

4.2偏移量根据fig5计算，根据公式2-6推导：

4.3链接根据俩个原则设置正样本，1:两个切片都是正的，2同一个单词

4.4优化

损失函数

权重在实践中都设了1

4.5在线困难消极样本挖掘

遵循文献20的方法，保持消极:积极样本数量不超过3:1

Shrivastava, A. Gupta, and R. B. Girshick. Training region-based object detectors with online hard example mining. In CVPR, 2016

4.6数据增强

像ssd和yolo那样缩放裁剪训练

5.实验

SynthText 预训练

4 GPUs in parallel,training a batch takes about 0.5s. The whole training process takes less than a day.

非拉丁文本也不错

不好的结果:

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 文字检测多方向深度 seglink

相关文章推荐

新的分享

章节导航