谷歌开源深度学习街景文字识别模型
2017-07-12 10:01
519 查看
原文链接:http://www.sohu.com/a/138305672_465975
1.谷歌地图街景数据集:800亿张,增长率数百万张/天
2.谷歌地图任务:每天为数百万人指路并提供相应的实时信息,推荐商铺。
3.谷歌街景难题:信息随着世界变化而实时更新
4.《Attention-based Extraction of Structured Information from Street View Imagery》
任务:读取门牌号和街道名
方法:深度神经网络
数据集:多个国家的街景图,街景门牌数据集SVHN(训练读取门牌号,http://ufldl.stanford.edu/housenumbers/)
, 法国街道路标数据集FSNS(%84.2正确率,训练读取街道名,https://github.com/tensorflow/models/blob/master/street/README.md)
附加任务:读取图片中的商户名,以及其他信息。
开源地址:https://github.com/tensorflow/models/tree/master/attention_ocr
5.谷歌实习生
Zbigniew Wojna
任务:提取街道名字和数字,自动创造和定位新的地址
难题:同一个街道可能有不同的名字,比如信工所和信息工程研究所,将文本规范成与我们日常命名习惯一致的方式。
方法:开发一个深度学习模型框架
错误率:15.8% 的错误率
6.依据名字来提供对商户的导航
任务:从街景图像中发现大规模商户
论文:Large
Scale Business Discovery from Street Level Imagery
1.谷歌地图街景数据集:800亿张,增长率数百万张/天
2.谷歌地图任务:每天为数百万人指路并提供相应的实时信息,推荐商铺。
3.谷歌街景难题:信息随着世界变化而实时更新
4.《Attention-based Extraction of Structured Information from Street View Imagery》
任务:读取门牌号和街道名
方法:深度神经网络
数据集:多个国家的街景图,街景门牌数据集SVHN(训练读取门牌号,http://ufldl.stanford.edu/housenumbers/)
, 法国街道路标数据集FSNS(%84.2正确率,训练读取街道名,https://github.com/tensorflow/models/blob/master/street/README.md)
附加任务:读取图片中的商户名,以及其他信息。
开源地址:https://github.com/tensorflow/models/tree/master/attention_ocr
5.谷歌实习生
Zbigniew Wojna
任务:提取街道名字和数字,自动创造和定位新的地址
难题:同一个街道可能有不同的名字,比如信工所和信息工程研究所,将文本规范成与我们日常命名习惯一致的方式。
方法:开发一个深度学习模型框架
错误率:15.8% 的错误率
6.依据名字来提供对商户的导航
任务:从街景图像中发现大规模商户
论文:Large
Scale Business Discovery from Street Level Imagery
相关文章推荐
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- 百度DMLC分布式深度机器学习开源项目(简称“深盟”)上线了如xgboost(速度快效果好的Boosting模型)、CXXNET(极致的C++深度学习库)、Minerva(高效灵活的并行深度学习引擎)以及Parameter Server(一小时训练600T数据)等产品,在语音识别、OCR识别、人脸识别以及计算效率提升上发布了多个成熟产品。
- 一个模型库学习所有:谷歌开源模块化深度学习系统Tensor2Tensor
- 各类识别、深度学习 开源代码及文献梳理
- 深度学习的浅实践:开源软件/数据库实现表情识别(2)
- 各类识别、深度学习 开源代码及文献梳理
- 深度人脸识别的 Caffe 实现(附模型开源地址及论文下载)
- 开源的深度学习工具包,深度学习模型的python代码实现
- Matlab图像识别/检索系列(11)—开源介绍之深度学习工具MatConvNet toolbox
- 深度学习文字识别论文综述
- 文本深度表示模型Word2Vec 简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简
- [置顶] 各类识别、深度学习-开源代码文献梳理
- 【BDTC 2015】深度学习分论坛:DL的图像识别、语音识别应用进展及MxNet开源框架设计
- 深度学习(二).Caffe之使用LeNet-5模型识别手写体数字
- OCR技术浅探:基于深度学习和语言模型的印刷文字OCR系统
- 谷歌发布了 T2T(Tensor2Tensor)深度学习开源系统
- 【深度学习】笔记4_caffe第二个比较经典的[小图片]识别例子CIFAR_10的运行,网络模型的详解
- 【深度学习】笔记3_caffe自带的第一个例子,Mnist手写数字识别所使用的LeNet网络模型的详细解释
- 02:一文全解:利用谷歌深度学习框架Tensorflow识别手写数字图片(初学者篇)
- 【笔记】【微信OCR(2):深度序列学习助力文字识别】