零基础入门CV赛事-Task1 赛题理解
2020-06-03 05:32
169 查看
赛题名称:零基础入门CV之街道字符识别
赛题目标:通过这道赛题可以引导大家走入计算机视觉的世界,主要针对竞赛选手上手视觉赛题,提高对数据建模能力。
赛题任务:赛题以计算机视觉中字符识别为背景,要求选手预测街道字符编码,这是一个典型的字符识别问题。
读取数据
import json train_json = json.load(open(r'D:\study\cv\train.json')) <div STYLE="page-break-after:always;"></div> #数据标注处理 def parse_json(d): arr = np.array([ d['top'],d['height'],d['left'],d['width'],d['label'] ]) arr = arr.astype(int) return arr img = cv2.imread('D:\study\cv\mchar_train\000000.png') arr = parse_json(train_json['000000.png']) plt.figure(figsize=(10,10)) plt.subplot(1,arr.shape[1]+1,1) plt.imshow(img) plt.xticks([]);plt.yticks([]) for idx in range(arr.shape[1]): plt.subplot(1,arr.shape[1]+1, idx+2) plt.imshow(img[arr[0,idx]:arr[0,idx]+arr[1,idx],arr[2,idx]:arr[2,idx]+arr[3,idx]]) plt.title(arr[4,idx]) plt.xticks([]);plt.ytics([])
解题思路
1、简单入门思路:定长字符识别
在赛题数据集中大部分图像中字符个数为2-4个,最多的字符 个数为6个。
因此可以对于所有的图像都抽象为6个字符的识别问题,字符23填充为23XXXX,字符231填充为231XXX。
经过填充之后,原始的赛题可以简化了6个字符的分类问题。在每个字符的分类中会进行11个类别的分类,假如分类为填充字符,则表明该字符为空。
2、专业字符识别思路:不定长字符识别
在字符识别研究中,有特定的方法来解决此种不定长的字符识别问题,比较典型的有CRNN字符识别模型。
在本次赛题中给定的图像数据都比较规整,可以视为一个单词或者一个句子。
3、专业分类思路:检测再识别
在赛题数据中已经给出了训练集、验证集中所有图片中字符的位置,因此可以首先将字符的位置进行识别,利用物体检测的思路完成。
此种思路需构建字符检测模型,对测试集中的字符进行识别。可以参考物体检测模型SSD或者YOLO来完成。
环境配置有问题 解决中
#网速慢导致下载失败,一直重试下载,安装成功
相关文章推荐
- Datawhale 零基础入门CV赛事Task1 赛题理解
- 【DataWhale学习记录13-02】零基础入门CV赛事-Task01-赛题理解
- Datawhale 零基础入门CV赛事-Task1 赛题理解
- 阿里云天池竞赛-零基础入门CV赛事-Task1 赛题理解
- Datawhale 零基础入门CV赛事-Task1 赛题理解
- Datawhale零基础入门CV赛事-task1赛题理解
- Datawhale 零基础入门CV赛事-Task1 赛事理解
- 阿里天池-零基础入门CV赛事- 街景字符编码识别-赛题理解
- 零基础入门CV赛事—街景字符编码识别—task1赛题理解
- Datawhale 零基础入门CV赛事-Task4 模型训练与验证
- Datawhale 零基础入门CV赛事-Task4 模型训练与验证
- Datawhale 零基础入门CV赛事-Task3 字符识别模型
- 阿里云天池竞赛-零基础入门CV赛事-Task4 模型训练与验证
- 阿里云天池竞赛-零基础入门CV赛事-Task3 字符识别模型
- Datawhale 零基础入门CV赛事-Task4-模型训练与验证
- Datawhale 零基础⼊⻔CV-Task1 赛题理解
- 【学习记录】零基础入门CV之街道字符识别-Task1 赛题理解4.92
- Datawhale 零基础入门CV赛事-Task3 字符识别模型
- 【学习笔记】零基础入门CV之街道字符识别-赛题理解
- Datawhale 零基础入门CV赛事-Task4 模型训练与验证