【学习记录】零基础入门CV之街道字符识别-Task3 字符识别模型
字符识别模型
学习目标:
1、学习CNN基础和原理
2、使用Pytorch框架构建CNN模型,并完成训练
3.1卷积神经网络
3.1.1什么是CNN
卷积神经网络(简称CNN)是一类特殊的人工神经网络,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。
3.1.2CNN的结构
-
CNN分为三层分别为:输入层,隐含层,输出层。
每一层由众多的卷积核组成,每个卷积核对输入的像素进行卷积操作,得到下一次的输入。随着网络层的增加卷积核会逐渐扩大感受野,并缩减图像的尺寸。
-
CNN是一种层次模型,输入的是原始的像素数据。
CNN通过卷积(convolution)、池化(pooling)、非线性激活函数(non-linearactivation function)和全连接层(fully connected layer)构成。 -
卷积核(convolutional kernel)
卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素都对应一个权重系数和一个偏差量(bias vector),类似于一个前馈神经网络的神经元(neuron)。卷积层内每个神经元都与前一层中位置接近的区域的多个神经元相连,区域的大小取决于卷积核的大小,在文献中被称为“感受野(receptive field)”,其含义可类比视觉皮层细胞的感受野 。卷积核在工作时,会有规律地扫过输入特征,在感受野内对输入特征做矩阵元素乘法求和并叠加偏差量。 -
池化层(pooling layer)
在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。池化层选取池化区域与卷积核扫描特征图步骤相同,由池化大小、步长和填充控制
如下图所示为LeNet网络结构,是非常经典的字符识别模型。两个卷积层,两个池化层,两个全连接层组成。卷积核都是5×5,stride=1,池化层使用最大池化。
3.2Pytorch构建CNN模型
在Pytorch中构建CNN模型只需要定义好模型的参数和正向传播即可,Pytorch会根据正向传播自动计算反向传播。
在本章我们会构建一个非常简单的CNN,然后进行训练。这个CNN模型包括两个卷积层,最后并联6个全连接层进行分类。
3.2.1构建代码
import torch torch.manual_seed(0) torch.backends.cudnn.deterministic = False torch.backends.cudnn.benchmark = True import torchvision.models as models import torchvision.transforms as transforms import torchvision.datasets as datasets import torch.nn as nn import torch.nn.functional as F import torch.optim as optim from torch.autograd import Variable from torch.utils.data.dataset import Dataset # 定义模型 class SVHN_Model1(nn.Module): def __init__(self): super(SVHN_Model1, self).__init__() # CNN提取特征模块 self.cnn = nn.Sequential( nn.Conv2d(3, 16, kernel_size=(3, 3), stride=(2, 2)), nn.ReLU(), nn.MaxPool2d(2), nn.Conv2d(16, 32, kernel_size=(3, 3), stride=(2, 2)), nn.ReLU(), nn.MaxPool2d(2), ) # self.fc1 = nn.Linear(32*3*7, 11) self.fc2 = nn.Linear(32*3*7, 11) self.fc3 = nn.Linear(32*3*7, 11) self.fc4 = nn.Linear(32*3*7, 11) self.fc5 = nn.Linear(32*3*7, 11) self.fc6 = nn.Linear(32*3*7, 11) def forward(self, img): feat = self.cnn(img) feat = feat.view(feat.shape[0], -1) c1 = self.fc1(feat) c2 = self.fc2(feat) c3 = self.fc3(feat) c4 = self.fc4(feat) c5 = self.fc5(feat) c6 = self.fc6(feat) return c1, c2, c3, c4, c5, c6 model = SVHN_Model1()
3.2.2训练代码
# 损失函数 criterion = nn.CrossEntropyLoss() # 优化器 optimizer = torch.optim.Adam(model.parameters(), 0.005) loss_plot, c0_plot = [], [] # 迭代10个Epoch for epoch in range(10): for data in train_loader: c0, c1, c2, c3, c4, c5 = model(data[0]) loss = criterion(c0, data[1][:, 0]) + \ criterion(c1, data[1][:, 1]) + \ criterion(c2, data[1][:, 2]) + \ criterion(c3, data[1][:, 3]) + \ criterion(c4, data[1][:, 4]) + \ criterion(c5, data[1][:, 5]) loss /= 6 optimizer.zero_grad() loss.backward() optimizer.step() loss_plot.append(loss.item()) c0_plot.append((c0.argmax(1) == data[1][:, 0]).sum().item()*1.0 / c0.shape[0]) print(epoch)
当然为了追求精度,也可以使用在ImageNet数据集上的预训练模型,具体方法如下:
class SVHN_Model2(nn.Module): def __init__(self): super(SVHN_Model1, self).__init__() model_conv = models.resnet18(pretrained=True) model_conv.avgpool = nn.AdaptiveAvgPool2d(1) model_conv = nn.Sequential(*list(model_conv.children())[:-1]) self.cnn = model_conv self.fc1 = nn.Linear(512, 11) self.fc2 = nn.Linear(512, 11) self.fc3 = nn.Linear(512, 11) self.fc4 = nn.Linear(512, 11) self.fc5 = nn.Linear(512, 11) def forward(self, img): feat = self.cnn(img) # print(feat.shape) feat = feat.view(feat.shape[0], -1) c1 = self.fc1(feat) c2 = self.fc2(feat) c3 = self.fc3(feat) c4 = self.fc4(feat) c5 = self.fc5(feat) return c1, c2, c3, c4, c5
- 【学习记录】零基础入门CV之街道字符识别-Task5 模型集成
- 零基础入门CV之街道字符识别(二)
- Datawhale 零基础入门CV赛事-Task03:字符识别模型
- Datawhale 零基础入门CV赛事-Task3 字符识别模型
- 【学习记录】day3 Task3 字符识别模型 (Datawhale 零基础⼊⻔CV)
- Datawhale 零基础入门CV赛事-Task3 字符识别模型
- 零基础入门CV之街道字符识别(三)
- Datawhale 零基础入门CV - Task 03 字符识别模型
- 【学习记录】day4 Task4 模型训练与验证 (Datawhale 零基础⼊⻔CV)
- Datawhale 零基础入门CV赛事-Task4 模型训练与验证
- 零基础⼊⻔CV-Task3 字符识别模型
- 零基础入门CV-Task 4 模型训练与验证
- Datawhale 零基础入门CV赛事-Task4 模型训练与验证
- 手写字符识别入门学习记录(1)
- Datawhale 零基础入门CV赛事-Task4 模型训练与验证
- 零基础入门CV之街道字符识别(四)
- 零基础入门CV赛事-字符识别模型
- Datawhale 零基础⼊⻔CV-Task3 字符识别模型
- 阿里天池-零基础入门CV赛事- 街景字符编码识别-赛题理解
- 阿里天池-零基础入门CV赛事- 街景字符编码识别-数据读取与数据扩增