您的位置：首页 > 其它

CNN中各层图像大小的计算

2016-01-29 21:32 399 查看

CNN刚刚入门，一直不是很明白通过卷积或者pooling之后图像的大小是多少，看了几天之后终于搞清楚了，在这里就结合keras来说说各层图像大小是怎么计算的，给刚入门的一点启发吧！

keras中的convolution和pooling

keras我们以0.2的版本来介绍，0.1对的版本有不一样的地方。0.1的版本的border_mode可以有三种：valid，same，full，0.2版本中的只有两种少了full。

0.2版本的卷积需要指明input_shape但是不需要指明feature map的数量，0.1不需要指明input_shape但是需要指明feature map的数量。

下面具体说说几个重要参数的具体意思：

CONVOLUTION

keras.layers.convolutional.Convolution2D(nb_filter, nb_row, nb_col, init='glorot_uniform', activation='linear', weights=None, border_mode='valid', subsample=(1, 1), dim_ordering='th', W_regularizer=None, b_regularizer=None, activity_regularizer=None, W_constraint=None, b_constraint=None)

nb_filter：filter的个数

nb_row,nb_col：filter的大小(行和列)

init：初始化方法

activation：激活函数

border_mode：valid 或者same，这个对下一层的运算产生影响

W_regulizer： WeightRegularizer，调整主权值矩阵的，通常使用L2 regulizer

POOLING

最常用的就是maxpooling，比如pool_size=(2, 2)就是说2*2=4个像素取值大的那个作为pooling之后的值，看下图：

keras.layers.convolutional.MaxPooling2D(pool_size=(2, 2), strides=None, border_mode='valid', dim_ordering='th')

pool_size：pooling的大小

stride：pooling的stride大小

border_mode: ‘valid’ or ‘same’

Note: ‘same’ will only work with TensorFlow for the time being

dim_ordering: ‘th’ or ‘tf’. In ‘th’ mode, the channels dimension (the depth) is at index 1, in ‘tf’ mode is it at index 3

代码实例

weight_decay = 0.0001

# 使用sequentia模型
chars_model = Sequential()

# 第一层卷积，filter大小4*4，数量32个，原始图像大小36*20
chars_model.add(Convolution2D(32, 4, 4, input_shape=(1, 36, 20), border_mode='valid', activation='relu', W_regularizer=l2(weight_decay)))

# 第二层卷积，filter大小4*4，数量32个，图像大小（36-4+1）*（20-4-1）
chars_model.add(Convolution2D(32, 4, 4, input_shape=(1, 33, 17), border_mode='valid', activation='relu', W_regularizer=l2(weight_decay)))

# maxpooling，大小(2,2),输入大小是30*14,stride默认是None，输出大小是15*7
chars_model.add(MaxPooling2D(pool_size=(2, 2)))

# dropout防止过拟合
chars_model.add(Dropout(0.3))

# 第三层卷积，filter大小4*4，数量64个，图像大小15*7
chars_model.add(Convolution2D(64, 4, 4, input_shape=(1, 15, 7), border_mode='valid', activation='relu', W_regularizer=l2(weight_decay)))

# 第四层卷积，filter大小4*4，数量64个，图像大小12*4，输出是10*2
chars_model.add(Convolution2D(64, 3, 3, input_shape=(1, 12, 4), border_mode='valid', activation='relu', W_regularizer=l2(weight_decay)))

# maxpooling，大小(2,2),输入大小是12*4,stride默认是None，输出大小是5*1
chars_model.add(MaxPooling2D(pool_size=(2, 2)))

# dropout防止过拟合
chars_model.add(Dropout(0.3))

# flatten
chars_model.add(Flatten())

# 全连接，输入是上层的64个feature map，大小是5*1，输出有512个
chars_model.add(Dense(input_dim=64 * 5 * 1, output_dim=512, activation='relu'))
chars_model.add(Dropout(0.6))

# 全连接，输入是上层的输出512，softmax回归分类，总共26个类别
chars_model.add(Dense(input_dim=512, output_dim=26, activation='softmax'))

# 随机梯度下降的参数，使用momentum+decay
sgd = SGD(l2=0.0, lr=0.0001, decay=1e-6, momentum=0.9, nesterov=True)

# 损失函数定义为对数损失(categorical_crossentropy)
chars_model.compile(loss='categorical_crossentropy', optimizer=sgd, class_mode="categorical")

# monitor定义为val_loss，输出相应的信息，只保存最好的val_loss（val_loss最小的那个），save_best_only
check_pointer = ModelCheckpoint(save_chars_model_path, monitor='val_loss', verbose=1, save_best_only=True)

# batch为128，epoch为4000个，validation_split=0.1
chars_model.fit(data_train, label_train, batch_size=128, nb_epoch=4000, verbose=1, show_accuracy=True, validation_split=0.1, callbacks=[check_pointer])

# 使用训练好的模型来评价test集合
score = chars_model.evaluate(data_test, label_test, show_accuracy=True, verbose=0)

注释已经写的很清楚了，想必结合keras应该可以很容易看懂，就不多说了，如果有问题欢迎提出！

mnist网络的图解

结合下经典的mnist网络，说下各层算完之后的大小

我们可以看到：

输入：32*32

conv1：6个5*5的filter，输出6*28*28

pool1：2*2，输出6*14*14

conv2：16个5*5的filter，输出16*6*10*10

pool2：2*2，输出16*6*5*5

fc1：输入16×5*5，输出120

fc2：输入120，输出84

output：输入84，输出10类

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航