您的位置：首页 > 运维架构

Kaggle-Camera_Model_Identification 比赛记录总结[19/582(Top 4%)]

2018-02-11 14:50 323 查看

这篇博客记录自己在这次kaggle比赛中做的工作。成绩：19/582（Top 4%）

Kaggle比赛地址

我的代码github地址

这次比赛是给出10个相机拍摄的照片，然后给出测试图片，区分是哪个相机拍摄的。训练集中每类照片数量相同，每类都是由同一个手机拍摄的照片。测试集中，每类的照片都是来自另外一个手机，一半的图片可能被用了八种可能的操作。

总结：

1. 更多的数据。一开始只用了kaggle提供的数据，数据比较少，但是很平衡，每类只有275张，按照4:1的概率分了训练集和val集，训练集中每张图片都使用8种操作进行了data augmentation，一开始val集没有进行augmentation，所以训练的时候test准确率都特别高，差不多到1了，借鉴的意义不大了，后来对val集也进行了data aumentation，试图减小test与val之间的gap，训练的时候val的准确率到达0.98。只使用kaggle的数据时，训练得到的模型并不理想。后来，有人在Discussion分享了更多的数据，楼主找到了更多的数据，并跳出了其中与kaggle提供的数据具有相同分辨率的图片，但是由于找到的motox的图片与kaggle提供的不完全相同，所以楼主建议不用，这样数据量提升了，但是数据不平衡了，下载了这些数据之后，同样进行了data
augmentation，数据量扩充到了六万多，使用这些数据训练之后，效果提升的很明显，但是数据不均衡导致model对motox的识别错误率更高，所以尝试增加motox的数据量。使用同一个博主下另外一个人提供的motox的数据，增加了motox的数据之后训练更稳定了，得到的模型比之前更好了，单个模型single crop的结果可以稳定在0.964。在数据方面，还有的问题就是没有分交叉验证集，一直保持着同一个验证集，不同模型使用完全一样的数据进行训练，模型多样性上有所缺失。

2.尝试不同的模型。使用imagenet预先训练的模型进行finetune。尝试了的模型有inceptionResnetV2、SeResneXt50、resnet50、resnet101，一开始调整参数，对于每个模型都要保证学的很好。因为数据集的原因，每次添加训练数据都需要重新训练模型，这样就重复训练了模型，花费了不少的时间。尝试了简单的调整网络结构，比如添加fc layer，设置dropout。

3.TTA，Test Time Augmentation。就是测试时的时候一张图片进行多次测试，然后得到的概率进行平均。我这里使用的同一张照片进行5次crop(四个角和center)，之后mirror，也就是一张图片预测10次，最后将10次预测的结果平均。使用multi crop测试，准确率上升了0.01-0.15。

4.Ensemble。尝试了多种ensemble的方式，包括简单的对多个model预测的结果进行平均、从pooling抽取特征，重新训练fc或者使用xgb来进行分类、根据各个模型对训练数据的预测正确情况，给每个model对每类预测的结果加个权重等。从结果上看，ensemble还是有些许提升的，但是在比赛时，有的ensemble方法在public score上并没有体现出来，最终没有选择，还是比较可惜的。

5.结果分析：数据量要多，质量需要高，数据多了之后可以做更多的尝试，或者要学会利用好数据，比如val集的设置，这个很关键，这个才能比较靠谱的验证模型预测的情况，public score毕竟给出的只有小数据集的预测结果，private跟public可能有比较大的差异。设置交叉验证集，可以使用不同的数据对模型进行训练。在这次比赛中，几个成绩不错的队伍使用了pseudo-labeling的方法，给模型带来了些许的提升。还需要学习多种ensemble的方法，比如stack、blending。比赛过程中，最好成绩是第二，在前三呆了很久，最后却掉出了金牌区，还是有遗憾的吧，但是这次比赛投入的时间精力都很多，做的工作也算是比较完整了，能想到的每一步都做了尝试，虽然有些没有work。还是需要多多积累，有些方法必须用了，听说了才知道，这也是比赛中才能学到的吧。

pseudo-labeling:

第一步：使用标签数据训练模型

第二步：使用训练的模型为不加标签的数据预测标签

第三步：同时使用pseudo和标签数据集重新训练模型

在第三步中训练的最终模型用于对测试数据的最终预测。

以下是这次比赛过程中自己记录的一些东西。

处理了训练数据，traing: validation = 4:1

测试数据将tif转为jpgquality=95(resnet50_7500
使用tif测试的效果好于jpg)

由于测试图片中，差不多一半的图片可能进行了八种（给出）操作之中的一种操作，所以对

每个测试图片都进行了这八种操作，相关于做了data augmentation (*9)（这样的话，原图与进行操作的图之间的比例变为1:8，这样的样本不均衡会有影响吗？）

有人在Discussion中给出了给多的数据，但是moto x的数据来自老的手机型号，所以没有使用。同样对获得数据进行了八种操作的扩充，得到了总共大概60k的训练数据。

后来由于数据不均衡(motox数据比其他种类的少)，导致了

Finetune resnet50 caffemodel

单个model差不多到0.85

（caffe to sensenet:data后和fc前加gather，修改conv，修改BN，删除BN下的scale）

crop_size = 224 所有图片用于训练

Crop_size = 224 train & val

Add FC layer

使用TrainAug2-2单个model可达0.964，multicrop可以到0.971

   3. 官方caffe显示loss、accuracy：

caffe-master/tools/extra目录里的extract_seconds.py，plot_training_log.py.example， parse_log.sh

    4. Finetune inception V4

一开始忘了把BN的global_statue改掉，训了一段发现效果一般停了，改了prototxt。

单个model目前最高(0.870)

Finetune inceptionResNetV2

单个model目前最高(0.893)(incepResV2_AddFC_4)，

A.增加了第一阶段训练时间

B.增加fc layer(256->10)，扩大了fc layers中的lr_mult

数据扩充之后，训练了inceptionResnetV2_AddFC，目前单个模型最高0.948。

训练参数：

lr_policy:"multistep"

base_lr:0.01

gamma:0.2

stepvalue:20000

stepvalue:38000

stepvalue:45000

stepvalue:50000

stepvalue:55000

max_iter:60000

momentum:0.9

weight_decay:0.0005

stepvalue:85000

stepvalue:115000

stepvalue:145000

stepvalue:165000

stepvalue:175000

max_iter:185000

目前单个模型最高0.962，inceptionResnetV2_aug_AddFC4_185000(dp=0.4,dp由0.2改为了0.4)

更新：

inceptionResnetV2单个模型最高0.964，inceptionResnetV2_aug_164000

训练参数：

lr_policy:"multistep"

base_lr:0.01

gamma:0.2

stepvalue:68000

stepvalue:119000

stepvalue:146000

stepvalue:170000

max_iter: 190000

使用TrainAug2-1训练之后也达到了0.964（inceptionResnetV2_aug2-1_200000）

lr_policy:"multistep"

base_lr:0.01

gamma:0.2

stepvalue:70000

stepvalue:120000

stepvalue:146000

stepvalue:170000

stepvalue:190000

max_iter:200000

   6. Finetue SE-ResNeXt-50

单个model目前最高(0.871)

数据扩充之后，单个模型最高0.949（SE-ResNext-50_AddFC_aug_55000）

lr_policy:"multistep"

base_lr:0.01

gamma:0.2

stepvalue:20000

stepvalue:40000

stepvalue:50000

stepvalue:56000

max_iter:60000

使用TrainAug2_1训练，单个模型最高到0.964（SE_aug2-1_200000）

lr_policy:"multistep"

base_lr:0.01

gamma:0.2

stepvalue:70000

stepvalue:120000

stepvalue:146000

stepvalue:170000

stepvalue:190000

max_iter:200000

    6.Naive Ensemble

A.最终输出的概率求和然后取最大，相当于average，目前是两个model，分别是prob_0(caffe_AddFC_18000).npy和prob_0(inception_ResNetV2_30000).npy，如果只是简单的相加求和，发现效果并不好，但是如果把prob_0(inception_ResNetV2_30000).npy的权重改为1.5，发现稍有提升。

B.取最大，目前发现效果不好

     7. Finetune Resnet101

目前单个模型最优为：model_209000

base_lr:0.01

gamma:0.2

stepvalue:60000

stepvalue:120000

stepvalue:150000

stepvalue:174000

stepvalue:195000

max_iter: 210000

Aug2_2下Res101 singlemodel可以到0.957
resnet101_aug2-2_208000

base_lr:0.01

gamma:0.1

stepvalue:100000

stepvalue:150000

stepvalue:180000

stepvalue:200000

max_iter: 210000

最后得到了一个应该比上面记录还好的model，比赛最后一天才训练结束，提交次数限制，没有提交测试。

      8.使用val_aug分析了0.962那个model的预测结果，发现label0预测得到的结果错误率比较高，因为0数据较少，尝试对0做augmentation。

分析得到的数据：

042

17

213

33

43

51

69

710

816

93

01980

17839

212213

34437

45625

56471

66930

78712

86993

96903

上面10行对应的是grondtruth和错误的个数，下面10行为对应label的训练数据的数量。

本来是想通过旋转的方式来扩充MotoX的数据的，但是发现旋转之后保存的图片存储变小了，所以放弃了这种想法，直接修改训练的list，将MotoX的部分数据重复几次。将MotoX的数据扩充到6000左右（1980*3）。

       9.训练数据集：

TrainAug2.txt 使用原始训练数据加上good_jpgs

TrainAug2.txt使用原始所有数据（train+val）加上good_jpgs

BalanceTrain.txt平衡TrainAug2数据，使得每个类别的数据都为6993

TrainAug3    TrainAug2+部分重复的MotoX

TrainAug2_1.txt      TrainAug2+val_image_aug+MotoxExtraAug

TrainAug2_1.txt     TrainAug2+val_image_aug+MotoxExtraAug+MotoxExtraAug2

10.Multi crop test

四个角落中间然后mirror得到10张图，分别预测之后取平均值，预测score增加差不多0.01

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航