【deeplearning.ai笔记第二课】1.1 训练集,验证集和测试集
2017-10-19 11:05
344 查看
一般把数据集分为三部分:train set, valid set, test set
分别用于训练模型,调整超参数,测试模型。
其中valid set 又叫development set ,简称 dev set。
而大数据时代,这个比例就不太适用了。因为百万级的数据集,即使拿1%的数据做test也有一万之多,已经足够了。可以那更多的数据做训练。因此常见的比例可以达到98:1:1 ,甚至可以达到99.5:0.4:0.1等。
实际项目中,会出现训练集和验证集,测试集不太一样的情况。
比如训练集是网上爬取的猫片,验证集和测试集是自己手机拍的照片。
这种情况下,要保证验证集和测试集来自同一分布,不然的话,模型的评估就有问题。
只有train set 和dev set ,没有test set 也可以。
很多团队会把这种情况下的dev set 称为test set
分别用于训练模型,调整超参数,测试模型。
其中valid set 又叫development set ,简称 dev set。
交叉验证(hold out cross validation)
随机从一组测定数据中抽取一部分数据来建立模型,用其余的数据来检验此模型的方法。最常见的是十折交叉验证,即把训练集随机分为十份,每次取一份做valid set,剩余作为train set。这样得到N个模型,N个验证结果。用这N个结果的平均值来衡量模型的性能。分配比例
传统机器学习阶段(数据集在万这个数量级),一般分配比例为6:2:2而大数据时代,这个比例就不太适用了。因为百万级的数据集,即使拿1%的数据做test也有一万之多,已经足够了。可以那更多的数据做训练。因此常见的比例可以达到98:1:1 ,甚至可以达到99.5:0.4:0.1等。
Mismatched train/test distribution
实际项目中,会出现训练集和验证集,测试集不太一样的情况。
比如训练集是网上爬取的猫片,验证集和测试集是自己手机拍的照片。
这种情况下,要保证验证集和测试集来自同一分布,不然的话,模型的评估就有问题。
只有train set 和dev set ,没有test set 也可以。
很多团队会把这种情况下的dev set 称为test set
相关文章推荐
- DeepLearningAI 学习笔记 1.1 深度学习概论
- 【deeplearning.ai笔记第二课】2.1 随机梯度下降,批量梯度下降和小批量梯度下降
- 【deeplearning.ai笔记第二课】2.3 学习率衰减(learning rate decay),局部极小值和鞍点
- 【deeplearning.ai笔记第二课】1.2 欠拟合和过拟合(bias variance)
- 【deeplearning.ai笔记第二课】2.2 优化算法(动量梯度下降,RMSprop,adam)
- 【deeplearning.ai笔记第二课】1.3 机器学习基本方法(Basic recipe for machine learning)
- 【deeplearning.ai笔记第二课】2.4 batch normalization
- 【deeplearning.ai笔记第二课】1.4 正则化,权重初始化和输入归一化
- [DeeplearningAI笔记]ML strategy_2_2训练和开发/测试数据集不匹配问题
- Coursera deeplearning.ai 深度学习笔记1-2-Neural Network Basics-逻辑回归原理推导与代码实现
- 训练集 验证集 测试集
- 【吴恩达deeplearning.ai笔记二】通俗讲解神经网络下
- DeepLearningAI 学习笔记 1.2 logistic 回归
- 302页吴恩达Deeplearning.ai课程笔记,详记基础知识与作业代码
- 深层神经网络 --DeepLearning.ai 学习笔记(1-4)
- 机器学习之训练集_验证集_测试集
- 目标检测 - -DeepLearning.ai 学习笔记(4-3)
- Deeplearning.ai学习笔记-神经网络和深度学习(一)
- 吴恩达Coursera深度学习课程 DeepLearning.ai 提炼笔记(1-4)-- 深层神经网络
- [DeeplearningAI笔记]改善深层神经网络1.1_1.3深度学习实用层面_偏差/方差/欠拟合/过拟合/训练集/验证集/测试集