Spark机器学习——模型选择与参数调优之交叉验证
2018-01-30 15:57
357 查看
spark 模型选择与超参调优
机器学习可以简单的归纳为 通过数据训练
y = f(x)的过程,因此定义完训练模型之后,就需要考虑如何选择最终我们认为最优的模型。
如何选择最优的模型,就是本篇的主要内容:
模型验证的方法
超参数的选择
评估函数的选择
模型验证的方法
在《统计学习方法》这本书中,曾经讲过模型验证的方法有三种,分别是简单的交叉验证,
S折交叉验证,
留一交叉验证
简单的交叉验证
即把全部数据按照比例分割成两部分,分别是训练集和测试集。在训练集训练模型,在测试集测试效果,最终选择一个代价比较小的结果。一般是0.75。S折交叉验证
设置S为一个数,一般是3或者10居多。如果是3,那么前2份作为训练集,最后一份作为测试集。留一交叉验证
如果S的个数正好是样本的容量,就是留一交叉验证。PS:
训练集是用于训练模型,测试集适用于判断此次训练效果。
在Spark MLLib中,为我们提供了两种验证方法,分别是
Cross-Validation: S折交叉验证
Train-ValidationSplit:简单交叉验证
超参数的选择
在Spark MLLib中,超参数可以通过上面的验证方法,作为参数传进去:// 定义超参数集合 val paramGrid = new ParamGridBuilder() .addGrid(hashingTF.numFeatures, Array(10, 100, 1000)) .addGrid(lr.regParam, Array(0.1, 0.01)) .build() // 定义验证器 val cv = new CrossValidator() .setEstimator(pipeline) .setEvaluator(new BinaryClassificationEvaluator) .setEstimatorParamMaps(paramGrid) .setNumFolds(2) // Use 3+ in practice
其中hashingTF给设置了3个参数、lr给了2个参数,如果正常我们想要验证这6个参数的组合,应该需要验证6次。但是在Spark中,基于Validator可以一次性验证出来,并自动选择最后代价最小的那个。
PS
上面S折交叉验证中S的参数为2,因此内部只有一个训练集;如果是3,那么最终运行的训练次数将会是
(3*2)*2 = 12次。
评估函数的确定
Spark提供了三种评估函数:RegressionEvaluator用于回归预测的问题
BinaryClassificationEvaluator用于二分类问题
MulticlassClassificationEvaluator用于多分类问题
详细的代码,可以参考:
http://spark.apache.org/docs/latest/ml-tuning.html
相关文章推荐
- Spark2.0机器学习系列之1:基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优
- Spark2.0机器学习系列之2:基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优
- 交叉验证及其用于参数选择、模型选择、特征选择的例子
- scikit-learn中交叉验证及其用于参数选择、模型选择、特征选择的例子
- 交叉验证--模型参数选择
- machine learning in coding(python):使用交叉验证【选择模型超参数】
- cross_val_score交叉验证及其用于参数选择、模型选择、特征选择
- 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
- 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
- 模型调优:交叉验证,超参数搜索(复习17)
- 交叉验证--模型参数选择
- 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
- libsvm交叉验证与网格搜索(参数选择)
- 模型选择之交叉验证
- sklearn模型调优(判断是否过过拟合及选择参数)
- 【Scikit-Learn 中文文档】交叉验证 - 模型选择和评估 - 用户指南 | ApacheCN
- [Spark2.0]ML 调优:模型选择和超参数调优
- 【Scikit-Learn 中文文档】交叉验证 - 模型选择和评估 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】交叉验证 - 模型选择和评估 - 用户指南 | ApacheCN
- 机器学习 libsvm交叉验证与网格搜索(参数选择)