Spark MLlib编程API入门系列之特征选择之R模型公式(RFormula)
2017-08-19 12:41
351 查看
不多说,直接上干货!
特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择)。
[b]RFormula[/b]用于将数据中的字段通过R语言的Model Formulae转换成特征值,输出结果为一个特征向量和Double类型的label。关于R语言Model Formulae的介绍可参考:https://stat.ethz.ch/R-manual/R-devel/library/stats/html/formula.html
代码编写
RFormula.scala
由
变成
特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择)。
[b]RFormula[/b]用于将数据中的字段通过R语言的Model Formulae转换成特征值,输出结果为一个特征向量和Double类型的label。关于R语言Model Formulae的介绍可参考:https://stat.ethz.ch/R-manual/R-devel/library/stats/html/formula.html
代码编写
RFormula.scala
package zhouls.bigdata.DataFeatureSelection import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.ml.feature.RFormula//引入ml里的特征选择的RFormula算法 /** * By zhouls */ object RFormula extends App { val conf = new SparkConf().setMaster("local").setAppName("RFormula") val sc = new SparkContext(conf) val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ //构造数据集 val dataset = sqlContext.createDataFrame(Seq( (7, "US", 18, 1.0), (8, "CA", 12, 0.0), (9, "NZ", 15, 0.0) )).toDF("id", "country", "hour", "clicked")//导入到DataFrame dataset.select("id", "country", "hour", "clicked").show() //当需要通过country和hour来预测clicked时候, //构造RFormula,指定Formula表达式为clicked ~ country + hour val formula = new RFormula().setFormula("clicked ~ country + hour").setFeaturesCol("features").setLabelCol("label") //生成特征向量及label val output = formula.fit(dataset).transform(dataset) output.select("id", "country", "hour", "clicked", "features", "label").show() }
由
变成
相关文章推荐
- Caffe学习系列(17):模型各层特征和过滤器可视化
- Spark2.0机器学习系列之2:基于Pipeline、交叉验证、ParamMap的模型选择和超参数调优
- 斯坦福ML公开课笔记10——VC维、模型选择、特征选择
- 模型选择与特征选择
- scikit-learn中交叉验证及其用于参数选择、模型选择、特征选择的例子
- 斯坦福ML公开课笔记10——VC维、模型选择、特征选择
- 机器学习系列(6)_从白富美相亲看特征预处理与选择(下)
- 公开课机器学习笔记(17)学习理论二 VC维、ERM总结、模型选择、特征选择
- cross_val_score交叉验证及其用于参数选择、模型选择、特征选择
- 基于深度学习的人脸识别系统系列(Caffe+OpenCV+Dlib)——【三】使用Caffe的MemoryData层与VGG网络模型提取Mat的特征
- SparkML中三种特征选择算法(VectorSlicer/RFormula/ChiSqSelector)
- ISLR系列:(4.1)模型选择 Subset Selection
- 机器学习系列(6)_从白富美相亲看特征预处理与选择(下)
- 机器学习系列(5)_从白富美相亲看特征预处理与选择(上)
- 【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子
- Spark_Mllib系列之二———提取,转化和特征选择
- 模型选择之特征选择
- 机器学习系列(5)_从白富美相亲名单看特征选择与预处理(上)
- 机器学习系列(6)_从白富美相亲看特征预处理与选择(下)
- 特征的选择_02:RFormula