Spark MLlib特征处理:Binarizer 二值化---原理及实战
2016-11-12 11:19
483 查看
原理
连续特征根据阈值二值化,大于阈值的为1.0,小于等于阈值的为0.0。代码实战
代码块语法遵循标准markdown代码,例如:import org.apache.spark.ml.feature.Binarizer import org.apache.spark.sql.{DataFrame, SQLContext} import org.apache.spark.{SparkContext, SparkConf} object BinarizerExample { def main(args: Array[String]) { val conf = new SparkConf().setAppName("BinarizerExample").setMaster("local[8]") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val data: Array[(Int, Double)] = Array((0, 0.1), (1, 0.8), (2, 0.2)) //将Array转换成DataFrame val dataFrame: DataFrame = sqlContext.createDataFrame(data).toDF("label", "feature") //Threshold阈值 val binarizer: Binarizer = new Binarizer().setInputCol("feature").setOutputCol("binarized_feature").setThreshold(0.5) // transform 开始转换,将该列数据二值化,大于阈值的为1.0,否则为0.0 // spark源码:udf { in: Double => if (in > td) 1.0 else 0.0 } val binarizedDataFrame = binarizer.transform(dataFrame) val binarizedFeatures = binarizedDataFrame.select("label", "feature","binarized_feature") binarizedFeatures.show() sc.stop() } } //输出 //+-----+-------+-----------------+ //|label|feature|binarized_feature| //+-----+-------+-----------------+ //| 0| 0.1| 0.0| //| 1| 0.8| 1.0| //| 2| 0.2| 0.0| //+-----+-------+-----------------+
相关文章推荐
- Spark MLlib特征处理:OneHotEncoder OneHot编码 ---原理及实战
- Spark MLlib特征处理:OneHotEncoder OneHot编码 ---原理及实战
- Spark MLlib特征处理:TF-IDF 词频-逆文频---原理及实战
- Spark MLlib特征处理:PCA 主成分分析 ---原理及实战
- Spark MLlib特征处理:MinMax最大最小值区间缩放---原理及实战
- Spark MLlib特征处理:SVD 奇异值分解 ---原理及实战
- Spark MLlib特征处理:Normalizer 正则化---原理及实战
- Spark MLlib特征处理:StringToIndex 字符串索引---原理及实战
- Spark MLlib特征处理:均值、方差、协方差 ---原理及实战
- 响应式开发从原理到实战案例(十四):响应式改版完整案例-图片处理
- 安卓之FTP一些实战经验(异常处理,原理等)
- [置顶] XGBoost 中特征重要性和特征选择原理解析与实战
- 表格行与列边框样式处理的原理分析及实战应用
- 表格行与列边框样式处理的原理分析及实战应用
- 【图像处理】OTSU二值化原理及代码实现
- 实战 HTTP 处理程序(HTTP Handler) (6)---条码随意打
- 实战 HTTP 处理程序(HTTP Handler) (2) -- 向HTTP 处理程序传递参数
- JBuilder2005实战JSP之错误处理(4)
- 实战 HTTP 处理程序(HTTP Handler) (5)---不用临时文件,直接打开动态生成的文件
- 实战 HTTP 处理程序(HTTP Handler) (1) -- 创建一个最简单的 HTTP Handler