Spark 机器学习 —— 从决策树到随机森林
2016-04-22 11:52
225 查看
构造训练数据
import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.LabeledPoint val rawdata = sc.textFile("covtype.data") val data = rawdata.map{ line => val row = line.split('\t').map(_.toDouble) val featVec = Vectors.dense(row.init) val label = row.last - 1 LabeledPoint(featVec, label) }
MLlib 中的决策树模型要求 label 从 0 开始
随机森林
独立 ==> 并行?在大数据的背景下,随机森林非常有吸引力,因为构成决策树的随机森林通常是独立构造的(这点不同与 AdaBoost),诸如 Spark 和 MapReduce 这样的大数据技术本质上适合数据并行问题。
相关文章推荐
- 集群节点临时重启
- iOS开发数据库篇—SQLite常用的函数
- iOS对图像进行尺寸压缩
- iOS之XIB设置边框颜色属性
- phpcms V9 内联/关联链接 字符串较长链接无法正确替换的问题完美解决
- JAVA 输出日历
- Material Design学习(一)
- 提升html5的性能体验系列之四使用原生ui
- Kettle转换或作业乱码
- java虚拟机规范-加载、链接与初始化
- linux下查找包含BOM头的文件和清除BOM头命令
- 我的SpringMvc学习之路之注解
- mysql主从同步报错故障处理总结[数据库技术]
- Hibernate数据类型
- Cocoapods安装步骤
- 二进制转八进制,八进制转二进制
- 提升html5的性能体验系列之三流畅下拉刷新
- java虚拟机规范-运行时数据区
- view 边框颜色 tag值设定等
- 2016年计划