Scala语言 + Spark MLLib进行机器学习---聚类
2014-05-25 17:29
267 查看
在下面的例子中,我们首先加载和解析数据,然后使用KMeans算法将数据聚成两类。聚类的数目可以在程序中设定并传递给KMeans算法。然后计算集合内方差和( Within Set Sum of Squared Error,这是评价聚类好坏的标准,数值越小说明同一簇实例之间的距离越小。---译者注)
import org.apache.spark.mllib.clustering.KMeans // Load and parse the data val data = sc.textFile("kmeans_data.txt") val parsedData = data.map( _.split(' ').map(_.toDouble)) // Cluster the data into two classes using KMeans val numIterations = 20 val numClusters = 2 val clusters = KMeans.train(parsedData, numClusters, numIterations) // Evaluate clustering by computing Within Set Sum of Squared Errors val WSSSE = clusters.computeCost(parsedData) println("Within Set Sum of Squared Errors = " + WSSSE)
相关文章推荐
- Scala语言 + Spark MLLib进行机器学习---支持向量机
- Scala语言 + Spark MLLib进行机器学习---线性回归
- [机器学习]基于spark框架的scala语言MAC环境的安装
- 为什么 Python被Google选为TensorFlow的开发语言呢?使用 Python比C++语言进行机器学习有什么优势?
- 机器学习讲座,如何利用Spark MLlib进行个性推荐?
- 机器学习讲座,如何利用Spark MLlib进行个性推荐?
- Python语言进行机器学习的开源项目
- 使用pyspark进行机器学习(聚类问题)
- [机器学习]基于spark框架的scala语言MAC环境的安装
- Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
- 基因数据处理16之scala对BWASW运行结果进行时间统计
- 获取系统URL访问的前三名(通过Scala方式实现/通过Spark方式实现),Spark将URL访问日志进行分类并通过自定义Partitioner的方式将文件写入到不同分区上
- 【原】Spark之机器学习(Python版)(一)——聚类
- 一文告诉你机器学习中进行模型评价、模型选择和算法选择的终极方法(PART I)
- 二十种特征变换方法及Spark MLlib调用实例(Scala/Java/python)(二)
- Linux用GCC和GDB对C语言进行汇编语言分析
- 【Scala-ML】使用Scala构建机器学习工作流
- 机器学习入门- 聚类和相似度(文档检索)
- 利用Scala语言开发Spark应用程序
- 基于IntelliJ IDEA开发Spark的Maven项目——Scala语言