mahout读书笔记 -- 聚类(3)
2013-01-06 15:45
127 查看
k-means要完成运算,需要以下输入参数:
1:包含vectors的sequencefile
2:包含初始中心点vector的sequencefile
3:相似性度量
4:convergenceThreshold,达到这个值就不在计算
5:循环次数
最后看数据是怎么读取的:
聚类结果放置在输出目录的CLUSTERED_POINTS_DIR子目录中,通过SequenceFile.Reader类读取,key是IntWritable类型,value是WeightedVectorWritable类型
这里是有一点还没搞清楚的,就是输出为什么要按上面的类型读取,找机会要研究下。
1:包含vectors的sequencefile
2:包含初始中心点vector的sequencefile
3:相似性度量
4:convergenceThreshold,达到这个值就不在计算
5:循环次数
最后看数据是怎么读取的:
聚类结果放置在输出目录的CLUSTERED_POINTS_DIR子目录中,通过SequenceFile.Reader类读取,key是IntWritable类型,value是WeightedVectorWritable类型
这里是有一点还没搞清楚的,就是输出为什么要按上面的类型读取,找机会要研究下。
相关文章推荐
- mahout读书笔记 -- 聚类(1)
- mahout读书笔记 -- 聚类(2)
- mahout读书笔记 -- 聚类(4)
- mahout读书笔记 -- 聚类(5)
- mahout读书笔记 -- 聚类(6)
- 基于文本的信息自动聚类
- 层次聚类的时间控制
- 聚类基本数学模型
- 超大数据之GPU聚类 (10亿量级)
- 互联网中的使用习惯与行为聚类
- Spectral Clustering[谱聚类]
- [学习]探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
- Lucene聚类分组统计功能(grouping)
- [Hadoop in China 2011] 人人网:基于Hadoop的SNS统计和聚类推荐
- 数据挖掘中分类和聚类的区别
- 探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
- 完整的最简单的谱聚类python代码
- 使用Mahout0.5进行中文聚类
- 一些关于文档聚类和搜索结果聚类算法的开源项目
- 聚类评估