您的位置:首页 > 其它

mahout读书笔记 -- 聚类(3)

2013-01-06 15:45 127 查看
k-means要完成运算,需要以下输入参数:

1:包含vectors的sequencefile

2:包含初始中心点vector的sequencefile

3:相似性度量

4:convergenceThreshold,达到这个值就不在计算

5:循环次数

最后看数据是怎么读取的:

聚类结果放置在输出目录的CLUSTERED_POINTS_DIR子目录中,通过SequenceFile.Reader类读取,key是IntWritable类型,value是WeightedVectorWritable类型

这里是有一点还没搞清楚的,就是输出为什么要按上面的类型读取,找机会要研究下。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: