您的位置：首页 > 其它

mahout读书笔记 -- 聚类(1)

2013-01-06 11:23 211 查看

自己看书第二遍的记录，主要是为加深理解

第七章聚类介绍

人类具有发现重复模式和类型的能力，例如我们能分辨甜的和咸的味道

我们在分类的时候，物品是否同类和选择的度量方式有关，比如对猿和猴可以以外形分为两类，但他们都喜欢香蕉，又可以根据这个喜好把他们归为一类，用计算机语言来表达，就是根据选择特征的不同得到不同的分类。

图书馆聚类例子：

最开始是无序状态，找本书太难了，的一本本找，进化一步是按字母排序找，存在不少缺点

按主题分类是个好主意，不过要一本本的读完并把主题相近的放一起

聚类就是从一个集合中将相似的item聚合在一起的过程，聚在一起的item要尽量相似，和其它类别的区别要尽量的大

聚类包括三件事：

1：算法

2：相似和不相似的度量

3：停止条件，达到条件后就不再进一步计算

平面图上点的例子：

圆圈圈起来挨的比较近的点形成一个聚合，有一个中心点和半径标志这个聚合，中心点坐标是各个聚合点的平均值

相似性的度量：

每个item都数字化为一个向量，向量也可以用点表示，度量相似性就是计算两个点的距离。

对于文本类的相似性，由于文本长度，stop-word等的影响，需要采用tf-idf值来做为向量值，从这里可以看出，在数据准备的时候，必须找对特征值，否则计算出的就是错误结果

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航