您的位置:首页 > 其它

mahout读书笔记 -- 聚类(1)

2013-01-06 11:23 211 查看
自己看书第二遍的记录,主要是为加深理解

第七章 聚类介绍

人类具有发现重复模式和类型的能力,例如我们能分辨甜的和咸的味道

我们在分类的时候,物品是否同类和选择的度量方式有关,比如对猿和猴可以以外形分为两类,但他们都喜欢香蕉,又可以根据这个喜好把他们归为一类,用计算机语言来表达,就是根据选择特征的不同得到不同的分类。

图书馆聚类例子:

最开始是无序状态,找本书太难了,的一本本找,进化一步是按字母排序找,存在不少缺点

按主题分类是个好主意,不过要一本本的读完并把主题相近的放一起

聚类就是从一个集合中将相似的item聚合在一起的过程,聚在一起的item要尽量相似,和其它类别的区别要尽量的大

聚类包括三件事:

1:算法

2:相似和不相似的度量

3:停止条件,达到条件后就不再进一步计算

平面图上点的例子:

圆圈圈起来挨的比较近的点形成一个聚合,有一个中心点和半径标志这个聚合,中心点坐标是各个聚合点的平均值

相似性的度量:

每个item都数字化为一个向量,向量也可以用点表示,度量相似性就是计算两个点的距离。

对于文本类的相似性,由于文本长度,stop-word等的影响,需要采用tf-idf值来做为向量值,从这里可以看出,在数据准备的时候,必须找对特征值,否则计算出的就是错误结果
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: