mahout读书笔记 -- 聚类(1)
2013-01-06 11:23
211 查看
自己看书第二遍的记录,主要是为加深理解
第七章 聚类介绍
人类具有发现重复模式和类型的能力,例如我们能分辨甜的和咸的味道
我们在分类的时候,物品是否同类和选择的度量方式有关,比如对猿和猴可以以外形分为两类,但他们都喜欢香蕉,又可以根据这个喜好把他们归为一类,用计算机语言来表达,就是根据选择特征的不同得到不同的分类。
图书馆聚类例子:
最开始是无序状态,找本书太难了,的一本本找,进化一步是按字母排序找,存在不少缺点
按主题分类是个好主意,不过要一本本的读完并把主题相近的放一起
聚类就是从一个集合中将相似的item聚合在一起的过程,聚在一起的item要尽量相似,和其它类别的区别要尽量的大
聚类包括三件事:
1:算法
2:相似和不相似的度量
3:停止条件,达到条件后就不再进一步计算
平面图上点的例子:
圆圈圈起来挨的比较近的点形成一个聚合,有一个中心点和半径标志这个聚合,中心点坐标是各个聚合点的平均值
相似性的度量:
每个item都数字化为一个向量,向量也可以用点表示,度量相似性就是计算两个点的距离。
对于文本类的相似性,由于文本长度,stop-word等的影响,需要采用tf-idf值来做为向量值,从这里可以看出,在数据准备的时候,必须找对特征值,否则计算出的就是错误结果
第七章 聚类介绍
人类具有发现重复模式和类型的能力,例如我们能分辨甜的和咸的味道
我们在分类的时候,物品是否同类和选择的度量方式有关,比如对猿和猴可以以外形分为两类,但他们都喜欢香蕉,又可以根据这个喜好把他们归为一类,用计算机语言来表达,就是根据选择特征的不同得到不同的分类。
图书馆聚类例子:
最开始是无序状态,找本书太难了,的一本本找,进化一步是按字母排序找,存在不少缺点
按主题分类是个好主意,不过要一本本的读完并把主题相近的放一起
聚类就是从一个集合中将相似的item聚合在一起的过程,聚在一起的item要尽量相似,和其它类别的区别要尽量的大
聚类包括三件事:
1:算法
2:相似和不相似的度量
3:停止条件,达到条件后就不再进一步计算
平面图上点的例子:
圆圈圈起来挨的比较近的点形成一个聚合,有一个中心点和半径标志这个聚合,中心点坐标是各个聚合点的平均值
相似性的度量:
每个item都数字化为一个向量,向量也可以用点表示,度量相似性就是计算两个点的距离。
对于文本类的相似性,由于文本长度,stop-word等的影响,需要采用tf-idf值来做为向量值,从这里可以看出,在数据准备的时候,必须找对特征值,否则计算出的就是错误结果
相关文章推荐
- mahout读书笔记 -- 聚类(2)
- mahout读书笔记 -- 聚类(3)
- mahout读书笔记 -- 聚类(4)
- mahout读书笔记 -- 聚类(5)
- mahout读书笔记 -- 聚类(6)
- 用开源Carrot2的后缀树算法做Web文本聚类
- 聚类概念
- 文本分类和聚类有什么区别?
- 图像处理中聚类分析算法---ISODATA算法实现
- 不得不转,写的太好了。《图,谱,马尔可夫过程,聚类结构》
- (转)谱聚类(Spectral Clustering)
- 一种高效的搜索结果多层聚类方法
- Clustering of Multivariate data 多源数据的聚类
- Mahout聚类中相似度计算
- 聚类
- mahout 将聚类结果展示在网页上
- 百度之星2012初赛第二场C, 网页聚类, 二分
- k均值聚类(K-means)
- 用matlab做聚类分析
- 【OpenCV学习】Kmean均值聚类对图片进行减色处理