大数据:聚类
2013-02-23 16:23
148 查看
大数据:聚类
下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第七章的总结。
1 聚类:促某空间下点形式的有用的概要表示。为了对点进行聚类,需要在该空间下定义一个距离测度。
2 聚类算法:层次聚类算法 将每个点自己都看成一个簇,然后相近的簇进行合并。点分配聚类算法依次考虑每个点并将他们分配到最符合的簇。
3 维数灾难:高维欧式空间和非欧空间。随机点之间往往具有相同的距离,随机向量往往近似相互正交。
4 质心和中心点:欧式空间所有元素求平均,该平均值为簇的质心。非欧空间选择代表元素或典型元素代表簇中心点。
5 中心点选择:非欧空间簇的典型点选择,点到该簇其他点距离之和最小,上述距离的平方和最短等等。
6 半径和直径:半径质心到中心点最大距离,直径为簇内任意两点间的最大距离。
7 层次聚类:选择下一步合并;停止合并;
8 选择簇进行合并:选择质心或中心点最近的簇合并;选择具有最相近点的两个簇合并;
9 合并停止条件:达到固定数目的簇;簇的半径直径达到某个阈值;
10 K-均值算法:点分配算法欧式空间。
11 K-均值算法的初始化:选择K个质心的方法是随机选择一点,然后选择另外K-1个点,每个点选择尽可能远离前面选出的点;另外一种选择小的样本点集,使用层次聚类算法将他们合并成K个簇。
12 K-均值K的选择:使用二分技术在不同的K值上运行K-均值聚类算法。搜索K的最大值以至于当下降k的值时,簇的平均直径会急剧增大。
13 BFR算法:假设簇在坐标轴方向都满足正态分布,以k-均值算法为基础处理内存无法存放的大数据。点从磁盘以组块的方式读出,簇用点的数目,所有点的向量,所有点每一维分量上的平方和的向量表示。簇中远离质心的点表示成所谓的迷你簇,不靠近任意其他点的点用自己表示,为留存点。簇中大部分点分配给相近的簇,簇的参数由新加入的点调整,迷你簇可相互合并,最后一次内存装载,迷你簇和留存点可以合并到最近的簇中或保存为离群点。
14 CURE算法:点分配算法一种,欧式空间下,簇可能是任意形状,处理内存无法存放的大数据。算法开始对小规模点集样本进行聚类,然后为每个簇选择代表点,选择时近可能让这些代表点之间相距较大。最终目标是从簇的边缘上选择代表点。每个簇建立代表点后,整个点集可从磁盘读出并分配给一簇。
15 GRGPF算法:点分配,可在非欧空间下,簇表示为簇中心点数目,簇中心点,离中心点最近的点集和离中心点最远的点集。对每个点,记录点到簇中所有其他点的距离平方和和算术平方根Rowsum,簇会组成一棵类似B-树,节点是磁盘块,叶节点表示尽可能多的簇,父节点保留簇中心点样本。点集样本初始化后,将每个点插入到离他最近的那个簇。
16 流聚类:DRIM 在滑动窗口中对1计数的方法,演变成缓慢流点聚类。桶大小形成序列,每个桶大小是前一个桶大小的2倍。桶的大小是其所代表点的数目。桶表示簇,而非点本身。桶合并时选择簇最相近的。聚类结果作为查询应答。
17 基于Map-Reduce的聚类:将数据划分成组块,Map对每个组块聚类,map输出的簇由reduce进一步聚类。
下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第七章的总结。
1 聚类:促某空间下点形式的有用的概要表示。为了对点进行聚类,需要在该空间下定义一个距离测度。
2 聚类算法:层次聚类算法 将每个点自己都看成一个簇,然后相近的簇进行合并。点分配聚类算法依次考虑每个点并将他们分配到最符合的簇。
3 维数灾难:高维欧式空间和非欧空间。随机点之间往往具有相同的距离,随机向量往往近似相互正交。
4 质心和中心点:欧式空间所有元素求平均,该平均值为簇的质心。非欧空间选择代表元素或典型元素代表簇中心点。
5 中心点选择:非欧空间簇的典型点选择,点到该簇其他点距离之和最小,上述距离的平方和最短等等。
6 半径和直径:半径质心到中心点最大距离,直径为簇内任意两点间的最大距离。
7 层次聚类:选择下一步合并;停止合并;
8 选择簇进行合并:选择质心或中心点最近的簇合并;选择具有最相近点的两个簇合并;
9 合并停止条件:达到固定数目的簇;簇的半径直径达到某个阈值;
10 K-均值算法:点分配算法欧式空间。
11 K-均值算法的初始化:选择K个质心的方法是随机选择一点,然后选择另外K-1个点,每个点选择尽可能远离前面选出的点;另外一种选择小的样本点集,使用层次聚类算法将他们合并成K个簇。
12 K-均值K的选择:使用二分技术在不同的K值上运行K-均值聚类算法。搜索K的最大值以至于当下降k的值时,簇的平均直径会急剧增大。
13 BFR算法:假设簇在坐标轴方向都满足正态分布,以k-均值算法为基础处理内存无法存放的大数据。点从磁盘以组块的方式读出,簇用点的数目,所有点的向量,所有点每一维分量上的平方和的向量表示。簇中远离质心的点表示成所谓的迷你簇,不靠近任意其他点的点用自己表示,为留存点。簇中大部分点分配给相近的簇,簇的参数由新加入的点调整,迷你簇可相互合并,最后一次内存装载,迷你簇和留存点可以合并到最近的簇中或保存为离群点。
14 CURE算法:点分配算法一种,欧式空间下,簇可能是任意形状,处理内存无法存放的大数据。算法开始对小规模点集样本进行聚类,然后为每个簇选择代表点,选择时近可能让这些代表点之间相距较大。最终目标是从簇的边缘上选择代表点。每个簇建立代表点后,整个点集可从磁盘读出并分配给一簇。
15 GRGPF算法:点分配,可在非欧空间下,簇表示为簇中心点数目,簇中心点,离中心点最近的点集和离中心点最远的点集。对每个点,记录点到簇中所有其他点的距离平方和和算术平方根Rowsum,簇会组成一棵类似B-树,节点是磁盘块,叶节点表示尽可能多的簇,父节点保留簇中心点样本。点集样本初始化后,将每个点插入到离他最近的那个簇。
16 流聚类:DRIM 在滑动窗口中对1计数的方法,演变成缓慢流点聚类。桶大小形成序列,每个桶大小是前一个桶大小的2倍。桶的大小是其所代表点的数目。桶表示簇,而非点本身。桶合并时选择簇最相近的。聚类结果作为查询应答。
17 基于Map-Reduce的聚类:将数据划分成组块,Map对每个组块聚类,map输出的簇由reduce进一步聚类。
相关文章推荐
- 数据挖掘-概念与技术-第10章聚类作业题
- 使用路易社的数据进行聚类测试
- 对需要聚类的数据使用canopy做初步的计算
- 【数据挖掘算法】聚类方法——K-均值聚类算法
- 数据挖掘之聚类
- 聚类算法 sklearn k_means (返回一维数据的最优聚类)
- (原创2008.07.21)对iris数据进行聚类分析的程序(模式识别)
- 数据挖掘实验(SAS)聚类
- 使用Orange进行数据挖掘之聚类分析(2)------K-means
- Python数据挖掘建模 chapter_3 聚类
- 数据挖掘(三)聚类
- 数据中聚类个数的确定(Determining the number of clusters in a data set)
- 数据挖掘-聚类分析
- 使用聚类做数据分析
- 数据挖掘之密度聚类---RStudio绘制中国城市密度图
- 数据挖掘:聚类
- 【大数据部落】用R进行网站评论文本挖掘聚类
- Spark数据挖掘-基于 K 均值聚类的网络流量异常检测(1): 数据探索、模型初探
- 大数据之数据挖掘理论笔记 聚类问题之K-means
- 对服从正态分布的数据进行狄利克雷聚类