您的位置：首页 > 大数据

大数据：聚类

2013-02-23 16:23 148 查看

大数据：聚类

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第七章的总结。

1 聚类：促某空间下点形式的有用的概要表示。为了对点进行聚类，需要在该空间下定义一个距离测度。

2 聚类算法：层次聚类算法将每个点自己都看成一个簇，然后相近的簇进行合并。点分配聚类算法依次考虑每个点并将他们分配到最符合的簇。

3 维数灾难：高维欧式空间和非欧空间。随机点之间往往具有相同的距离，随机向量往往近似相互正交。

4 质心和中心点：欧式空间所有元素求平均，该平均值为簇的质心。非欧空间选择代表元素或典型元素代表簇中心点。

5 中心点选择：非欧空间簇的典型点选择，点到该簇其他点距离之和最小，上述距离的平方和最短等等。

6 半径和直径：半径质心到中心点最大距离，直径为簇内任意两点间的最大距离。

7 层次聚类：选择下一步合并；停止合并；

8 选择簇进行合并：选择质心或中心点最近的簇合并；选择具有最相近点的两个簇合并；

9 合并停止条件：达到固定数目的簇；簇的半径直径达到某个阈值；

10 K-均值算法：点分配算法欧式空间。

11 K-均值算法的初始化:选择K个质心的方法是随机选择一点，然后选择另外K-1个点，每个点选择尽可能远离前面选出的点；另外一种选择小的样本点集，使用层次聚类算法将他们合并成K个簇。

12 K-均值K的选择：使用二分技术在不同的K值上运行K-均值聚类算法。搜索K的最大值以至于当下降k的值时，簇的平均直径会急剧增大。

13 BFR算法：假设簇在坐标轴方向都满足正态分布，以k-均值算法为基础处理内存无法存放的大数据。点从磁盘以组块的方式读出，簇用点的数目，所有点的向量，所有点每一维分量上的平方和的向量表示。簇中远离质心的点表示成所谓的迷你簇，不靠近任意其他点的点用自己表示，为留存点。簇中大部分点分配给相近的簇，簇的参数由新加入的点调整，迷你簇可相互合并，最后一次内存装载，迷你簇和留存点可以合并到最近的簇中或保存为离群点。

14 CURE算法：点分配算法一种，欧式空间下，簇可能是任意形状，处理内存无法存放的大数据。算法开始对小规模点集样本进行聚类，然后为每个簇选择代表点，选择时近可能让这些代表点之间相距较大。最终目标是从簇的边缘上选择代表点。每个簇建立代表点后，整个点集可从磁盘读出并分配给一簇。

15 GRGPF算法：点分配，可在非欧空间下，簇表示为簇中心点数目，簇中心点，离中心点最近的点集和离中心点最远的点集。对每个点，记录点到簇中所有其他点的距离平方和和算术平方根Rowsum，簇会组成一棵类似B-树，节点是磁盘块，叶节点表示尽可能多的簇，父节点保留簇中心点样本。点集样本初始化后，将每个点插入到离他最近的那个簇。

16 流聚类：DRIM 在滑动窗口中对1计数的方法，演变成缓慢流点聚类。桶大小形成序列，每个桶大小是前一个桶大小的2倍。桶的大小是其所代表点的数目。桶表示簇，而非点本身。桶合并时选择簇最相近的。聚类结果作为查询应答。

17 基于Map-Reduce的聚类：将数据划分成组块，Map对每个组块聚类，map输出的簇由reduce进一步聚类。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航