您的位置:首页 > 大数据

大数据:聚类

2013-02-23 16:23 148 查看
大数据:聚类

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第七章的总结。

1 聚类:促某空间下点形式的有用的概要表示。为了对点进行聚类,需要在该空间下定义一个距离测度。

2 聚类算法:层次聚类算法 将每个点自己都看成一个簇,然后相近的簇进行合并。点分配聚类算法依次考虑每个点并将他们分配到最符合的簇。

3 维数灾难:高维欧式空间和非欧空间。随机点之间往往具有相同的距离,随机向量往往近似相互正交。

4 质心和中心点:欧式空间所有元素求平均,该平均值为簇的质心。非欧空间选择代表元素或典型元素代表簇中心点。

5 中心点选择:非欧空间簇的典型点选择,点到该簇其他点距离之和最小,上述距离的平方和最短等等。

6 半径和直径:半径质心到中心点最大距离,直径为簇内任意两点间的最大距离。

7 层次聚类:选择下一步合并;停止合并;

8 选择簇进行合并:选择质心或中心点最近的簇合并;选择具有最相近点的两个簇合并;

9 合并停止条件:达到固定数目的簇;簇的半径直径达到某个阈值;

10 K-均值算法:点分配算法欧式空间。

11 K-均值算法的初始化:选择K个质心的方法是随机选择一点,然后选择另外K-1个点,每个点选择尽可能远离前面选出的点;另外一种选择小的样本点集,使用层次聚类算法将他们合并成K个簇。

12 K-均值K的选择:使用二分技术在不同的K值上运行K-均值聚类算法。搜索K的最大值以至于当下降k的值时,簇的平均直径会急剧增大。

13 BFR算法:假设簇在坐标轴方向都满足正态分布,以k-均值算法为基础处理内存无法存放的大数据。点从磁盘以组块的方式读出,簇用点的数目,所有点的向量,所有点每一维分量上的平方和的向量表示。簇中远离质心的点表示成所谓的迷你簇,不靠近任意其他点的点用自己表示,为留存点。簇中大部分点分配给相近的簇,簇的参数由新加入的点调整,迷你簇可相互合并,最后一次内存装载,迷你簇和留存点可以合并到最近的簇中或保存为离群点。

14 CURE算法:点分配算法一种,欧式空间下,簇可能是任意形状,处理内存无法存放的大数据。算法开始对小规模点集样本进行聚类,然后为每个簇选择代表点,选择时近可能让这些代表点之间相距较大。最终目标是从簇的边缘上选择代表点。每个簇建立代表点后,整个点集可从磁盘读出并分配给一簇。

15 GRGPF算法:点分配,可在非欧空间下,簇表示为簇中心点数目,簇中心点,离中心点最近的点集和离中心点最远的点集。对每个点,记录点到簇中所有其他点的距离平方和和算术平方根Rowsum,簇会组成一棵类似B-树,节点是磁盘块,叶节点表示尽可能多的簇,父节点保留簇中心点样本。点集样本初始化后,将每个点插入到离他最近的那个簇。

16 流聚类:DRIM 在滑动窗口中对1计数的方法,演变成缓慢流点聚类。桶大小形成序列,每个桶大小是前一个桶大小的2倍。桶的大小是其所代表点的数目。桶表示簇,而非点本身。桶合并时选择簇最相近的。聚类结果作为查询应答。

17 基于Map-Reduce的聚类:将数据划分成组块,Map对每个组块聚类,map输出的簇由reduce进一步聚类。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: