基于密度的聚类:DBSCAN(Density-based Spatial Clustering of Applications with Noise)
2016-02-23 16:20
323 查看
基于密度的聚类
定义:
1. 对于空间中的一个对象,如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts,则该对象被称为核心对象,否则称为边界对象。
2. 如果p是一个核心对象,q属于p的邻域,那么称p直接密度可达q。
3. 如果存在一条链<p1,p2,…..,pi>,满足p1=p,pi=q,pi直接密度可达pi+1,则称p密度可达q。
4. 如果存在o,o密度可达q和p,则称p和q是密度连通的
5. 由一个核心对象和其密度可达的所有对象构成一个聚类。
a为核心对象,b为边界对象,且a直接密度可达b,
但b不直接密度可达a,因为b不是一个核心对象
c直接密度可达a,a直接密度可达b,所以c密度可达b,
同理b不密度可达c,但b和c密度连通
DBSCAN从任一对象p开始,根据参数e和MinPts提取所有从p密度可达对象,得到一个聚类。
1. 从任一对象p开始。
a) 如果p是核心对象,则p和p直接密度可达的所有对象被标记为类i。递归p直接密度可达的所有对象qi(即用qi代替p回到第一步)。
b) 如果p是一个边界对象,那么p被标记为噪声。
2. i++
3. 如果还有没被标记的对象,则从中任选一个作为p,回到第一步。
得到一个类,同样我们可以得到另一个类
优点:
1. 对噪声不敏感。
2. 能发现任意形状的聚类。
缺点:
1. 聚类的结果与参数有很大的关系。
2. DBSCAN用固定参数识别聚类,但当聚类的稀疏程度不同时,相同的判定标准可能会破坏聚类的自然结构,即较稀的聚类会被划分为多个类或密度较大且离得较近的类会被合并成一个聚类
from:http://blog.csdn.net/uestcfrog/article/details/6876360
定义:
1. 对于空间中的一个对象,如果它在给定半径e的邻域中的对象个数大于密度阀值MinPts,则该对象被称为核心对象,否则称为边界对象。
2. 如果p是一个核心对象,q属于p的邻域,那么称p直接密度可达q。
3. 如果存在一条链<p1,p2,…..,pi>,满足p1=p,pi=q,pi直接密度可达pi+1,则称p密度可达q。
4. 如果存在o,o密度可达q和p,则称p和q是密度连通的
5. 由一个核心对象和其密度可达的所有对象构成一个聚类。
a为核心对象,b为边界对象,且a直接密度可达b,
但b不直接密度可达a,因为b不是一个核心对象
c直接密度可达a,a直接密度可达b,所以c密度可达b,
同理b不密度可达c,但b和c密度连通
DBSCAN从任一对象p开始,根据参数e和MinPts提取所有从p密度可达对象,得到一个聚类。
1. 从任一对象p开始。
a) 如果p是核心对象,则p和p直接密度可达的所有对象被标记为类i。递归p直接密度可达的所有对象qi(即用qi代替p回到第一步)。
b) 如果p是一个边界对象,那么p被标记为噪声。
2. i++
3. 如果还有没被标记的对象,则从中任选一个作为p,回到第一步。
得到一个类,同样我们可以得到另一个类
优点:
1. 对噪声不敏感。
2. 能发现任意形状的聚类。
缺点:
1. 聚类的结果与参数有很大的关系。
2. DBSCAN用固定参数识别聚类,但当聚类的稀疏程度不同时,相同的判定标准可能会破坏聚类的自然结构,即较稀的聚类会被划分为多个类或密度较大且离得较近的类会被合并成一个聚类
from:http://blog.csdn.net/uestcfrog/article/details/6876360
相关文章推荐
- python中kmeans聚类实现代码
- 聚类算法总结
- kmeans python版
- 学习记录 - 3
- Mahout-kmeans命令行文本文件聚类
- 聚类分析(五)基于密度的聚类算法 — DBSCAN
- 聚类问题
- 聚类分析
- gmm(Gaussian Mixture Mode)的理解
- 聚类(序)——监督学习与无监督学习
- 聚类(1)——混合高斯模型 Gaussian Mixture Model
- 聚类(2)——层次聚类 Hierarchical Clustering
- Kmeans和FMC自己理解
- K-means(K-均值)算法和降维对分算法 VB实现及应用
- 阅读笔记之:Multimodal learning in Loosely-organized web images-CVPR2014
- 聚类与神经网络
- 基于密度的聚类
- 像元纯度指数算法C++实现
- 【机器学习】K-means聚类
- 聚类分析学习笔记