数据挖掘对聚类分析的要求
2011-10-07 19:25
267 查看
1. 可扩展性(Scalability)
大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
2. 处理不同数据类型的能力
数字型;二元类型,分类型/标称型,序数型,比例标度型等等
3. 发现任意形状的能力
基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
4. 用于决定输入参数的领域知识最小化
对于高维数据,参数很难决定,聚类的质量也很难控制
5. 处理噪声数据的能力
对空缺值、孤立点、数据噪声不敏感
6. 对于输入数据的顺序不敏感
同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
7. 高维度
高维度的数据往往比较稀松,而且高度倾斜
8. 基于约束的聚类
找到既满足约束条件,又具有良好聚类特性的数据分组
9. 可解释性和可用性
聚类要和特定的语义解释和应用相联系
相异度矩阵:存储n个对象两两之间的近似性,也叫单模矩阵,行和列代表相同的实体
大多数来自于机器学习和统计学领域的聚类算法在处理数百条数据时能表现出高效率
2. 处理不同数据类型的能力
数字型;二元类型,分类型/标称型,序数型,比例标度型等等
3. 发现任意形状的能力
基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的
4. 用于决定输入参数的领域知识最小化
对于高维数据,参数很难决定,聚类的质量也很难控制
5. 处理噪声数据的能力
对空缺值、孤立点、数据噪声不敏感
6. 对于输入数据的顺序不敏感
同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果
7. 高维度
高维度的数据往往比较稀松,而且高度倾斜
8. 基于约束的聚类
找到既满足约束条件,又具有良好聚类特性的数据分组
9. 可解释性和可用性
聚类要和特定的语义解释和应用相联系
相异度矩阵:存储n个对象两两之间的近似性,也叫单模矩阵,行和列代表相同的实体
相关文章推荐
- mahout运行测试与数据挖掘算法之聚类分析(一)kmeans算法解析
- 数据挖掘算法之聚类分析(二)canopy算法
- 数据挖掘笔记(3)——聚类、离群点分析
- 《Python数据分析与数据挖掘实战》第十四章学习——层次聚类
- 数据挖掘:聚类分析
- mahout运行测试与数据挖掘算法之聚类分析(一)kmeans算法解析
- 数据挖掘算法之聚类分析(二)canopy算法
- 【数据挖掘技术】聚类分析
- 【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍
- 【读书笔记-数据挖掘概念与技术】聚类分析:基本概念和方法
- 数据挖掘算法之聚类分析(三)朴素贝叶斯算法
- 数据挖掘-聚类分析
- 数据分析、数据挖掘之聚类、分类
- 数据挖掘求职岗位要求分析
- 数据挖掘算法--聚类分析
- 【数据分析】图书馆数据-04借阅情况聚类挖掘
- Python数据挖掘课程 二.Kmeans聚类数据分析及Anaconda介绍
- 数据挖掘RapidMiner工具使用----聚类K-Means案例分析
- 数据挖掘-聚类分析
- 基于.NET实现数据挖掘--顺序分析与聚类分析算法