10大经典数据挖掘方法
2016-01-30 05:45
323 查看
1.C4.5算法
分类技术是数据挖掘算法中经常使用的工具。这些系统将一系列案例作为输入,每个案例属于不同的类别。并且,每个案例都有自己的属性值相对应,系统产生一个分类器能够预测一个新的案例的类别。
C4.5算法是ID3算法的扩展,它能够产生用决策树表示的分类器,而且它还可以通过更加容易理解的规则集形式来表示分类器。
2.Kmeans算法
Kmeans算法是一种简单的迭代算法,它能够将给定的数据集划分为用户定义的聚簇数目。
3.SVM支持向量机
在机器学习应用中,支持向量机被考虑为很重要的一个尝试——在所有著名的算法中,它提供了一种稳定准确的方法。它拥有强大的理论基础,只需要少数示例进行训练,并且对数据集维度数量不敏感。另外,训练SVM的有效方法已经得到快速地发展。
4.Apriori算法
最流行的数据挖掘方法之一就是从交易数据集中寻找频繁项集,并且产生关联规则。寻找频繁项目集是非平凡的,因为它存在组合爆炸的问题。一旦获得到频繁项目集,就可以直接根据用户定义的置信度产生关联规则。Apriori算法是一种采用候选集方法寻找频繁项目集。它是一种使用反单调性的完全层次搜索算法。如果一个项目集是非频繁的,那么它的任何超集都是非频繁的。
5.EM算法
有限混合分布提供一种灵活的,基于数学的建模和聚类数据集方法。常见的混合模型可以用来聚类连续数据和预测潜在的密度函数。这些混合模型可以通过最大似然的期望最大化算法来进行拟合。
6.PageRank算法
PageRank是一种使用互联网上的超链接的搜索排序算法。PageRank基本的方法是,越是重要的文件链接一个文件,则这个文件就越重要,但那些入站链接并不是被平等计算的。首先,如果其他高等级的文件连接到它,那么根据PageRank的规则,此文件的等级也高。
7.AdaBoost
集成学习是应用多个学习器来解决问题。一般来说,集成学习的能力较单个学习器的效果更优。因此,集成学习方法具有很强的吸引能力。AdaBoost方法是最重要的集成学习算法之一,它拥有牢固的理论基础,预测非常准确,并且简单和易于实现。
8.KNN分类算法
KNN算法是通过在数据集中寻找与测试对象最近的k个对象。并且,预先定义类别标签。KNN有三个主要的核心元素:标记对象集合,对象之间的相似性度量或者距离度量,最近邻居个数K。为了区分没有标记的对象,计算对象与标记对象之间的距离。从而,识别k个最近邻居。这些最近邻居的类别标签被用来决定对象的类别标签。
9.朴素贝叶斯
朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
10.CART
CART包括分类树和回归树两部分:分类树的结果变量是分类变量,回归树的结果变量是连续变量。CART是一种树型结构,由树结和连线组成,在末端的树结又称为终止结。CART可分析同质性较差的数据,采用替代变量的方法解决缺失数据问题,不要求数据的分布,可同时利用各种类型的数据。
分类技术是数据挖掘算法中经常使用的工具。这些系统将一系列案例作为输入,每个案例属于不同的类别。并且,每个案例都有自己的属性值相对应,系统产生一个分类器能够预测一个新的案例的类别。
C4.5算法是ID3算法的扩展,它能够产生用决策树表示的分类器,而且它还可以通过更加容易理解的规则集形式来表示分类器。
2.Kmeans算法
Kmeans算法是一种简单的迭代算法,它能够将给定的数据集划分为用户定义的聚簇数目。
3.SVM支持向量机
在机器学习应用中,支持向量机被考虑为很重要的一个尝试——在所有著名的算法中,它提供了一种稳定准确的方法。它拥有强大的理论基础,只需要少数示例进行训练,并且对数据集维度数量不敏感。另外,训练SVM的有效方法已经得到快速地发展。
4.Apriori算法
最流行的数据挖掘方法之一就是从交易数据集中寻找频繁项集,并且产生关联规则。寻找频繁项目集是非平凡的,因为它存在组合爆炸的问题。一旦获得到频繁项目集,就可以直接根据用户定义的置信度产生关联规则。Apriori算法是一种采用候选集方法寻找频繁项目集。它是一种使用反单调性的完全层次搜索算法。如果一个项目集是非频繁的,那么它的任何超集都是非频繁的。
5.EM算法
有限混合分布提供一种灵活的,基于数学的建模和聚类数据集方法。常见的混合模型可以用来聚类连续数据和预测潜在的密度函数。这些混合模型可以通过最大似然的期望最大化算法来进行拟合。
6.PageRank算法
PageRank是一种使用互联网上的超链接的搜索排序算法。PageRank基本的方法是,越是重要的文件链接一个文件,则这个文件就越重要,但那些入站链接并不是被平等计算的。首先,如果其他高等级的文件连接到它,那么根据PageRank的规则,此文件的等级也高。
7.AdaBoost
集成学习是应用多个学习器来解决问题。一般来说,集成学习的能力较单个学习器的效果更优。因此,集成学习方法具有很强的吸引能力。AdaBoost方法是最重要的集成学习算法之一,它拥有牢固的理论基础,预测非常准确,并且简单和易于实现。
8.KNN分类算法
KNN算法是通过在数据集中寻找与测试对象最近的k个对象。并且,预先定义类别标签。KNN有三个主要的核心元素:标记对象集合,对象之间的相似性度量或者距离度量,最近邻居个数K。为了区分没有标记的对象,计算对象与标记对象之间的距离。从而,识别k个最近邻居。这些最近邻居的类别标签被用来决定对象的类别标签。
9.朴素贝叶斯
朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。
10.CART
CART包括分类树和回归树两部分:分类树的结果变量是分类变量,回归树的结果变量是连续变量。CART是一种树型结构,由树结和连线组成,在末端的树结又称为终止结。CART可分析同质性较差的数据,采用替代变量的方法解决缺失数据问题,不要求数据的分布,可同时利用各种类型的数据。
相关文章推荐
- 书评:《算法之美( Algorithms to Live By )》
- 动易2006序列号破解算法公布
- Ruby实现的矩阵连乘算法
- C#插入法排序算法实例分析
- 超大数据量存储常用数据库分表分库算法总结
- C#数据结构与算法揭秘二
- C#冒泡法排序算法实例分析
- 算法练习之从String.indexOf的模拟实现开始
- C#算法之关于大牛生小牛的问题
- C#实现的算24点游戏算法实例分析
- c语言实现的带通配符匹配算法
- 浅析STL中的常用算法
- 算法之排列算法与组合算法详解
- C++实现一维向量旋转算法
- Ruby实现的合并排序算法
- C#折半插入排序算法实现方法
- 基于C++实现的各种内部排序算法汇总
- C++线性时间的排序算法分析
- C++实现汉诺塔算法经典实例
- PHP实现克鲁斯卡尔算法实例解析