您的位置:首页 > 其它

10大经典数据挖掘方法

2016-01-30 05:45 323 查看
1.C4.5算法

分类技术是数据挖掘算法中经常使用的工具。这些系统将一系列案例作为输入,每个案例属于不同的类别。并且,每个案例都有自己的属性值相对应,系统产生一个分类器能够预测一个新的案例的类别。

C4.5算法是ID3算法的扩展,它能够产生用决策树表示的分类器,而且它还可以通过更加容易理解的规则集形式来表示分类器。

2.Kmeans算法

Kmeans算法是一种简单的迭代算法,它能够将给定的数据集划分为用户定义的聚簇数目。

3.SVM支持向量机

在机器学习应用中,支持向量机被考虑为很重要的一个尝试——在所有著名的算法中,它提供了一种稳定准确的方法。它拥有强大的理论基础,只需要少数示例进行训练,并且对数据集维度数量不敏感。另外,训练SVM的有效方法已经得到快速地发展。

4.Apriori算法

最流行的数据挖掘方法之一就是从交易数据集中寻找频繁项集,并且产生关联规则。寻找频繁项目集是非平凡的,因为它存在组合爆炸的问题。一旦获得到频繁项目集,就可以直接根据用户定义的置信度产生关联规则。Apriori算法是一种采用候选集方法寻找频繁项目集。它是一种使用反单调性的完全层次搜索算法。如果一个项目集是非频繁的,那么它的任何超集都是非频繁的。

5.EM算法

有限混合分布提供一种灵活的,基于数学的建模和聚类数据集方法。常见的混合模型可以用来聚类连续数据和预测潜在的密度函数。这些混合模型可以通过最大似然的期望最大化算法来进行拟合。

6.PageRank算法

PageRank是一种使用互联网上的超链接的搜索排序算法。PageRank基本的方法是,越是重要的文件链接一个文件,则这个文件就越重要,但那些入站链接并不是被平等计算的。首先,如果其他高等级的文件连接到它,那么根据PageRank的规则,此文件的等级也高。

7.AdaBoost

集成学习是应用多个学习器来解决问题。一般来说,集成学习的能力较单个学习器的效果更优。因此,集成学习方法具有很强的吸引能力。AdaBoost方法是最重要的集成学习算法之一,它拥有牢固的理论基础,预测非常准确,并且简单和易于实现。

8.KNN分类算法

KNN算法是通过在数据集中寻找与测试对象最近的k个对象。并且,预先定义类别标签。KNN有三个主要的核心元素:标记对象集合,对象之间的相似性度量或者距离度量,最近邻居个数K。为了区分没有标记的对象,计算对象与标记对象之间的距离。从而,识别k个最近邻居。这些最近邻居的类别标签被用来决定对象的类别标签。

9.朴素贝叶斯

朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。

10.CART

CART包括分类树和回归树两部分:分类树的结果变量是分类变量,回归树的结果变量是连续变量。CART是一种树型结构,由树结和连线组成,在末端的树结又称为终止结。CART可分析同质性较差的数据,采用替代变量的方法解决缺失数据问题,不要求数据的分布,可同时利用各种类型的数据。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  数据挖掘 算法