您的位置：首页 > 其它

10大经典数据挖掘方法

2016-01-30 05:45 323 查看

1.C4.5算法

分类技术是数据挖掘算法中经常使用的工具。这些系统将一系列案例作为输入，每个案例属于不同的类别。并且，每个案例都有自己的属性值相对应，系统产生一个分类器能够预测一个新的案例的类别。

C4.5算法是ID3算法的扩展，它能够产生用决策树表示的分类器，而且它还可以通过更加容易理解的规则集形式来表示分类器。

2.Kmeans算法

Kmeans算法是一种简单的迭代算法，它能够将给定的数据集划分为用户定义的聚簇数目。

3.SVM支持向量机

在机器学习应用中，支持向量机被考虑为很重要的一个尝试——在所有著名的算法中，它提供了一种稳定准确的方法。它拥有强大的理论基础，只需要少数示例进行训练，并且对数据集维度数量不敏感。另外，训练SVM的有效方法已经得到快速地发展。

4.Apriori算法

最流行的数据挖掘方法之一就是从交易数据集中寻找频繁项集，并且产生关联规则。寻找频繁项目集是非平凡的，因为它存在组合爆炸的问题。一旦获得到频繁项目集，就可以直接根据用户定义的置信度产生关联规则。Apriori算法是一种采用候选集方法寻找频繁项目集。它是一种使用反单调性的完全层次搜索算法。如果一个项目集是非频繁的，那么它的任何超集都是非频繁的。

5.EM算法

有限混合分布提供一种灵活的，基于数学的建模和聚类数据集方法。常见的混合模型可以用来聚类连续数据和预测潜在的密度函数。这些混合模型可以通过最大似然的期望最大化算法来进行拟合。

6.PageRank算法

PageRank是一种使用互联网上的超链接的搜索排序算法。PageRank基本的方法是，越是重要的文件链接一个文件，则这个文件就越重要，但那些入站链接并不是被平等计算的。首先，如果其他高等级的文件连接到它，那么根据PageRank的规则，此文件的等级也高。

7.AdaBoost

集成学习是应用多个学习器来解决问题。一般来说，集成学习的能力较单个学习器的效果更优。因此，集成学习方法具有很强的吸引能力。AdaBoost方法是最重要的集成学习算法之一，它拥有牢固的理论基础，预测非常准确，并且简单和易于实现。

8.KNN分类算法

KNN算法是通过在数据集中寻找与测试对象最近的k个对象。并且，预先定义类别标签。KNN有三个主要的核心元素：标记对象集合，对象之间的相似性度量或者距离度量，最近邻居个数K。为了区分没有标记的对象，计算对象与标记对象之间的距离。从而，识别k个最近邻居。这些最近邻居的类别标签被用来决定对象的类别标签。

9.朴素贝叶斯

朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。

10.CART

CART包括分类树和回归树两部分：分类树的结果变量是分类变量，回归树的结果变量是连续变量。CART是一种树型结构，由树结和连线组成，在末端的树结又称为终止结。CART可分析同质性较差的数据，采用替代变量的方法解决缺失数据问题，不要求数据的分布，可同时利用各种类型的数据。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 数据挖掘算法

相关文章推荐

新的分享

章节导航