您的位置:首页 > 其它

[DataAnalysis]数据挖掘常见的几种分类算法

2018-04-02 15:24 274 查看
转载自:https://blog.csdn.net/TOMOCAT/article/details/79102867一、数据挖掘任务分类


1、预测性和描述性的主要区别在于是否有目标变量2、预测性包括分类和回归:(1)分类:输出变量为离散型,常见的算法包括(朴素)贝叶斯、决策树、逻辑回归、KNN、SVM、神经网络、随机森林。(2)回归:输出变量为连续型。3、描述性包括聚类和关联:(1)聚类:实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大。例如零售客户细分。(2)关联::指的是我们想发现数据的各部分之间的联系和规则。常指购物篮分析,即消费者常常会同时购买哪些产品,从而有助于商家的捆绑销售。4、建立分类模型的一般方法:


二、朴素贝叶斯1、贝叶斯定理:


2、原理:对于给出的待分类项(即特征属性的集合),求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。3、朴素贝叶斯分类流程

三、决策树1、原理,相当于找对象



2、决策树定义:决策树(DecisionTree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。3、决策树构造:


其中属性选择度量的算法很多,一般使用自顶向下递归分治法,并采用不回溯的贪心策略。ID3和C4.5是两种常用算法。4、ID3算法:


信息增益是特征选择中的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。基本信息包括:熵,期望信息和信息增益。(1)熵:设D为用类别对训练元组进行的划分,则D的熵表示为:


其中?i表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。(2)期望信息:现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为:



(3)信息增益:


(4)待补充案例:SNS社区中不真实账号检测的例子如中使用ID3算法构造决策树。5、C4.5算法:(1)ID3算法存在的问题:偏向于多值属性,例如,如果存在唯一标识属性ID,则ID3会选择它作为分裂属性,这样虽然使得划分充分纯净,但这种划分对分类几乎毫无用处。(例如会选择主键)(2)原理:C4.5算法是基于ID3算法进行改进后的一种重要算法,使用信息增益率来选择属性。


四、逻辑回归1、原理:




内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: