ID3与C4.5和CART决策树算法
2018-01-12 16:07
211 查看
决策树学习算法最著名的代表是ID3、C4.5和CART,三种决策树算法有不同的特征选择方案:ID3用信息增益,C4.5用信息增益率,CART用基尼(gini)系数。
ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法存在的问题如下:
(1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。
(2)ID3是非递增算法。
(3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次。
(4)抗噪性差,训练例子中正例和反例的比例较难控制。
于是Quinlan改进了ID3,提出了C4.5算法,现在已经成为最经典的决策树构造算法。
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法优点:产生的分类规则易于理解,准确率较高。
缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只适合用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。
CART决策树是一种著名的决策树学习算法,分类和回归任务都可以用。
使用基尼指数来选择划分属性。基尼值反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。故基尼值越小,则数据集的纯度越高。
选择那个使得划分后基尼指数最小的属性作为最优划分属性。
ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法存在的问题如下:
(1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。
(2)ID3是非递增算法。
(3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次。
(4)抗噪性差,训练例子中正例和反例的比例较难控制。
于是Quinlan改进了ID3,提出了C4.5算法,现在已经成为最经典的决策树构造算法。
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:
1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;
2) 在树构造过程中进行剪枝;
3) 能够完成对连续属性的离散化处理;
4) 能够对不完整数据进行处理。
C4.5算法优点:产生的分类规则易于理解,准确率较高。
缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。
无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只适合用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。
CART决策树是一种著名的决策树学习算法,分类和回归任务都可以用。
使用基尼指数来选择划分属性。基尼值反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。故基尼值越小,则数据集的纯度越高。
选择那个使得划分后基尼指数最小的属性作为最优划分属性。
相关文章推荐
- ID3和C4.5的区别
- 分类算法:ID3与C4.5及CART
- ID3、C4.5和cart算法比较(转)
- 机器学习中决策树算法原理主要有ID3、C4.5、CART算法
- 决策树CART与ID3,C4.5联系与区别
- 《统计学习方法》读书笔记-----决策树:ID3,C4.5生成算法和剪枝
- 整理--决策树算法:ID3和C4.5
- Ng机器学习系列补充:1、决策树算法ID3和C4.5
- 【机器学习-西瓜书】四、决策树:信息熵;信息增益;增益率;ID3;C4.5
- 《统计学习方法》读书笔记-----决策树:ID3,C4.5生成算法和剪枝
- R_针对churn数据用id3、cart、C4.5和C5.0创建决策树模型进行判断哪种模型更合适
- 决策树之ID3、C4.5、C5.0
- 决策树之ID3、C4.5、C5.0算法
- 决策树(ID3、C4.5、CART、随机森林)
- ID3和C4.5的区别和联系
- 决策树之ID3,C4.5
- python机器学习案例系列教程——决策树(ID3、C4.5、CART)
- 《统计学习方法》读书笔记-----决策树:ID3,C4.5生成算法和剪枝
- 决策树、ID3、C4.5以及CART算法小结
- python之实战----决策树(ID3,C4.5,CART)战sin(x)+随机噪声