您的位置:首页 > 其它

ID3与C4.5和CART决策树算法

2018-01-12 16:07 211 查看
决策树学习算法最著名的代表是ID3、C4.5和CART,三种决策树算法有不同的特征选择方案:ID3用信息增益,C4.5用信息增益率,CART用基尼(gini)系数。

ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法存在的问题如下:

(1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。

(2)ID3是非递增算法。

(3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次。

(4)抗噪性差,训练例子中正例和反例的比例较难控制。

于是Quinlan改进了ID3,提出了C4.5算法,现在已经成为最经典的决策树构造算法。

C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2) 在树构造过程中进行剪枝;

3) 能够完成对连续属性的离散化处理;

4) 能够对不完整数据进行处理。

C4.5算法优点:产生的分类规则易于理解,准确率较高。

缺点:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只适合用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。

CART决策树是一种著名的决策树学习算法,分类和回归任务都可以用。

使用基尼指数来选择划分属性。基尼值反映了从数据集中随机抽取两个样本,其类别标记不一致的概率。故基尼值越小,则数据集的纯度越高。

选择那个使得划分后基尼指数最小的属性作为最优划分属性。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息