您的位置:首页 > 其它

《统计学习方法》读书笔记-----决策树:ID3,C4.5生成算法和剪枝

2018-03-17 17:21 197 查看
1. ID3算法

ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征,递归地构建决策树。

具体方法是:

从根节点开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不同取值建立子节点;再对子节点递归地调用以上方法构建决策树;直到所有的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。ID3相当于用极大似然法进行概率模型的选择。

2. C4.5算法

C4.5算法与ID3算法相似,不同的C4.5是用信息增益比来选择特征。

3.决策树的剪枝

决策树通过递归算法构建,主要考虑如何提高对训练数据的正确分类,从而容易构建出过于复杂的决策树,出现过拟合的问题。

为了提高模型的泛化能力,需要对生成的决策树进行剪枝(pruning)。具体地,剪枝从已生成的树上裁剪掉一些子树或叶结点,并将其根结点或父结点作为新的叶结点,从而简化分类树模型。

下面介绍一种简单的决策树学习的剪枝算法。

决策树的剪枝往往通过极小化决策树整体的损失函数(loss function)或代价函数(cost function)来实现。

设树TT的叶结点个数为|T||T|,tt是树TT的叶结点,该叶结点上有NtNt个样本点,其中kk类的样本点有NtkNtk个,k=1,2,...,Kk=1,2,...,K,Ht(T)Ht(T)为叶结点tt上的经验熵,α≥0α≥0为参数,则决策树学习的损失函数可以定义为:

Cα=∑i=1TNtHt(T)+α|T|Cα=∑i=1TNtHt(T)+α|T|

其中,经验熵为:

Ht(T)=−∑kNtkNtlogNtkNtHt(T)=−∑kNtkNtlogNtkNt

将式(1)中第一项记作C(T)C(T),则有:

Cα(T)=C(T)+α|T|Cα(T)=C(T)+α|T|

式中,C(T)C(T)表示模型对训练数据的预测误差,即模型与训练数据的拟合程度,|T||T|表示模型的复杂程度,参数α≥0α≥0控制两者之间的影响。较大的αα促使选择较简单的模型,较小的αα促使选择较复杂的模型。

决策树生成学习局部的模型,而决策树剪枝学习整体的模型。

以上定义的损失函数的极小化等价于正则化的极大似然估计。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐