您的位置:首页 > 其它

机器学习笔记(决策树)

2020-03-12 12:19 169 查看

熵概念

一条信息的不确定性和它的不确定性有直接关系。比如一个非常不确定的信息,为了弄懂它,我们需要了解大量关于它的信息,信息量的度量就等于信息的不确定性大小(熵的大小)。
例如:班级里谁会当选班长?
用比特还衡量信息的多少:
-(p1 * log_2(p1) + p2 * log_2(p2) + …+ pn * log_2(pn))
用上方的公式来衡量熵的值。
pn指的是第n个人当选上班长的可能性

决策树归纳算法(ID3)

大家可以看见文头的一张图,它所描述的是使用决策树算法解决的一个实际问题,那么为什么它的根结点会是那个信息而不是其他的信息呢?如果换成其他的信息会效果怎么样呢?
概念:
信息获取量(Information Gain):Gain(A) = Info(D) - info_A(D)
假设有一个数据集合D, 它依据某种特征已经被分类,也可以在分好类的基础上依据其他的属性分类。
这个公式的含义是:根据A属性分类的信息获取量的值,等于,原始的信息获取量(不添加额外的属性),减去,在原始状态下加上A属性分类之后的状态的信息获取量。
说着有点绕,看例子:

数一数发现有5个“no”,9个"yes"那么最终的结果是no的概率是5/14, 结果是yes的概率是9/14, 这样可以计算出原始信息量:

在是否购买电脑的基础上,再添加一个信息age ,根据信息age再次将数据集合分类。其实这么说也不准确,实际上我们常常把一开始分好类的那个依据作为基本条件,后加的分类依据作为外加条件,我们首先将数据集合依据外加条件分类,比如这里先将数据集合分为三大类:youth, middle_aged, senior三大类,分别占的比例是:5/14, 4/14, 5/14.然后将这分好的三类分别再依据基本条件分类,作为理科生或者工科生,用例子讲解再好不过了:

然后二者的差值:

就是依据youth 分类, 从数据集中所获取的信息量。
同理依据其他的属性计算出来的获取的信息量为:

比较发现,依据age分类所获取的信息量最大,所以根结点就是age.
分类之后长啥样呢?

发现分为了三类,其中middle_aged类别的最终结果相同,都是yes, 而其他两个分支仍然有两种情况,这样一说聪明的你一定才出来了怎么处理吧。
没错就是再次依据前面的游戏规则,对左右的分支再次分类,直到每一个的叶子结点所包含的数据的最终结果相同为止。还有一种情况是,属性都用完了,但是还没有达到分支完成的目的,这种情况呢,使用多数表决的方法来决定划分情况,也就是说,如果最后有一个或者几个叶结点含有3个yes, 1个no,那么就将这个叶结点归类为yes,而不继续新插入属性划分了。

用比较专业化的语言说就是酱:

相信大家看懂之后心里或多或少有点不服气,凭啥就依据你说的那种方式确定树的根结点嘞?首先这方法不是我想出来的哈,这是一位牛人所创造的一种取点方式,与大家一样,有不少大咖就是不服气,也创造了许多比较实用的选出根结点的度量方法,如下(举出部分例子):

有兴趣可以了解一下。
在实际过程中会出现这样的情况:由于训练的数据分的太细了,导致树的细枝末叶过多,在最终的测试集上效果并不好,也就是出现过拟合,这样的情况下所采取的方法~呼之欲出,修剪一些细枝末叶的东西。这剪树叶也有讲究,分为先剪枝和后剪枝。

  • 先剪枝:
    在细分分到一定的程度之后停止细分。
  • 后剪枝:
    等树全部生长好了,根据一定的规则将树叶剪掉一部分。
    好了,说了这么多大家也会发现,决策树的优点是:
    直观,便于理解,在小数据集的规模下有效。
    有啥缺点呢?
    处理连续变量不好,因为我们要将它分类,就需要划分阈值,这个阈值对之中的结果影响很大。
    当类别较多的时候,错误增加的比较快。
    可规模性一般,在小数据集的情况下效果比较好,数据集大的时候算法的复杂度增加很快。
    好啦,本期的笔记到这里啦,下期的笔记我们用python代码搞定它!
  • 点赞
  • 收藏
  • 分享
  • 文章举报
wxl@&& 发布了31 篇原创文章 · 获赞 0 · 访问量 464 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: