机器学习 数据挖掘 推荐系统机器学习-Random Forest算法简介
2013-08-29 22:03
323 查看
Random Forest是加州大学伯克利分校的Breiman Leo和Adele Cutler于2001年发表的论文中提到的新的机器学习算法,可以用来做分类,聚类,回归,和生存分析,这里只简单介绍该算法在分类上的应用。
Random Forest(随机森林)算法是通过训练多个决策树,生成模型,然后综合利用多个决策树进行分类。
随机森林算法只需要两个参数:构建的决策树的个数t,在决策树的每个节点进行分裂时需要考虑的输入特征的个数m。
1. 单棵决策树的构建:
(1)令N为训练样例的个数,则单棵决策树的输入样例的个数为N个从训练集中有放回的随机抽取N个训练样例。
(2)令训练样例的输入特征的个数为M,切m远远小于M,则我们在每颗决策树的每个节点上进行分裂时,从M个输入特征里随机选择m个输入特征,然后从这m个输入特征里选择一个最好的进行分裂。m在构建决策树的过程中不会改变。
(3)每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。不需要剪枝。
2. 随机森林的分类结果
按照1生成t个决策树之后,对于每个新的测试样例,综合多个决策树的分类结果来作为随机森林的分类结果。
(1)目标特征为数字类型:取t个决策树的平均值作为分类结果。
(2)目标特征为类别类型:少数服从多数,取单棵树分类结果最多的那个类别作为整个随机森林的分类结果。
3. 分类效果的评价
在随机森林中,无需交叉验证来评价其分类的准确性,随机森林自带OOB(out-of-bag)错误估计:
OOB:在构造单棵决策树时我们只是随机有放回的抽取了N个样例,所以可以用没有抽取到的样例来测试这棵决策树的分类准确性,这些样例大概占总样例数目的三分之一(作者这么说的,我还不知道理论上是如何出来的,但是可以自己做试验验证)。所以对于每个样例j,都有大约三分之一的决策树(记为SetT(j))在构造时没用到该样例,我们就用这些决策树来对这个样例进行分类。我们对于所有的训练样例j,用SetT(j)中的树组成的森林对其分类,然后看其分类结果和实际的类别是否相等,不相等的样例所占的比例就是OOB错误估计。OOB错误估计被证明是无偏的。
参考文献:
[1] Mahout Wiki-Random Forest
[2] Leo Breiman 2001年的paper
[3] Breiman自己对Random Forest的介绍
[4] 交叉验证介绍
Random Forest(随机森林)算法是通过训练多个决策树,生成模型,然后综合利用多个决策树进行分类。
随机森林算法只需要两个参数:构建的决策树的个数t,在决策树的每个节点进行分裂时需要考虑的输入特征的个数m。
1. 单棵决策树的构建:
(1)令N为训练样例的个数,则单棵决策树的输入样例的个数为N个从训练集中有放回的随机抽取N个训练样例。
(2)令训练样例的输入特征的个数为M,切m远远小于M,则我们在每颗决策树的每个节点上进行分裂时,从M个输入特征里随机选择m个输入特征,然后从这m个输入特征里选择一个最好的进行分裂。m在构建决策树的过程中不会改变。
(3)每棵树都一直这样分裂下去,直到该节点的所有训练样例都属于同一类。不需要剪枝。
2. 随机森林的分类结果
按照1生成t个决策树之后,对于每个新的测试样例,综合多个决策树的分类结果来作为随机森林的分类结果。
(1)目标特征为数字类型:取t个决策树的平均值作为分类结果。
(2)目标特征为类别类型:少数服从多数,取单棵树分类结果最多的那个类别作为整个随机森林的分类结果。
3. 分类效果的评价
在随机森林中,无需交叉验证来评价其分类的准确性,随机森林自带OOB(out-of-bag)错误估计:
OOB:在构造单棵决策树时我们只是随机有放回的抽取了N个样例,所以可以用没有抽取到的样例来测试这棵决策树的分类准确性,这些样例大概占总样例数目的三分之一(作者这么说的,我还不知道理论上是如何出来的,但是可以自己做试验验证)。所以对于每个样例j,都有大约三分之一的决策树(记为SetT(j))在构造时没用到该样例,我们就用这些决策树来对这个样例进行分类。我们对于所有的训练样例j,用SetT(j)中的树组成的森林对其分类,然后看其分类结果和实际的类别是否相等,不相等的样例所占的比例就是OOB错误估计。OOB错误估计被证明是无偏的。
参考文献:
[1] Mahout Wiki-Random Forest
[2] Leo Breiman 2001年的paper
[3] Breiman自己对Random Forest的介绍
[4] 交叉验证介绍
相关文章推荐
- 数据挖掘,机器学习,推荐系统的牛人博客
- 机器学习 数据挖掘 推荐系统 时间序列挖掘-预测算法-三次指数平滑法(Holt-Winters)
- Coursera课程下载和存档计划三:机器学习 & 自然语言处理 & 推荐系统 & 数据挖掘相关公开课
- Kemaswill 机器学习 数据挖掘 推荐系统 Shell之数学计算
- Kemaswill 机器学习 数据挖掘 推荐系统 Ranking SVM 简介
- 机器学习大数据数据挖掘推荐系统相关资源
- 推荐系统-通过数据挖掘算法协同过滤讨论基于内容和用户的区别
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 数据挖掘算法-矩阵分解在推荐系统中的应用
- 机器学习与数据挖掘网上资源搜罗——良心推荐
- 关于数据挖掘推荐系统实现
- RS:关于数据挖掘中的推荐系统
- 数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战
- 机器学习与数据挖掘网上资源搜罗——良心推荐
- 机器学习、数据挖掘、机器视觉等领域经典书籍推荐
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 推荐系统中的数据挖掘方法---《推荐系统技术、评估及高效算法》---读书笔记(2)
- 机器学习和数据挖掘推荐书单