您的位置：首页 > 大数据 > 人工智能

【机器学习】Naive Bayes 朴素贝叶斯

2016-10-10 17:08 148 查看

1.基本原理和步骤

Naive Bayes methods are a set of supervised learning algorithms based on applying Bayes’ theorem with the “naive” assumption of independence between every pair of features. Given a class variable

and
a dependent feature vector

through

,
Bayes’ theorem states the following relationship:

Using the naive independence assumption that

for all

, this relationship is simplified to

Since

is constant given the input, we can use the
following classification rule:

and we can use Maximum A Posteriori (MAP) estimation to estimate

and

;
the former is then the relative frequency of class

in the training
set.

先澄清一个概念：MAP是最大后验证估计与MLE最大似然估计的区别

MAP最大后验估计：是根据经验数据获得对难以观察的量的点估计。与最大似然估计类似，但是最大的不同时，最大后验估计的融入了要估计量的先验分布在其中。

MLE最大似然估计：h_ml
= argmax p(D|h) 不再乘以p(y)

详细说明如下：

最大似然估计：

最大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。简单而言，假设我们要统计全国人口的身高，首先假设这个身高服从服从正态分布，但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高，但是可以通过采样，获取部分人的身高，然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

最大似然估计中采样需满足一个很重要的假设，就是所有的采样都是独立同分布的。下面我们具体描述一下最大似然估计：

首先，假设

为独立同分布的采样，θ为模型参数,f为我们所使用的模型，遵循我们上述的独立同分布假设。参数为θ的模型f产生上述采样可表示为

回到上面的“模型已定，参数未知”的说法，此时，我们已知的为

，未知为θ，故似然定义为:

　　

　　在实际应用中常用的是两边取对数，得到公式如下：

　　其中

称为对数似然，而

称为平均对数似然。而我们平时所称的最大似然为最大的对数平均似然，即：

　　

以下是比较重要的几点

1.The different naive
Bayes classifiers differ mainly by the assumptions they make regarding the distribution of

.

不同的朴素贝叶斯分类器的不同主要在于关于分布

所做的假设,

GaussianNB，MultinomialNB，BernoulliNB

GaussianNB

用于属性是连续值的情况，比如根据【身高，体重】去分类是【大人，孩子】

[/code]

MultinomialNB

用于属性是离散值的情况，用阿尔法做了平滑处理，概率为0的情况

[/code]

BernoulliNB

 用于属性是二元离散值得情况binary/bool
，而且加了惩罚系数。

[/code]

文本分类中用word
occurrence vectors 单词出现与否的向量(rather than word count vectors) 而不是单词计数向量

[/code]

2.用途：文本分类，垃圾分类

3. 优点：需要的训练集小，速度快

4.缺点：要求特征独立

还要注意missing data的处理，因为有的概率为0

参考资料：1.http://scikit-learn.org/stable/modules/naive_bayes.html

2.http://www.inf.ed.ac.uk/teaching/courses/iaml/slides/naive-2x2.pdf

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航