【机器学习笔记】最大似然估计法与LR中 J of theta 的概率解释
2017-10-02 20:20
267 查看
看公开课的时候再次遇到,决心搞懂他…
首先是Andrew Ng在公开课中提到为什么LR的损失函数要用最小二乘,给出了概率解释,是在样本误差服从IID,并且误差整体服从高斯分布的最大似然函数的log表出。
如果做一个放回的小球实验,袋子里即有不确定数量的黑色和白色的小球,我们每次拿出一个,记录颜色放回,重复100次;
如果在100次中,有70次黑球,30次白球,设每次抽到黑球的概率为 p ,那么我们可以大致估计 p 可能等于 0.7
如果从数学的角度去解释,首先这是一个独立实验,即每次取出然后放回的操作,不会影响下一次的操作;记第 i 次实验的结果为 xi ,同时我们假设有一个模型可以表示这个事件,并且这个模型的参数是 p ;就有:
P(x1,x2,...,x100|Model)=∏i=1100p(xi|Model)=p70(1−p)30
我们希望通过调整参数 p ,使得如上样本的情况出现的概率最大,那么定义一个似然函数 L(p)=p70(1−p)30 ,通过最大化 L(p) ,求解参数 p ,我们只需对 L(p) 求导等于0,就能求到极值,在这里也就是最值,得到 p=0.7 。
总结一下,就是已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。
y(i)=hθ(x(i))+ϵ(i)=θTx(i)+ϵ(i)
然后直接提出了最小化损失函数 J(θ) (如下形式) 为我们的优化目标:
J(θ)=12∑i=1n(hθ(x(i))−y(i))2
P(ϵ(1),ϵ(2),...,ϵ(n)|Model)=∏i=1np(ϵ(i)|θ)
同时我们定义似然函数 L(θ)==∏ni=1p(ϵ(i)|θ) ,然后最大化似然函数求出参数。
p(ϵ(i)|θ)=12π−−√σe(−(ϵ(i))22σ2)=12π−−√σe(−(hθ(x(i))−y(i))22σ2)
那么此时似然函数:
L(θ)=∏i=1np(ϵ(i)|θ)=∏i=1n12π−−√σe(−(ϵ(i))22σ2)=∏i=1n12π−−√σe(−(hθ(x(i))−y(i))22σ2)
此时我们对 L(θ) 取 log (这里假设 ln 与 log 等价):
log(L(θ))=nlog12π−−√σ−1σ2(12∑i=1n(hθ(x(i))−y(i))2) .
也就是说,最大化似然函数,相当于最小化 12∑ni=1(hθ(x(i))−y(i))2 也即 J(θ).
总结:
在估计误差满足独立同分布,和高斯分布两个假设的时候,误差估计的最大似然就是用最小二乘法来最小化误差
理解上来说,将误差的分布做类比,是比较方便的一个思路。
首先是Andrew Ng在公开课中提到为什么LR的损失函数要用最小二乘,给出了概率解释,是在样本误差服从IID,并且误差整体服从高斯分布的最大似然函数的log表出。
最大似然估计法
先从一个比较普遍的例子讲起:如果做一个放回的小球实验,袋子里即有不确定数量的黑色和白色的小球,我们每次拿出一个,记录颜色放回,重复100次;
如果在100次中,有70次黑球,30次白球,设每次抽到黑球的概率为 p ,那么我们可以大致估计 p 可能等于 0.7
如果从数学的角度去解释,首先这是一个独立实验,即每次取出然后放回的操作,不会影响下一次的操作;记第 i 次实验的结果为 xi ,同时我们假设有一个模型可以表示这个事件,并且这个模型的参数是 p ;就有:
P(x1,x2,...,x100|Model)=∏i=1100p(xi|Model)=p70(1−p)30
我们希望通过调整参数 p ,使得如上样本的情况出现的概率最大,那么定义一个似然函数 L(p)=p70(1−p)30 ,通过最大化 L(p) ,求解参数 p ,我们只需对 L(p) 求导等于0,就能求到极值,在这里也就是最值,得到 p=0.7 。
总结一下,就是已知样本,希望通过调整模型参数来使得模型能够最大化样本情况出现的概率。
LR中 J(θ) 的概率解释
我们在LR中首先做这样的假设:y(i)=hθ(x(i))+ϵ(i)=θTx(i)+ϵ(i)
然后直接提出了最小化损失函数 J(θ) (如下形式) 为我们的优化目标:
J(θ)=12∑i=1n(hθ(x(i))−y(i))2
假设一: 如上假设中误差 ϵ(i) 是 IID, 也就是说每次的预测误差与上一次无关
为了类比,我们首先将误差看作如上实验中的黑色小球,我们已经通过 y(i),x(i),θ 得到了样本结果 ϵ(i) ,这里模型参数是 θ 类比一下得到:P(ϵ(1),ϵ(2),...,ϵ(n)|Model)=∏i=1np(ϵ(i)|θ)
同时我们定义似然函数 L(θ)==∏ni=1p(ϵ(i)|θ) ,然后最大化似然函数求出参数。
假设二: ϵ(i) 总体符合高斯分布
这样的话,我们先单独看一个 p(ϵ(i)|θ) :p(ϵ(i)|θ)=12π−−√σe(−(ϵ(i))22σ2)=12π−−√σe(−(hθ(x(i))−y(i))22σ2)
那么此时似然函数:
L(θ)=∏i=1np(ϵ(i)|θ)=∏i=1n12π−−√σe(−(ϵ(i))22σ2)=∏i=1n12π−−√σe(−(hθ(x(i))−y(i))22σ2)
此时我们对 L(θ) 取 log (这里假设 ln 与 log 等价):
log(L(θ))=nlog12π−−√σ−1σ2(12∑i=1n(hθ(x(i))−y(i))2) .
也就是说,最大化似然函数,相当于最小化 12∑ni=1(hθ(x(i))−y(i))2 也即 J(θ).
总结:
在估计误差满足独立同分布,和高斯分布两个假设的时候,误差估计的最大似然就是用最小二乘法来最小化误差
理解上来说,将误差的分布做类比,是比较方便的一个思路。
相关文章推荐
- # 机器学习笔记2——参数学习、非参数学习、局部加权线性回归、线性回归的概率解释、logistics回归
- 机器学习笔记三 - 局部加权回归、最小二乘的概率解释、逻辑斯蒂回归、感知器算法
- 【学习笔记】斯坦福大学公开课(机器学习) 之概率解释
- XML Files - The Birth of Web Services 笔记 (一)
- POJ 2151 Check the difficulty of problems(概率)
- 机器学习笔记-Hazard of Overfitting
- arm学习笔记020之mov pc,lr的解释
- ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(六)
- 统计学习精要(The Elements of Statistical Learning)课堂笔记(二十一):SMO算法
- codeforces 602 E. Kleofáš and the n-thlon (概率dp)
- 机器学习笔记十八:概率分类思想
- poj 2151 Check the difficulty of problems 概率dp
- 吴恩达 机器学习笔记六(lecture 6)(逻辑回归LR)
- [MOOC学习笔记]机器学习基石 Lecture01 The Learning Problem
- 机器学习|最小二乘法的概率解释
- POJ2151-Check the difficulty of problems(概率DP)
- 机器学习基石笔记 Lecture 3 - Types of Learning
- The Key of C# 学习笔记(你今天学到了什么2004-10)
- 机器学习笔记(二)概率相关
- Reducing the Effective Entropy of GS阅读笔记