李宏毅机器学习1~3
大数定理
切比雪夫大数定理:
该定理表明,当n很大的时候,随机变量 X1,X2…Xn的算术平均值依概率收敛于它的期望值,说明了平均值具有稳定性。
伯努利大数定理:
该定理表明:在独立重复实验中,事件A发生的频率依概率收敛于事件A出现的概率,证明了频率的稳定性。在实际应用中,当实验次数很大时,可以用事件发生的频率来估计事件的概率
中心极限定理
在许多实际问题中,有很多随机现象可以看作是许多因素的独立影响的综合结果,而其中每个因素对该现象的影响很小,描述这类随机现象的随机变量可以看成许多互相独立的起微小作用的因素之和,理论上可以证明,他们往往近似服从正态分布。概率论中,把研究在什么条件下,大量独立的随机变量之和的分布以正态分布为极限这一类定理成为中心极限定理
设随机变量序列{XnX_nXn}独立同分布,且存在数学期望和方差
E{XiX_iXi}=μ\muμ D{XiX_iXi}=σ2\sigma^2σ2>0
则当n充分大的时候有
∑\sum∑XiX_iXi~AN(nμ,nσ2)AN(n\mu ,n\sigma ^2)AN(nμ,nσ2)
在线性回归中,将所有样本的训练误差看作随机变量序列,利用中心极限定理,证明误差服从正态分布
正态分布
XXX~N(μ,σ2)N(\mu ,\sigma ^2)N(μ,σ2) 大量的随机现象可以用正态分布描述,许多机器学习算法就是建立在假设随机变量服从正态的条件下的
最大似然估计
最直观的想法是:在试验中概率最大的事件最有可能出现。我们利用手中的样本,去估算分布中的未知参数。
设总体XXX的分布为
P{X=x}=p(x;θ)P\left \{ X=x \right \}=p(x;\theta )P{X=x}=p(x;θ)
P{X1=x1,X2=x2...Xn=xn}=∏i=1np(xi;θ)=L(θ)P\left \{ X_1=x_1 ,X_2=x_2...X_n=x_n\right \}=\prod_{i=1}^{n} p(x_i;\theta )=L(\theta)P{X1=x1,X2=x2...Xn=xn}=∏i=1np(xi;θ)=L(θ) (θ=(θ1,θ2,...θn))(\theta=(\theta_1,\theta_2,...\theta_n))(θ=(θ1,θ2,...θn))
使L(θ)L(\theta)L(θ)达到最大的参数 称为最大似然估计量
线性回归损失函数推导
大致思路是将样本的误差看作独立同分布,则他们为正态分布。已知了分布类型,未知是参数θ\thetaθ利用最大似然估计来求解θ\thetaθ。
最终写成矩阵形式损失函数为:
J(θ)=12(Xθ−Y)T(Xθ−Y)J(\theta)=\frac{1}{2}(X\theta-Y)^T(X\theta-Y)J(θ)=21(Xθ−Y)T(Xθ−Y)
一种解法是利用梯度下降,向着负梯度方向移动
或者直接求极值点,此时的θ\thetaθ取值为损失函数的最小值
梯度下降代码
##原函数 def f(x): return x**2 ##原函数导数 def h(x): return 2*x X=[] Y=[] x=2##初始值 step=0.8 f_change=f(x) f_current=f(x) X.append(x) y.append(f_current) while f_change>1e-10: x=x-h(x) tmp=f(x) f_change=np.abs(f_current-tmp) f_current=tmp X.append(x) y.append(f_currnt) print('x= :',x) print('f_change:',f_change,'f_current: ',f_current) print('最终结果:', (x,f_current))
L0-Norm L1-Norm 和L2-Norm
向量范数:
把一个向量与一个非负实数相连系,这个实数在许多场合下可以作为向量大小的一种度量。向量范数就是这样的实数
向量范数的定义:
(∑∣εi∣p)1p(\sum \left | \varepsilon_i\right |^p)^\frac{1}{p}(∑∣εi∣p)p1
L0范数是指向量中非0的元素个数
L1范数指向量中各个元素绝对值之和
L2范数指向量中各个元素平方和然后求平方根
L0正则化很难求解,是个NP难问题
L1正则化可以进行特征选择,让部分特征的系数变为0
L2正则化可以防止过拟合,提高模型的泛化能力
上图分别为L1和L2正则项约束后的解空间,等高线是凸优化问题中目标函数的等高线。L1的解空间是多边形,更容易在尖角处与等高线撞出稀疏解
- [Machine Learning] 机器学习路线-李宏毅
- [李宏毅机器学习笔记] 1.线性回归
- 6、【李宏毅机器学习(2017)】Brief Introduction of Deep Learning(深度学习简介)
- 16、【李宏毅机器学习(2017)】Unsupervised Learning: Deep Auto-encoder(无监督学习:深度自动编码器)
- 李宏毅机器学习二
- 李宏毅机器学习 P18 Tips for Training DNN 笔记
- 李宏毅机器学习任务五
- 7、【李宏毅机器学习(2017)】Backpropagation(反向传播算法)
- 李宏毅机器学习笔记6:Why deep、Semi-supervised
- [机器学习入门] 李宏毅机器学习笔记-12 (Why Deep Learning? ; 为什么是深度学习?)
- [机器学习入门] 李宏毅机器学习笔记-19 (Deep Generative Model-part 2:深度生成模型-part 2)
- 李宏毅机器学习任务八(决策树系列)
- [机器学习入门] 李宏毅机器学习笔记-26(Structured Support Vector Machine part 1;结构化支持向量机part 1)
- 李宏毅机器学习自己的笔记(一)----------Introduction of MachineLearning
- 李宏毅机器学习 视频笔记一
- 李宏毅机器学习笔记(三)——Regression: output a scalar & Gradient Descent
- 机器学习【吴恩达|周志华|李宏毅|算法】清单
- 机器学习笔记(李宏毅):Regression
- 李宏毅机器学习 P20 Fizz Buzz in Tensorflow (sequel) 笔记
- [机器学习入门] 李宏毅机器学习笔记-29 (Sequence Labeling Problem part 1;结构化预测-序列标记 part 1)