(机器学习笔记一)回归分析
2016-09-07 11:21
148 查看
监督学习
线性回归
LMS 算法least mean squares algorithm
梯度下降法
X:表示输入值
Y:表示输出值
i:表示训练集中的样本索引。
学习结果:函数 h:X→Y,使得 h(X) 能够很好的预测 Y
由于历史原因 h 被称作假设(hypothesis).
如果目标变量是连续的值,我们称这个学习问题是一个回归问题。
如果目标变量是很少的几个离散的值,我们称它为分类问题。
hθ(x)=θ0+θ1x1+θ2x2
θi 是参数
hθ(x) 在不造成困惑的前提下可以简写为 h(x)
x0=1这是截距项
上式可以写为:
h(x)=∑i=0nθixi=θTx
右边把θ,x视为向量
n是输入的变量的个数(不算x0)
我们通过给的训练集,去学习选择θ
训练集:eg:房屋售价问题
我们训练的目标就是要让h(x)尽量与y相符。
为了达到这个目标,我们需要一个代价函数来评估。
普通最小二乘法(OLS),代价函数为:
J(θ)=12m∑i=1m(hθ(x(i))−y(i))2
其中12是为了方便在求导的时候约掉系数。
i: 样本索引
m: 样本总数
当只有一个样本时,即m=1, 计算简化得到:
θj:=θj+α(y(i)−hθ(x(i)))x(i)j
j为第j个参数
i为第i个训练样本
这个就是LMS更新规则,它有几个属性似乎是自然的直观的。更新误差项是均衡的,误差项越小相应参数的改变越小,误差项越大,相应参数的改变越大
批量梯度下降(batch gradient descent)
∂∂θjJ(θ)=1m∑i=1m(hθ(xi)−yi)xij=−1m∑i=1m(yi−hθ(xi))xij
求得每个 θj,j∈(1,2,⋯,n)
θj:=θj+1m∑i=1m(yi−hθ(xi))xij
计算出新的 hθ(X) 然后再迭代下一步。
最终得到全局最优解。
可以看到每一步迭代bgd都要遍历全部的样本,速度较慢。
增量(increment)梯度下降 (随机(stochastic)递度下降法)
θj:=θj+α(y(i)−hθ(x(i)))x(i)j
每一步迭代只利用一个样本,比bgd快,但不一定能聚焦收敛到最小值,可能会在最小值附近摆动,但是由于通常情况下局部最小值都接近全局最小值,所以当样本量特别大的时候,首选随机梯度下降法。
线性回归
LMS 算法least mean squares algorithm
梯度下降法
1.监督学习
训练集: {(X(i),Y(i));i=1,2,⋯,m}X:表示输入值
Y:表示输出值
i:表示训练集中的样本索引。
学习结果:函数 h:X→Y,使得 h(X) 能够很好的预测 Y
由于历史原因 h 被称作假设(hypothesis).
如果目标变量是连续的值,我们称这个学习问题是一个回归问题。
如果目标变量是很少的几个离散的值,我们称它为分类问题。
2.线性回归
形如关于X的线性函数:hθ(x)=θ0+θ1x1+θ2x2
θi 是参数
hθ(x) 在不造成困惑的前提下可以简写为 h(x)
x0=1这是截距项
上式可以写为:
h(x)=∑i=0nθixi=θTx
右边把θ,x视为向量
n是输入的变量的个数(不算x0)
我们通过给的训练集,去学习选择θ
训练集:eg:房屋售价问题
面积x1 | 卧室数x2 | 价格y |
---|---|---|
2104 | 3 | 400 |
1600 | 3 | 330 |
2400 | 3 | 369 |
⋮ | ⋮ | ⋮ |
为了达到这个目标,我们需要一个代价函数来评估。
普通最小二乘法(OLS),代价函数为:
J(θ)=12m∑i=1m(hθ(x(i))−y(i))2
其中12是为了方便在求导的时候约掉系数。
i: 样本索引
m: 样本总数
3.LMS 算法(least mean squares algorithm)
θj:=θj−α∂∂θjJ(θ)当只有一个样本时,即m=1, 计算简化得到:
θj:=θj+α(y(i)−hθ(x(i)))x(i)j
j为第j个参数
i为第i个训练样本
这个就是LMS更新规则,它有几个属性似乎是自然的直观的。更新误差项是均衡的,误差项越小相应参数的改变越小,误差项越大,相应参数的改变越大
4.梯度下降法
当很多样本时,怎么样来更新迭代θ值批量梯度下降(batch gradient descent)
∂∂θjJ(θ)=1m∑i=1m(hθ(xi)−yi)xij=−1m∑i=1m(yi−hθ(xi))xij
求得每个 θj,j∈(1,2,⋯,n)
θj:=θj+1m∑i=1m(yi−hθ(xi))xij
计算出新的 hθ(X) 然后再迭代下一步。
最终得到全局最优解。
可以看到每一步迭代bgd都要遍历全部的样本,速度较慢。
增量(increment)梯度下降 (随机(stochastic)递度下降法)
θj:=θj+α(y(i)−hθ(x(i)))x(i)j
每一步迭代只利用一个样本,比bgd快,但不一定能聚焦收敛到最小值,可能会在最小值附近摆动,但是由于通常情况下局部最小值都接近全局最小值,所以当样本量特别大的时候,首选随机梯度下降法。
相关文章推荐
- 公开课机器学习笔记(1)回归分析
- 机器学习笔记--回归分析(2)
- 机器学习笔记--回归分析(1)
- 公开课机器学习笔记(4)回归分析
- 【机器学习笔记二】回归分析 - 随机梯度下降
- 机器学习笔记--回归分析(3)
- 【机器学习笔记三】回归分析 - 岭回归
- R语言与机器学习中的回归方法学习笔记
- 【机器学习-斯坦福】学习笔记16 独立成分分析(Independent Component Analysis)
- 【机器学习-斯坦福】学习笔记18——线性判别分析(Linear Discriminant Analysis)(一)
- R语言学习笔记:简单的回归分析
- 相关分析与回归分析变量选择方法(笔记)
- 听课笔记(第四讲):学习的可行性分析 (台湾国立大学机器学习基石)
- R语言与回归分析学习笔记(应用回归小结)(2)
- R语言与机器学习中的回归方法学习笔记
- 网易公开课“机器学习”学习笔记(一)线性回归
- 听课笔记(第五讲): 学习的可行性分析(一些概念和思想) (台湾国立大学机器学习基石)
- 【机器学习-斯坦福】学习笔记15 主成分分析(Principal components analysis)-最小平方误差解释
- 听课笔记(第十讲): 逻辑斯蒂回归 (台大机器学习)
- 【机器学习-斯坦福】学习笔记20——因子分析(Factor Analysis)