【斯坦福---机器学习】复习笔记之监督学习应用.梯度下降
2015-07-02 18:58
501 查看
本讲内容:
1.Linear regression(线性回归)2.Gradient descent(梯度下降)
3.Normal equation(正规方程组)
supervised learning(监督学习):给定一组数据集,告诉算法正确的答案,经过训练,给定输入能够给出正确的输出。
开始一个监督学习的例子,房子面积和价格的关系:
给定这样的数据,怎样预测其他房子的价格?
引入一些符号:
表示输入变量,也叫做输入特性(本例中的居住面积)
表示输出或者说目标变量(本例中预测的价格)
表示训练样本
表示训练集
监督学习的流程如下图所示:
线性回归
为了使问题更加有趣,提供一个更加丰富的数据集,还知道房子的卧室数量:假设y是x的一个线性函数:
假设X0=1,得到:
其中,n是输入变量的数目(不包括x0)。
为了表示
和
的距离,定义函数:
1 LMS 算法
我们需要求出使得最小化的
考虑梯度下降算法,给定初值,反复更新
的值:
其中
是学习速度;
假设只有一个训练样本,则有:
对于单个样本,更新规则如下:
这个就是LMS更新规则(least mean squares,最小二乘法)
如果样本不止一个,需要修改更新的规则,
批处理梯度下降(batch gradient descent,每一步都要访问整个数据集):
随机梯度下降(stochastic gradient descent,每个样本进行一次更新):
随机梯度下降比批处理梯度下降收敛更快,当数据集比较大时,随机梯度下降优于批处理梯度下降。
2.正规方程组
现在讨论第二种最小化 J 的方法。2.1矩阵导数
对一个由m*n阶矩阵映射到实数的函数:
,f对A的导数为:
例如,假设A=
,并且函数 f:
为:
得到:
矩阵的迹:
定义:对于n阶方阵A,
对于实数a来说,tra = a.
性质:
trAB = trBA
trABC = trCAB = trBCA
trA =
tr(A+B) = trA + trB
tr aA = atrA
2.2 最小二乘法回顾
给定训练集,设计矩阵X定义为:
由于,
再有,
又因为,
因此,
相关文章推荐
- 数据结构复习001
- Excel Sheet Column Title
- 汝坟
- python笔记:pickle、cPickle模块
- 背包问题之01背包
- ORACLE DATAGUARD 11G R2 RAC TO RAC
- UILabel/标签视图
- XZ压缩与解压缩
- 自定义布局include
- python dict 与list比较
- Kernel那些事儿之内存管理(5) --- 衣带渐宽终不悔(上)
- 解决 Source Insight中的parse too complex问题
- 北漂-开始的日子
- iOS 详解CoreLocation定位服务
- mongodb经验
- WPF中使用WinForm控件预览DWG文件(学习笔记)
- 淘宝:下一个大痛点在哪?
- 滴滴快的柳青:这个不曾失败过的女人,正与不曾打破的旧体制博弈
- 除了刷单,这些“中国现象”也让老外们震惊
- 务实