您的位置：首页 > 其它

3.1 线性基函数模型

2016-05-30 19:21 204 查看

3.1 线性基函数模型

1、基本概念

回归问题最简单的模型是变量的线性组合：

y(x,ω)=ω0+ω1x1+...++ωDxD

由于线性函数的局限，有时需要与非线性函数组合使用：

y(x,ω)=ω0+∑j=1M−1ωjϕj(x)

其中ϕj(x)被称为基函数（basis function），通常又定义一个格外的“基函数”ϕ0(x)=1 以便将公式简写为：

y(x,ω)=∑j=0M−1ωjϕj(x)=ωTΦ(x)

常用的基函数有：

高斯函数ϕj(x)=exp{−(x−μj)22s2}

sigmoid函数ϕj(x)=σ(x−μjs)

其中σ(a) 是logistic sigmoid函数，表示为：

σ(a)=11+exp(−a)

等价地还可以使用tanh函数，它与logistic sigmoid函数的关系为：

tanh(a)=2σ(2a)−1

因此在线性组合中可以替换使用。

即便如此，y(x,ω) 本质上仍是线性模型，它虽然是 x 的非线性函数但却是 ω 的线性函数，依然没有完全摆脱线性函数的局限性。

2、最⼤似然与最⼩平⽅

ωML=(ΦTΦ)−1ΦTt

3、顺序学习

最大似然法需要一次处理整个数据集，这种批处理技术对于⼤规模数据集来说计算量相当大。所以当数据集规模较大时，适合用顺序算法（也称在线算法）。每次只考虑一个数据点，每次学习后更新参数。

常用的顺序算法是随机梯度下降法（stochastic gradient descent），假设误差函数由数据点的和组成 E=∑nEn ,参数 ω 的更新过程为：

ω(γ+1)=ω(γ)−η∇En

其中 γ 表示迭代次数，η 表示学习率。

对于平方和误差函数，有：

ω(γ+1)=ω(γ)−η(tn−ω(γ)Tϕn)ϕn

其中 ϕn=ϕ(xn)，这被称为最⼩均⽅（least-mean-squares）或者LMS算法。

4、正则化最小平方

可以为误差函数添加正则化项来控制过拟合，则误差函数的形式为：

ED(ω)+λEW(ω)

其中 λ 为正则化系数，用于调整正则化项的重要程度。

正则化项的⼀个最简单的形式为权向量的各个元素的平⽅和：

EW(ω)=12ωTω

这种对于正则化项的选择⽅法在机器学习的⽂献中被称为权值衰减（weight decay），随着 λ 的增⼤，正则化项的影响越来越大，越来越多的参数趋向于变为零。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习模式识别 PRML 贝叶斯方法

相关文章推荐

新的分享

章节导航