您的位置:首页 > 其它

3.1 线性基函数模型

2016-05-30 19:21 204 查看

3.1 线性基函数模型

1、基本概念

回归问题最简单的模型是变量的线性组合:

y(x,ω)=ω0+ω1x1+...++ωDxD

由于线性函数的局限,有时需要与非线性函数组合使用:

y(x,ω)=ω0+∑j=1M−1ωjϕj(x)

其中ϕj(x)被称为基函数(basis function),通常又定义一个格外的“基函数”ϕ0(x)=1 以便将公式简写为:

y(x,ω)=∑j=0M−1ωjϕj(x)=ωTΦ(x)

常用的基函数有:

高斯函数ϕj(x)=exp{−(x−μj)22s2}

sigmoid函数ϕj(x)=σ(x−μjs)

其中σ(a) 是logistic sigmoid函数,表示为:

σ(a)=11+exp(−a)

等价地还可以使用tanh函数,它与logistic sigmoid函数的关系为:

tanh(a)=2σ(2a)−1

因此在线性组合中可以替换使用。

即便如此,y(x,ω) 本质上仍是线性模型,它虽然是 x 的非线性函数但却是 ω 的线性函数,依然没有完全摆脱线性函数的局限性。

2、最⼤似然与最⼩平⽅

ωML=(ΦTΦ)−1ΦTt

3、顺序学习

最大似然法需要一次处理整个数据集,这种批处理技术对于⼤规模数据集来说计算量相当大。所以当数据集规模较大时,适合用顺序算法(也称在线算法)。每次只考虑一个数据点,每次学习后更新参数。

常用的顺序算法是随机梯度下降法(stochastic gradient descent),假设误差函数由数据点的和组成 E=∑nEn ,参数 ω 的更新过程为:

ω(γ+1)=ω(γ)−η∇En

其中 γ 表示迭代次数,η 表示学习率。

对于平方和误差函数,有:

ω(γ+1)=ω(γ)−η(tn−ω(γ)Tϕn)ϕn

其中 ϕn=ϕ(xn),这被称为最⼩均⽅(least-mean-squares)或者LMS算法。

4、正则化最小平方

可以为误差函数添加正则化项来控制过拟合,则误差函数的形式为:

ED(ω)+λEW(ω)

其中 λ 为正则化系数,用于调整正则化项的重要程度。

正则化项的⼀个最简单的形式为权向量的各个元素的平⽅和:

EW(ω)=12ωTω

这种对于正则化项的选择⽅法在机器学习的⽂献中被称为权值衰减(weight decay),随着 λ 的增⼤,正则化项的影响越来越大,越来越多的参数趋向于变为零。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息