您的位置:首页 > 其它

机器学习基础(十一)—— Logistic Regression 梯度更新公式的推导

2016-03-24 15:21 316 查看
Logistic Regression 所要最佳化的问题是:

minw1N∑n=1Nln(1+exp(−ynwTxn))Ein(w)

Ein(w) 对 w 求导得:

∇Ein(w)=1N∑n=1Nθ(−ynwTxn)(−ynxn)

无法像 Linear Regression 一样找到 ∇Ein(w)=0 的解析解。我们采用 iterative optimization 的方式进行求解,已知 iterative optimization 的框架为:

wt+1←wt+ηv

也即,我们可将问题转换为:

Ein(wt+1)=Ein(wt+ηv)

我们继续对 Ein(wt+ηv) 进行一阶泰勒展开:

Ein(wt+ηv)≈Ein(wt)+ηvT∇Ein(wt)

只有 v 是未知的(假定其为单位向量),那什么时候 Ein 下降最快呢,v 与 Ein(wt) 呈负梯度方向时,也即:

v=−∇Ein(wt)∥∇Ein(wt)∥

故最终的梯度下降(gradient descent)公式为:

wt+1←wt−η∇Ein(wt)∥∇Ein(wt)∥

如果 η 的取值不固定,是变化的话,它应该正比于 ∥∇Ein(wt)∥,也即坡度(梯度)越大,它的步子应该跨得大一点,坡度小时,它就跨得小一点,以防跨过最小值点。

简单起见,我们可将 η 与 ∥∇Ein(wt)∥视为一定的比例关系,比值继续记做 η(此时称作 fixed learning rate),这样梯度更新就变成了:

wt+1←wt−η∇Ein(wt)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: