您的位置：首页 > 其它

机器学习基础（十一）—— Logistic Regression 梯度更新公式的推导

2016-03-24 15:21 316 查看

Logistic Regression 所要最佳化的问题是：

minw1N∑n=1Nln(1+exp(−ynwTxn))Ein(w)

Ein(w) 对 w 求导得：

∇Ein(w)=1N∑n=1Nθ(−ynwTxn)(−ynxn)

无法像 Linear Regression 一样找到 ∇Ein(w)=0 的解析解。我们采用 iterative optimization 的方式进行求解，已知 iterative optimization 的框架为：

wt+1←wt+ηv

也即，我们可将问题转换为：

Ein(wt+1)=Ein(wt+ηv)

我们继续对 Ein(wt+ηv) 进行一阶泰勒展开：

Ein(wt+ηv)≈Ein(wt)+ηvT∇Ein(wt)

只有 v 是未知的（假定其为单位向量），那什么时候 Ein 下降最快呢，v 与 Ein(wt) 呈负梯度方向时，也即：

v=−∇Ein(wt)∥∇Ein(wt)∥

故最终的梯度下降（gradient descent）公式为：

wt+1←wt−η∇Ein(wt)∥∇Ein(wt)∥

如果 η 的取值不固定，是变化的话，它应该正比于 ∥∇Ein(wt)∥，也即坡度（梯度）越大，它的步子应该跨得大一点，坡度小时，它就跨得小一点，以防跨过最小值点。

简单起见，我们可将 η 与 ∥∇Ein(wt)∥视为一定的比例关系，比值继续记做 η（此时称作 fixed learning rate），这样梯度更新就变成了：

wt+1←wt−η∇Ein(wt)

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航