您的位置：首页 > 其它

机器学习：2、Logistic regression （逻辑回归）

2014-07-11 19:58 141 查看

Logistic regression （逻辑回归）是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。Logistic
regression可以用来回归，也可以用来分类，主要是二分类，它的输出是对应类别的概率。

定义：

假设我们的样本是{x, y}，y是0或者1，表示正类或者负类，x是我们的m维的样本特征向量。那么这个样本x属于正类，也就是y=1的“概率”可以通过下面的逻辑函数来表示：

写成统一的形式为：

同时定义样本出现于不出现概率的比值：

对于整个样本集，其n个独立样本同时出现的概率为：

两边取对数：

最大似然法就是求模型中使得似然函数最大的系数取值θ，那么此时上述的似然函数就是我们的代价函数了，我们的目标是求上述似然函数的最大值，怎么求？？？梯度上升法
对上式求导：

即：

利用梯度上升法进行参数更新：

梯度下降只需要将加号改为减号：

梯度下降(gradient descent)
Gradient descent 又叫 steepest descent，是利用一阶的梯度信息找到函数局部最优解的一种方法，也是机器学习里面最简单最常用的一种优化方法。要找最小值，我只需要每一步都往下走（也就是每一步都可以让代价函数小一点），然后不断的走，最后肯定能走到最小值的地方。但我们同时也需要更快的到达最小值，怎么办呢？我们需要每一步都找下坡最快的地方，也就是每一步我走某个方向，都比走其他方法，要离最小值更近。而这个下坡最快的方向，就是梯度的负方向了：

其中，参数α叫学习率，就是每一步走多远，这个参数很关键。如果设置的太多，那么很容易就在最优值附加徘徊，因为你步伐太大了。大的学习率的好处是能很快的从远离最优值的地方回到最优值附近，只是在最优值附近的时候，它有心无力了。但如果设置的太小，那收敛速度就太慢了，向蜗牛一样，虽然会落在最优的点，但是这速度会非常慢，所以有的改进就是在这个学习率这了。开始迭代时，学习率大，慢慢的接近最优值的时候，学习率变小就可以了。

梯度下降算法的伪代码如下：
===============================================
初始化回归系数为1
重复下面步骤直到收敛{
计算整个数据集的梯度
使用alpha x gradient来更新回归系数
}
返回回归系数值
===============================================

随机梯度下降SGD (stochastic gradient descent)

梯度下降算法在每次更新回归系数的时候都需要遍历整个数据集（计算整个数据集的回归误差），该方法对小数据集尚可。但当遇到有数十亿样本和成千上万的特征时，就有点力不从心了，它的计算复杂度太高。改进的方法是一次仅用一个样本点（的回归误差）来更新回归系数。这个方法叫随机梯度下降算法。由于可以在新的样本到来的时候对分类器进行增量的更新（假设我们已经在数据库A上训练好一个分类器h了，那新来一个样本x。对非增量学习算法来说，我们需要把x和数据库A混在一起，组成新的数据库B，再重新训练新的分类器。但对增量学习算法，我们只需要用新样本x来更新已有分类器h的参数即可），所以它属于在线学习算法。与在线学习相对应，一次处理整个数据集的叫“批处理”。
随机梯度下降算法的伪代码如下：
===============================================

初始化回归系数为1
重复下面步骤直到收敛{
对数据集中每个样本
计算该样本的梯度
使用alpha xgradient来更新回归系数
}
返回回归系数值
===============================================

改进的随机梯度下降

评价一个优化算法的优劣主要是看它是否收敛，也就是说参数是否达到稳定值，是否还会不断的变化？收敛速度是否快？

上图展示了随机梯度下降算法在200次迭代中三个回归系数的变化过程。其中系数X2经过50次迭代就达到了稳定值。但系数X1和X0到100次迭代后稳定。而且可恨的是系数X1和X2还在很调皮的周期波动，迭代次数很大了，心还停不下来。产生这个现象的原因是存在一些无法正确分类的样本点，也就是我们的数据集并非线性可分，但我们的logistic
regression是线性分类模型，对非线性可分情况无能为力。然而我们的优化程序并没能意识到这些不正常的样本点，还一视同仁的对待，调整系数去减少对这些样本的分类误差，从而导致了在每次迭代时引发系数的剧烈改变。对我们来说，我们期待算法能避免来回波动，从而快速稳定和收敛到某个值。
对随机梯度下降算法，我们做两处改进来避免上述的波动问题：
1）在每次迭代时，调整更新步长alpha的值。随着迭代的进行，alpha越来越小，这会缓解系数的高频波动（也就是每次迭代系数改变得太大，跳的跨度太大）。当然了，为了避免alpha随着迭代不断减小到接近于0（这时候，系数几乎没有调整，那么迭代也没有意义了），我们约束alpha一定大于一个稍微大点的常数项。
2）每次迭代，改变样本的优化顺序。也就是随机选择样本来更新回归系数。这样做可以减少周期性的波动，因为样本顺序的改变，使得每次迭代不再形成周期性。

改进的随机梯度下降算法的伪代码如下：
===============================================
初始化回归系数为1
重复下面步骤直到收敛{
对随机遍历的数据集中的每个样本
随着迭代的逐渐进行，减小alpha的值
计算该样本的梯度
使用alpha x gradient来更新回归系数
}
返回回归系数值
===============================================

比较原始的随机梯度下降和改进后的梯度下降，可以看到两点不同：
1）系数不再出现周期性波动。
2）系数可以很快的稳定下来，也就是快速收敛。这里只迭代了20次就收敛了。而上面的随机梯度下降需要迭代200次才能稳定

求函数极值问题，除了上述的gradient descent 方法之外，还有于下面几种方法
（1） Conjugate gradient
(2) BFGS
(3) LBFGS
以上几种方法相对于gradient descent的优势在于无需选择学习率α，速度更快，但是更复杂。

过拟合（overfitting）
同时在分类时，有时会遇到过拟合问题，怎么解决呢？？？？

1. 减少feature个数（人工定义留多少个feature、算法选取这些feature）

2. 规格化（留下所有的feature，但对于部分feature定义其parameter非常小）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航