您的位置：首页 > 其它

李宏毅机器学习——逻辑回归

2020-04-01 18:28 274 查看

逻辑回归

第一步先选择函数集

步骤一：函数集

接上一篇，我们知道，给定一个x,它属于类别C1C_1C1的概率为Pw,b(C1∣x)P_{w,b}(C_1|x)Pw,b(C1∣x),
如果Pw,b(C1∣x)≥0.5P_{w,b}(C_1|x)\geq0.5Pw,b(C1∣x)≥0.5则属于C1C_1C1；否则属于C2C_2C2

最后我们得到
Pw,b(C1∣x)=σ(z),σ(z)=11+exp(−z)P_{w,b}(C_1|x) = \sigma(z),\quad \sigma(z)=\frac{1}{1+exp(-z)}Pw,b(C1∣x)=σ(z),σ(z)=1+exp(−z)1

z=w⋅x+b=∑iwixi+b z = w \cdot x + b = \sum_i w_ix_i + b z=w⋅x+b=i∑wixi+b
所以我们的函数集是fw,b(x)=Pw,b(C1∣x)f_{w,b}(x) = P_{w,b}(C_1|x)fw,b(x)=Pw,b(C1∣x)，包含所有不同的www和bbb。

图形化表示如下：

这个就是逻辑回归，我们与线性回归做一个比较。

因为Sigmoid函数的取值范围是0到1，因此逻辑回归的输出也是0到1；而线性回归的输出可以是任何值。

接下来判断函数的好坏

步骤2：函数有多好

假设我们有N个训练数据，每个训练数据都标明了属于哪个类别(C1C_1C1或C2C_2C2)

并且假设这些数据是从fw,b(x)=Pw,b(C1∣x)f_{w,b}(x) = P_{w,b}(C_1|x)fw,b(x)=Pw,b(C1∣x)所产生的。

那么给定一组www和bbb，那如何计算某一组www和bbb产生这些数据的概率：

L(w,b)=fw,b(x1)fw,b(x2)(1−fw,b(x3))⋯fw,b(xN) L(w,b) = f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))\cdots f_{w,b}(x^N) L(w,b)=fw,b(x1)fw,b(x2)(1−fw,b(x3))⋯fw,b(xN)

其中x3x^3x3是属于C2C_2C2，因此它的计算方法有点不同。

最好的www和bbb会产生产生最大的L(w,b)L(w,b)L(w,b)

w∗,b∗=arg max⁡w,bL(w,b) w^*,b^* = arg\,\max_{w,b}L(w,b) w∗,b∗=argw,bmaxL(w,b)
做个数学上的转换，将上式右边取对数，并加上负号，变成计算最小的：

w∗,b∗=arg min⁡w,b−ln⁡L(w,b) w^*,b^* = arg\,\min_{w,b}-\ln L(w,b) w∗,b∗=argw,bmin−lnL(w,b)

取对数的好处是使得相乘变成相加：

−ln⁡L(w,b)=−ln⁡fw,b(x1)−ln⁡fw,b(x2)−ln⁡(1−fw,b(x3))⋯ -\ln L(w,b) = \\ -\ln f_{w,b}(x^1)\\ -\ln f_{w,b}(x^2)\\ -\ln (1-f_{w,b}(x^3)) \\ \cdots −lnL(w,b)=−lnfw,b(x1)−lnfw,b(x2)−ln(1−fw,b(x3))⋯

但是这个式子不好写个SUM的形式,因此需要做符号转换

如果y^n=1\hat{y}^n=1y^n=1则说明它属于类别C1C_1C1；若等于0，说明属于类别C2C_2C2，那么就有

−ln⁡fw,b(x1)⟹−[y^1ln⁡f(x1)+(1−y^1)ln⁡(1−f(x1))]−ln⁡fw,b(x2)⟹−[y^2ln⁡f(x2)+(1−y^2)ln⁡(1−f(x2))]−ln⁡(1−fw,b(x3))⟹−[y^3ln⁡f(x3)+(1−y^3)ln⁡(1−f(x3))]⋯ -\ln f_{w,b}(x^1) \Longrightarrow -[\hat{y}^1 \ln f(x^1) + (1 - \hat{y}^1) \ln (1-f(x^1))]\\ -\ln f_{w,b}(x^2) \Longrightarrow -[\hat{y}^2 \ln f(x^2) + (1 - \hat{y}^2) \ln (1-f(x^2))]\\ -\ln (1-f_{w,b}(x^3)) \Longrightarrow -[\hat{y}^3 \ln f(x^3) + (1 - \hat{y}^3) \ln (1-f(x^3))]\\ \cdots −lnfw,b(x1)⟹−[y^1lnf(x1)+(1−y^1)ln(1−f(x1))]−lnfw,b(x2)⟹−[y^2lnf(x2)+(1−y^2)ln(1−f(x2))]−ln(1−fw,b(x3))⟹−[y^3lnf(x3)+(1−y^3)ln(1−f(x3))]⋯
这样，就能得到一个函数：

因为y^n\hat{y}^ny^n取0或1，因此y^nln⁡f(xn)+(1−y^n)ln⁡(1−f(xn))\hat{y}^n \ln f(x^n) + (1 - \hat{y}^n) \ln (1-f(x^n))y^nlnf(xn)+(1−y^n)ln(1−f(xn))中+号左右两边总有一个式子等于0。

L(w,b)=fw,b(x1)fw,b(x2)(1−fw,b(x3))⋯fw,b(xN)−ln⁡L(w,b)=−(ln⁡fw,b(x1)+ln⁡fw,b(x2)+ln(1−ln⁡fw,b(x3))⋯=∑n−[y^nln⁡fw,b(xn)+(1−y^n)ln⁡(1−fw,b(xn))] \begin{aligned} L(w,b) &= f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))\cdots f_{w,b}(x^N) \\ -\ln L(w,b) &= -(\ln f_{w,b}(x^1) + \ln f_{w,b}(x^2) + ln(1-\ln f_{w,b}(x^3)) \cdots \\ &= \sum_n -[\hat{y}^n \ln f_{w,b}(x^n) + (1 - \hat{y}^n) \ln (1-f_{w,b}(x^n))] \\ \end{aligned} L(w,b)−lnL(w,b)=fw,b(x1)fw,b(x2)(1−fw,b(x3))⋯fw,b(xN)=−(lnfw,b(x1)+lnfw,b(x2)+ln(1−lnfw,b(x3))⋯=n∑−[y^nlnfw,b(xn)+(1−y^n)ln(1−fw,b(xn))]

−[y^nln⁡fw,b(xn)+(1−y^n)ln⁡(1−fw,b(xn))]-[\hat{y}^n \ln f_{w,b}(x^n) + (1 - \hat{y}^n) \ln (1-f_{w,b}(x^n))]−[y^nlnfw,b(xn)+(1−y^n)ln(1−fw,b(xn))]其实就是两个伯努利分布的交叉熵,交叉熵主要用于衡量两个分布有多接近，如果一模一样的话，那么就是0。

所以在逻辑回归中，定义一个函数的好坏就通过两个类别分布的交叉熵之和：

我们需要最小化这个交叉熵，也就是希望函数的输出和目标函数的输出越接近越好。

步骤3：找到最好的函数

−ln⁡L(w,b)=∑n−[y^nln⁡fw,b(xn)+(1−y^n)ln⁡(1−fw,b(xn))] -\ln L(w,b) = \sum_n -[\hat{y}^n \ln f_{w,b}(x^n) + (1 - \hat{y}^n) \ln (1-f_{w,b}(x^n))] \\ −lnL(w,b)=n∑−[y^nlnfw,b(xn)+(1−y^n)ln(1−fw,b(xn))]
找到最好的函数需要找到一组www和bbb使得上式的结果最小。

计算该式对w中某个特征的微分。

−ln⁡L(w,b)∂wi=∑n−[y^n∂ln⁡fw,b(xn)∂wi+(1−y^n)∂ln⁡(1−fw,b(xn))∂wi] \frac{-\ln L(w,b)}{\partial w_i} = \sum_n -[\hat{y}^n \frac{\partial \ln f_{w,b}(x^n)}{\partial w_i} + (1 - \hat{y}^n) \frac{ \partial \ln (1-f_{w,b}(x^n))}{\partial w_i}] ∂wi−lnL(w,b)=n∑−[y^n∂wi∂lnfw,b(xn)+(1−y^n)∂wi∂ln(1−fw,b(xn))]

其中fw,b(x)=σ(z)=11+exp(−z)f_{w,b}(x) = \sigma(z) =\frac{1}{1 + exp(-z)}fw,b(x)=σ(z)=1+exp(−z)1 ,z=w⋅x+b=∑iwixi+bz = w \cdot x + b = \sum_i w_ix_i + bz=w⋅x+b=∑iwixi+b

一项一项来求，左项可以写成

∂ln⁡fw,b(x)∂wi=∂ln⁡fw,b(x)∂z∂z∂wi \frac{\partial \ln f_{w,b}(x)}{\partial w_i} = \frac{\partial \ln f_{w,b}(x)}{\partial z} \frac{\partial z}{\partial w_i} ∂wi∂lnfw,b(x)=∂z∂lnfw,b(x)∂wi∂z

由zzz的表达式知 ∂z∂wi=xi\frac{\partial z}{\partial w_i} = x_i∂wi∂z=xi

∂ln⁡fw,b(x)∂z=∂ln⁡σ(z)∂z=1σ(z)∂σ(z)∂z=1σ(z)σ(z)(1−σ(z))=(1−σ(z)) \frac{\partial \ln f_{w,b}(x)}{\partial z} = \frac{\partial \ln \sigma(z)}{\partial z} = \frac{1}{\sigma(z)} \frac{\partial \sigma(z)}{\partial z} = \frac{1}{\sigma(z)} \sigma(z)(1-\sigma(z)) = (1 - \sigma(z)) ∂z∂lnfw,b(x)=∂z∂lnσ(z)=σ(z)1∂z∂σ(z)=σ(z)1σ(z)(1−σ(z))=(1−σ(z))

其中∂σ(z)∂z=σ(z)(1−σ(z))\frac{\partial \sigma(z)}{\partial z} = \sigma(z)(1-\sigma(z))∂z∂σ(z)=σ(z)(1−σ(z)) 证明如下：

σ′(z)=(11+e−z)′=0−(−e−z)(1+e−z)2=1+e−z−1(1+e−z)2=1(1+e−z)(1−1(1+e−z))=σ(z)(1−σ(z)) \begin{aligned} \sigma'(z) &= (\frac{1}{1+e^{-z}})' \\ &= \frac{0 - (-e^{-z})}{(1+e^{-z})^{2}} \\ &= \frac{1+e^{-z}-1}{(1+e^{-z})^{2}} \\ &= \frac{1}{(1+e^{-z})}(1-\frac{1}{(1+e^{-z})}) \\ &= \sigma(z)(1-\sigma(z))\\ \end{aligned} σ′(z)=(1+e−z1)′=(1+e−z)20−(−e−z)=(1+e−z)21+e−z−1=(1+e−z)1(1−(1+e−z)1)=σ(z)(1−σ(z))

而右项

∂ln⁡(1−fw,b(x))∂wi=∂ln⁡(1−fw,b(x))∂σ(z)∂z∂wi∂z∂wi=xi \frac{ \partial \ln (1-f_{w,b}(x))}{\partial w_i} = \frac{ \partial \ln (1-f_{w,b}(x))}{\partial \sigma(z)} \frac{\partial z}{\partial w_i} \quad \frac{\partial z}{\partial w_i} = x_i ∂wi∂ln(1−fw,b(x))=∂σ(z)∂ln(1−fw,b(x))∂wi∂z∂wi∂z=xi

也就是

∂ln⁡(1−σ(z))∂σ(z)=−11−σ(z)∂zσ(z)=−11−σ(z)σ(z)(1−σ(z))=−σ(z) \frac{ \partial \ln (1-\sigma(z))}{\partial \sigma(z)} = - \frac{1}{1- \sigma(z)} \frac{\partial z}{\sigma(z)} = - \frac{1}{1- \sigma(z)} \sigma(z) (1-\sigma(z)) = -\sigma(z) ∂σ(z)∂ln(1−σ(z))=−1−σ(z)1σ(z)∂z=−1−σ(z)1σ(z)(1−σ(z))=−σ(z)

所以

−ln⁡L(w,b)∂wi=∑n−[y^n∂ln⁡fw,b(xn)∂wi+(1−y^n)∂ln⁡(1−fw,b(xn))∂wi]=∑n−[y^n(1−fw,b(xn))xin−(1−y^n)fw,b(xn)xin]=∑n−[y^n−y^nfw,b(xn)−fw,b(xn)+y^nfw,b(xn)]xin=∑n−(y^n−fw,b(xn))xin \begin{aligned} \frac{-\ln L(w,b)}{\partial w_i} &= \sum_n - [\hat{y}^n \frac{\partial \ln f_{w,b}(x^n)}{\partial w_i} + (1 - \hat{y}^n) \frac{ \partial \ln (1-f_{w,b}(x^n))}{\partial w_i}] \\ &= \sum_n -[\hat{y}^n(1-f_{w,b}(x^n))x_i^n - (1 - \hat{y}^n)f_{w,b}(x^n)x_i^n] \\ &= \sum_n -[\hat{y}^n - \bcancel{\hat{y}^n f_{w,b}(x^n)} - f_{w,b}(x^n) + \bcancel{\hat{y}^nf_{w,b}(x^n)}]x_i^n \\ &= \sum_n -(\hat{y}^n - f_{w,b}(x^n))x_i^n \end{aligned} ∂wi−lnL(w,b)=n∑−[y^n∂wi∂lnfw,b(xn)+(1−y^n)∂wi∂ln(1−fw,b(xn))]=n∑−[y^n(1−fw,b(xn))xin−(1−y^n)fw,b(xn)xin]=n∑−[y^n−y^nfw,b(xn)−fw,b(xn)+y^nfw,b(xn)]xin=n∑−(y^n−fw,b(xn))xin

得到的式子很简单。如果用梯度下降算法来更新它的话，可以写成：

wi←wi−η∑n−(y^n−fw,b(xn))xin w_i \leftarrow w_i - \eta \sum_n -(\hat{y}^n - f_{w,b}(x^n))x_i^n wi←wi−ηn∑−(y^n−fw,b(xn))xin

y^n−fw,b(xn)\hat{y}^n - f_{w,b}(x^n)y^n−fw,b(xn)表示理想的目标与模型的输出的差距，如果差距越大，
那么更新的量应该要越大。

接下来比较下逻辑回归和线性回归更新时的式子：

会发现表达式是一模一样的。唯一不同的是逻辑回归的y^n\hat{y}^ny^n取0或1，f是0~1之间的数值；而线性回归的y^n\hat{y}^ny^n是任意实数，输出也可以是任何实数。

生成模型VS判别模型

我们上面讨论的逻辑回归是判别模型（Discriminative），用高斯分布描述的概率分布模型是生成模型(Generative)。

它们的函数集是一样的 P(C1∣x)=σ(w⋅x+b)P(C_1|x) = \sigma(w \cdot x + b)P(C1∣x)=σ(w⋅x+b)

用逻辑回归能直接找出www和bbb；如果是生成模型，那么需要找到μ1,μ2,Σ−1\mu^1,\mu^2,\Sigma^{-1}μ1,μ2,Σ−1，进而求出wTw^TwT和bbb

根据同一组训练数据，同样的函数集，上面两种模型会得到不同的函数。

如果用上所有的特征，判别模型的准确率更好。

假设有一个非常简单的二元分类问题，每个数据都有两个特征。

Class1我们只有一份数据，它的两个特征都是1；Class2有12份数据，如上。

如果给一份测试数据，它的两个特征都是1：

那么它属于哪个类别的概率大呢？

我们先来看下生成模型，选用朴素贝叶斯模型，朴素说的是每个特征都是独立的。
P(x∣Ci)=P(x1∣Ci)P(x2∣Ci)P(x|C_i) = P(x_1|C_i)P(x_2|C_i)P(x∣Ci)=P(x1∣Ci)P(x2∣Ci)

P(C1)=113P(C_1) = \frac{1}{13}P(C1)=131 给定类别C1C_1C1，第一个特征是1的几率P(x1=1∣C1)=1P(x_1 = 1|C_1) = 1P(x1=1∣C1)=1,第二个特征是1的几率P(x2=1∣C1)=1P(x_2 = 1|C_1) = 1P(x2=1∣C1)=1，也是1。

P(C2)=1213P(C_2) = \frac{12}{13}P(C2)=1312 ，给定类别C2C_2C2，第一个特征是1的几率P(x1=1∣C1)=13P(x_1 = 1|C_1) = \frac{1}{3}P(x1=1∣C1)=31,第二个特征是1的几率P(x2=1∣C1)=13P(x_2 = 1|C_1) = \frac{1}{3}P(x2=1∣C1)=31

接下来计算这个测试数据属于类别1的几率

P(C1∣x)=p(x∣C1)P(C1)p(x∣C1)P(C1)+p(x∣C2)P(C2) P(C_1|x) = \frac{p(x|C_1)P(C_1)}{p(x|C_1)P(C_1) + p(x|C_2)P(C_2)} \\ P(C1∣x)=p(x∣C1)P(C1)+p(x∣C2)P(C2)p(x∣C1)P(C1)