逻辑回归在线性回归的实数范围输出值上施加sigmoid函数将值收敛到0~1范围, 其目标函数也因此从差平方和函数变为对数损失函数, 以提供最优化所需导数（sigmoid函数是softmax函数的二元特例，其导数均为函数值的f*(1-f)形式，若要求多元分类，就要把sigmoid换成softmax了。）。

2.逻辑回归的原理

Logistic 回归是二分类任务的首选方法。它输出一个 0 到 1 之间的离散二值结果。简单来说，它的结果不是 1 就是 0。

Logistic 回归通过使用其固有的 logistic 函数估计概率，来衡量因变量（我们想要预测的标签）与一个或多个自变量（特征）之间的关系。

然后这些概率必须二值化才能真地进行预测。这就是 logistic 函数的任务，也称为 Sigmoid 函数。Sigmoid 函数是一个 S 形曲线，它可以将任意实数值映射到介于 0 和 1 之间的值，但并不能取到 0或1。然后使用阈值分类器将 0 和 1 之间的值转换为 0 或 1。

a) 构建模型

逻辑回归模型的假设是：
hθ(x)=g(θTX){h_\theta(x)=g(\theta^TX)}hθ(x)=g(θTX)

其中X表示特征向量，g代表逻辑函数，一个常用的逻辑函数为 S 形函数，公式为：g(z)=11+e−z{g(z)=\frac{1}{1+e^{-z}}}g(z)=1+e−z1
该函数的图像为：

hθ(x){h_\theta(x)}hθ(x)的作用是，对于给定的输入变量，根据选择的参数计算输出变量=1 的可能性，即hθ(x)=P(y=1∣x;θ){h_\theta(x)=P(y=1|x;\theta)}hθ(x)=P(y=1∣x;θ)。

在逻辑回归中，我们预测：

当hθ(x){h_\theta(x)}hθ(x)>= 0.5时，预测 𝑧 = 1。
当hθ(x){h_\theta(x)}hθ(x)< 0.5时，预测 𝑧 = 0 。

b) 构造损失函数

对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。理论上来说，我们
也可以对逻辑回归模型沿用这个定义，但是问题在于，当我们将hθ(x)=11+e−θTX{h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}}hθ(x)=1+e−θTX1带入到这样定义了的代价函数中时，我们得到的代价函数将是一个非凸函数（non-convexfunction）。

这意味着我们的代价函数有许多局部最小值，这将影响梯度下降算法寻找全局最小值。

我们重新定义逻辑回归的代价函数为：
J(θ)=1m∑i=1mCost(hθ(x(i),y(i))){J(\theta)=\frac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)},y^{(i)}))}J(θ)=m1i=1∑mCost(hθ(x(i) 32956 ,y(i)))

其中：

hθ(x){h_\theta(x)}hθ(x)与Cost(hθ(x,y)){Cost(h_\theta(x,y))}Cost(hθ(x,y))之间的关系如下图所示：

将构建的 Cost(hθ(x,y)){Cost(h_\theta(x,y))}Cost(hθ(x,y))简化如下：

带入代价函数得到：

c) 求解θ{\theta}θ

在得到代价函数以后，我们便可以用梯度下降算法来求得能使代价函数最小的参数了。算法为：

求导后得到：

求导过程：

参考：

3.逻辑回归损失函数推导及优化

损失函数推导见2-b内容
损失函数优化
共轭梯度法 BFGS ( 变尺度法) ， L-BFGS (限制变尺度法) ，局部优化法，有限内存局部优化法等

4.正则化与模型评估指标

a) 正则化

我们给逻辑回归的代价函数增加一个正则化的表达式，得到代价函数：

b) 模型评估指标

错误率与精度
是分类任务中最常见的两种性能度量，既适用于二分类任务，也适用于多分类任务。错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例.对样例集D=(x1,y1),(x2,y2),...,(xi,yi){D={(x_1,y_1),(x_2,y_2),...,(x_i,y_i)}}D=(x1,y1),(x2,y2),...,(xi,yi)，分类错误率定义为
E(f;D)=1m∑i=1mI(f(xi)!=yi){E(f;D)=\frac{1}{m}\sum_{i=1}^mI(f(x_i)!= y_i)}E(f;D)=m1i=1∑mI(f(xi)!=yi)
精度定义为
acc(f;D)=1m∑i=1mI(f(xi)=yi)=1−E(f;D){acc(f;D)=\frac{1}{m}\sum_{i=1}^mI(f(x_i)= y_i)=1-E(f;D)}acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D)
更一般的，对于数据分布D和概率密度函数p(·)，错误率与精度可分别描述为
E(f;D)=∫x∼DI(f(xi)!=yi)p(x)dx{E(f;D)=\int_{x\sim D}I(f(x_i)!= y_i)p(x)dx}E(f;D)=∫x∼DI(f(xi)!=yi)p(x)dx
acc(f;D)=∫x∼DI(f(xi)=yi)p(x)dx=1−E(f;D){acc(f;D)=\int_{x\sim D}I(f(x_i)= y_i)p(x)dx=1-E(f;D)}acc(f;D)=∫x∼DI(f(xi)=yi)p(x)dx=1−E(f;D)
查准率、查全率与F1

错误率和精度虽常用，但并不能满足所有任务需求.以西瓜问题为例，假定瓜农拉来一车西瓜，我们用训练好的模型对这些西瓜进行判别，显然，错误率衡量了有多少比例的瓜被判别错误.但是若我们关心的是"挑出的西瓜中有多少比例是好瓜"，或者"所有好瓜中有多少比例被挑了出来就不够用了’这时需要使用其他的性能度量.

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例、假正例、真反倒、假反例四种情形，令TP、FP、TN、FN分别表示其对应的样例数，则显然有TP+FP+TN+FN=样例总数.分类结果的"泪淆矩阵"( c o时u s i o n m a t r i x )如表2.1所示

查准率P与查全率R分别定义为
P=TPTP+FP{P=\frac{TP}{TP+FP}}P=TP+FPTP