您的位置：首页 > 其它

[置顶] 概率统计与机器学习：机器学习的各类型最优化方法

2017-09-14 17:16 507 查看

无约束优化方法（1）：一阶梯度型方法

前置知识

（1）凸集

定义：对任意的
$x1,x2 \in C$
和
$0 \leq \theta \leq 1$
，总有
$\theta x_1 + (1-\theta)x_2 \in C$

图示：

（2）凸函数

定义：对于任意
$x_0,x_1 \in C$
，应有
$f_{\theta} \leq (1-\theta)f_{0} + \theta f_{1} , \forall \theta \in (0,1)$
，其中
$x_{\theta} = (1-\theta)x_{0}+\theta x_{1}$

图示：

（3）凸优化

一般形式：

什么是凸优化问题？

答：目标函数为凸函数，且可行域为凸集。

（4）机器学习中的凸问题与非凸问题

凸问题：

线性最小二乘

SVM

逻辑斯蒂回归

核方法

非凸问题：

主成分分析

神经网络

K均值聚类

高斯混合模型

(A) 梯度下降法

定义：
$x \leftarrow x - \alpha g(x)$

解释：负梯度方向是下降最快的方向

推导：将梯度变化进行二阶泰勒展开

$f(x+\Delta x) - f(x) \approx g(x)^{T} \Delta x + \frac{1}{2} \Delta x^{T} G(x) \Delta x$

研究一阶梯度算法：要使
$f(x+\Delta x) < f(x)$
，则
$g(x)^{T} \Delta x < 0$
为下降方向，此时要使不等式满足，则
$\Delta x = - g(x)cos \theta , 0 \leq \theta \leq \frac{\pi}{2}$

此时当
$\theta = 0 , \Delta x = -g(x)$
, 即搜索方向直接取目标函数f在点x的负梯度方向，此时具有最大的下降步伐或速率。

一阶梯度下降算法相关问题

梯度下降法可不可能解决非凸问题？

答：可能，如果是半边凸半边非凸，则有可能得到最优解。若好几个凸函数并在一起，则有可能陷入局部最优解。

凸优化问题中梯度一定收敛吗？

答：不一定，二次函数中如果梯度为-1步长过大，则可能陷入死循环来回跳动无法下降。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航