您的位置：首页 > 其它

无从下手？一文了解经典机器学习算法

2018-04-03 17:30 453 查看

声明：

参考——入门 | 机器学习新手必看10大算法

本文中的github链接指向我的github机器学习实战代码

常见机器学习算法的使用情况

回归

线性回归

y=w⋅x+by=w⋅x+b

其中，xx为输入特征特征向量。它的损失函数是基于最小二乘法的MSE，优化方法是梯度下降法。

优点：训练速度快，可解释性强。

缺点：对异常样本敏感（抗噪声能力差），模型简单难以学习高维特征空间输入。

经验：由于线性回归模型简单，可用于前期获取baseline。若要提高线性回归的性能：

训练前进行特征降维

提出噪声样本

数学原理=>github

分类

Logistic回归

Python代码——github

Logistic 回归（这是一种分类模型）与线性回归相似，目标都是找到每个输入变量的权重，即系数值。与线性回归不同的是，Logistic 回归对输出的预测使用被称为 logistic 函数的非线性函数进行变换。

y=sigmoid(w⋅x+b)=11+exp(−(w⋅x+b))y=sigmoid(w⋅x+b)=11+exp(−(w⋅x+b))

损失函数为二分类交叉熵L=−∑(plogp+(1−p)log(1−p))L=−∑(plog⁡p+(1−p)log⁡(1−p))，优化算法为梯度下降。

优缺点和经验与线性回归别无二致。

LDA线性判别分析

Logistic 回归是一种分类算法，传统上，它仅限于只有两类的分类问题。如果你有两个以上的类别，那么线性判别分析是首选的线性分类技术。

待补充~

朴素贝叶斯分类

Python代码——github

朴素贝叶斯是一个简单但是好用的预测建模算法。该模型由两种概率组成，这两种概率都可以直接从训练数据中计算出来：

每个类别的概率；

给定每个 x 的值，每个类别的条件概率。

一旦计算出来，概率模型可用于使用贝叶斯定理对新数据进行预测。

朴素贝叶斯之所以是朴素的，是因为它假设每个输入变量是独立的。这是一个强大的假设，真实的数据并非如此，但是，该技术在大量复杂问题上非常有用。

CART分类回归树

Python代码——github

关于分类回归树可以参考《统计学习方法》——李航。

优点：训练速度快，可解释性强，模型的拟合能力强，不需要对输入进行归一化

缺点：容易过拟合，需要进行剪枝

K近邻算法

Python代码——github

KNN算法在整个训练集中搜索K个最近的样本，并汇总这K个样本的输出，以预测新数据点。

图片来源：新浪科技

多层感知机

多层感知机基本被深度学习取代，本文不作介绍。

支持向量机

支持向量机是传统机器学习首选的分类方法。

图片来源：新浪科技

Bagging和随机森林

图片来源：新浪科技

Boosting和AdaBoost

Boosting是一种集成技术，它试图集成一些弱分类器来创建一个强分类器。

AdaBoost 是第一个为二分类开发的真正成功的 boosting 算法。这是理解 boosting 的最佳起点。现代 boosting 方法建立在 AdaBoost 之上，最有名的是GBDT。

优点：准确率高

缺点：对异常样本敏感（抗噪声能力差）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航