您的位置:首页 > 其它

机器学习常见算法总结

2017-10-02 12:26 381 查看

偏差方差

偏差:预测值期望E与实际值的差距,差距越大,越偏离真实数据

方差:预测值变化范围,离散程度,离期望越远方差越大

模型与真实数据的误差是两者之和 Error = Bias + Variance

模型复杂度增加,偏差减小,方差变大**

小训练集偏向于高偏差/低方差模型,因为数据集小,高偏差/低方差模型(例如,朴素贝叶斯NB)容易过拟合(over fitting),大数据集模型对数据的拟合越好(偏差小,方差大)(例如,KNN),对真实数据的预测越接近数据本身的特征,效果越好

朴素贝叶斯

强假设:特征独立



缺点:学习不到特征相关,无法处理特征冗余(预处理特征选择)

优点:小规模数据效果好,多分类,增量式学习,缺失数据不敏感,常用于文本分类

生成模型,拉普拉斯平滑

逻辑回归

容易解释,线性分类模型

在线学习:新数据在线梯度下降更新学习,单点梯度下降更新

判别模型:没有学习概率分布,只是确定分类函数

极大似然估计



梯度下降



缺点

特征空间大时性能价差(解决方案:PCA主成分分析,特征选择)

容易欠拟合(解决方案:增加训练数据)

主要用于两分类(解决方案1:OVO,OVA, 解决方案2:softmax多分类)

适用于线性可分,非线性特征需要转换

线性回归

最小二乘法,提速下降

优点:实现简单,计算简单

缺点:不能拟合非线性数据

无法在线学习和并行

最近邻KNN

距离测度:常用欧式距离,余弦公式

距离计算前K,投票确定标签

基于实例学习,成本高,判别模型

用于回归,K近邻属性均值即为回归值,或者根据距离加权均值

优点:也适用于非线性数据,对数据未做假设,准确度高,异常点不敏感(异常点对分类影响比较小,去前K小,基本排除异常点的影响)

缺点

计算量大,基于实例每次便利全部数据计算距离(解决方案:KD树)

样本不平衡效果差(负样本数量大影响分类,根据距离计算权值做优化)

决策树

易于解释,非线性分类

不支持在线学习(新样本必须重新训练)

### 优点

缺失值不敏感

可以处理不相关特征

短时间处理大数据集

缺点

容易过拟合(解决方案:剪枝,随机森林)

忽略了数据相关性(每次选择最优划分,只考虑了单个特征)

分类偏向于具有更多数值的特征(信息增益导致的只要使用信息增益会有这个问题)

Adaboost

前向加法模型

关注误分类样本,增加误分类样本权值

集成表决:错误率高表决权低

弱分类器独立,准确度大于随即猜

特征选择能力,泛化能力

噪声敏感

优点

高精度分类:后一个分类器建立在前一个的误差之上

可使用各种简单分类器,不做特征筛选

不易发生过拟合

K-means

简单聚类,大数据集高效

簇密集、簇之间区别明显时效果比较好

适用于数值型数据,可能收敛至局部最小,大数据集收敛慢

k值难选(交叉验证),不使用差别较大的簇

簇心敏感(K-means++,初始选择距离最远点作为簇心)

对噪声和孤立点敏感(解决方案:k-medoids,选择簇内李均值点最小的点作为簇新,降低异常点对(均值簇心)的影响)

SVM

最大分类间隔:几何间隔与样本的误分次数间存在关系:



其中的分母就是样本到分类间隔距离,分子中的R是所有样本中的最长向量值)

小样本收敛快,适用于非线性

非线性核转换开销大,缺少直接的概率输出(只有分类结果)

ME最大墒

满足约速条件的模型中条件墒最大的模型

天然多分类,输出分类概率,适用于大数据集

Bagging

>



最终的预测函数H对分类问题采用投票方式,对回归问题采用简单平均方法对新示例进行判别。

EM期望最大化

EM算法通过引入隐含变量,使用MLE(极大似然估计)进行迭代求解参数。通常引入隐含变量后会有两个参数,EM算法首先会固定其中的第一个参数,然后使用MLE计算第二个变量值;接着通过固定第二个变量,再使用MLE估测第一个变量值,依次迭代,直至收敛到局部最优解。

降维

PCA

目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。

设n维向量w为目标子空间的一个坐标轴方向(称为映射向量),最大化数据映射后的方差,有:



其中m是数据实例的个数, xi是数据实例i的向量表达, x拔是所有数据实例的平均向量。定义W为包含所有映射向量为列向量的矩阵,经过线性代数变换,可以得到如下优化目标函数:





A是数据协方差矩阵。

容易得到最优的W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。

PCA的输出就是Y = W‘X,由X的原始维度降低到了k维。

PCA追求的是在降维之后能够最大化保持数据的内在信息,并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大,反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题,这导致使用PCA在很多情况下的分类效果并不好

LDA

与PCA保持数据信息不同,LDA是为了使得降维后的数据点尽可能地容易被区分

找到映射向量a, 使得 a‘X后的数据点能够保持以下两种性质:

1、同类的数据点尽可能的接近(within class)

2、不同类的数据点尽可能的分开(between class

Regularization作用:

数值上更容易求解;

特征数目太大时更稳定;

控制模型的复杂度,光滑性。复杂性越小且越光滑的目标函数泛化能力越强。而加入规则项能使目标函数复杂度减小,且更光滑。

减小参数空间;参数空间越小,复杂度越低。

系数越小,模型越简单,而模型越简单则泛化能力越强(Ng宏观上给出的解释)。

可以看出是权值的高斯先验。

过拟合

产生的原因

因为参数太多,会导致我们的模型复杂度上升,容易过拟合

权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征.

解决方法

交叉验证法

减少特征

正则化

权值衰减

验证数据

线性与非线性

如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。

常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归

常见的非线性分类器:决策树、RF、GBDT、多层感知机

SVM两种都有(看线性核还是高斯核)

线性分类器速度快、编程方便,但是可能拟合效果不会很好

非线性分类器编程复杂,但是效果拟合能力强

特征比数据量还大时,选择什么样的分类器?

线性分类器,因为维度高的时候,数据一般在维度空间里面会比较稀疏,很有可能线性可分

对于维度很高的特征,你是选择线性还是非线性分类器?

理由同上

对于维度极低的特征,你是选择线性还是非线性分类器?

非线性分类器,因为低维空间可能很多特征都跑到一起了,导致线性不可分

多重共线性

特征之间高度相关

- 决策树(每次选择最有特征划分,不考虑特证间关联),朴素贝叶斯(直接假设特征独立)不存在多重共线性影响

- 预测问题可以包容共线性特征,关注预测的准确性

- 解释问题关注每个特征的影响因子,多元共线性阻碍了这种解释学习

生成模型与判别模型

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习