您的位置:首页 > 职场人生

机器学习面试-降维算法LDA和PCA(白板推导)

2020-07-01 16:19 99 查看

降维算法分为:

1.直接降维, 特征选择
2. 线性降维, PCA, MDS等
3. 分流线, 流线包括lsomap , LLE等

降维的目的:

1. 减少预测变量的个数
2. 确保这些变量是相互独立的
3. 数据在低纬度时候更容易处理, 更容易使用
4. 去除噪数据噪声
5. 降低算法的运算开销

1. 线性判别分析LDA

LDA的 核心思想就是投影后类内方差小, 类间方差最大


LDA算法的优缺点:

优点:

  1. 可以使用类别的先验知识
  2. 以标签, 类别衡量差异性的 有监督降维算法, 相对于PCA的模糊性, 其目的更明确, 更能反映样本间的差异。

缺点:

  1. LDA不适合对非高斯分布样本进行降维
  2. LDA最多降到K-1维
  3. LDA可能会过度拟合数据
  4. LDA在样本分类信息依赖方差而不是均值, 降维效果不好

2. 主成分分析PCA

PCA可以用来分析主方向,降维,特征筛选,具体方法是用svd分解得到特征值矩阵和特征向量矩阵,然后根据不同的任务对选择特征值或向量进行计算。



PCA算法的优缺点:

优点:

  1. 仅仅需要已方差衡量信息量, 不受数据集以外的因素影响
  2. 各自主成分之间必须正交, 可消除原始数据成分之间的相互影响的因素
  3. 计算简单方便, 主要运算是特征分解, 易于实现

缺点:

  1. 主成分各个特征之间维度的含义具有一定的模糊性, 不如原始样本的可解释性强
  2. 降维后可能丢失方差小的非主成分的信息, 可能会对后续数据处理有影响

LDA和PCA的区别和联系

相同点:

  1. 两者都可以对数据进行降维
  2. 两者在降维的时候均使用科矩阵特征分解的思想
  3. 两者假设数据都是高斯分布

不同点:

  • 1 . LDA 为有监督的降维算法, PCA为无监督降维算法
    2. LDA最多降到K-1维, PCA降维没有限制
    3. LDA可以用于降维和分类, PCA 只能用于降维
    4. LDA选择特征性能最好的投影方向, PCA选择样本点投影具有最大方差的方向
    5. LDA更明确, 更能反映样本间的差异, PCA目的较为模糊

参考资源:
哔哩哔哩《机器学习白板推导合集》

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: