机器学习---分类、回归、聚类、降维的区别
2017-11-26 15:43
423 查看
由上图我们可以看到,机器学习分为四大块,分别是
classification (分类),
regression (回归),
clustering (聚类),
dimensionality reduction (降维)。
给定一个样本特征 x,
我们希望预测其对应的属性值 y,
如果 y 是离散的,
那么这就是一个分类问题,反之,如果 y 是连续的实数,
这就是一个回归问题。
如果给定一组样本特征 S={x∈RD},
我们没有对应的属性值 y,
而是想发掘这组样本在 D 维空间的分布,
比如分析哪些样本靠的更近,哪些样本之间离得很远, 这就是属于聚类问题。
如果我们想用维数更低的子空间来表示原来高维的特征空间, 那么这就是降维问题。
classification & regression
无论是分类还是回归,都是想建立一个预测模型 H,给定一个输入 x,可以得到一个输出 y:
y=H(x)
不同的只是在分类问题中, y 是离散的;
而在回归问题中 y 是连续的。所以总得来说,两种问题的学习算法都很类似。所以在这个图谱上,我们看到在分类问题中用到的学习算法,在回归问题中也能使用。分类问题最常用的学习算法包括
SVM (支持向量机) , SGD (随机梯度下降算法), Bayes (贝叶斯估计), Ensemble, KNN 等。而回归问题也能使用 SVR, SGD, Ensemble 等算法,以及其它线性回归算法。
clustering
聚类也是分析样本的属性, 有点类似classification, 不同的就是classification 在预测之前是知道 y 的范围,或者说知道到底有几个类别, 而聚类是不知道属性的范围的。所以 classification 也常常被称为 supervised learning, 而clustering就被称为unsupervised learning。
clustering 事先不知道样本的属性范围,只能凭借样本在特征空间的分布来分析样本的属性。这种问题一般更复杂。而常用的算法包括 k-means (K-均值), GMM (高斯混合模型) 等。
dimensionality reduction
降维是机器学习另一个重要的领域, 降维有很多重要的应用, 特征的维数过高, 会增加训练的负担与存储空间, 降维就是希望去除特征的冗余, 用更加少的维数来表示特征.降维算法最基础的就是PCA了, 后面的很多算法都是以PCA为基础演化而来。
相关文章推荐
- 机器学习中分类与聚类的本质区别
- 回归,分类与聚类:三个方向分析机器学习
- 机器学习——1. 分类和回归的解决与区别
- 斯坦福机器学习-第三周(分类,逻辑回归,过度拟合及解决方法)
- 机器学习中的回归(regression)与分类(classification)问题
- 利用Spark-mllab进行聚类,分类,回归分析的代码实现(python)
- 什么叫“回归”——“回归”名词的由来&&回归与拟合、分类的区别 && 回归分析
- 机器学习中的分类、回归、标注
- 机器学习-逻辑回归-分类
- 分类与回归区别
- 菜鸟入门_Python_机器学习(4)_PCA和MDA降维和聚类
- [机器学习]逻辑回归,Logistic regression |分类,Classification
- 【机器学习基础】将回归模型用于分类问题
- 用Python开始机器学习(7:逻辑回归分类)
- 用Python开始机器学习(7:逻辑回归分类)
- 【机器学习入门】Andrew NG《Machine Learning》课程笔记之四:分类、逻辑回归和过拟合
- 回归和分类的区别
- 数据挖掘中的分类和聚类的区别
- 机器学习-Ng-week8-聚类和降维
- 分类和聚类的区别及各自的常见算法