机器学习笔记-分类和聚类基本概念
2017-09-07 08:09
387 查看
参考知乎回答
分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
分类分为有监督,无监督,半监督,分别对应有无标签为-有-无-有一点有监督就是样本数据给定所有标签,然后去训练分类器,这是能达到最高精度的一种无监督也就是通常意义上的聚类,只给数据,不给标签半监督这个厉害了,绝大多数数据不给标签,然后给一小部分数据贴上标签,再送分类器里面,用有监督的方式解决偏聚类问题!
所以日常生活中最多的是半监督分类,比较贴近现实,因为实际生活中,我们获取的数据很多都是未知标签的,然而通过一些渠道我们可以得到一点数据,这就是要用到半监督了,分类算法很多,self-training,主动学习,等等自己看需求。
聚类的意义就在于将观察到的内容组织成类分层结构,把 类似的事物组织在一起。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的关系。
常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。
分类
分类是数据挖掘中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
分类分为有监督,无监督,半监督,分别对应有无标签为-有-无-有一点有监督就是样本数据给定所有标签,然后去训练分类器,这是能达到最高精度的一种无监督也就是通常意义上的聚类,只给数据,不给标签半监督这个厉害了,绝大多数数据不给标签,然后给一小部分数据贴上标签,再送分类器里面,用有监督的方式解决偏聚类问题!
所以日常生活中最多的是半监督分类,比较贴近现实,因为实际生活中,我们获取的数据很多都是未知标签的,然而通过一些渠道我们可以得到一点数据,这就是要用到半监督了,分类算法很多,self-training,主动学习,等等自己看需求。
聚类
在机器学习中,聚类是一种无指导学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。聚类的意义就在于将观察到的内容组织成类分层结构,把 类似的事物组织在一起。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的关系。
常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。
数据降维
刚才从三维到二维,就是进行了’降维打击‘,为什么要进行降维打击呢,这就牵扯到‘维数爆炸’理论了,又跑题了,,,,反正你知道,现实中的数据,无一例外(绝大多数),特别是高维数据(这里的维就是指特征),都是要经过’降维打击‘后再进行处理的。相关文章推荐
- 机器学习一些基本概念(笔记)
- [模式识别].(希腊)西奥多里蒂斯<第四版>笔记11之__聚类:基本概念
- 公开课机器学习笔记(11)支持向量机一 向量机的基本概念
- 聚类笔记(上):基本概念
- 机器学习笔记(XIV)神经网络(I)基本概念
- 【机器学习 基本概念】朴素贝叶斯分类
- 程序员的机器学习入门笔记(一):基本概念介绍
- 机器学习基础学习笔记1-基本概念
- 机器学习概念总结笔记(一)——机器学习算法分类、最小二乘回归、岭回归、LASSO回归
- 聚类学习笔记 - 聚类的基本概念
- 【数据挖掘笔记十】聚类分析:基本概念和方法
- 机器学习----笔记之基本概念(1)
- [台大机器学习笔记整理]机器学习问题与算法的基本分类&由霍夫丁不等式论证机器学习的可行性
- 机器学习概念总结笔记(二)——逻辑回归、贝叶斯分类、支持向量分类SVM、分类决策树ID3、
- 优秀课件笔记之计算机的基本概念和分类
- 机器学习笔记(XIX)支持向量机(I)基本概念
- 【数据挖掘笔记八】分类:基本概念
- 机器学习概念总结笔记(三)——分类决策树C4.5、集成学习Bagging算法Boosting算法随机森林算法迭代决策树算法、
- 机器学习笔记--基本概念
- 数据结构笔记一:基本概念和分类