您的位置:首页 > 其它

机器学习笔记-分类和聚类基本概念

2017-09-07 08:09 387 查看
参考知乎回答

分类

分类是数据挖掘中的一项非常重要的任务,利用分类技术可以从数据集中提取描述数据类的一个函数或模型(也常称为分类器),并把数据集中的每个对象归结到某个已知的对象类中。从机器学习的观点,分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。

分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。

分类分为有监督,无监督,半监督,分别对应有无标签为-有-无-有一点有监督就是样本数据给定所有标签,然后去训练分类器,这是能达到最高精度的一种无监督也就是通常意义上的聚类,只给数据,不给标签半监督这个厉害了,绝大多数数据不给标签,然后给一小部分数据贴上标签,再送分类器里面,用有监督的方式解决偏聚类问题!

所以日常生活中最多的是半监督分类,比较贴近现实,因为实际生活中,我们获取的数据很多都是未知标签的,然而通过一些渠道我们可以得到一点数据,这就是要用到半监督了,分类算法很多,self-training,主动学习,等等自己看需求。

聚类

在机器学习中,聚类是一种无指导学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。

聚类的意义就在于将观察到的内容组织成类分层结构,把 类似的事物组织在一起。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的关系。

常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。

数据降维

刚才从三维到二维,就是进行了’降维打击‘,为什么要进行降维打击呢,这就牵扯到‘维数爆炸’理论了,又跑题了,,,,反正你知道,现实中的数据,无一例外(绝大多数),特别是高维数据(这里的维就是指特征),都是要经过’降维打击‘后再进行处理的。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: