机器学习笔记1——机器学习算法分类整理
2015-05-04 10:46
295 查看
工欲善其事,必先利其器。学习机器学习,先要了解机器学习的工具——算法,并且要从宏观上纵览全局(Big Picture),然后抓住当前最要紧的方向深挖下去。
在了解算法之前,先要对机器学习算法进行分类,这样我们们可以更好地把握问题的本质,针对不同的问题选择更合适的算法。
机器学习问题
分类 -在标注好的数据上建模,判别新样本的类型,如垃圾邮件识别
回归 -在标注好的数据上建模,预测样本的标注值,如股票预测
聚类 -数据未标注,但给出相似度衡量标准,根据标准将数据划分,如照片的按人归类
规则抽取-发现数据间属性的统计关系,如啤酒和尿布
接下来根据学习方式和算法相似性对机器学习算法进行分类。按照学习方式对机器学习算法进行分类可以使我们更多的思考输入数据在算法中的角色和使用模型前需要的准备工作,对我们选择最适合的模型有很好的指导作用;而算法相似性分类法则是根据根据模型的模式或函数模式的相似度对算法进行划分。
学习方式
监督-标记训练数据经过训练过程得到模型,对新样本做出推测,主要解决分类和回归问题
半监督-输入数据是标注和非标注的混合,主要解决分类和回归问题,代表算法一般是在监督学习上扩展,使之可对未标注数
据建模
非监督-输入数据无标记,通过推理数据中已有的结构来构建模型,主要解决聚类和规则抽取问题
增强-先构建模型,后输入数据刺激模型,使用来自环境的反馈对模型进行调整,主要用于机器人控制
算法相似性
回归 -
在自变量和预测变量间建立模型,通过迭代降低自变量与预测变量间的误差
基于样例 -在样本库中找到最佳匹配的若干个样本,主要关注样本间的相似度和数据的表示形式(亦称为胜者为王或基于内存的学习)
正则化 -回归方法的延伸,根据算法复杂度对算法进行调整,对简单模型给予奖励而对复杂模型进行惩罚
决策树 -采用树状结构建立决策模型,用来解决归纳和回归问题
贝叶斯 -解决归类和回归问题中使用了贝叶斯定理
核方法 -把输入数据映射到跟高纬度上,将其变得可分,使归类和回归问题更容易建模
聚类 -利用数据内在结构来组织数据,使得每组内的点有最大的共通性
联合规则学习 -对数据间提取规律的方法,通过这些规律可以发现巨量多为空间数据的联系
人工神经网络 -用于回归和分类问题,由上百个算法及其变种组成
深度学习 -卷积神经网络,关注复杂网络构成和半监督学习,即一个大数据集中只有少量标注数据
降维 -对数据中固有结构进行利用,使用非监督方法学习,用更少信息描述和归纳数据,使算法高效
组合方法 -由许多相对较弱的小模型组成,模型经过独立训练,得出独立结论,汇总形成最后的预测
详细的算法分类参见下面的思维导图
在了解算法之前,先要对机器学习算法进行分类,这样我们们可以更好地把握问题的本质,针对不同的问题选择更合适的算法。
机器学习问题
分类 -在标注好的数据上建模,判别新样本的类型,如垃圾邮件识别
回归 -在标注好的数据上建模,预测样本的标注值,如股票预测
聚类 -数据未标注,但给出相似度衡量标准,根据标准将数据划分,如照片的按人归类
规则抽取-发现数据间属性的统计关系,如啤酒和尿布
接下来根据学习方式和算法相似性对机器学习算法进行分类。按照学习方式对机器学习算法进行分类可以使我们更多的思考输入数据在算法中的角色和使用模型前需要的准备工作,对我们选择最适合的模型有很好的指导作用;而算法相似性分类法则是根据根据模型的模式或函数模式的相似度对算法进行划分。
学习方式
监督-标记训练数据经过训练过程得到模型,对新样本做出推测,主要解决分类和回归问题
半监督-输入数据是标注和非标注的混合,主要解决分类和回归问题,代表算法一般是在监督学习上扩展,使之可对未标注数
据建模
非监督-输入数据无标记,通过推理数据中已有的结构来构建模型,主要解决聚类和规则抽取问题
增强-先构建模型,后输入数据刺激模型,使用来自环境的反馈对模型进行调整,主要用于机器人控制
算法相似性
回归 -
在自变量和预测变量间建立模型,通过迭代降低自变量与预测变量间的误差
基于样例 -在样本库中找到最佳匹配的若干个样本,主要关注样本间的相似度和数据的表示形式(亦称为胜者为王或基于内存的学习)
正则化 -回归方法的延伸,根据算法复杂度对算法进行调整,对简单模型给予奖励而对复杂模型进行惩罚
决策树 -采用树状结构建立决策模型,用来解决归纳和回归问题
贝叶斯 -解决归类和回归问题中使用了贝叶斯定理
核方法 -把输入数据映射到跟高纬度上,将其变得可分,使归类和回归问题更容易建模
聚类 -利用数据内在结构来组织数据,使得每组内的点有最大的共通性
联合规则学习 -对数据间提取规律的方法,通过这些规律可以发现巨量多为空间数据的联系
人工神经网络 -用于回归和分类问题,由上百个算法及其变种组成
深度学习 -卷积神经网络,关注复杂网络构成和半监督学习,即一个大数据集中只有少量标注数据
降维 -对数据中固有结构进行利用,使用非监督方法学习,用更少信息描述和归纳数据,使算法高效
组合方法 -由许多相对较弱的小模型组成,模型经过独立训练,得出独立结论,汇总形成最后的预测
详细的算法分类参见下面的思维导图
相关文章推荐
- 从GLM广义线性模型到线性回归、二项式及多项式分类——机器学习笔记整理(一)
- [台大机器学习笔记整理]机器学习问题与算法的基本分类&由霍夫丁不等式论证机器学习的可行性
- 机器学习概念总结笔记(一)——机器学习算法分类、最小二乘回归、岭回归、LASSO回归
- 机器学习入门之《统计学习方法》笔记整理——决策树
- 机器学习笔记1——感知机(分类)
- 机器学习笔记(五)——朴素贝叶斯分类
- 机器学习概念总结笔记(二)——逻辑回归、贝叶斯分类、支持向量分类SVM、分类决策树ID3、
- 机器学习 学习笔记 朴素贝叶斯分类 笔记
- [机器学习笔记]二:Classification and logistic regression(分类和逻辑回归)
- 机器学习笔记二十四 中文分词资料整理
- 机器学习概念总结笔记(三)——分类决策树C4.5、集成学习Bagging算法Boosting算法随机森林算法迭代决策树算法、
- 【机器学习】python实践笔记 -- 经典监督学习模型之分类学习模型
- 机器学习整理笔记——基于《机器学习实战》
- 机器学习整理笔记——使用k-近邻算法对手写识别系统的测试
- 机器学习笔记(3)---K-近邻算法(1)---约会对象魅力程度分类
- [台大机器学习笔记整理]vc-dimension
- [机器学习]机器学习笔记整理08- SVM算法原理及实现
- 【机器学习笔记之三】CART 分类与回归树
- 【机器学习 吴恩达】CS229课程笔记notes1翻译-Part II分类和logistic回归
- 【机器学习基础】机器学习算法的分类——关于如何选择机器学习算法和适用解决的问题