数据挖掘相关的机器学习知识汇总(不断更新)
2015-01-04 18:03
330 查看
机器学习,数据挖掘,推荐系统常用名词汇总:
标准化(normalization,standardizing):简单的说就是将数据映射到相同的量纲和区间上。比如取倒数,取对数等。归一化(normalization):标准化的一种特殊形式,将所有数据映射到 区间[0,1]之间
拟合(fitting):拟合包括插值与逼近,插值曲线要经过型值点,逼近只要求曲线接近型值点,符合型值点趋势,插值和逼近的结果曲线方程是由型值点而决定,不是一个求系数的过程。一般来说,型值点与型值点之间的曲线方程与邻近的几个型值点关系最大;离之越远,关系越小。
过拟合(overfitting):过拟合就是拟合得太精确了,而离开现在这些数据,就求教的方程就完全不能用了。
泛化(generalization):就是讲求解后的解,推广到更多的数据上,也能够准确的表达。
回归(regression):回归一般指线性回归,是求最小二乘解的过程;在求回归前,已经假设所有型值点同时满足某一曲线方程,计算只要求出该方程的系数
交叉验证(Cross validation):常用的是K折交叉验证(K-fold cross-validation),初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。
网格搜索(grid-search):感觉本质就是穷举法,对n个参数,进行n层循环,逐层扫描。不过比较折中的方法是,先确定一个较好的网格区域,然后在这个区域里面使用网格搜索
数据挖掘中药使用大量的机器学习算法,
下面的一些算法是比较常用的,需要逐一消灭掉!目前已经初略学习过的使用背景使用绿色进行标记!
大类 | 名称 | 关键词 |
有监督分类 | 决策树 | 信息增益 |
分类回归树 | Gini指数,Χ2统计量,剪枝 | |
朴素贝叶斯 | 非参数估计,贝叶斯估计 | |
线性判别分析 | Fishre判别,特征向量求解 | |
K最邻近 | 相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数 | |
逻辑斯谛回归(二值分类) | 参数估计(极大似然估计)、S型函数 | |
径向基函数网络 | 非参数估计、正则化理论、S型函数 | |
对偶传播网络 | 无导师的竞争学习、有导师的Widrow-Hoff学习 | |
学习向量量化网络 | 一个输出层细胞跟几个竞争层细胞相连 | |
误差反向传播网络 | S型函数、梯度下降法 | |
支持向量机(二值分类) | 二次规化,Lagrange乘数法,对偶问题,最优化,序列最小优化,核技巧 | |
单层感知器 | 只具有线性可分的能力 | |
双隐藏层感知器 | 足以解决任何复杂的分类问题 | |
无监督分类 | KMeans | 质心 |
CHAMELONE | 图划分,相对互连度,相对紧密度 | |
BIRCH | B树,CF三元组 | |
DBScan | 核心点,密度可达 | |
EM算法(高斯混合模型) | 参数估计(极大似然估计) | |
谱聚类 | 图划分,奇异值求解 。全局收敛 | |
自组织映射网络 | 无导师的竞争学习 | |
回归分析 | 一般线性回归 | 参数估计,最小二乘法,一般不用于分类而用于预测 |
逻辑斯谛回归(二值分类) | 参数估计(极大似然估计),S型函数 | |
关联规则挖掘 | FP-Tree | 频繁1项集,FP-Tree,条件模式基,后缀模式 |
降维 | 主成分分析 | 协方差矩阵,奇异值分解 |
推荐 | 协同过滤 | 稀疏向量的相似度度量 |
方法细分 | 应用场所 | ||
参数估计 | 极大似然估计 | 线性回归。假设误差满足均值为0的正态分布,从而转化为最小二乘法 | |
Logistic回归。梯度下降迭代法求似然函数的极值 | |||
高斯混合模型。 | |||
非参数估计 | | 径向基函数网络 | |
独立性检验 | 无参数假设检验 | χ2检验 | 特征词选取,分类回归树的终止条件 |
秩和检验 | | ||
相关性检验 | Pearson相关系数(假设x,y成对地从正态分布中取得) | 基于向量空间模型的文本分类,用户喜好推荐系统 | |
Spearman秩相关系数(无参数假设检验) | | ||
最优化方法 | 无约束最优化方法 | 梯度下降法 | 极大似然估计(回归分析、GMM) 支持向量机 线性判别分析 |
牛顿迭代法及其变种 | |||
有约束时通过Lagrange乘数法转换成无约束问题 | |||
求特征值/特征向量 | 幂法 | 线性判别分析 | 降维 |
奇异值分解(仅针对对称矩阵) | 主成分分析 | ||
谱聚类 | |||
信息论 | 信息增益 | 特征词选择 | |
决策树 | |||
互信息 | 特征词选择 | ||
交叉熵 | 特征词选择,稀有事件建模仿真,多峰最优化问题 | ||
核函数 | 多项式核函数 | SVM RBF网络 | |
高斯核函数(径向基函数) | |||
双极性核函数 | |||
单极性Sigmoid函数 | Logistic回归 | ||
BP神经网络 | |||
协方差 | Pearson相关系数 | ||
PCA | |||
EM算法 | 高斯混合模型 | ||
向前向后算法 | |||
基函数 | 高斯混合模型 | ||
径向基函数网络 | |||
平滑算法 | 拉普拉斯平滑 | 贝叶斯分类 隐马尔可夫模型 | |
Good-Turing平滑 | |||
隐马尔可夫模型 | 评估问题—向前算法 | | |
解码问题—Viterbi算法 | 中文分词,词性标注 | ||
学习问题—BaumWelch算法 | |
好笑的是,另一些方法则是把输入样本从高维降到低维后再进行分类或回归分析,如PCA、SOFM网络、LDA、谱聚类,它们认为样本在低维特征空间有更清晰的表达,更容易发现规律。
网络参考资料: http://www.cnblogs.com/zhangchaoyang/archive/2012/08/28/2660929.html
相关文章推荐
- 机器学习与数据挖掘、计算机视觉方法资料汇总(永久更新)
- 机器学习与数据挖掘相关算法汇总
- CEF3相关知识汇总(不断更新)
- android 相关知识总结(不断更新中....)
- 数据挖掘导论课后习题第二章习题,此篇不断更新中直到本章所有习题全部完成
- 经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- 经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- 智能家居相关资源汇总,资料不断更新中……
- 【转】数据挖掘与应用基本知识与概念汇总
- 图像处理相关知识(不断更新)
- 机器学习数据挖掘-软件、网站、课程资源知识点汇总
- 美国 2006 年机器学习和知识发现年会数据挖掘使用率较高算法排名
- C#常用知识汇总问与答(不断更新中...)
- 经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- 经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- 数据挖掘相关知识(本人原创,转载注明)
- 经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- (收藏)经典的机器学习方面源代码库(非常全,数据挖掘,计算机视觉,模式识别,信息检索相关领域都适用的了)
- 机器学习数据挖掘-软件、网站、课程资源知识点汇总
- android应用程序设计与实现相关资源汇总,不断更新中……