您的位置：首页 > 其它

数据挖掘相关的机器学习知识汇总(不断更新)

2015-01-04 18:03 330 查看

机器学习，数据挖掘，推荐系统常用名词汇总：

标准化(normalization,standardizing)：简单的说就是将数据映射到相同的量纲和区间上。比如取倒数，取对数等。

归一化(normalization)：标准化的一种特殊形式，将所有数据映射到区间[0,1]之间

拟合(fitting)：拟合包括插值与逼近，插值曲线要经过型值点，逼近只要求曲线接近型值点，符合型值点趋势，插值和逼近的结果曲线方程是由型值点而决定，不是一个求系数的过程。一般来说，型值点与型值点之间的曲线方程与邻近的几个型值点关系最大；离之越远，关系越小。

过拟合(overfitting)：过拟合就是拟合得太精确了，而离开现在这些数据，就求教的方程就完全不能用了。

泛化(generalization)：就是讲求解后的解，推广到更多的数据上，也能够准确的表达。

回归(regression)：回归一般指线性回归，是求最小二乘解的过程；在求回归前，已经假设所有型值点同时满足某一曲线方程，计算只要求出该方程的系数

交叉验证(Cross validation)：常用的是K折交叉验证(K-fold cross-validation)，初始采样分割成K个子样本，一个单独的子样本被保留作为验证模型的数据，其他K-1个样本用来训练。交叉验证重复K次，每个子样本验证一次，平均K次的结果或者使用其它结合方式，最终得到一个单一估测。这个方法的优势在于，同时重复运用随机产生的子样本进行训练和验证，每次的结果验证一次，10折交叉验证是最常用的。

网格搜索(grid-search)：感觉本质就是穷举法，对n个参数，进行n层循环，逐层扫描。不过比较折中的方法是，先确定一个较好的网格区域，然后在这个区域里面使用网格搜索

数据挖掘中药使用大量的机器学习算法，

下面的一些算法是比较常用的，需要逐一消灭掉！

目前已经初略学习过的使用背景使用绿色进行标记！

大类	名称	关键词
有监督分类	决策树	信息增益
分类回归树	Gini指数，Χ2统计量，剪枝
朴素贝叶斯	非参数估计，贝叶斯估计
线性判别分析	Fishre判别，特征向量求解
K最邻近	相似度度量：欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数
逻辑斯谛回归（二值分类）	参数估计（极大似然估计）、S型函数
径向基函数网络	非参数估计、正则化理论、S型函数
对偶传播网络	无导师的竞争学习、有导师的Widrow-Hoff学习
学习向量量化网络	一个输出层细胞跟几个竞争层细胞相连
误差反向传播网络	S型函数、梯度下降法
支持向量机（二值分类）	二次规化，Lagrange乘数法，对偶问题，最优化，序列最小优化，核技巧
单层感知器	只具有线性可分的能力
双隐藏层感知器	足以解决任何复杂的分类问题
无监督分类	KMeans	质心
CHAMELONE	图划分，相对互连度，相对紧密度
BIRCH	B树，CF三元组
DBScan	核心点，密度可达
EM算法(高斯混合模型)	参数估计（极大似然估计）
谱聚类	图划分，奇异值求解。全局收敛
自组织映射网络	无导师的竞争学习
回归分析	一般线性回归	参数估计，最小二乘法，一般不用于分类而用于预测
逻辑斯谛回归（二值分类）	参数估计（极大似然估计），S型函数
关联规则挖掘	FP-Tree	频繁1项集，FP-Tree，条件模式基，后缀模式
降维	主成分分析	协方差矩阵，奇异值分解
推荐	协同过滤	稀疏向量的相似度度量

方法细分	应用场所
参数估计	极大似然估计	线性回归。假设误差满足均值为0的正态分布,从而转化为最小二乘法
Logistic回归。梯度下降迭代法求似然函数的极值
高斯混合模型。
非参数估计		径向基函数网络
独立性检验	无参数假设检验	χ2检验	特征词选取，分类回归树的终止条件
秩和检验
相关性检验	Pearson相关系数（假设x,y成对地从正态分布中取得）	基于向量空间模型的文本分类，用户喜好推荐系统
Spearman秩相关系数（无参数假设检验）
最优化方法	无约束最优化方法	梯度下降法	极大似然估计（回归分析、GMM）支持向量机线性判别分析
牛顿迭代法及其变种
有约束时通过Lagrange乘数法转换成无约束问题
求特征值/特征向量	幂法	线性判别分析	降维
奇异值分解（仅针对对称矩阵）	主成分分析
谱聚类
信息论	信息增益	特征词选择
决策树
互信息	特征词选择
交叉熵	特征词选择，稀有事件建模仿真，多峰最优化问题
核函数	多项式核函数	SVM RBF网络
高斯核函数（径向基函数）
双极性核函数
单极性Sigmoid函数	Logistic回归
BP神经网络
协方差	Pearson相关系数
PCA
EM算法	高斯混合模型
向前向后算法
基函数	高斯混合模型
径向基函数网络
平滑算法	拉普拉斯平滑	贝叶斯分类隐马尔可夫模型
Good-Turing平滑
隐马尔可夫模型	评估问题—向前算法
解码问题—Viterbi算法	中文分词，词性标注
学习问题—BaumWelch算法

　　Cover定理指出：将复杂的模式分类问题非线性地映射到高维空间将比投影到低维空间更可能线性可分。所以SVM和RBF网络都试图把样本从低维空间映射到高维空间再进行分类。

　　好笑的是，另一些方法则是把输入样本从高维降到低维后再进行分类或回归分析，如PCA、SOFM网络、LDA、谱聚类，它们认为样本在低维特征空间有更清晰的表达，更容易发现规律。

网络参考资料： http://www.cnblogs.com/zhangchaoyang/archive/2012/08/28/2660929.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航