聚类、逻辑回归、主成分与因子分析等几类模型要点
2018-01-07 19:27
1561 查看
一、系统聚类
流程:
计算n个样本两两间的距离——构造n个类,每个类只包含一个样品——循环(合并距离最近的两类为一类——直到只剩一个类)——聚类图——确定分类个数与类
计算距离:
1、欧式距离
2、方式:最短、最长距离法、重心法、类平均法、离差平方和法等
二、K-means聚类
流程:把样品粗略分为K个初始类——循环(计算距离[欧式距离,每个类的均值]、进行修改,逐个分派样品到其最近均
值的类中)——直到每个类的元素稳定
系统聚类与K-means聚类的区别:
1、K均值聚类可以应用于比系统聚类大得多的数据组
三、回归分析的五个假设:
1、线性性与可加性
2、误差项之间应该相互独立:即无自相关性
3、自变量之间应相互独立:即无多重共线性
4、误差项的方差应为常数:即同方差性,否则为异方差性
5、误差项的方差应呈正态分布
四、逻辑回归(Logistic回归)
流程:
数据输入——由权数(W0、W1...Wn)组成的Logistic分类器——由Sigmoid函数至(0,1)值域——分类结果
关键公式: 1、Logistic函数:
2、
3、似然函数:
上式分别对Wi求导——n+1个方程组——求出参数W1...Wn
五、因子分析
变量——相关性分析(若大多数大于0.3)——求公共因子与载荷矩阵(主成分法、主轴因子法、极大似然法)——因子旋转(正交、斜交旋转)——建立回归方程(自变量:各变量。
因变量:各公共因子)——因子得分
六、主成分分析
初始变量度量或取值范围是否相同(1:是 2:否)——分析(1、协方差阵 2、相关阵)——标准正交特征向量特征值不接近于0——得出主成分(SPSS默认保留特征根大于1的主成分)
因子分析与主成分分析的区别:
1、主成分分析中,把主成分表示成各变量的线性组合;因子分析中,把变量表示成各个因子的线性组合
2、因子分析可以利用旋转技术帮助解释因子,在解释方面更有优势
3、主成分分析不需假设,而因子分析需要满足假设:各公共因子间不相关、特殊因子不相关、公共因子和特殊因子不相关
4、因子分析把变量看做是由公共因子和特殊因子线性组合而成的;而主成分分析只是从空间生产的角度寻找能解释诸多变量绝大部分变异的几组不相关新变量(主成分)
5、提取主因子的方法不仅有主成分法,还有极大似然法等。而主成分法只能用主成分法提取。
流程:
计算n个样本两两间的距离——构造n个类,每个类只包含一个样品——循环(合并距离最近的两类为一类——直到只剩一个类)——聚类图——确定分类个数与类
计算距离:
1、欧式距离
2、方式:最短、最长距离法、重心法、类平均法、离差平方和法等
二、K-means聚类
流程:把样品粗略分为K个初始类——循环(计算距离[欧式距离,每个类的均值]、进行修改,逐个分派样品到其最近均
值的类中)——直到每个类的元素稳定
系统聚类与K-means聚类的区别:
1、K均值聚类可以应用于比系统聚类大得多的数据组
三、回归分析的五个假设:
1、线性性与可加性
2、误差项之间应该相互独立:即无自相关性
3、自变量之间应相互独立:即无多重共线性
4、误差项的方差应为常数:即同方差性,否则为异方差性
5、误差项的方差应呈正态分布
四、逻辑回归(Logistic回归)
流程:
数据输入——由权数(W0、W1...Wn)组成的Logistic分类器——由Sigmoid函数至(0,1)值域——分类结果
关键公式: 1、Logistic函数:
2、
3、似然函数:
上式分别对Wi求导——n+1个方程组——求出参数W1...Wn
五、因子分析
变量——相关性分析(若大多数大于0.3)——求公共因子与载荷矩阵(主成分法、主轴因子法、极大似然法)——因子旋转(正交、斜交旋转)——建立回归方程(自变量:各变量。
因变量:各公共因子)——因子得分
六、主成分分析
初始变量度量或取值范围是否相同(1:是 2:否)——分析(1、协方差阵 2、相关阵)——标准正交特征向量特征值不接近于0——得出主成分(SPSS默认保留特征根大于1的主成分)
因子分析与主成分分析的区别:
1、主成分分析中,把主成分表示成各变量的线性组合;因子分析中,把变量表示成各个因子的线性组合
2、因子分析可以利用旋转技术帮助解释因子,在解释方面更有优势
3、主成分分析不需假设,而因子分析需要满足假设:各公共因子间不相关、特殊因子不相关、公共因子和特殊因子不相关
4、因子分析把变量看做是由公共因子和特殊因子线性组合而成的;而主成分分析只是从空间生产的角度寻找能解释诸多变量绝大部分变异的几组不相关新变量(主成分)
5、提取主因子的方法不仅有主成分法,还有极大似然法等。而主成分法只能用主成分法提取。
相关文章推荐
- 聚类分析、判别分析、相关分析、回归分析、因子分析、生存分析、方差分析简单定义
- lkl风控.逻辑回归分析模型测试代码spark1.6
- [PAL编程规范]SAP HANA PAL逻辑回归预测分析Logistic Regression编程规范LOGISTICREGRESSION(模型)
- 主成分分析、因子分析和聚类分析的区别
- 逻辑回归模型算法研究与案例分析
- [Step By Step]SAP HANA PAL逻辑回归预测分析Logistic Regression编程实例LOGISTICREGRESSION(模型)
- 主成分分析、因子分析、聚类的概览与比较
- 逻辑回归模型分析
- 主成分分析、因子分析、聚类分析的比较与应用
- 复习:逻辑回归模型
- 统计学习-逻辑回归(LR)和最大熵模型
- 大数据下的逻辑回归训练模型方法论
- Tensorflow案例分析(1)—— 使用逻辑回归进行泰坦尼克号预测
- 关于聚类分析、判别分析、主成分分析、因子分析等多元统计分析方法
- 使用Python进行层次聚类/主成分分析绘图观察结果/绘制热图
- 逻辑回归模型介绍和程序实现
- 逻辑回归模型(一)——数学模型
- 初学ML笔记N0.1——线性回归,分类与逻辑斯蒂回归,通用线性模型
- 逻辑回归模型(二)——sklearn实现逻辑回归(logistic regression)
- 逻辑斯蒂回归3 -- 最大熵模型之改进的迭代尺度法(IIS)