您的位置:首页 > 其它

聚类、逻辑回归、主成分与因子分析等几类模型要点

2018-01-07 19:27 1561 查看
一、系统聚类

流程:

计算n个样本两两间的距离——构造n个类,每个类只包含一个样品——循环(合并距离最近的两类为一类——直到只剩一个类)——聚类图——确定分类个数与类

计算距离:

1、欧式距离

2、方式:最短、最长距离法、重心法、类平均法、离差平方和法等

二、K-means聚类

流程:把样品粗略分为K个初始类——循环(计算距离[欧式距离,每个类的均值]、进行修改,逐个分派样品到其最近均
值的类中)——直到每个类的元素稳定

系统聚类与K-means聚类的区别:

1、K均值聚类可以应用于比系统聚类大得多的数据组

三、回归分析的五个假设:

1、线性性与可加性

2、误差项之间应该相互独立:即无自相关性

3、自变量之间应相互独立:即无多重共线性

4、误差项的方差应为常数:即同方差性,否则为异方差性

5、误差项的方差应呈正态分布

四、逻辑回归(Logistic回归)

流程:

数据输入——由权数(W0、W1...Wn)组成的Logistic分类器——由Sigmoid函数至(0,1)值域——分类结果

关键公式: 1、Logistic函数:



2、



3、似然函数:



上式分别对Wi求导——n+1个方程组——求出参数W1...Wn

五、因子分析

变量——相关性分析(若大多数大于0.3)——求公共因子与载荷矩阵(主成分法、主轴因子法、极大似然法)——因子旋转(正交、斜交旋转)——建立回归方程(自变量:各变量。
因变量:各公共因子)——因子得分

六、主成分分析

初始变量度量或取值范围是否相同(1:是 2:否)——分析(1、协方差阵 2、相关阵)——标准正交特征向量特征值不接近于0——得出主成分(SPSS默认保留特征根大于1的主成分)

因子分析与主成分分析的区别:

1、主成分分析中,把主成分表示成各变量的线性组合;因子分析中,把变量表示成各个因子的线性组合

2、因子分析可以利用旋转技术帮助解释因子,在解释方面更有优势

3、主成分分析不需假设,而因子分析需要满足假设:各公共因子间不相关、特殊因子不相关、公共因子和特殊因子不相关

4、因子分析把变量看做是由公共因子和特殊因子线性组合而成的;而主成分分析只是从空间生产的角度寻找能解释诸多变量绝大部分变异的几组不相关新变量(主成分)

5、提取主因子的方法不仅有主成分法,还有极大似然法等。而主成分法只能用主成分法提取。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: