您的位置:首页 > 其它

多元统计学习日记1

2015-09-13 09:35 211 查看
多元正态分布是一元正态分布的推广,多元统计分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元统计分析的基础。包括聚类分析,判别分析,主成分分析,因子分析,对应分析,典型相关分析,定性数据的建模分析,路径分析,结构方程模型,联合分析,多变量的图表示法,多维标度法等。

1. 什么是统计量以及统计意义?

由样本

所确定的函数

称为统计量,并且统计量中不含有未知的参数。样本是总体的代表和反映,也是统计推断的依据,为了对总体的分布或数字特征进行各种统计推断,还需要对样本作加工处理,把样本中应关心的事物和信息集中起来,针对不同的问题构造出样本的不同函数,这种样本的函数我们称其为统计量。

2. 样本方差公式中为什么是

呢?

样本方差的数学定义为:



其中,

为样本的容量,

为样本点的数值。样本方差的统计意义是刻画样本数据关于均值的平均偏差平方的一个量,是描述样本离散趋势的最常用的统计量。之所以除以

而不是

,主要是为了保证样本方差的无偏性。[1]进行了数学的推导和证明,[2]从统计意义上面进行了解释。无论是统计学,还是机器学习,任何模型都要有评估的标准(不止一个),统计量(估计量)也不例外,它的评估标准有3个,分别是无偏性,有效性,相合性(一致性),具体的数学推导和证明可以参考[3]。

3. 参数估计与非参数估计的区别?

(1)参数估计就是说我们已经知道了总体分布的类型,但是分布的模型中含有一个或多个未知的参数,我们需要根据样本来估计未知的参数。通常,参数估计包含点估计和区间估计。点估计就是说用某一个函数值作为总体未知参数的估计值,而区间估计就是说对于未知的参数,我们给出一个范围,并且在一定的可靠度下使这个范围包含未知参数的真值。

(2)非参数估计就是说我们不知道总体分布的类型。(对这一部分学习不多,等学习完毕之后,再来补充相关知识)

4. 协方差和(Pearson)相关系数

解析:

(1)协方差

随机变量X与Y之间的协方差Cov(X,Y)定义,如下所示:



直观来看,协方差表示的是两个变量总体误差的期望。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值(正相关);如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值(负相关)。

如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的,但是可以说两个随机变量是不(线性)相关的。

(2)(Pearson)相关系数

随机变量X和Y的(Pearson)相关系数,如下所示:



如果

,那么X与Y不线性相关,即和协方差为零是等价的;如果

,那么X与Y线性相关,即

(a,b为常数,a≠0)。

说明:需要特别说明的是"协方差矩阵计算的是样本不同维度之间的协方差,而不是不同样本之间的"。

5. 抽样分布
解析:
统计量的分布叫抽样分布。在数理统计(一元统计)中,常用的抽样分布分别是

分布、t分布、F分布。在多元统计中,与之相对应的分布分别是Wishart分布、

分布和Wilks分布。

6. 随机矩阵
如果矩阵中至少有一个元素为随机量,那么该矩阵称为随机矩阵。实际上,正是由于随机参数的引入,使得原来确定性的矩阵元素变为随机的。

参考文献:

[1] 样本方差公式中为什么要除以

而不是

呢?:http://www.zybang.com/question/8c665fa06a6e40990e9f5f59421ebec9.html

[2] 样本方差公式中为什么是

?:http://www.cskaoyan.com/thread-43170-1-1.html

[3] 概率论与数理统计(第三版)

[4] 多元统计分析
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  概率 统计