机器学习储备(1):协方差和相关系数
2017-11-09 10:00
169 查看
概率 P 是对随机事件发生的可能性的度量。
例如,小明在期末考试前,统计了下自己在今年的数学考试成绩,结果显示得到80分以下的次数为2次,得80分~90分的次数为10次,得到90分以上次数为3次,那么小明得到 80分以下的概率为:
P( < 80 ) = 2/(2+10+3) = 13.3%
80~90分的概率为:
P( 80 ~ 90) = 10/(2+10+3) = 66.7%
90分以上的概率:
P( > 90) = 3/(2+10+3) = 20%
2期望值
期望值 E,在一个离散性随机变量实验中,重复很多次实验,每次实验的结果乘以其出现的概率的总和。
如上例中,小明在今年的期末考试,我们对他的期望值大约是多少呢?套用上面的公式,80分以下的值取一个代表性的分数:70分,80~90:85分,90分以上:95分,
E = 70 * 0.133 + 85 * 0.667 + 95 * 0.2
计算出的结果为 85,即期末考试我们对小明的合理期望是 85 分左右。
3方差
方差
,用来度量随机变量取值和其期望值之间的偏离程度,
其中:
X 表示小明的分数这个随机变量
N 表示样本的个数,即在此15个
已经知道小明的15次考试的分数,均值刚才我们也计算出来了为 85分,带入到上面的公式中,便能得出偏离85分的程度大小。
如果方差很大,那么小明在期末考试的分数可能偏离85分的可能性就越大;如果方差很小,那么小明很可能期末考试分数在85分左右。
方差开根号,得到标准差,即为
。
4协方差
以上几个概念理解了后,下面再阐述什么是协方差,字面上看它比方差多一个协字,那么大体也能猜出,它可能是衡量两个随机变量间是不是存在某种关系的。
那么它的实际定义如下:
其中,
X, Y 是两个随机变量
是对应两个随机变量的均值
如果两个变量是高度同向的,即X变大,Y也变大,那么对应的协方差也就很大;如果每次X变大,Y就变小,那么X和Y的协方差可能就会为负数
例如,经过观察,我们发现小明的数学成绩和物理成绩的分数分布情况高度相符,也是70分以下3次,80~90分居多,21次,90分以上1次,那么我们就说小明的数学和物理成绩的协方差很大。
5相关系数
我们考虑具有一般性的公式,通常相关系数的定义如下:
发现这个相关系数与协方差紧密相关,只不过又除以了X的标准差和Y的标准差,也就是说,是一种剔除了X和Y这两个偏离程度量纲的影响,标准化后的特殊协方差。
同样可以拿协方差来理解相关系数,若相关系数很大,则可以得到X变大,Y也很可能会变大的结论。
6总结
我们阐述了几个重要的概念,最后理解了相关系数,理解它为我们之后理解数据预处理的很多算法,及回归分析都很有帮助,如普通最小二乘法 (OLS)为什么在相关系数大的回归分析上变得误差很大。
以上这些概念算是一个作为之后学习的储备吧。谢谢您的阅读!
例如,小明在期末考试前,统计了下自己在今年的数学考试成绩,结果显示得到80分以下的次数为2次,得80分~90分的次数为10次,得到90分以上次数为3次,那么小明得到 80分以下的概率为:
P( < 80 ) = 2/(2+10+3) = 13.3%
80~90分的概率为:
P( 80 ~ 90) = 10/(2+10+3) = 66.7%
90分以上的概率:
P( > 90) = 3/(2+10+3) = 20%
2期望值
期望值 E,在一个离散性随机变量实验中,重复很多次实验,每次实验的结果乘以其出现的概率的总和。
如上例中,小明在今年的期末考试,我们对他的期望值大约是多少呢?套用上面的公式,80分以下的值取一个代表性的分数:70分,80~90:85分,90分以上:95分,
E = 70 * 0.133 + 85 * 0.667 + 95 * 0.2
计算出的结果为 85,即期末考试我们对小明的合理期望是 85 分左右。
3方差
方差
,用来度量随机变量取值和其期望值之间的偏离程度,
其中:
X 表示小明的分数这个随机变量
N 表示样本的个数,即在此15个
已经知道小明的15次考试的分数,均值刚才我们也计算出来了为 85分,带入到上面的公式中,便能得出偏离85分的程度大小。
如果方差很大,那么小明在期末考试的分数可能偏离85分的可能性就越大;如果方差很小,那么小明很可能期末考试分数在85分左右。
方差开根号,得到标准差,即为
。
4协方差
以上几个概念理解了后,下面再阐述什么是协方差,字面上看它比方差多一个协字,那么大体也能猜出,它可能是衡量两个随机变量间是不是存在某种关系的。
那么它的实际定义如下:
其中,
X, Y 是两个随机变量
是对应两个随机变量的均值
如果两个变量是高度同向的,即X变大,Y也变大,那么对应的协方差也就很大;如果每次X变大,Y就变小,那么X和Y的协方差可能就会为负数
例如,经过观察,我们发现小明的数学成绩和物理成绩的分数分布情况高度相符,也是70分以下3次,80~90分居多,21次,90分以上1次,那么我们就说小明的数学和物理成绩的协方差很大。
5相关系数
我们考虑具有一般性的公式,通常相关系数的定义如下:
发现这个相关系数与协方差紧密相关,只不过又除以了X的标准差和Y的标准差,也就是说,是一种剔除了X和Y这两个偏离程度量纲的影响,标准化后的特殊协方差。
同样可以拿协方差来理解相关系数,若相关系数很大,则可以得到X变大,Y也很可能会变大的结论。
6总结
我们阐述了几个重要的概念,最后理解了相关系数,理解它为我们之后理解数据预处理的很多算法,及回归分析都很有帮助,如普通最小二乘法 (OLS)为什么在相关系数大的回归分析上变得误差很大。
以上这些概念算是一个作为之后学习的储备吧。谢谢您的阅读!
相关文章推荐
- 概率统计----均值,方差,协方差,相关系数,协方差矩阵
- 随机变量的数学特征:均值、方差、协方差、相关系数
- 数据分析之Pandas(三):汇总、统计、相关系数和协方差
- 机器学习 | 一:协方差和相关系数
- 3分钟tips:协方差和相关系数的异同
- 主成分分析中协方差cov和相关系数ρ
- 协方差与相关系数
- 统计知识补充:方差,协方差,相关系数。
- 相关系数和协方差
- 期望、方差、协方差及相关系数的基本运算
- 相关系数与协方差的关系
- 概率论11 协方差与相关系数
- 概率论与数理统计15--协方差与相关系数
- 算法--偏差,方差,标准差,协方差,相关系数及相关理解
- 相关系数,互相关函数,协方差,卷积
- 机器学习的数学基础(一)—— 期望、方差、协方差与相关系数
- 期望、方差、协方差及相关系数的基本运算
- python-numpy-方差、相关系数
- 股票走势分析算法 -协方差,标准差,相关系数
- 标准差、方差、协方差和互相关系数