[数学学习]数学知识回顾之概率统计与信息论
2016-01-23 14:26
986 查看
Logistic回归模型
Logistic分布
联合界与Hoeffding不等式
联合界定理
Hoeffding不等式
极大似然估计
信息论基本理论
熵
联合熵
条件熵
链式法则
互信息
设X是连续随机变量,X服从Logistic分布是指X具有下列分布函数和密度函数。
F(x)=P(X≤x)=11+e−(x−μ)/γ
f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2
式中,μ为位置参数,γ>0为形状参数。
Logistic分布的密度函数f(x)和分布函数F(x)的图形如下所示。
分布函数是关于点(μ,12)为中心对称,即满足:
F(−x+μ)−12=−F(x+μ)+12曲线在中心附近增加速度较快,在两端增长速度较慢。形状参数γ的值越小,曲线在中心附近增长得越快。
令A1,A2,...,Ak是k个时间,这k个事件可以相互独立也可以不相互独立,那么有下面结论:
P(A1∪A2∪...∪Uk)≤P(A1)+P(A2)+...+P(Ak)
该定理可以用Venn图来表示如下。
圆A,B,C分别代表着事件A,B,C发生的概率,之间有重叠,所以ABC任意一个发生的概念是小于三者发生的概率之和的。
P(Zi=1)=φ,P(Zi=0)=1−φ
我们使用者m个变量的平均值来估计φ,得到
φ′=1m∑mi=1Zi
那么Hoeffding不等式的定义即为对于任意的固定数值γ>0,存在:
P(|φ′−φ|)≤2e−2γ2m
意义:当样本足够大时,可以认为对参数的估计逼近真实值。
一个离散型随机变量X的熵H(X)定义为
H(X)=−∑x∈χp(x)logp(x)
其中对数log所用的底是2,约定0log0=0
关于熵的理解可以想一下掷硬币,当硬币均匀时,掷硬币的结果的不确定是最大的。因为它正反的概念都是0.5,此时它的熵最大。如下图所示。
对于服从联合分布为p(x,y)的一对离散随机变量(X,Y),其联合熵H(X,Y)定义为:H(X,Y)=−∑x∈χ∑Y∈Y′p(x,y)logp(x,y)
注意:(Y的向量空间打不出来,我这里用Y’表示)
H(Y|X)=∑ni=1piH(Y|X=xi)
其公式为
I(X;Y)=H(X)−H(X|Y)
互信息的概念在李航统计学习方法中又称为
本博文参考了:
1.李航《统计学习方法》,清华大学出版社
2.Thomas M. Cover Joy A. Thomas 《Information theory》
3.《数学分析》第三版,复旦大学。高等教育出版社。
Logistic分布
联合界与Hoeffding不等式
联合界定理
Hoeffding不等式
极大似然估计
信息论基本理论
熵
联合熵
条件熵
链式法则
互信息
Logistic回归模型
Logistic分布
Logistic分布的定义如下。设X是连续随机变量,X服从Logistic分布是指X具有下列分布函数和密度函数。
F(x)=P(X≤x)=11+e−(x−μ)/γ
f(x)=F′(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2
式中,μ为位置参数,γ>0为形状参数。
Logistic分布的密度函数f(x)和分布函数F(x)的图形如下所示。
分布函数是关于点(μ,12)为中心对称,即满足:
F(−x+μ)−12=−F(x+μ)+12曲线在中心附近增加速度较快,在两端增长速度较慢。形状参数γ的值越小,曲线在中心附近增长得越快。
联合界与Hoeffding不等式
联合界定理
定义:令A1,A2,...,Ak是k个时间,这k个事件可以相互独立也可以不相互独立,那么有下面结论:
P(A1∪A2∪...∪Uk)≤P(A1)+P(A2)+...+P(Ak)
该定理可以用Venn图来表示如下。
圆A,B,C分别代表着事件A,B,C发生的概率,之间有重叠,所以ABC任意一个发生的概念是小于三者发生的概率之和的。
Hoeffding不等式
定义:令Z1,Z2,...,Zk为k个独立同分布变量,服从伯努利分布,即:P(Zi=1)=φ,P(Zi=0)=1−φ
我们使用者m个变量的平均值来估计φ,得到
φ′=1m∑mi=1Zi
那么Hoeffding不等式的定义即为对于任意的固定数值γ>0,存在:
P(|φ′−φ|)≤2e−2γ2m
意义:当样本足够大时,可以认为对参数的估计逼近真实值。
极大似然估计
信息论基本理论
信息论这门学科是香农建立的。笔者学习过这门课,学习完信息论,感觉信息论是一门哲学,很有意思。对于数学和信道编码有兴趣的读者可以学习下。熵
熵表示的是随机变量不确定性的度量。一个离散型随机变量X的熵H(X)定义为
H(X)=−∑x∈χp(x)logp(x)
其中对数log所用的底是2,约定0log0=0
关于熵的理解可以想一下掷硬币,当硬币均匀时,掷硬币的结果的不确定是最大的。因为它正反的概念都是0.5,此时它的熵最大。如下图所示。
联合熵
给出联合熵的定义:对于服从联合分布为p(x,y)的一对离散随机变量(X,Y),其联合熵H(X,Y)定义为:H(X,Y)=−∑x∈χ∑Y∈Y′p(x,y)logp(x,y)
注意:(Y的向量空间打不出来,我这里用Y’表示)
条件熵
给出条件熵的定义:H(Y|X)=∑ni=1piH(Y|X=xi)
链式法则
H(X,Y)=H(X)+H(Y|X)互信息
互信息一般用I来表示,互信息I(X;Y)是在给定Y知识的条件下X的不确定度的缩减量。其公式为
I(X;Y)=H(X)−H(X|Y)
互信息的概念在李航统计学习方法中又称为
信息增益。
本博文参考了:
1.李航《统计学习方法》,清华大学出版社
2.Thomas M. Cover Joy A. Thomas 《Information theory》
3.《数学分析》第三版,复旦大学。高等教育出版社。
相关文章推荐
- Leetcode 42. Trapping Rain Water
- BZOJ 3289: Mato的文件管理|分块|树状数组
- C++ 在.h文件中包含头文件和在.cpp文件中包含头文件有什么区别?
- 代码约束
- n & (n-1) 的妙用
- POJ 3422 Kaka's Matrix Travels (最大费用最大流)
- 网上图书商城项目学习笔记-001工具类测试
- 最短 路径问题
- ORACLE--COUNT()函数使用
- UI_Button的应用
- x265-1.7版本-encoder/slicetype.cpp注释
- 网页设计基础
- DFS序详解
- 我的剪贴板
- 902绿幽灵802绿钻(绿精灵)全部冠号
- c++ 设计模式3 (重构技法 Template Method)
- CentOS下yum安装wine
- UI_封装
- JAVA动态代理
- Android seekBar1.自定义样式