样本有偏时的思考
2015-09-14 10:54
211 查看
如何避免样本抽样有偏的情况发生
在关联规则中,对于辛普森悖论的出现,即是由于样本有偏所导致规则提取的错误,在进行抽样时,如果没有比较客观地反映原始总体的信息,那么基于此,所得到的统计分析的结论以及假设检验,都是有错误的。
对于这个问题的解决方案,
1, 多次抽样,将多次抽样的分布绘制出来,取相对集中部分的均值或者众数
2, 对于大的样本按照可利用的商业信息进行分层,再按照恰当比例在每个层中进行抽样。
3, 对于抽样而言,很多情况下,我们想要利用的是,利用样本估计总体,那么如果我们已经可以估计出样本密度函数,那么就可以解决总体估计问题。这里可以利用非参数估计,如:矩估计,ML估计,分位数估计等方法进行样本估计,而对于样本有偏的情况时,对相应的估计进行适当地调整来比较完整地反映总体信息。
个人感觉,我的思路有很大局限性,欢迎大牛和大侠,批评指正,指点迷津!!
在关联规则中,对于辛普森悖论的出现,即是由于样本有偏所导致规则提取的错误,在进行抽样时,如果没有比较客观地反映原始总体的信息,那么基于此,所得到的统计分析的结论以及假设检验,都是有错误的。
对于这个问题的解决方案,
1, 多次抽样,将多次抽样的分布绘制出来,取相对集中部分的均值或者众数
2, 对于大的样本按照可利用的商业信息进行分层,再按照恰当比例在每个层中进行抽样。
3, 对于抽样而言,很多情况下,我们想要利用的是,利用样本估计总体,那么如果我们已经可以估计出样本密度函数,那么就可以解决总体估计问题。这里可以利用非参数估计,如:矩估计,ML估计,分位数估计等方法进行样本估计,而对于样本有偏的情况时,对相应的估计进行适当地调整来比较完整地反映总体信息。
个人感觉,我的思路有很大局限性,欢迎大牛和大侠,批评指正,指点迷津!!
相关文章推荐
- Spring MVC textarea example
- htm和html
- 内存池、进程池、线程池
- [LeetCode-203] Remove Linked List Elements(链表节点删除)
- IOS IPA打包和真机测试
- IOS 更新版本后出现错误:could not find a storyboard named 'Main' in bundle NSBundle
- 检查对象属性是否有空值
- 浅谈JAVA集合框架
- hdu 5438 Ponds 2015长春网络赛 图论 dfs bfs
- 如何安装nginx第三方模块--add-module
- 一些有用的linux命令
- STL源码剖析 [简单应用总结二]
- WinForm中AssemblyInfo.cs文件参数具体讲解
- hydra 密码破解工具详解
- linux下mysql安装、目录结构、配置
- Linux 重定向
- 基于Java的打包jar、war、ear包的作用与区别详解
- 斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感
- 关于MD5的软件
- 嵌入式系统概念学习