数据挖掘中的抽样方法--简单记录
2017-03-07 07:29
309 查看
有很多种抽样方法,这里只介绍少数最基本的抽样技术和它们的变形。
简单随机抽样:选定任何项的概率相等。
两种变形:(1)有放回抽样;(2)无放回抽样
在有放回抽样中,相同的对象可能会被多次抽中。
当样本与数据集相比相对较少的时候,两种方法 产生的样本差别不大。
分层抽样:总体由不同对象组成,每种类型的对象差别很大。
简单随机抽样不能充分地代表不太频繁出现的对象类型。
分层抽样可以从预先指定的组开始抽样。在最简单的情况下,尽管每组的大小不同,但是从每组抽取的对象个数相同。另一组变形时从每一组抽取的对象数量正比于该组的大小。
渐进抽样
合适的样本容量可能很难确定,因此有时需要使用自适应或渐进抽样的方式。
这些方法从一个小样本开始,然后增加样本容量直至得到足够容量的样本。(还是需要一个评估方法,确定样本是否足够大)
抽样方法的使用要考虑到样本容量的问题
较大的样本容量虽然增加了样本具有代表性的概率,但是也抵消了抽样带来的许多好处。使用较小容量的样本,可能会丢失模式,或者检测出错误的模式。
简单随机抽样:选定任何项的概率相等。
两种变形:(1)有放回抽样;(2)无放回抽样
在有放回抽样中,相同的对象可能会被多次抽中。
当样本与数据集相比相对较少的时候,两种方法 产生的样本差别不大。
分层抽样:总体由不同对象组成,每种类型的对象差别很大。
简单随机抽样不能充分地代表不太频繁出现的对象类型。
分层抽样可以从预先指定的组开始抽样。在最简单的情况下,尽管每组的大小不同,但是从每组抽取的对象个数相同。另一组变形时从每一组抽取的对象数量正比于该组的大小。
渐进抽样
合适的样本容量可能很难确定,因此有时需要使用自适应或渐进抽样的方式。
这些方法从一个小样本开始,然后增加样本容量直至得到足够容量的样本。(还是需要一个评估方法,确定样本是否足够大)
抽样方法的使用要考虑到样本容量的问题
较大的样本容量虽然增加了样本具有代表性的概率,但是也抵消了抽样带来的许多好处。使用较小容量的样本,可能会丢失模式,或者检测出错误的模式。
相关文章推荐
- 一个取数据集中指定一段记录的简单方法
- 数据挖掘简单快速方法
- 数据挖掘方法(2) 回归模型(简单线性回归)
- 数据挖掘和知识发现的技术、方法及应用 --------http://blog.csdn.net/gongfs/archive/2006/03/17/627244.aspx
- 基于数据挖掘的课程相关 性方法研究与实现
- 从数据表中取出第n条到第m条的记录的方法
- 工作之余,整理了一下平时处理数据的一些常用的,简单的方法。希望对学习JAVA的朋友有点帮助
- 简单的数据连接方法
- 空间数据挖掘技术理论及方法
- [转帖]记录:删除数据库中重复数据的几个方法
- DataGrid 在PostBack 后记录定位的简单方法...
- 数据共享的简单方法
- 使用简单的方法进行批量删除数据
- 数据挖掘和知识发现的技术、方法及应用
- 数据挖掘和知识发现的技术、方法及应用
- 将repeater、datalist、gridview中的数据导出到Excel中的简单方法
- Oracle 9i 数据库 数据导入和导出的最简单的方法
- 修复DBF数据表文件的简单方法
- sqlserver 删除重复数据的简单方法
- 将repeater、datalist、gridview中的数据导出到Excel中的简单方法