您的位置:首页 > 其它

数据挖掘中的抽样方法--简单记录

2017-03-07 07:29 309 查看
有很多种抽样方法,这里只介绍少数最基本的抽样技术和它们的变形。

简单随机抽样:选定任何项的概率相等。

两种变形:(1)有放回抽样;(2)无放回抽样

在有放回抽样中,相同的对象可能会被多次抽中。

当样本与数据集相比相对较少的时候,两种方法 产生的样本差别不大。

分层抽样:总体由不同对象组成,每种类型的对象差别很大。

简单随机抽样不能充分地代表不太频繁出现的对象类型。

分层抽样可以从预先指定的组开始抽样。在最简单的情况下,尽管每组的大小不同,但是从每组抽取的对象个数相同。另一组变形时从每一组抽取的对象数量正比于该组的大小。

渐进抽样

合适的样本容量可能很难确定,因此有时需要使用自适应或渐进抽样的方式。

这些方法从一个小样本开始,然后增加样本容量直至得到足够容量的样本。(还是需要一个评估方法,确定样本是否足够大)

抽样方法的使用要考虑到样本容量的问题

较大的样本容量虽然增加了样本具有代表性的概率,但是也抵消了抽样带来的许多好处。使用较小容量的样本,可能会丢失模式,或者检测出错误的模式。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: