您的位置：首页 > 编程语言 > Python开发

Python Pandas 如何shuffle（打乱）数据

2019-07-30 09:38 2601 查看

在Python里面，使用Pandas里面的DataFrame来存放数据的时候想要把数据集进行shuffle会许多的方法，本文介绍两种比较常用而且简单的方法。

应用情景：

我们有下面以个DataFrame

我们可以看到BuyInter的数值是按照0,-1,-1,2,2,2,3,3,3,3这样排列的，我们希望不保持这个次序，但是同时列属性又不能改变，即如下效果：

实现方法：

最简单的方法就是采用pandas中自带的 sample这个方法。

假设df是这个DataFrame

df.sample(frac=1)

这样对可以对df进行shuffle。其中参数frac是要返回的比例，比如df中有10行数据，我只想返回其中的30%,那么frac=0.3。

有时候，我们可能需要打混后数据集的index（索引）还是按照正常的排序。我们只需要这样操作

df.sample(frac=1).reset_index(drop=True)

-------------------------------------分割线--------------------------------------------------------------

其实，sklearn(机器学习的库）中也有shuffle的方法。

from sklearn.utils import shuffle
df = shuffle(df)

另外，numpy库中也有进行shuffle的方法（不建议）

df.iloc[np.random.permutation(len(df))]

以上就是本文的全部内容，希望对大家的学习有所帮助

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Pandas shuffle 打乱

相关文章推荐

新的分享

章节导航