对pandas 数据进行数据打乱并选取训练机与测试机集
2019-06-26 23:35
1926 查看
描述
在机器学习中,拿到一堆训练数据一般会需要将数据切分成训练集和测试集,或者切分成训练集、交叉验证集和测试集,为了避免切分之后的数据集在特征分布上出现偏倚,我们需要先将数据打乱,使数据随机排序,然后在进行切分。
需要用的方法如下:
注:df代表一个pd.DataFrame
df = df.sample(frac=1.0): 按100%的比例抽样即达到打乱数据的效果
df = df.reset_index():打乱数据之后index也是乱的,如果你的index没有特征意义的话,直接重置就可以了,否则就在打乱之前把index加进新的一列,再生成无意义的index
train = df.loc[0:a]: 进行切分操作,切分比例看情况定
cv = df.loc[a+1:b]:
test = df.loc[b+1:-1]:
相关文章推荐
- Oracle进行模拟测试数据的一个例子
- 对pandas进行数据预处理的实例讲解
- python pandas 对dataframe中的数据进行四则运算及筛选
- 数据读取 ,在cmd dos 命令下输入文件地址 进行测试
- 用Fiddler或Charles进行mock数据搭建测试环境
- 利用最近邻KNN算法对IRIS数据进行测试处理样例
- 利用 Python 进行数据分析(十二)pandas:数据合并
- 深度学习文章5:使用caffe对自己的图像数据进行训练并测试
- jmeter测试(9)----通过接口新增数据后再进行数据还原
- python/pandas数据分析(十六)- 数据索引与选取
- 【软件测试】使用类反射结合python的第三方库xlrd,动态引入测试数据,进行自动化测试
- Jmeter--HTTP取样器使用数据库中数据进行测试
- pandas层次索引应用-对广告点击率数据进行统计
- 利用Python进行数据分析_python3实现_pandas入门_相关系数与协方差
- 利用Python Pandas进行数据预处理-数据清洗
- 如何使用GIST+LIBLINEAR分类器提取CIFAR-10 dataset数据集中图像特征,并用测试数据进行实验
- 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
- tcltk控制chariot进行测试,并将批量数据输出成excel
- 打乱的数据进行排序
- 对于百万条数据进行查询:自己对2万条数据进行的测试,答案是。。。