您的位置：首页 > 大数据 > 人工智能

Sklearn-train_test_split随机划分训练集和测试集

2018-04-11 13:51 453 查看

1. sklearn.model_selection.train_test_split随机划分训练集和测试集

一般使用方法为：

from sklearn.model_selection import  train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X_data, Y_data, test_size = 0.2, random_state = 0 )

首先要导入相应的包，使用方法如上，其中：

X_train,Y_train:构成了训练集X_test,Y_test：构成了测试集

X_data: 所要划分的样本特征集

Y_data :所要划分的样本结果

test_size:样本占比，如果是整数的话就是样本的数量, (train_size和test_size只能写一个)

random_state: 随机数种子,但填0或不填，每次都会不一样,每次都填1，其他参数一样的情况下你得到的随机数组是一样的.

实例：

from sklearn.model_selection import train_test_split
X = [[u"aaaaaaaaaa"]] * 20 + [[u"bbbbbbbbb"]] * 20
Y = [1] * 20 + [2] * 20
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2)
print(len(X_train),len(Y_train),len(X_test))
32 32 8
for i in range(len(X_test)):
print ("".join(X_test[i]),Y_test[i])
aaaaaaaaaa 1
aaaaaaaaaa 1
bbbbbbbbb 2
bbbbbbbbb 2
bbbbbbbbb 2
aaaaaaaaaa 1
bbbbbbbbb 2
bbbbbbbbb 2

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航