您的位置:首页 > 大数据 > 人工智能

Sklearn-train_test_split随机划分训练集和测试集

2018-04-11 13:51 453 查看

1. sklearn.model_selection.train_test_split随机划分训练集和测试集

一般使用方法为:

from sklearn.model_selection import  train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X_data, Y_data, test_size = 0.2, random_state = 0 )
首先要导入相应的包,使用方法如上,其中:

X_train,Y_train:构成了训练集X_test,Y_test:构成了测试集

X_data: 所要划分的样本特征集

Y_data :所要划分的样本结果

test_size:样本占比,如果是整数的话就是样本的数量, (train_size和test_size只能写一个)

random_state: 随机数种子,但填0或不填,每次都会不一样,每次都填1,其他参数一样的情况下你得到的随机数组是一样的.

实例:
from sklearn.model_selection import train_test_split
X = [[u"aaaaaaaaaa"]] * 20 + [[u"bbbbbbbbb"]] * 20
Y = [1] * 20 + [2] * 20
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2)
print(len(X_train),len(Y_train),len(X_test))
32 32 8
for i in range(len(X_test)):
print ("".join(X_test[i]),Y_test[i])
aaaaaaaaaa 1
aaaaaaaaaa 1
bbbbbbbbb 2
bbbbbbbbb 2
bbbbbbbbb 2
aaaaaaaaaa 1
bbbbbbbbb 2
bbbbbbbbb 2

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: