python划分训练集和测试集
2018-03-16 15:36
295 查看
【第一种】方法
【第二种划分数据集方式】
直接调用sklearn包,简直不要太方便,pip安装下载就好了,如果缺少scipy包,用pip再安装下载
完了,就直接调用train,test,train_label,test_lable=
train_test_split(ratings[['user_id','movies_id']],range(len(ratings)),test_size=7/8)参数:数据集,数据集标签,test_size的值如果介于0-1之间就是划分比例,如果是整数就是样本数返回值:训练集,训练集标签,测试集,测试集标签import pandas as pd
# import numpy as np
from sklearn.model_selection import train_test_split
def splitData(data,seed,m,k):
#将数据分成训练集和测试集,每次指定seed,更换K,重复M次,防止过拟合. test=[] train=[] #random.seed(seed),指定seed的话,每次后面的随机数产生的都是一样的顺序 np.random.seed(seed) for user,item in data.items(): #随机数产生顺序一样,随机产生(0,m)之间的数,只有一个可以分给测试集,另外的m-1都分给训练集 if np.random.randint(0,m)==k: test.append([user,item]) else: train.append([user,item]) return test,train test,train=splitData(data,5,7,5) print(len(test)) print(len(train))
【结果】
【第二种划分数据集方式】
直接调用sklearn包,简直不要太方便,pip安装下载就好了,如果缺少scipy包,用pip再安装下载
完了,就直接调用train,test,train_label,test_lable=
train_test_split(ratings[['user_id','movies_id']],range(len(ratings)),test_size=7/8)参数:数据集,数据集标签,test_size的值如果介于0-1之间就是划分比例,如果是整数就是样本数返回值:训练集,训练集标签,测试集,测试集标签import pandas as pd
# import numpy as np
from sklearn.model_selection import train_test_split
# 加载数据,获取数据的特征属性列表、数据、分类信息 dataSet = load_iris() # 获取属性标签 FeatureLabels = dataSet.feature_names # 获取属性数据 data= dataSet.data # 获取分类信息 classInfo = dataSet.target #划分测试集和训练集 train,test,train_label,test_label=train_test_split(data,classInfo,test_size=0.9)
相关文章推荐
- Python数据预处理—训练集和测试集数据划分
- sklearn.model_selection.train_test_split随机划分训练集和测试集
- Sklearn-train_test_split随机划分训练集和测试集
- sklearn.model_selection.train_test_split划分训练集和测试集
- 机器学习 数据挖掘 数据集划分 训练集 验证集 测试集
- Python分割训练集和测试集
- sklearn.model_selection.train_test_split随机划分训练集和测试集
- 机器学习数据集划分-训练集,验证集,测试集
- python中如何实现将数据分成训练集与测试集
- Sklearn-train_test_split随机划分训练集和测试集
- 【Python那些事儿】准备数据——训练集和测试集
- 十折交叉验证10-fold cross validation, 数据集划分 训练集 验证集 测试集
- sklearn.model_selection中的train_test_split使用方法,分割数据集,划分训练集和测试集
- 十折交叉验证10-fold cross validation, 数据集划分 训练集 验证集 测试集
- 转:Sklearn-train_test_split随机划分训练集和测试集
- Sklearn工具包---train_test_split随机划分训练集和测试集
- KNN 算法的python实现 迭代训练方式,将最近的测试样例作为训练样例扩大训练集
- python 划分数据集为训练集和测试集
- python测试开发学习笔记
- python接口测试脚本+线程+参数化