您的位置:首页 > 其它

机器学习之数据集获取,返回值,划分的总结反思

2020-04-22 10:09 162 查看

知识:

2.1.2 sklearn数据集
sklearn.datasets
load_*  获取小规模数据集
fetch_* 获取大规模数据集
2 sklearn小数据集
sklearn.datasets.load_iris()
3 sklearn大数据集
sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
4 数据集的返回值
datasets.base.Bunch(继承自字典)
dict["key"] = values
bunch.key = values
思考:拿到的数据是否全部都用来训练一个模型?
2.1.3 数据集的划分
训练数据:用于训练,构建模型
测试数据:在模型检验时使用,用于评估模型是否有效
测试集 20%~30%
sklearn.model_selection.train_test_split(arrays, *options)
训练集特征值,测试集特征值,训练集目标值,测试集目标值
x_train, x_test, y_train, y_test

代码实现:内附总结

#从库中引用小数据库load中的iris
from sklearn.datasets import load_iris
#从库中引用切分训练集和测试集的,注意将库和库函数分离开
from sklearn.model_selection import train_test_split
#花数据
def datasets_demo():
iris = load_iris()
#因为import的是一个类,所以先实例化,在调用函数
print('花数据集:\n:',iris)
print('花数据集特征值:\n',iris.data)
print('花数据集目标值:\n',iris.target)
print('花数据集数据描述:\n',iris['DESCR'])
#注意字典输出某个键的值是字典名['键名']

#对集合的划分
x_train, x_test, y_train, y_test=train_test_split(iris.data,iris.target,test_size = 0.2,random_state=22)
#注意这里划分出来的返回值是四个,分别是训练集特征值,测试集特征值,训练集目标值,测试集目标值
print('训练集特征值为:\n',x_train,x_train.shape)
#字典的拼接直接以,就可以,别忘了。shape是numy里面的内置函数,对于矩阵可以查看行列
if __name__ == '__main__':
#花数据的测试
datasets_demo()
  • 点赞
  • 收藏
  • 分享
  • 文章举报
cccccccaaaaaaaaa 发布了37 篇原创文章 · 获赞 1 · 访问量 842 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: