您的位置：首页 > 其它

机器学习之数据集获取，返回值，划分的总结反思

2020-04-22 10:09 162 查看

知识：

2.1.2 sklearn数据集
sklearn.datasets
load_*  获取小规模数据集
fetch_* 获取大规模数据集
2 sklearn小数据集
sklearn.datasets.load_iris()
3 sklearn大数据集
sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
4 数据集的返回值
datasets.base.Bunch（继承自字典）
dict["key"] = values
bunch.key = values
思考：拿到的数据是否全部都用来训练一个模型？
2.1.3 数据集的划分
训练数据：用于训练，构建模型
测试数据：在模型检验时使用，用于评估模型是否有效
测试集 20%~30%
sklearn.model_selection.train_test_split(arrays, *options)
训练集特征值，测试集特征值，训练集目标值，测试集目标值
x_train, x_test, y_train, y_test

代码实现：内附总结

#从库中引用小数据库load中的iris
from sklearn.datasets import load_iris
#从库中引用切分训练集和测试集的，注意将库和库函数分离开
from sklearn.model_selection import train_test_split
#花数据
def datasets_demo():
iris = load_iris()
#因为import的是一个类，所以先实例化，在调用函数
print('花数据集：\n:',iris)
print('花数据集特征值：\n',iris.data)
print('花数据集目标值：\n',iris.target)
print('花数据集数据描述：\n',iris['DESCR'])
#注意字典输出某个键的值是字典名['键名']

#对集合的划分
x_train, x_test, y_train, y_test=train_test_split(iris.data,iris.target,test_size = 0.2,random_state=22)
#注意这里划分出来的返回值是四个，分别是训练集特征值，测试集特征值，训练集目标值，测试集目标值
print('训练集特征值为：\n',x_train,x_train.shape)
#字典的拼接直接以，就可以，别忘了。shape是numy里面的内置函数，对于矩阵可以查看行列
if __name__ == '__main__':
#花数据的测试
datasets_demo()

点赞
收藏
分享
文章举报

cccccccaaaaaaaaa 发布了37 篇原创文章 · 获赞 1 · 访问量 842 私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航