机器学习之数据集获取,返回值,划分的总结反思
2020-04-22 10:09
162 查看
知识:
2.1.2 sklearn数据集 sklearn.datasets load_* 获取小规模数据集 fetch_* 获取大规模数据集 2 sklearn小数据集 sklearn.datasets.load_iris() 3 sklearn大数据集 sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’) 4 数据集的返回值 datasets.base.Bunch(继承自字典) dict["key"] = values bunch.key = values 思考:拿到的数据是否全部都用来训练一个模型? 2.1.3 数据集的划分 训练数据:用于训练,构建模型 测试数据:在模型检验时使用,用于评估模型是否有效 测试集 20%~30% sklearn.model_selection.train_test_split(arrays, *options) 训练集特征值,测试集特征值,训练集目标值,测试集目标值 x_train, x_test, y_train, y_test
代码实现:内附总结
#从库中引用小数据库load中的iris from sklearn.datasets import load_iris #从库中引用切分训练集和测试集的,注意将库和库函数分离开 from sklearn.model_selection import train_test_split #花数据 def datasets_demo(): iris = load_iris() #因为import的是一个类,所以先实例化,在调用函数 print('花数据集:\n:',iris) print('花数据集特征值:\n',iris.data) print('花数据集目标值:\n',iris.target) print('花数据集数据描述:\n',iris['DESCR']) #注意字典输出某个键的值是字典名['键名'] #对集合的划分 x_train, x_test, y_train, y_test=train_test_split(iris.data,iris.target,test_size = 0.2,random_state=22) #注意这里划分出来的返回值是四个,分别是训练集特征值,测试集特征值,训练集目标值,测试集目标值 print('训练集特征值为:\n',x_train,x_train.shape) #字典的拼接直接以,就可以,别忘了。shape是numy里面的内置函数,对于矩阵可以查看行列 if __name__ == '__main__': #花数据的测试 datasets_demo()
- 点赞
- 收藏
- 分享
- 文章举报
相关文章推荐
- 机器学习之特征工程:字典的特征提取总结反思
- 机器学习数据集划分-训练集,验证集,测试集
- 机器学习建模数据集的划分
- 调用存储过程获取数据集,返回值
- 哈希图像检索—图像数据集获取链接总结【Hashing数据集】
- 机器学习数据集获取
- 机器学习 数据挖掘 数据集划分 训练集 验证集 测试集
- !!!.NET多线程使用总结——传入参数与获取返回值
- Python机器学习——Sklearn——划分数据集——交叉检验
- 机器学习-树类模型总结
- 机器学习基础(五)——机器学习算法思想总结
- 机器学习--KNN算法应用,iris鸢尾花数据集的分类
- 【机器学习算法-python实现】决策树-Decision tree(1) 信息熵划分数据集
- 机器学习基本算法总结
- 从插件中获取资源的几种方式[总结]_FileLocator
- DOM获取元素方式总结
- 人脸识别总结(附开源项目代码与各大数据集下载路径)
- 为什么我获取不到这个css样式?js原生获取css样式总结
- Python机器学习--预测分析核心算法(学后总结一)
- 机器学习里数据预处理及特征工程总结