【基础技能】pandas 操作csv方法 &&StratifiedShuffleSplit
2018-02-09 09:50
141 查看
#read CSV read_csv读取的数据类型为Dataframe# obj_2=pd.read_csv('f:/ceshi.csv',header=0,names=range(2,5))#表示文件第0行(即第一行,索引从0开始)为列索引,这样加names会替换原来的列索引。# header=None 原始文件数据没有列索引sample = pd.read_csv(file_dir + file_name + '.csv', low_memory=False, encoding='gbk')
sample.set_index(id_name, inplace=True) # 把索引换成ID
sample.rename(columns={label_name: 'y'}, inplace=True) #把csv中label_name更改为'y'
target = sample.pop('y').to_frame()
#删除第一列
df.drop(df.columns[[0]], axis=1, inplace=True)
#删除删除y列
val_X = val.drop(['y'], axis=1)=====================================================from sklearn.model_selection import StratifiedShuffleSplitimport numpy as npX = np.array([[1, 2], [3, 4], [1, 2], [3, 4],[1, 2],[3, 4], [1, 2], [3, 4]])#训练数据集8*2y = np.array([0, 0, 1, 1,0,0,1,1])#类别数据集8*1ss=StratifiedShuffleSplit(n_splits=5,test_size=0.25,train_size=0.75,random_state=0)#分成5组,测试比例为0.25,训练比例是0.75参数 random_state控制是将样本随机打乱
for train_index, test_index in ss.split(X, y):print("TRAIN:", train_index, "TEST:", test_index)#获得索引值X_train, X_test = X[train_index], X[test_index]#训练集对应的值y_train, y_test = y[train_index], y[test_index]#类别集对应的值
1.其产生指定数量的独立的train/test数据集划分数据集划分成n组。 2.首先将样本随机打乱,然后根据设置参数划分出train/test对。 3.其创建的每一组划分将保证每组类比比例相同。即第一组训练数据类别比例为2:1,则后面每组类别都满足这个比例[结果]"D:\Program Files\Anaconda3\python.exe" D:/dnnLearn/allProject/trading1.0/test.py
TRAIN: [5 2 6 4 1 3] TEST: [7 0]TRAIN: [4 3 5 2 7 1] TEST: [6 0]TRAIN: [7 1 6 2 0 4] TEST: [5 3]TRAIN: [3 6 4 7 0 5] TEST: [1 2]TRAIN: [3 4 1 7 2 0] TEST: [6 5]
相关文章推荐
- "超时时间已到。在操作完成之前超时时间已过或服务器未响应"的解决方法
- C#操作Word完全方法·VS2005专业教程网|GotASPX.COM,专注于ASP.NET的专业教程网站
- VMware Tools"无法计算本地文件大小。你可能没有执行该操作的权限。”的解决方法
- .NET正则基础——.NET正则类及方法应用(转)
- 关于无法显示该网页,弹出对话框显示"Internet Explorer无法打开Internet站点xxx,已终止操作"问题的解决方法
- "超时时间已到。在操作完成之前超时时间已过或服务器未响应"的解决方法
- NPC位置及各种商业技能上限(150&225)突破方法 5月25日修订 附图
- 巨简单循环shell脚本验证&符号后台操作(并记录查看当前shell的方法)
- [置顶]Emacs for vi Users | Emacs 和 Vim 基础键对应 ----<编辑器基础操作, buffer操作>
- vs2005部署错误"在一个非套接字上尝试了一个操作"的解决方法
- Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式']
- "超时时间已到。在操作完成之前超时时间已过或服务器未响应"的解决方法
- 重拾Javascript基础(三) - DOM属性&方法
- winxp文件、打印机共享故障排除方法及“操作无法完成.键入的打印机名不正确,或者指定的打印机没有连接到服务器上"
- 对于操作基础技能的规定不能实施,这是为什么呢
- [置顶]Emacs for vi Users | Emacs 和 Vim 基础键对应 ----<编辑器文本操作,搜索/替换/正则操作>
- 了解活动目录操作主机角色及GUI&命令行查看方法
- 无法打开数据库 'msdb'。恢复操作已将该数据库标记为 SUSPECT解决方法
- "超时时间已到。在操作完成之前超时时间已过或服务器未响应"的解决方法
- String的split方法误操作