pandas versus Excel 学习笔记15(消除重复数据、旋转数据表、读取文件)
2019-03-16 17:24
639 查看
目录
删除重复数据
[code]students.drop_duplicates(subset='Name',inplace=True,keep='first')#keep选择表示删除前面或后面的数据 print(students)
如果要基于多列删除,subset=['xx','yy'] 给一个list
[code]dupe=students.duplicated(subset='Name') print(dupe)
结果:True表示“是重复数据”
18 False
19 False
20 False
21 True
22 True
23 True
24 True
25 True
dtype: bool
是一个bool型的series
是否存在重复数据
[code]print(dupe.any())
结果:
True #表示存在重复数据
获取哪些是重复数据
[code]students=pd.read_excel('020/Students_Duplicates.xlsx')#注意不能设置index dupe=students.duplicated(subset='Name') dupe=dupe[dupe=True]#筛选为True的内容,因为dupe本来就是bool值所以代码可以写为dupe=dupe[dupe] print(students.iloc[dupe.index])#iloc表示定位
结果:
ID Name Test_1 Test_2 Test_3
20 21 Student_001 62 86 83
21 22 Student_002 77 97 78
22 23 Student_003 57 96 46
23 24 Student_004 57 87 80
24 25 Student_005 95 59 87
旋转数据表(行/列转换)
[code]import pandas as pd pd.options.display.max_columns=999 videos=pd.read_excel('021/Videos.xlsx',index_col='Month') table=videos.transpose() print(table)
读取CSV、TSV、TXT文件中的数据
均用read_csv读取
[code]import pandas as pd students_1=pd.read_csv('022/Students.txt',sep='|',index_col='ID') print(students_1) students_2=pd.read_csv('022/Students.csv',index_col='ID') print(students_2) students_3=pd.read_csv('022/Students.tsv',sep='\t',index_col='ID') print(students_3)
sep表示分隔符
相关文章推荐
- [LPTHW学习笔记] - ex15 + ex16 - 读取文件
- ExcelHelp 学习笔记一: C#读取Excel中数据
- pandas读取Excel文件,以0开头的数据,出现数据缺失
- Python学习笔记 --- pandas将excel转化为csv文件
- Pandas读取不同数据源的数据—文本文件、excel文件
- Jsoup学习笔记9:Jsoup 解析saz文件,读取其中的htm文件到字符串,提取字符串中的数据写入csv文件中
- Hadoop学习笔记——1.java读取Oracle中表的数据,创建新文件写入Hdfs
- PCL个人学习笔记(一)——从PCD文件中读取点云数据
- Excel开发学习笔记:读取xml文件及csv文件
- 读书笔记--python数据可视化--002_读取Excel文件数据
- 个人学习代码保存:例11.读取Excel文件中的数据
- SAP BW_PA_文件_事务数据——视频学习笔记15
- Hadoop Core 学习笔记(一) SequenceFile文件写入和读取Writable数据
- C#学习笔记:从文件中读取数据
- 我的python学习笔记、从文件中读取数据
- Python使用pandas读取Excel文件数据和预处理小案例
- pandas versus Excel 学习笔记16(透视表,分组,聚合(group by))
- python初学者学习笔记(三)读取excel表格数据
- Python学习笔记(十四)从文件中读取数据
- Android入门学习笔记(一)|基础知识|文件数据存储读取|解析XML