您的位置:首页 > 其它

pandas versus Excel 学习笔记15(消除重复数据、旋转数据表、读取文件)

2019-03-16 17:24 639 查看

目录

 删除重复数据

获取哪些是重复数据

旋转数据表(行/列转换)

读取CSV、TSV、TXT文件中的数据

 

 删除重复数据

[code]students.drop_duplicates(subset='Name',inplace=True,keep='first')#keep选择表示删除前面或后面的数据
print(students)

如果要基于多列删除,subset=['xx','yy']  给一个list

[code]dupe=students.duplicated(subset='Name')
print(dupe)

结果:True表示“是重复数据”

18    False
19    False
20    False
21     True
22     True
23     True
24     True
25     True
dtype: bool

是一个bool型的series

是否存在重复数据

[code]print(dupe.any())

结果:

True  #表示存在重复数据

获取哪些是重复数据

[code]students=pd.read_excel('020/Students_Duplicates.xlsx')#注意不能设置index
dupe=students.duplicated(subset='Name')
dupe=dupe[dupe=True]#筛选为True的内容,因为dupe本来就是bool值所以代码可以写为dupe=dupe[dupe]
print(students.iloc[dupe.index])#iloc表示定位

结果:

    ID         Name  Test_1  Test_2  Test_3
20  21  Student_001      62      86      83
21  22  Student_002      77      97      78
22  23  Student_003      57      96      46
23  24  Student_004      57      87      80
24  25  Student_005      95      59      87

旋转数据表(行/列转换)

[code]import pandas as pd
pd.options.display.max_columns=999
videos=pd.read_excel('021/Videos.xlsx',index_col='Month')
table=videos.transpose()
print(table)

读取CSV、TSV、TXT文件中的数据

 均用read_csv读取

[code]import pandas as pd
students_1=pd.read_csv('022/Students.txt',sep='|',index_col='ID')
print(students_1)
students_2=pd.read_csv('022/Students.csv',index_col='ID')
print(students_2)
students_3=pd.read_csv('022/Students.tsv',sep='\t',index_col='ID')
print(students_3)

sep表示分隔符

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: