您的位置：首页 > 其它

pandas versus Excel 学习笔记15（消除重复数据、旋转数据表、读取文件）

2019-03-16 17:24 639 查看

删除重复数据

[code]students.drop_duplicates(subset='Name',inplace=True,keep='first')#keep选择表示删除前面或后面的数据
print(students)

如果要基于多列删除，subset=['xx','yy'] 给一个list

[code]dupe=students.duplicated(subset='Name')
print(dupe)

结果：True表示“是重复数据”

18 False
19 False
20 False
21 True
22 True
23 True
24 True
25 True
dtype: bool

是一个bool型的series

是否存在重复数据

[code]print(dupe.any())

结果：

True #表示存在重复数据

获取哪些是重复数据

[code]students=pd.read_excel('020/Students_Duplicates.xlsx')#注意不能设置index
dupe=students.duplicated(subset='Name')
dupe=dupe[dupe=True]#筛选为True的内容，因为dupe本来就是bool值所以代码可以写为dupe=dupe[dupe]
print(students.iloc[dupe.index])#iloc表示定位

结果：

ID Name Test_1 Test_2 Test_3
20 21 Student_001 62 86 83
21 22 Student_002 77 97 78
22 23 Student_003 57 96 46
23 24 Student_004 57 87 80
24 25 Student_005 95 59 87

旋转数据表（行/列转换）

[code]import pandas as pd
pd.options.display.max_columns=999
videos=pd.read_excel('021/Videos.xlsx',index_col='Month')
table=videos.transpose()
print(table)

读取CSV、TSV、TXT文件中的数据

均用read_csv读取

[code]import pandas as pd
students_1=pd.read_csv('022/Students.txt',sep='|',index_col='ID')
print(students_1)
students_2=pd.read_csv('022/Students.csv',index_col='ID')
print(students_2)
students_3=pd.read_csv('022/Students.tsv',sep='\t',index_col='ID')
print(students_3)

sep表示分隔符

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航