利用python进行数据分析(五):数据规整化
2017-11-23 17:47
267 查看
首先
(1)连接pandas对象
(2)DataFrame移除重复数据
(3)pandas对象替换值
(4)字符串操作
(5)正则表达式
(6)pandas中矢量化的字符串函数
import pandas as pd
(1)连接pandas对象
pd.concat([s1,s2,s3]) #s1,s2,s3是pandas对象,默认axis=0 pd.concat([s1,s2,s3],axis=1) #生成DataFrame pd.concat([s1,s2,s3],axis=1,keys=['one','two','three']) #添加列名 df1.combine_first(df2) #组合两个DataFrame并合并重叠数据
(2)DataFrame移除重复数据
frame.drop_duplicate() #消除重复数据,默认保存第一个值的组合。 frame.drop_duplicate([‘k1’]) #只根据某一列来消除重复数据 frame.drop_duplicate(take_last=True) #消除重复数据,保存最后一个。
(3)pandas对象替换值
data.replace([-999,100],np.nan) #将data中的-999,都替换为NaN
(4)字符串操作
s.split(‘,’) #以逗号为间隔将字符串拆成字符串数组 s.strip() #去掉字符串s中的空白符 [x.strip() for x in s.split(‘,’)] ‘g’ in s #可以判断s中是否有'g' s.index('g') #返回'g' 的索引位置 s.find('g') #返回'g' 的索引位置,没有的话返回-1 s.count('g') #计算'g' 出现的次数
(5)正则表达式
pattern=r’[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}’ #一个可以识别大部分电子邮件的正则表达式 regex=re.compile(pattern,flags=re.IGNORECASE) #这个flag的作用是让正则表达式对大小写不敏感。 regex.findall(text) #在字符串text中寻找所有的符合这种规范的字符串切片
(6)pandas中矢量化的字符串函数
data.str.contains(‘gmail’) #检查pandas对象中每个元素是否包含’gmail‘字符串 data.str.get(1) #获取各元素里面的第1个元素。 data.str[:5] #获取各元素里面的前五个元素。
相关文章推荐
- 利用 Python 进行数据分析(九)pandas 汇总统计和计算
- 利用python进行数据分析——p26,"一定要以pylab模式”打开如何解决
- 利用Python进行数据分析(八)
- 利用Python进行数据分析笔记-第二章
- 利用Python进行数据分析(11) pandas基础: 层次化索引
- 利用python调用elasticsearch-api来分析数据并作图进行日报邮件发送
- 利用Python进行数据分析(5) NumPy基础: ndarray索引和切片
- 《利用Python 进行数据分析》 - 笔记(4)
- 『利用Python进行数据分析学习』第四章:numpy基础学习
- 利用python进行数据分析-绘图和可视化1
- 【利用Python进行数据分析——经验篇4】将多张DataFrame表写入到同一个Excel的不同sheet中
- 利用Python进行数据分析--数据聚合与分组运算1
- 利用python进行数据分析-时间序列3
- 利用python进行数据分析-NumPy基础2
- 利用Python进行数据分析(2)—— Numpy Basic(2)
- 利用python进行数据分析-pandas入门
- 利用Python进行数据分析-ch02-来自bit.ly的1.usa.gov数据
- 利用python进行数据分析(一):ipython
- 利用python进行数据分析之pandas库的应用(二)
- 利用python进行数据分析-pandas.concat/subplots/gropuby/pivot_table,多文件整合、聚合、分组,子图