您的位置:首页 > 编程语言 > Python开发

三、数据加载、存储和文件格式

2018-03-08 21:33 302 查看
输入输出通常分为几大类:

(1)读取文本文件;

(2)磁盘存储;

(3)数据库

(4)利用web api操作网络资源

读写文本格式的数据

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数

下面大致介绍一下这些函数在文本数据转换为DataFrame时的一些技术。可以分为一下几类:

* 索引:将一个或者多个列当作返回的DataFrame处理,以及是否从文件、用户获取列名。

* 类型推断和数据转换:包括用户定义值的转换、缺失值标记列表等。

* 日期解析:包括组合功能,比如将分散在多个列中的日期时间信息组合成结果中的单个列。

* 迭代:支持对大文件进行逐块迭代。

不规整数据问题:跳过一些行、页脚、注释或者其他不要的东西

》》用names重新规定列名,用index_col指定索引,也可以将多个列组合作为层次化索引。可以编写正则表达式规定分隔符。

na_values=[‘xxx’]的意思为DataFrame里面为xxx的元素标记未NaN:

ceshi.csv为有列索引没有行索引的数据,read_csv会自动加上行索引,即使原数据集有行索引。

read_csv读取的数据类型为Dataframe,obj.dtypes可以查看每列的数据类型

将数据写出到文本

1>> 用to_csv方法写出到csv文件中;na_rep=‘’NULL”标明空白字符串的代替值。

index header标明是否写出行列标签,默认是写出;用columns以指定顺序写出某些列。

2>> dates= date_range()产生日期索引 index=dates

3>> 将series写成csv文件:series.from_csv() 参数parse_dates=True将数据解析成日期

手工处理分隔符格式

1>>手工输出分隔符文件

with open(‘mydata.csv’,’w’) as f:

writer = csv.writer(f,dialect=my_dialect)

writer.writerow((‘1’, ‘2’, ‘3’))\n”

自定义分隔符

class my_dialect(csv.Dialect):,

lineterminator = “\n”,

delimiter = ‘;’,

JSON数据

1>> JSON已经成为通过http请求在web浏览器和其他应用程序之间发送数据的标准之一;

2>> 对象中所有的键都必须是字符串(非常重要)。用json模块,json.loads可以将字符串转换成Python形式,即可以将对象读取为python字典。json.dumps()将python转换为json形式。

XML和HTML:web信息收集

from lxml.html import parse

from urllib2 import urlopen

parsed = parse(urlopen(‘http://finance.yahoo.com/q/op?s=AAPL+Options‘))

doc = parsed.getroot()

使用文档根节点的findall()方法和XPath(对文档的查询的一种表示手段)方法

links=doc.findall(‘.//a’) 显示html对象

.get(“href”)显示url

.text_content() 显示文本

1>> TextParser类可以实现自动类型转换;

2>>解析文件:(from lxml import objectify)

parsed=objectify.parse(open(“xml文件路径path”))

(from lxml.html import parse)

parsed=parse(urlopen(“http连接”))

3>>获取根节点: root=parsed.getroot()

root.get(“href”) root.txt

二进制数据格式(pandas内置的pickle序列化)

frame.to_pickle(“ch06/frame_pickle”) 以二进制格式存储到磁盘;

frame.read_pickle

HDF5:层次性数据格式(支持多种压缩器的及时压缩,高效存储重复模式数据)

不是数据库,是最适合用作“一次写入多次读”的数据集;如果同时发生多个写操作,文件可能被破坏。

读取Microsoft Excel文件

xls_file=pd.ExcelFile(“data.xls”) //先创建ExcelFile对象。

table=xls_file.parse(“sheet1”) //通过parse解析读到dataframe中
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息