您的位置：首页 > 编程语言 > Python开发

利用Python进行数据分析_第六章：…

2017-04-17 15:02 288 查看

读取文本格式的数据：

read_csv默认分隔符是逗号。

read_table默认分隔符是制表符（“＼t”）。
read_fwf读取定宽列格式数据（没有分隔符）

read_clipboard读取剪贴板中的数据。将网页转换为表格时很有用。
header=none：pandas为其分配默认的列名。否则用：names=［“”，“”］。
读取时，列索引参数：index_col=‘’。

skiprows跳过文件的第一行、第三行、第四行：读取文件时，参数：skiprows=［0，2，3］。
pd.isnull返回布尔值。
读取文件时，参数：na_values=［‘NULL’］来接受一组用于表示缺失值的字符串。

读取文件时，只读取几行：nrows=5，读取5行。
逐块读取文件：设置参数chunksize（行数）：chunksize=1000。

将数据写出到文本格式：to_csv方法，我们可以将数据写到一个以逗号分隔的文件中。参数：sys.stdout打印文本结果。缺失值：na_rep=‘NULL’。header=False。列cols=［‘a’，‘b’］。
Series系列：from_csv更方便读取csv文件。

手工处理分隔符格式：直接使用Python内置的csv板块，将任意已打开的文件或文件型的对象传给csv.reader。
手工输出分隔符文件：你可以用csv.writer。

JSON数据：（JavaScriptObjectNotation的简称）

json.loads：将JSON字符串转换成Python形式

json.dumps将Python对象转换成JSON格式。

（原生的高效导出：to_json。解码：from_json）

XML和HTML：Web信息收集：

lxml.html处理html，再用lxml.objectify做一些XML处理。

urllib2打开url，用的是urllib2中的urlopen。parse是解析。tag是标签。

使用文档根节点的findall。

get方法（针对URL）。text_content方法（针对显示文本）。

对于标题行，就是th单元格；

而对于数据行，则是td单元格。

略………………

二进制数据格式（略………………）

使用HDF5格式（略………………）

读取excel文件：（需要安装xlrd和openpyxl包）

直接用pd.ExcelFile函数。

存在在工作表中的数据：df.parse（‘sheet1’）。

使用HTML和Web
API（略……）

使用数据库：

SQLite数据库：sqlite3模板

重点，新来一篇博客讲解数据库。

存取MongoDB中的数据：（略……）

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航