您的位置:首页 > 编程语言 > Python开发

利用Python进行数据分析_第六章:…

2017-04-17 15:02 288 查看


读取文本格式的数据:

read_csv默认分隔符是逗号。

read_table默认分隔符是制表符(“\t”)。
read_fwf读取定宽列格式数据(没有分隔符)

read_clipboard读取剪贴板中的数据。将网页转换为表格时很有用。
header=none:pandas为其分配默认的列名。否则用:names=[“”,“”]。
读取时,列索引参数:index_col=‘’。

skiprows跳过文件的第一行、第三行、第四行:读取文件时,参数:skiprows=[0,2,3]。
pd.isnull返回布尔值。
读取文件时,参数:na_values=[‘NULL’]来接受一组用于表示缺失值的字符串。







读取文件时,只读取几行:nrows=5,读取5行。
逐块读取文件:设置参数chunksize(行数):chunksize=1000。

将数据写出到文本格式:to_csv方法,我们可以将数据写到一个以逗号分隔的文件中。参数:sys.stdout打印文本结果。缺失值:na_rep=‘NULL’。header=False。列cols=[‘a’,‘b’]。
Series系列:from_csv更方便读取csv文件。

手工处理分隔符格式:直接使用Python内置的csv板块,将任意已打开的文件或文件型的对象传给csv.reader。
手工输出分隔符文件:你可以用csv.writer。







JSON数据:(JavaScriptObjectNotation的简称)

json.loads:将JSON字符串转换成Python形式

json.dumps将Python对象转换成JSON格式。

(原生的高效导出:to_json。解码:from_json)

XML和HTML:Web信息收集:

lxml.html处理html,再用lxml.objectify做一些XML处理。

urllib2打开url,用的是urllib2中的urlopen。parse是解析。tag是标签。

使用文档根节点的findall。

get方法(针对URL)。text_content方法(针对显示文本)。

对于标题行,就是th单元格;

而对于数据行,则是td单元格。

略………………

二进制数据格式(略………………)

使用HDF5格式(略………………)

读取excel文件:(需要安装xlrd和openpyxl包)

直接用pd.ExcelFile函数。

存在在工作表中的数据:df.parse(‘sheet1’)。

使用HTML和Web
API(略……)

使用数据库:

SQLite数据库:sqlite3模板

重点,新来一篇博客讲解数据库。

存取MongoDB中的数据:(略……)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: