[置顶] 【python 处理亿级数据】使用 Pandas 处理亿级数据
2017-12-07 19:25
766 查看
此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。事实确实如此,在数据分析领域,那么如何处理亿级数据呢,pandas提供了IO工具可以将大文件分块读取,测试了一下性能,非常不错。可谓是瑞士中的军刀
python 读取亿级数据代码如下:
python 读取亿级数据代码如下:
# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time import pandas as pd time1=time.time() import pandas as pd # Pandas提供了IO工具可以将大文件分块读取 # 使用不同分块大小来读取再调用 pandas.concat 连接DataFrame,chunkSize设置在1000万条左右速度优化比较明显。 # 实验结果足以说明,在非">5TB"数据的情况下,Python的表现已经能让擅长使用统计分析语言的数据分析师游刃有余。 reader = pd.read_csv('C:/taobao/22.csv', iterator=True) loop = True chunkSize =10000000 chunks = [] while loop: try: chunk = reader.get_chunk(chunkSize) chunks.append(chunk) except StopIteration: loop = False print "Iteration is stopped." df = pd.concat(chunks, ignore_index=True) print df time2=time.time() print u'总共耗时:' + str(time2 - time1) + 's'
相关文章推荐
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- 使用Python Pandas处理亿级数据
- pandas io tools(使用python处理数据时候经常用到)
- 使用python处理地理数据:Geopandas
- pandas io tools(使用python处理数据时候经常用到)读csv,TXT
- 用Python Pandas处理亿级数据
- 人工智能:python 实现 第十一章,使用Pandas处理时间序列数据
- 使用python(pandas)将数据处理成交叉分组表
- 使用python统计处理jira数据
- python之pandas使用:数据的选择
- 学习Python大数据处理模块Pandas
- 利用Python进行数据分析(10) pandas基础: 处理缺失数据