您的位置:首页 > 其它

pandas处理数据最多是M级?还是G?还是亿?极限数量是多少呢?

2017-11-23 00:00 771 查看
一般来说,用pandas处理小于100兆的数据,性能不是问题。当用pandas来处理100兆至几个G的数据时,将会比较耗时,同时会导致程序因内存不足而运行失败。

我今天用pyspark读取2~3G日志文件时,居然报OOM!想必就是数据量超过了pd处理极限导致的

【报错代码】HalfStruct表存储在HDFS上,每天2~3G,一个月70~80G,这点量就OOM真出我意料

spark.sql("select * from HalfStruct").toPandas()

但是又看到另一篇说pandas处理亿级数据,

见http://www.justinablog.com/archives/1357
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: