R语言分析分析大数据的一些问题
2017-07-15 20:46
190 查看
大数据分析包
首先讲一下,处理大数据的data.table包特别好用,读入读出函数、连接函数、提取查询函数等。或许你的电脑是4G内存,i5,我的电脑就是,32位,应该属于最低配置了,且C盘内存所剩无几,处理600万左右样本一般没问题。然而稍微大一些,导入数据时会提醒内存不足,再大些的数据量就会提醒需要升级64位信息。
若是做数据分析的,最好配置高一些的电脑,用了8G,i7,处理2000万左右速度的化还是可以。
从数据库导出的数据data.table包读入也许读不了
比如从SQL server直接右击导出逗号分隔的csv文件,fread()读入到R中时,不管怎样设置参数都提醒导入不了,提醒一长串,说是数据集第几行有问题,此时查看,也许会有某一变量的一个取值有问题,比如会员信息表下面有一个会员电话号码变量,某一个会员也许登记了两个电话号码,格式为‘xxxxxxxxxx,xxxxxxxxxxxxx’,那么问题来了,逗号分隔的文件,在读取此行时会错乱的,此行多了一个逗号。破解之法,最好的就是导出数据时导出制表分隔的txt文件,读入时加入sep=’\t’参数即可读入。当在R中处理大数据时,适当释放内存
在R中处理很多变量文件数据时,内存占用很大,速度会变慢,此时需要适当释放内存。在保证数据保存的前提下,R的内存释放rm()也许解决不了问题,可以用一下gc(),释放内存量也会显示出来,gc()一下,之前处理的数据,变量全部释放。相关文章推荐
- 数据分析的一些常见问题
- [置顶] 【R语言 数据分析】多重共线性问题
- 深入sql数据连接时的一些问题分析
- 数据分析的一些常见问题
- 【Python数据分析】Python3操作Excel(二) 一些问题的解决与优化
- 深入sql数据连接时的一些问题分析
- 今天用Visual C#为客户做一个数据下载分析系统,碰到一个问题 未能启用约束。一行或多行中包含违反非空、唯一或外键约束的值。
- [转载]TCP的网络编程中一些典型的问题,以及一些分析和解决方案
- 一些Liferay小问题的分析
- excel内容导入数据库数据丢失问题的分析几解决方法
- 针对分析单点登录(流程图与数据安全)提出的问题及解决方案
- 使用bcp批量导入数据时碰到的一些问题及解决
- innerText和innerHTML 一些问题分析
- 关于骨骼动画max数据导出到dx中一些问题总结
- HiQ 读串口分析的GGA数据不全不更新的问题
- BW数据抽取中的一些问题(2)
- innerText和innerHTML 一些问题分析
- TOP N的一些问题,可以实现取得表中最大的一行ID的数据。
- MySQL数据传输的一些小问题
- 对二义性文法构造项目规范族和分析表的一些问题