您的位置:首页 > 编程语言 > Python开发

R或者Python使用的一些曲曲折折

2020-07-21 04:13 1251 查看

1、用Python处理数据的时候,报错:

ValueError: Input contains NaN, infinity or a value too large for dtype(‘float32’).

表格类型是csv,自己在Excel打开是没有NaN值的,用R语言判断一下有一行是NaN,估计是格式问题,用Excel格式刷刷一下,借用上面正常行的格式。

2、有时候用ggplot画图,数据区间跨度太大,离群值太多,用boxlpot不好显示。

尝试用scale函数归一化数据,然而还是显示不全,因为scale函数并不会改变数据的分布趋势。

可以尝试一下小提琴图,当然效果可能也不理想。

3、pip install -r requirement.txt -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

#一般情况下,作者都会提供这个txt文本,后面加上豆瓣源会快很多,用上述命令可以批量安装依赖的包

4、有时候python的print结果显示不完全,有省略号:

可以先导入模块sys

import sys

然后在print前一句加上:

np.set_printoptions(threshold=sys.maxsize)

此时结果可全部显示。

5、rms包用lrm时,有时候会报错Unable to fit model using “lrm.fit”

目前所知,可有两种解决办法,(1)公式里默认tol=1e-7,可以改为tol=1e-9,将默认值改小;(2)公式里添加maxit=15或者更大的值,lrm默认的是12,glm默认的是15。看网友评论说修改penalty 的值也可以,可能会影响结果,不建议。

6、善用SPSS的选择个案,用于多个组之间的两两比较很方便,不必拆分文件。通过“数据-选择个案-如果条件满足-自定义挑选方式”来挑选符合的组变量,其余为暂时自动屏蔽,不纳入计算。

7、R语言按条件筛选列数据
library(data.table);library(tidyverse)#需要的包

data <- data.table::fread(“data.csv”,data.table = F)#读取原始的数据

data18<-data %>%select(group,age)%>% filter(age<18)#筛选group和age两列数据,并筛选年龄小于18岁的数据

8、Rstudio,plot画图,plot语句里面用main参数设置标题,标题在图片外上方,而用title语句单独命名title,标题会在图片内上方

9、有时候在Rstudio画图,图的注释或者标题无法显示完全,不管怎么扩大plots的那个框框都没用

在画图前先设置内边距,par(mar=c(6,6,6,6)) #数字随便写的,自己改大小试一下,四个数字分别是下左上右四个方向,逆时针

PS:都是平时使用的遇到的小问题,记下来,以后说不定能用上~用主唱大人美图结尾

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: