[Rcode]数据框的基础操作【不定期更新】
2017-12-02 16:13
190 查看
一 数据的筛选与处理
1 添加新的一列,把连续型变量(如身高)转化为类别型变量
data$height[data$height>=3]<-NA #把异常值重新编码为缺失值
data<-within(data,{
heightcat<-NA
heightcat[height>1.8]<-"taller"
heightcat[height>=1.6&height<=1.8]<-"middle"
heightcat[height<1.6]<-"shorter"}) #创建一个类别型变量给身高数据归类
#注意这里heightcat只是一个字符型变量,而不是一个有序型因子
#注意within的用法,可以修改数据框
2 变量的重命名
#method 1
fix(data) #交互修改
#method 2
names(data)[i]<-"newname"
#method 3
library(plyr)
rename(data,c(oldname="newname",oldname="newname"))
3 缺失值处理
is.na(data[,1:5]) #识别缺失值
na.omit(data) #移除所有含有缺失值的观测(即删除行)
#原始数据中a<=0,b<=0,c<=0则表示缺失,用于删除含缺失值的行
data<-read.csv("d:/data.csv",header=T,sep=",")
attach(data)
index=a>0&b>0&c>0
data<-data[index,]
4 数据集取子集
newdata<-data[,6:10] #直接挑选变量
newdata<-data[c(-1,-2)] #删除第一个和第二个变量,等价于data$var1<-data$var2<-NULL
# 选择观测
newdata<-data[1:3,] #直接选择行
newdata<-data[data$heightcat=="taller"&data$height>1.5,] #使用attach函数就不用加美金符号
#subsset函数
newdata<-subset(data,height>=1.7|height<1.5,select=c(height,heightcat))
newdata<-subset(data,heightcat=="taller",select=height:heightcat)
相关文章推荐
- Oracle基础知识(二十三) - 在Oracle的连接视图上进行数据更新操作
- MySQL基础教程26-数据高级操作-更新
- ABAP基础-数据更新至数据库操作解析
- mysql 基础操作全覆盖(适用与兼职DBA,不定期更新) 推荐
- MySQL基础之第11章 插入、更新与删除数据
- 基础博弈合集(不定期持续更新)
- sqlite3数据库C语言简单操作基础之数据的查找(三)
- 大数据 第一节课 linux基础 基本的操作
- windows下redis基础操作与主从复制 从而 数据备份和读写分离
- 线段树基础操作--单点or区间更新+查询
- SQL 存储过程的使用对数据的操作(整理思绪补基础)
- mysql游标示例 mysql游标简易教程 mysql批量操作数据 mysql批量更新数据 mysql逐条更新数据
- SQL Server XML基础学习之<7>--XML modify() 方法对 XML 数据中插入、更新或删除
- 使用Phoenix通过sql语句更新操作hbase数据
- 稳扎稳打Silverlight(57) - 4.0通信之WCF RIA Services: 概述, 通过 DomainDataSource 实现数据的添加、查询、更新和删除操作
- 稳扎稳打Silverlight(57) - 4.0通信之WCF RIA Services: 概述, 通过 DomainDataSource 实现数据的添加、查询、更新和删除操作
- 数据结构基础 之 双链表 与 循环链表 各类操作、思想与实现
- iOS基础——数据操作之Sqlite3、FMDB
- mysql常用基础操作语法(三)~~对数据的增删改操作【命令行模式】
- SQL语句,数据更新,数据插入删除修改和对视图的更新操作