大数据(三十八)机器学习【机器学习语言---R语言小试牛刀】
2017-12-18 21:20
274 查看
安装完R语言和RStudio后,我们便可以开始小试牛刀了。
一、打开RStudio
打开后如下图所示
我们现在桌面建文件夹r_workspace,再按下图所示将工作空间切换至桌面r_workspace下
二、R数据介绍
R语言数据结构(6种):
• 向量
R的基本数据结构式向量。向量存储一组有序的值,称为元素
一个向量可以包含任意数量的元素。然而,所有的元素必须是一样的类型,比如,一个向量不能同时包含数字和文本。
R中的向量有固有的顺序,所以其数据能通过计算向量中各元素的序号来访问,序号是从1开始
• 因子
因子是向量的一个特例, 它单独用来标识名义属性
为什么不用character字符型向量呢?
把字符型向量转换成因子,只需要应用factor()函数
• 列表
一种特殊类型的向量--列表,它用来存储一组有序的值
列表允许收集不同类型的值
用列表构建”对象”进行访问
• 数组
• 数据框
机器学习中使用的最重要的R数据结构就是数据框,因为它既有行数据又有列数据,所以它是一个与电子表格或数据库相类似的结构
新的参数stringAsFactors = FALSE
提取其中的整个向量数据,就如列表提取一个元素那么简单,通过名字
数据框是二维的,格式为“[rows, columns]”也可以提取数据
• 矩阵
三、开始实战
我们在console下输入下方命令。
1、定义x=1,随后打印出x
> x=1
> x
[1] 12、定义y=2,执行x+y
> y=2
> x+y
[1] 3
3、定义z=3,将x、y、z存入文件mydata.RData中。
> z = 3
> save(x,y,z, file="mydata.RData")
此时打开桌面r_workspace文件夹,你会发现里面有mydata.RData文件
4、我们关闭RStudio后位于内存中的x、y、z将不复存在。由于第三步我们将其存储在了mydata.RData中,当我们重启RStudio后可以通过下方命令重新加载x、y、z
> load("mydata.RData")
> x
[1] 1
> y
[1] 2
> z
[1] 3
5、用CSV文件导入和保存数据
先准备cvs文件如下
subject_name,temperature,flu_status,gender,blood_type
John Doe,98.1,FALSE,MALE,O
Jane Doe,98.6,FALSE,MALE,AB
Steve Graves,101.4,TRUE,FEMALE,A
执行下方命令导入cvs文件
> pt_data <- read.csv("pt_data.csv", stringsAsFactors=FALSE)
> View(pt_data)执行View(pt_data)后,我们可以看到如图所示
我们还可以用下方语句导入cvs文件
> pt_data2 <- read.csv("pt_data.csv", stringsAsFactors=FALSE,header=FALSE)
> View(pt_data2)执行View(pt_data2)后,我们可以看到如图所示
我们可以看到加了header=FALSE后,R会将第一行也当做数据处理。
一、打开RStudio
打开后如下图所示
我们现在桌面建文件夹r_workspace,再按下图所示将工作空间切换至桌面r_workspace下
二、R数据介绍
R语言数据结构(6种):
• 向量
R的基本数据结构式向量。向量存储一组有序的值,称为元素
一个向量可以包含任意数量的元素。然而,所有的元素必须是一样的类型,比如,一个向量不能同时包含数字和文本。
R中的向量有固有的顺序,所以其数据能通过计算向量中各元素的序号来访问,序号是从1开始
• 因子
因子是向量的一个特例, 它单独用来标识名义属性
为什么不用character字符型向量呢?
把字符型向量转换成因子,只需要应用factor()函数
• 列表
一种特殊类型的向量--列表,它用来存储一组有序的值
列表允许收集不同类型的值
用列表构建”对象”进行访问
• 数组
• 数据框
机器学习中使用的最重要的R数据结构就是数据框,因为它既有行数据又有列数据,所以它是一个与电子表格或数据库相类似的结构
新的参数stringAsFactors = FALSE
提取其中的整个向量数据,就如列表提取一个元素那么简单,通过名字
数据框是二维的,格式为“[rows, columns]”也可以提取数据
• 矩阵
三、开始实战
我们在console下输入下方命令。
1、定义x=1,随后打印出x
> x=1
> x
[1] 12、定义y=2,执行x+y
> y=2
> x+y
[1] 3
3、定义z=3,将x、y、z存入文件mydata.RData中。
> z = 3
> save(x,y,z, file="mydata.RData")
此时打开桌面r_workspace文件夹,你会发现里面有mydata.RData文件
4、我们关闭RStudio后位于内存中的x、y、z将不复存在。由于第三步我们将其存储在了mydata.RData中,当我们重启RStudio后可以通过下方命令重新加载x、y、z
> load("mydata.RData")
> x
[1] 1
> y
[1] 2
> z
[1] 3
5、用CSV文件导入和保存数据
先准备cvs文件如下
subject_name,temperature,flu_status,gender,blood_type
John Doe,98.1,FALSE,MALE,O
Jane Doe,98.6,FALSE,MALE,AB
Steve Graves,101.4,TRUE,FEMALE,A
执行下方命令导入cvs文件
> pt_data <- read.csv("pt_data.csv", stringsAsFactors=FALSE)
> View(pt_data)执行View(pt_data)后,我们可以看到如图所示
我们还可以用下方语句导入cvs文件
> pt_data2 <- read.csv("pt_data.csv", stringsAsFactors=FALSE,header=FALSE)
> View(pt_data2)执行View(pt_data2)后,我们可以看到如图所示
我们可以看到加了header=FALSE后,R会将第一行也当做数据处理。
相关文章推荐
- 大数据(三十七)机器学习【机器学习语言---R语言介绍】
- 从机器学习到学习的机器,数据分析算法也需要好管家
- R语言与机器学习-学习笔记2(数据探索及理解)
- 【机器学习】1:机器学习定义、机器学习与数据建模、分析的区别
- Andrew机器学习课程笔记(5)—— 推荐系统、大数据下的机器学习
- 机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”
- 专访CMU邢波教授:机器学习与医疗大数据,及大规模机器学习系统的开发
- [转]机器学习科普文章:“一文读懂机器学习,大数据/自然语言处理/算法全有了”
- [数据挖掘与机器学习] 十张图解释机器学习的基本概念(转自IT面试论坛)
- Coursera 机器学习课程 机器学习基础:案例研究 证书
- 【R语言学习笔记】二、数据可视化
- 机器学习、数据挖掘、计算机视觉等领域经典书籍推荐
- 台大机器学习基石课程之机器学习基本原理和概念
- 机器学习之机器学习概念
- 易语言学习关键之 自定义数据类型
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 大数据,云计算,架构,人工智能,机器学习,深度学习,项目实战
- 【数据分析 R语言实战】学习笔记 第四章 数据的图形描述
- 机器学习实战-利用PCA来简化数据
- Python超过R,成为数据科学和机器学习的最常用语言