[置顶] 【R语言 数据探索】实战 Diamonds数据集探索
2017-07-01 23:48
274 查看
1.主要内容
2.数据集
查看数据 diamonds 截取子集 set.seed(123) diamonds <- diamonds[sample(nrow(diamonds), 1000),] 查看概要 summary()、str() 探索 价格和克拉的关系:geom_point(),映射颜色和形状 价格分布:geom_histogram(),映射填充、position="fill"/"dodge" 透明度分布:geom_bar() 价格概率分布:geom_density(),映射颜色、填充 不同切工下的价格分布:geom_boxplot(),映射填充 坐标变换:scale_y_log10() 加上坐标轴标签和标题:labs(x="", y="", title="")
2.数据集
rm(list=ls()) gc() options(scipen = 200) # 加载包和数据集 library(ggplot2) library(gcookbook) diamonds <- diamonds # 截取子集 set.seed(123) # 从全部行中采样出1000行 diamonds <- diamonds[sample(nrow(diamonds), 1000),] # 查看数据框的一些概要信息 summary(diamonds) str(diamonds) # 查看数据框的前几行或最后几行 head(diamonds) tail(diamonds) # 价格和克拉的关系 ggplot(diamonds) + geom_point(aes(x=carat, y=price)) # 加入color和cut的影响 ggplot(diamonds) + geom_point(aes(x=carat, y=price, color=color, shape=cut)) # 价格分布 ggplot(diamonds) + geom_histogram(aes(x=price)) # 加入cut的影响 ggplot(diamonds) + geom_histogram(aes(x=price, fill=cut)) # 分组直方图 ggplot(diamonds) + geom_histogram(aes(x=price, fill=cut), position="dodge") # 百分比直方图 ggplot(diamonds) + geom_histogram(aes(x=price, fill=cut), position="fill") # 纯净度分布 ggplot(diamonds) + geom_bar(aes(x=clarity)) # 加入color的影响 ggplot(diamonds) + geom_bar(aes(x=clarity, fill=color)) # 价格的概率分布 ggplot(diamonds) + geom_density(aes(x=price)) # 加入cut的影响 ggplot(diamonds) + geom_density(aes(x=price, color=cut)) # 加入color的影响 ggplot(diamonds) + geom_density(aes(x=price, color=color)) # 不同切工下价格的分布 ggplot(diamonds) + geom_boxplot(aes(x=cut, y=price)) # 加入color的影响 ggplot(diamonds) + geom_boxplot(aes(x=cut, y=price, fill=color)) # 坐标变换 ggplot(diamonds) + geom_point(aes(x=carat, y=price, color=color, shape=cut)) + scale_y_log10() # 加上标题和坐标轴标签 ggplot(diamonds) + geom_point(aes(x=carat, y=price, color=color, shape=cut)) + scale_y_log10() + labs(x='克拉', y='价格', title='克拉和价格之间的关系') + theme(text=element_text(family='Microsoft YaHei')) ?theme
相关文章推荐
- 用R语言进行数据探索
- 零基础数据分析与挖掘R语言实战课程(R语言)
- [置顶] 【R语言爬虫】R语言提交get请求抓取城城理财数据
- 分类数据聚类&决策树探索聚类因素-R语言
- [置顶] 【R语言 数据分析】多重共线性问题
- R语言:利用相关性分析对复杂数据进行数据探索
- 大数据之R语言速成与实战,送给数据分析爱好者
- [置顶] 【R语言 数据分析】R语言获取Excel数据
- [置顶] 【R语言 数据挖掘】R语言如何做关联规则?
- [置顶] 【R语言 预测数值型数据】多元回归、神经网络预测数值型目标变量
- 慕课R语言之数据可视化学习笔记——3.3基本绘图系统实战
- [置顶] Hadoop实战演练:搜索数据分析----计算结果存储到Mysql(3)
- [置顶] Hadoop实战演练:搜索数据分析----TopK计算(2)
- [置顶] 【R语言爬虫】R语言提交post请求抓取盈盈理财数据
- [置顶] 基于R语言利用QQ群进行数据挖掘案例整理
- 零基础数据分析与挖掘R语言实战课程(R语言)
- [置顶] Hadoop实战演练:搜索数据分析----数据去重 (1)
- [置顶] Hadoop实战演练:搜索数据分析----每秒搜索量计算与展示(5)
- [置顶] 【R语言 数据处理】R语言数据变形melt用法
- 机器学习实战-数据探索(缺失值处理)