数据挖掘与R语言——第二章(预测海藻数量)
2015-04-22 00:00
260 查看
摘要: 数据挖掘与R语言 这边书的学习笔记
<p>一、首先介绍两个非常给力的讲 ggplot2 绘图的博客:</p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part1/#comments">http://www.cellyse.com/how_to_use_gggplot2_part1/#comments</a></p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments">http://www.cellyse.com/how_to_use_gggplot2_part2/#comments</a></p> <p><a title="http://blog.funature.net/tag/ggplot/" href="http://blog.funature.net/tag/ggplot/">http://blog.funature.net/tag/ggplot/</a></p> <p>二、代码加注释</p> <p>####安装依赖包,并加载##### <br />if (require('DMwR') == 0) { <br /> install.packages('DMwR') <br /> <br />} <br />if (require('ggplot2') == 0) { <br /> install.packages('Rcpp') <br /> install.packages('ggplot2') <br />} <br />library('DMwR') <br />library('ggplot2')</p> <p>####数据可视化##### <br />View(head(algae)) <br />summary(algae) <br />##绘制箱线图并且旋转坐标轴 <br />myp <- ggplot(algae) <br />myp + geom_boxplot(aes(x = size, y = a1), horizontal = T) + coord_flip()</p> <p>####缺失值处理##### <br />##查找非缺失值行 <br />nrow(algae[complete.cases(algae), ]) <br />##查找每行的缺失值的个数 第二个参数 1 表示行 2 表示列(传递给后面的函数) <br />apply(algae, 2, function(x) sum(is.na(x))) <br />##缺失值处理一、用次数最多的那个数据填补缺失值 <br />#直接剔除缺失属性比样本个数的20%还要多的样本 <br />dalgae <- algae[-manyNAs(algae, 0.2), ] <br />#利用样本的中心趋势填充缺失值 <br />dalgae <- centralImputation(algae) <br />##缺失值处理二、通过变量的相关关系填补缺失值 <br />#计算变量之间的相关关系 <br />cormatrix <- cor(dalgae[, 4:18], use = "complete.obs") <br />#更加直观的查看 <br />symnum(cormatrix) <br />##缺失值处理二、通过样本的相似度填补缺失值(第一步:一定要去量纲) <br />dalgae <- algae[-manyNAs(algae, 0.2), ] <br />##考虑最近的十个样本,加权平均 <br />dalgae <- knnImputiation(dalgae, 10) <br />##考虑用中位数填补 <br />dalgae <- knnImputiation(dalgae, 10, meth = "media") </p>
<p>一、首先介绍两个非常给力的讲 ggplot2 绘图的博客:</p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part1/#comments">http://www.cellyse.com/how_to_use_gggplot2_part1/#comments</a></p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments">http://www.cellyse.com/how_to_use_gggplot2_part2/#comments</a></p> <p><a title="http://blog.funature.net/tag/ggplot/" href="http://blog.funature.net/tag/ggplot/">http://blog.funature.net/tag/ggplot/</a></p> <p>二、代码加注释</p> <p>####安装依赖包,并加载##### <br />if (require('DMwR') == 0) { <br /> install.packages('DMwR') <br /> <br />} <br />if (require('ggplot2') == 0) { <br /> install.packages('Rcpp') <br /> install.packages('ggplot2') <br />} <br />library('DMwR') <br />library('ggplot2')</p> <p>####数据可视化##### <br />View(head(algae)) <br />summary(algae) <br />##绘制箱线图并且旋转坐标轴 <br />myp <- ggplot(algae) <br />myp + geom_boxplot(aes(x = size, y = a1), horizontal = T) + coord_flip()</p> <p>####缺失值处理##### <br />##查找非缺失值行 <br />nrow(algae[complete.cases(algae), ]) <br />##查找每行的缺失值的个数 第二个参数 1 表示行 2 表示列(传递给后面的函数) <br />apply(algae, 2, function(x) sum(is.na(x))) <br />##缺失值处理一、用次数最多的那个数据填补缺失值 <br />#直接剔除缺失属性比样本个数的20%还要多的样本 <br />dalgae <- algae[-manyNAs(algae, 0.2), ] <br />#利用样本的中心趋势填充缺失值 <br />dalgae <- centralImputation(algae) <br />##缺失值处理二、通过变量的相关关系填补缺失值 <br />#计算变量之间的相关关系 <br />cormatrix <- cor(dalgae[, 4:18], use = "complete.obs") <br />#更加直观的查看 <br />symnum(cormatrix) <br />##缺失值处理二、通过样本的相似度填补缺失值(第一步:一定要去量纲) <br />dalgae <- algae[-manyNAs(algae, 0.2), ] <br />##考虑最近的十个样本,加权平均 <br />dalgae <- knnImputiation(dalgae, 10) <br />##考虑用中位数填补 <br />dalgae <- knnImputiation(dalgae, 10, meth = "media") </p>
相关文章推荐
- 【数据挖掘与R语言笔记】预测海藻数量(二)线性模型和回归树模型
- 【数据挖掘与R语言笔记】预测海藻数量(一)观察数据和处理数据缺失
- R语言实战分析预测海藻数量
- 数据挖掘 自习笔记 第二章 数据预处理
- 数据挖掘学习07 - 《数据挖掘导论》第二章:数据
- 大数据学习笔记之四十 数据挖掘算法之预测建模关于决策树模型的介绍
- 预测分析和数据挖掘服务的好处
- R语言与数据挖掘学习笔记(常用的包)
- 数据挖掘中的集成方法——通过集成预测来提升精度(读书笔记)
- 数据挖掘笔记(2)——分类、数值预测
- 来学学数据分析吧(二)第一章 预测和关联数量特征
- Perl语言入门-第二章-标量数据-习题
- 数据挖掘中的简单预测
- 关于数据挖掘语言的概述
- 总结数据挖掘预测分类中的样本筛选和特征处理
- 数据挖掘之预测
- #读书笔记#大数据·互联网大规模数据挖掘与分布式处理 第二章
- R语言数据挖掘资料
- 基于微软案例数据挖掘之结果预算+下期彩票预测篇
- 第二章数字化信息编码与C语言数据类型(下)