您的位置:首页 > 其它

数据挖掘与R语言——第二章(预测海藻数量)

2015-04-22 00:00 260 查看
摘要: 数据挖掘与R语言 这边书的学习笔记

<p>一、首先介绍两个非常给力的讲 ggplot2 绘图的博客:</p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part1/#comments">http://www.cellyse.com/how_to_use_gggplot2_part1/#comments</a></p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments">http://www.cellyse.com/how_to_use_gggplot2_part2/#comments</a></p> <p><a title="http://blog.funature.net/tag/ggplot/" href="http://blog.funature.net/tag/ggplot/">http://blog.funature.net/tag/ggplot/</a></p> <p>二、代码加注释</p> <p>####安装依赖包,并加载##### <br />if (require('DMwR') == 0) { <br />    install.packages('DMwR') <br />    <br />} <br />if (require('ggplot2') == 0) { <br />    install.packages('Rcpp') <br />    install.packages('ggplot2') <br />} <br />library('DMwR') <br />library('ggplot2')</p> <p>####数据可视化##### <br />View(head(algae)) <br />summary(algae) <br />##绘制箱线图并且旋转坐标轴 <br />myp <- ggplot(algae) <br />myp + geom_boxplot(aes(x = size, y = a1), horizontal = T) + coord_flip()</p> <p>####缺失值处理##### <br />##查找非缺失值行 <br />nrow(algae[complete.cases(algae), ]) <br />##查找每行的缺失值的个数 第二个参数 1 表示行 2 表示列(传递给后面的函数) <br />apply(algae, 2, function(x) sum(is.na(x))) <br />##缺失值处理一、用次数最多的那个数据填补缺失值 <br />#直接剔除缺失属性比样本个数的20%还要多的样本 <br />dalgae <- algae[-manyNAs(algae, 0.2), ] <br />#利用样本的中心趋势填充缺失值 <br />dalgae <- centralImputation(algae) <br />##缺失值处理二、通过变量的相关关系填补缺失值 <br />#计算变量之间的相关关系 <br />cormatrix <- cor(dalgae[, 4:18], use = "complete.obs") <br />#更加直观的查看 <br />symnum(cormatrix) <br />##缺失值处理二、通过样本的相似度填补缺失值(第一步:一定要去量纲) <br />dalgae <- algae[-manyNAs(algae, 0.2), ] <br />##考虑最近的十个样本,加权平均 <br />dalgae <- knnImputiation(dalgae, 10) <br />##考虑用中位数填补 <br />dalgae <- knnImputiation(dalgae, 10, meth = "media") </p>
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: