您的位置:首页 > 其它

数据科学实战笔记1

2016-03-09 16:35 246 查看
第一章什么是数据科学

数据化被定义成一种处理流程,将生活中的方方面转换为数据。重视数据的同时,要尊重他人的意愿。数据就是现实世界运转留下的痕迹。

数据科学维恩图

第二章统计推断、探索性数据分析和数据科学工作流程

2.1

2.1.1统计推断

从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。

2.1.2总体和样本

采样方式不同,将会得到不同的答案,结果都会失真。

2.1.3大数据的总体和样本

采样可以解决一些工程上的挑战(Hadoop等分布式技术解决海量数据带来的工程和计算问题,采样可以达到同样的效果)

偏差:注意语境(桑迪飓风)

采样,新的数据类型

大数据中的4V原则:Volume,Variety,Velocity,Value.

2.1.4大数据意味着大胆的假设

忽视因果关系,n=1,n=N

2.1.5建模

模型就是可以通过其去观察和了解现实世界的本质。

统计建模:概率分布,

拟合模型:是指用观察数据估计模型参数的过程,过拟合

2.2探索性数学分析——建模的第一步

2.3数据科学的工作流程

 

 

 

 

第3章算法

   1.数据清理和与处理算法,比如排序,MapReduce,Pregel

   2.用于参数估计的最优化算法,比如随机梯度下降,牛顿法,最小二乘法

   3.机器学习算法

3.1  线性回归模型

表示两个变量间的数学关系。

数据(趋势和变动幅度)

3.1.1模型拟合 model<-lm(y~x)

增加预测变量

多元回归模型 model<-lm(y~x1+x2+x3+x4)

交叉变动项 model <- lm(y~x1+x2+x3+x2*x3)

3.1.2模型评估标准 summary(model)

R方:数据中能够被模型所解释的方法占数据总方差的比重

P值在原假设的基础上,我们可以得到的观测数据的概率

交叉验证:改变一下训练数据集的大小

3.2  KNN-k近邻算法

分类算法

3.3  k均值算法
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: