您的位置：首页 > 其它

数据科学实战笔记1

2016-03-09 16:35 246 查看

第一章什么是数据科学

数据化被定义成一种处理流程，将生活中的方方面转换为数据。重视数据的同时，要尊重他人的意愿。数据就是现实世界运转留下的痕迹。

数据科学维恩图

第二章统计推断、探索性数据分析和数据科学工作流程

2.1

2．1.1统计推断

从现实世界到数据，再由数据到现实世界的流程就是统计推断的领域。

2.1.2总体和样本

采样方式不同，将会得到不同的答案，结果都会失真。

2.1.3大数据的总体和样本

采样可以解决一些工程上的挑战（Hadoop等分布式技术解决海量数据带来的工程和计算问题，采样可以达到同样的效果）

偏差：注意语境（桑迪飓风）

采样，新的数据类型

大数据中的4V原则：Volume,Variety,Velocity,Value.

2.1.4大数据意味着大胆的假设

忽视因果关系，n=1,n=N

2.1.5建模

模型就是可以通过其去观察和了解现实世界的本质。

统计建模：概率分布，

拟合模型：是指用观察数据估计模型参数的过程，过拟合

2.2探索性数学分析——建模的第一步

2.3数据科学的工作流程

第3章算法

   1．数据清理和与处理算法，比如排序，MapReduce,Pregel

   2.用于参数估计的最优化算法，比如随机梯度下降，牛顿法，最小二乘法

   3.机器学习算法

3.1 线性回归模型

表示两个变量间的数学关系。

数据（趋势和变动幅度）

3.1.1模型拟合 model<-lm(y~x)

增加预测变量

多元回归模型 model<-lm(y~x1+x2+x3+x4)

交叉变动项 model <- lm(y~x1+x2+x3+x2*x3)

3.1.2模型评估标准 summary(model)

R方：数据中能够被模型所解释的方法占数据总方差的比重

P值在原假设的基础上，我们可以得到的观测数据的概率

交叉验证：改变一下训练数据集的大小

3.2 KNN-k近邻算法

分类算法

3.3 k均值算法

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航