数据科学实战笔记1
2016-03-09 16:35
246 查看
第一章什么是数据科学
数据化被定义成一种处理流程,将生活中的方方面转换为数据。重视数据的同时,要尊重他人的意愿。数据就是现实世界运转留下的痕迹。
数据科学维恩图
第二章统计推断、探索性数据分析和数据科学工作流程
2.1
2.1.1统计推断
从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。
2.1.2总体和样本
采样方式不同,将会得到不同的答案,结果都会失真。
2.1.3大数据的总体和样本
采样可以解决一些工程上的挑战(Hadoop等分布式技术解决海量数据带来的工程和计算问题,采样可以达到同样的效果)
偏差:注意语境(桑迪飓风)
采样,新的数据类型
大数据中的4V原则:Volume,Variety,Velocity,Value.
2.1.4大数据意味着大胆的假设
忽视因果关系,n=1,n=N
2.1.5建模
模型就是可以通过其去观察和了解现实世界的本质。
统计建模:概率分布,
拟合模型:是指用观察数据估计模型参数的过程,过拟合
2.2探索性数学分析——建模的第一步
2.3数据科学的工作流程
第3章算法
1.数据清理和与处理算法,比如排序,MapReduce,Pregel
2.用于参数估计的最优化算法,比如随机梯度下降,牛顿法,最小二乘法
3.机器学习算法
3.1 线性回归模型
表示两个变量间的数学关系。
数据(趋势和变动幅度)
3.1.1模型拟合 model<-lm(y~x)
增加预测变量
多元回归模型 model<-lm(y~x1+x2+x3+x4)
交叉变动项 model <- lm(y~x1+x2+x3+x2*x3)
3.1.2模型评估标准 summary(model)
R方:数据中能够被模型所解释的方法占数据总方差的比重
P值在原假设的基础上,我们可以得到的观测数据的概率
交叉验证:改变一下训练数据集的大小
3.2 KNN-k近邻算法
分类算法
3.3 k均值算法
数据化被定义成一种处理流程,将生活中的方方面转换为数据。重视数据的同时,要尊重他人的意愿。数据就是现实世界运转留下的痕迹。
数据科学维恩图
第二章统计推断、探索性数据分析和数据科学工作流程
2.1
2.1.1统计推断
从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。
2.1.2总体和样本
采样方式不同,将会得到不同的答案,结果都会失真。
2.1.3大数据的总体和样本
采样可以解决一些工程上的挑战(Hadoop等分布式技术解决海量数据带来的工程和计算问题,采样可以达到同样的效果)
偏差:注意语境(桑迪飓风)
采样,新的数据类型
大数据中的4V原则:Volume,Variety,Velocity,Value.
2.1.4大数据意味着大胆的假设
忽视因果关系,n=1,n=N
2.1.5建模
模型就是可以通过其去观察和了解现实世界的本质。
统计建模:概率分布,
拟合模型:是指用观察数据估计模型参数的过程,过拟合
2.2探索性数学分析——建模的第一步
2.3数据科学的工作流程
第3章算法
1.数据清理和与处理算法,比如排序,MapReduce,Pregel
2.用于参数估计的最优化算法,比如随机梯度下降,牛顿法,最小二乘法
3.机器学习算法
3.1 线性回归模型
表示两个变量间的数学关系。
数据(趋势和变动幅度)
3.1.1模型拟合 model<-lm(y~x)
增加预测变量
多元回归模型 model<-lm(y~x1+x2+x3+x4)
交叉变动项 model <- lm(y~x1+x2+x3+x2*x3)
3.1.2模型评估标准 summary(model)
R方:数据中能够被模型所解释的方法占数据总方差的比重
P值在原假设的基础上,我们可以得到的观测数据的概率
交叉验证:改变一下训练数据集的大小
3.2 KNN-k近邻算法
分类算法
3.3 k均值算法
相关文章推荐
- 微软win10恢复到win8.1的方法 如何把win10恢复到win8.1
- css设置文字自动折行,遇到整个单词时截断,并用中划线-连接
- 105. Construct Binary Tree from Preorder and Inorder Traversal
- 模拟退火算法Python实现
- javaScript中的this关键字
- leetcode:深度优先搜索(DFS)和广度优先搜索(BFS)
- btree
- 垃圾回收器的基本原理是什么?垃圾回收器可以马上回收内存吗?有什么办法主动通知虚拟机进行垃圾回收?
- 高德地图开发详解
- git常用命令
- VC++第三方库配置-OpenSpirit 4.2.0 二次开发
- Asp.Net MVC EF各版本区别
- 解决yum错误:Cannot retrieve repository metadata (repomd.xml) for repository
- java的动态代理机制详解
- C++ MD5字符串加密
- Message queue
- 对表数据进行(置顶,上移,下移,置底操作)---数据库sql
- windows下git的安装与使用(一)
- 简单的理解数据库三范式
- elk示例-精简版