数据挖掘学习路径
2018-02-07 21:56
162 查看
1.必备武器--SQL
1)SQL基础语法,包括语句查询、过滤条件、多表组合等
2)数据库表的增、删、查、改,这是SQL最基础,也是最核心的知识
3)数据聚合计算,包括分组计算、自定义函数计算等
参考书籍:《SQL必知必会》
参考网站:http://www.runoob.com/sql/sql-tutorial.html
2.数据挖掘核心武器-PYTHON
1)python基础语法,重点要学习数据结构、函数定义、类定义等
2)pandas库进行数据管理、清洗、转换等
3)numpy等高级库进行数值计算、线性转换等
4)能够灵活使用第三方库sklearn、gensim等进行机器学习建模
参考书籍:《learn python the hard way》、《利用python进行数据分析》
参考网站:https://learnpythonthehardway.org/python3/
3.统计学与概率论
1)统计学基础知识,包括方差、中位数、协方差等定义
2)理解并掌握离散分布与连续分布,比如高斯分布、泊松分布等概念。做到深刻理解,能够写出公式且熟知运用
3)了解统计假设检验
参考书籍:《商务经济与统计》、《深入浅出统计学》
4.数据挖掘理论及应用
1)了解并掌握数据挖掘基础知识,包括代价函数、过拟合、泛化能力等
2)区分监督学习、无监督学习、半监督学习、同时要区分回归与分类模型等常用知识的区别
3)对于常用模型要有深刻理解并能够灵活运用,如随机森林、GBDT、Logisitic Regression、SVM等
4)除了监督学习,还需掌握主流的无监督学习方法,比如K-means等
5)灵活掌握sklearn机器学习库,能够正确的应用到项目实践中去
6)能够高效的检验模型参数,能够正确的运用到项目实践中
参考书籍:《数据挖掘导论》、《机器学习》-周志华、《统计学习方法》
5.自然语言处理
1)能够掌握正则表达式,快速准确地提取出有效信息
2)掌握中文分词,能够灵活运用分词库,学会处理停顿词等
3)了解语言模型
4)掌握并且能够运用词向量模型
参考书籍:《统计自然语言处理》
6.Linux与spark
1)掌握常用Linux命令,能够熟练使用Linux进行数据分析
2)能够使用Linux系统进行模型部署与自动调度
3)熟练使用spark进行分布式机器学习
7.深度学习实践
1)能够理解神经网络运行机制,比如反向传播
2)能够对于常用模型,DNN、CNN、RNN等有深入的理解和运用
3)必须掌握一门深度学习框架,推荐使用Tensorflow
推荐书籍:《深度学习》
8.Tensorflow
1)了解Tensorflow的运行机制
2)能够使用Tensorflow搭建常用的模型,如CNN、RNN等
3)能够灵活使用Tensorflow搭建复杂模型,包括DeepFM、Deep&Wide等业界通用模型
1)SQL基础语法,包括语句查询、过滤条件、多表组合等
2)数据库表的增、删、查、改,这是SQL最基础,也是最核心的知识
3)数据聚合计算,包括分组计算、自定义函数计算等
参考书籍:《SQL必知必会》
参考网站:http://www.runoob.com/sql/sql-tutorial.html
2.数据挖掘核心武器-PYTHON
1)python基础语法,重点要学习数据结构、函数定义、类定义等
2)pandas库进行数据管理、清洗、转换等
3)numpy等高级库进行数值计算、线性转换等
4)能够灵活使用第三方库sklearn、gensim等进行机器学习建模
参考书籍:《learn python the hard way》、《利用python进行数据分析》
参考网站:https://learnpythonthehardway.org/python3/
3.统计学与概率论
1)统计学基础知识,包括方差、中位数、协方差等定义
2)理解并掌握离散分布与连续分布,比如高斯分布、泊松分布等概念。做到深刻理解,能够写出公式且熟知运用
3)了解统计假设检验
参考书籍:《商务经济与统计》、《深入浅出统计学》
4.数据挖掘理论及应用
1)了解并掌握数据挖掘基础知识,包括代价函数、过拟合、泛化能力等
2)区分监督学习、无监督学习、半监督学习、同时要区分回归与分类模型等常用知识的区别
3)对于常用模型要有深刻理解并能够灵活运用,如随机森林、GBDT、Logisitic Regression、SVM等
4)除了监督学习,还需掌握主流的无监督学习方法,比如K-means等
5)灵活掌握sklearn机器学习库,能够正确的应用到项目实践中去
6)能够高效的检验模型参数,能够正确的运用到项目实践中
参考书籍:《数据挖掘导论》、《机器学习》-周志华、《统计学习方法》
5.自然语言处理
1)能够掌握正则表达式,快速准确地提取出有效信息
2)掌握中文分词,能够灵活运用分词库,学会处理停顿词等
3)了解语言模型
4)掌握并且能够运用词向量模型
参考书籍:《统计自然语言处理》
6.Linux与spark
1)掌握常用Linux命令,能够熟练使用Linux进行数据分析
2)能够使用Linux系统进行模型部署与自动调度
3)熟练使用spark进行分布式机器学习
7.深度学习实践
1)能够理解神经网络运行机制,比如反向传播
2)能够对于常用模型,DNN、CNN、RNN等有深入的理解和运用
3)必须掌握一门深度学习框架,推荐使用Tensorflow
推荐书籍:《深度学习》
8.Tensorflow
1)了解Tensorflow的运行机制
2)能够使用Tensorflow搭建常用的模型,如CNN、RNN等
3)能够灵活使用Tensorflow搭建复杂模型,包括DeepFM、Deep&Wide等业界通用模型
相关文章推荐
- Python 数据分析 数据挖掘 学习路径图
- 数据挖掘领域国内外相关专家(大牛们)及学习资源
- 数据挖掘学习网站
- (大数据工程师学习路径)第五步 MySQL参考手册中文版----MySQL存储过程
- 机器学习与数据挖掘的学习路线图
- 数据挖掘学习笔记一
- 加州理工学院公开课:机器学习与数据挖掘课程笔记(一)学习问题
- 数据挖掘的学习目标
- SQL SERVER 数据挖掘中的几个问题(四):如何实现Web 路径流挖掘
- 数据挖掘算法学习(三)NaiveBayes算法
- 易知大学“大数据挖掘与分析(Python)”免费学习平台
- 斯坦福大学-大数据与数据挖掘学习资料
- 如何系统地学习数据挖掘?
- 关于基于复杂网络的数据挖掘的学习笔记
- 给师弟师妹们学习数据挖掘的一些建议
- 加州理工学院公开课:机器学习与数据挖掘_学习的可能性(第二课)
- 协同过滤 --- 数据挖掘学习笔记
- <学习笔记4>数据挖掘原理与运用-sql server2008 数据库
- 数据挖掘基本知识学习
- 学习笔记(1)-数据挖掘及其应用浅谈