您的位置：首页 > 其它

数据挖掘学习路径

2018-02-07 21:56 162 查看

1.必备武器--SQL

1）SQL基础语法，包括语句查询、过滤条件、多表组合等

2）数据库表的增、删、查、改，这是SQL最基础，也是最核心的知识
3）数据聚合计算，包括分组计算、自定义函数计算等

参考书籍：《SQL必知必会》

参考网站：http://www.runoob.com/sql/sql-tutorial.html

2.数据挖掘核心武器-PYTHON
1）python基础语法，重点要学习数据结构、函数定义、类定义等

2）pandas库进行数据管理、清洗、转换等
3）numpy等高级库进行数值计算、线性转换等

4）能够灵活使用第三方库sklearn、gensim等进行机器学习建模
参考书籍：《learn python the hard way》、《利用python进行数据分析》

参考网站：https://learnpythonthehardway.org/python3/

3.统计学与概率论
1）统计学基础知识，包括方差、中位数、协方差等定义

2）理解并掌握离散分布与连续分布，比如高斯分布、泊松分布等概念。做到深刻理解，能够写出公式且熟知运用

3）了解统计假设检验

参考书籍：《商务经济与统计》、《深入浅出统计学》

4.数据挖掘理论及应用
1）了解并掌握数据挖掘基础知识，包括代价函数、过拟合、泛化能力等

2）区分监督学习、无监督学习、半监督学习、同时要区分回归与分类模型等常用知识的区别
3）对于常用模型要有深刻理解并能够灵活运用，如随机森林、GBDT、Logisitic Regression、SVM等

4）除了监督学习，还需掌握主流的无监督学习方法，比如K-means等

5）灵活掌握sklearn机器学习库，能够正确的应用到项目实践中去
6）能够高效的检验模型参数，能够正确的运用到项目实践中

参考书籍：《数据挖掘导论》、《机器学习》-周志华、《统计学习方法》

5.自然语言处理
1）能够掌握正则表达式，快速准确地提取出有效信息

2）掌握中文分词，能够灵活运用分词库，学会处理停顿词等
3）了解语言模型

4）掌握并且能够运用词向量模型
参考书籍：《统计自然语言处理》

6.Linux与spark
1）掌握常用Linux命令，能够熟练使用Linux进行数据分析

2）能够使用Linux系统进行模型部署与自动调度
3）熟练使用spark进行分布式机器学习

7.深度学习实践
1）能够理解神经网络运行机制，比如反向传播

2）能够对于常用模型，DNN、CNN、RNN等有深入的理解和运用
3）必须掌握一门深度学习框架，推荐使用Tensorflow

推荐书籍：《深度学习》

8.Tensorflow
1）了解Tensorflow的运行机制

2）能够使用Tensorflow搭建常用的模型，如CNN、RNN等
3）能够灵活使用Tensorflow搭建复杂模型，包括DeepFM、Deep&Wide等业界通用模型

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航