您的位置:首页 > 其它

数据挖掘学习路径

2018-02-07 21:56 162 查看
1.必备武器--SQL

1)SQL基础语法,包括语句查询、过滤条件、多表组合等

2)数据库表的增、删、查、改,这是SQL最基础,也是最核心的知识
3)数据聚合计算,包括分组计算、自定义函数计算等

参考书籍:《SQL必知必会》

参考网站:http://www.runoob.com/sql/sql-tutorial.html

2.数据挖掘核心武器-PYTHON
1)python基础语法,重点要学习数据结构、函数定义、类定义等

2)pandas库进行数据管理、清洗、转换等
3)numpy等高级库进行数值计算、线性转换等

4)能够灵活使用第三方库sklearn、gensim等进行机器学习建模
参考书籍:《learn python the hard way》、《利用python进行数据分析》

参考网站:https://learnpythonthehardway.org/python3/

3.统计学与概率论
1)统计学基础知识,包括方差、中位数、协方差等定义

2)理解并掌握离散分布与连续分布,比如高斯分布、泊松分布等概念。做到深刻理解,能够写出公式且熟知运用

3)了解统计假设检验

参考书籍:《商务经济与统计》、《深入浅出统计学》

4.数据挖掘理论及应用
1)了解并掌握数据挖掘基础知识,包括代价函数、过拟合、泛化能力等

2)区分监督学习、无监督学习、半监督学习、同时要区分回归与分类模型等常用知识的区别
3)对于常用模型要有深刻理解并能够灵活运用,如随机森林、GBDT、Logisitic Regression、SVM等

4)除了监督学习,还需掌握主流的无监督学习方法,比如K-means等

5)灵活掌握sklearn机器学习库,能够正确的应用到项目实践中去
6)能够高效的检验模型参数,能够正确的运用到项目实践中

参考书籍:《数据挖掘导论》、《机器学习》-周志华、《统计学习方法》

5.自然语言处理
1)能够掌握正则表达式,快速准确地提取出有效信息

2)掌握中文分词,能够灵活运用分词库,学会处理停顿词等
3)了解语言模型

4)掌握并且能够运用词向量模型
参考书籍:《统计自然语言处理》

6.Linux与spark
1)掌握常用Linux命令,能够熟练使用Linux进行数据分析

2)能够使用Linux系统进行模型部署与自动调度
3)熟练使用spark进行分布式机器学习

7.深度学习实践
1)能够理解神经网络运行机制,比如反向传播

2)能够对于常用模型,DNN、CNN、RNN等有深入的理解和运用
3)必须掌握一门深度学习框架,推荐使用Tensorflow

推荐书籍:《深度学习》

8.Tensorflow
1)了解Tensorflow的运行机制

2)能够使用Tensorflow搭建常用的模型,如CNN、RNN等
3)能够灵活使用Tensorflow搭建复杂模型,包括DeepFM、Deep&Wide等业界通用模型
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: