大数据、数据挖掘、数据分析学习记录
2017-05-17 16:09
351 查看
最近要换工作,做过c++,mfc界面的一些工作,但是对c++实在不感兴趣,于是考虑转到前端或UI设计或大数据方向。这些方面都没有很多经验,但是有接触过一点点,看了看招聘网站之后发现还是做大数据最赚钱,于是决定往这个方向发展下去,以此文作为开端,记录一下从零开始的学习过程。
其实也不算从零开始,在校期间参加过很多次数学建模的竞赛,获得过两次国二,数学基础也挺不错,另外数据挖掘和并行云计算的课程成绩都接近满分,然而即使这样,说到数据挖掘或数据分析,还是没有系统的概念,很多算法都听过,少量的学过或用过,不过仍然是个门外汉。去年找数据分析研究员的工作时丢了个大脸,面试官问我知道哪些监督算法,这是我第一次听这个词,一头雾水,说了些遗传算法啊粒子群算法啊这些不搭边的东西......遂我的学习之路从数据挖掘的算法分类开始。
以下参考数据挖掘算法的分类 :
根据目的——分类/聚类,预测,推荐
根据数据集——监督、半监督、无监督
所谓监督,靠有无训练样本来区分。有监督算法,即参数需要利用已有知识加以训练的算法,半监督算法,即虽不需要训练参数但需要定义任务的算法,无监督算法,即不需要任何训练样本,直接可以对数据建模的算法。据说此种算法目前不存在。
有监督算法包括:分类(knn/logit/probit/cart/treenet/svm/ann…)、预测(regression)、推理(rbr/cbr);
半监督算法包括:聚类(kmeans/birch/…)、频繁项集分析与关联分析(apriori)。
除了上面的一些概念容易混淆外,大数据、数据挖掘、数据分析外行也常常傻傻分不清,百度之后差不多能明白,这里就不解释了。提一下另外几个容易搞不清楚的,机器学习、深度学习、神经网络,常常听到,但是跟数据挖掘什么关系呢?据说机器学习几乎等同于数据挖掘,这里存疑,要通过学习体会。hadoop,spark,云计算这几个词则和大数据有关,大数据嘛,一台电脑当然是处理不了的,所以要依靠这些框架来进行云计算。另外,还有Python、R、MYSQL、BI、ETL这些也是招聘时常常需要的技能,感觉要学的东西蛮多的啊,一步步理清思路慢慢来吧。
为学习算法,给自己找了一些课程和资料:
机器学习(coursera)——视频课程
《深入浅出数据分析》——书籍
深度学习vs机器学习vs模式识别、数据挖掘十大经典算法系列——资料
为了学习计算的工具,也找了些资料:
疯狂的python——视频课程
《利用python进行数据分析》——书籍
学完这些视频和书籍是现阶段的目标,考阿里云大数据认证应该也是有帮助的,用过亚马逊的云服务,涉及到linux的开发环境,spark再加上一个《数据挖掘导论》是后续要学的。真多啊,为了坚持下去开的这个博客,给自己加油,学习,记录,进步!
欢迎要学或正在学的朋友一起交流,期待学有所成的先辈给予指点!
其实也不算从零开始,在校期间参加过很多次数学建模的竞赛,获得过两次国二,数学基础也挺不错,另外数据挖掘和并行云计算的课程成绩都接近满分,然而即使这样,说到数据挖掘或数据分析,还是没有系统的概念,很多算法都听过,少量的学过或用过,不过仍然是个门外汉。去年找数据分析研究员的工作时丢了个大脸,面试官问我知道哪些监督算法,这是我第一次听这个词,一头雾水,说了些遗传算法啊粒子群算法啊这些不搭边的东西......遂我的学习之路从数据挖掘的算法分类开始。
以下参考数据挖掘算法的分类 :
根据目的——分类/聚类,预测,推荐
根据数据集——监督、半监督、无监督
所谓监督,靠有无训练样本来区分。有监督算法,即参数需要利用已有知识加以训练的算法,半监督算法,即虽不需要训练参数但需要定义任务的算法,无监督算法,即不需要任何训练样本,直接可以对数据建模的算法。据说此种算法目前不存在。
有监督算法包括:分类(knn/logit/probit/cart/treenet/svm/ann…)、预测(regression)、推理(rbr/cbr);
半监督算法包括:聚类(kmeans/birch/…)、频繁项集分析与关联分析(apriori)。
除了上面的一些概念容易混淆外,大数据、数据挖掘、数据分析外行也常常傻傻分不清,百度之后差不多能明白,这里就不解释了。提一下另外几个容易搞不清楚的,机器学习、深度学习、神经网络,常常听到,但是跟数据挖掘什么关系呢?据说机器学习几乎等同于数据挖掘,这里存疑,要通过学习体会。hadoop,spark,云计算这几个词则和大数据有关,大数据嘛,一台电脑当然是处理不了的,所以要依靠这些框架来进行云计算。另外,还有Python、R、MYSQL、BI、ETL这些也是招聘时常常需要的技能,感觉要学的东西蛮多的啊,一步步理清思路慢慢来吧。
为学习算法,给自己找了一些课程和资料:
机器学习(coursera)——视频课程
《深入浅出数据分析》——书籍
深度学习vs机器学习vs模式识别、数据挖掘十大经典算法系列——资料
为了学习计算的工具,也找了些资料:
疯狂的python——视频课程
《利用python进行数据分析》——书籍
学完这些视频和书籍是现阶段的目标,考阿里云大数据认证应该也是有帮助的,用过亚马逊的云服务,涉及到linux的开发环境,spark再加上一个《数据挖掘导论》是后续要学的。真多啊,为了坚持下去开的这个博客,给自己加油,学习,记录,进步!
欢迎要学或正在学的朋友一起交流,期待学有所成的先辈给予指点!
相关文章推荐
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- hadoop学习(Map、Reduce、日志分析和数据挖掘、大数据处理)
- 【数据挖掘】关联规则分析——以1984年美国国会投票记录为例
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 数据挖掘、数据分析、人工智能及机器学习课程资源
- 【学习】数据分析与挖掘的相关书籍
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 数据挖掘、数据分析、人工智能及机器学习课程资源
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- [人工智能]北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 数据挖掘学习知识记录
- 机器学习、大数据、深度学习、数据挖掘、统计、决策和风险分析、概率和模糊逻辑的常见问题解答
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 学习数据分析、挖掘的22本好书
- 机器学习、大数据、深度学习、数据挖掘、统计、决策和风险分析、概率和模糊逻辑的常见问题解答
- 北美18名校的数据挖掘,数据分析,人工智能及机器学习课程汇总
- 数据分析与挖掘学习(一)