大数据架构师技能图谱
2016-07-27 23:23
525 查看
一、大数据通用处理平台
SparkFlink
Hadoop
二、分布式存储
HDFS
三、资源调度
Yarn
Mesos
四、机器学习工具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习工具)
五、数据分析/数据仓库(SQL类)
Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
8.1 ElasticSearch
8.2 Logstash
8.3 Kibana
六、消息队列
Kafka(纯日志类,大吞吐量)
RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ
七、流式计算
Storm/JStorm
Spark Streaming
Flink
八、日志收集
Scribe
Flume
九、编程语言
Java
Python
R
Ruby
Scala
十、数据分析挖掘
MATLAB
SPSS
SAS
十一、数据可视化
R
D3.js
ECharts
Excle
Python
十二、机器学习
机器学习基础聚类
时间序列
推荐系统
回归分析
文本挖掘
决策树
支持向量机
贝叶斯分类
神经网络
机器学习工具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习工具)
十三、算法
一致性paxos
raft
gossip
数据结构
栈,队列,链表
散列表
二叉树,红黑树,B树
图
常用算法
1.排序插入排序
桶排序
堆排序
2.快速排序
3,最大子数组
4.最长公共子序列
5.最小生成树
最短路径
6.矩阵的存储和运算
十四、云计算
云服务SaaS
PaaS
IaaS
Openstack
Docker
End.
转自:http://www.36dsj.com/archives/4520
相关文章推荐
- [HDU5756] Boss Bo [2016 Multi-University Training Contest 3(2016多校联合训练3) E]
- error LNK2005: "public: __cdecl std::basic_ofstream<char,struct std::char_traits<char> >::basic_ofst
- uva 507 Jill Rides Again
- 万物皆可联网——《Android物联网开发从入门到实战》
- 12种无线技术 谁将成为物联网的主旋律
- 物联网开发的生命周期模型
- [CF Gym 100827C] Containment [2014-2015 ACM-ICPC Pacific Northwest Regional Contest C]
- wait和waitpid函数总结
- 三分钟部署Laxcus大数据管理系统
- Windows的免費hMailServer搭配SpamAssassin過濾垃圾郵件:安裝與設定
- 关于 sessionFacotry.getCurrentsession ,could not obtain transaction-synchronized这个错误的
- 5.6 假设有 5 个学生的姓名和分数采用以下方式存储(相同的数组下标对应一个学生 的姓名和分数): char *name[]={"Smith","John","Mary","Havard","Kai
- 1090. Highest Price in Supply Chain (25)
- 大数据Spark “蘑菇云”行动前传第9课:Scala类和对象彻底实战和Spark源码鉴赏
- 安卓aidl夸进程通信的小例子,
- Form good habits----TimeManger(daily report)
- 不少科技公司在炒人工智能,可真正的情形却是…
- Andorid之MediaPlayer和AudioTrack播放Audio的区别与联系
- Hadoop权威指南读书笔记(2) — Yarn简介及Capacity & Fair Scheduler
- Y分钟学Brainfuck