您的位置:首页 > 大数据

初学大数据需要了解哪些方面的知识?

2019-01-25 14:43 976 查看



最近有一些大数据初学者经常在问,比如:大数据这么火,我也想往大数据方面发展,但是英文、数学不好的可以吗?? 学习大数据该学哪些技术??大数据和程序员比哪个要好学点??等等。。。很多人学大数据的原因就是大数据找工作好找,薪资很高,,当然,为了这个原因也是可以的,毕竟这个时代就业压力确实很大,为了一个好的工作学一门技术,,但是我想问下你,你的专业是什么呢??对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。。


;


大数据是未来的发展方向,正在挑战我们的分析能力及对世界的认知方式,因此,我们与时俱进,迎接变化,并不断的成长!大数据学习群:868加上【八四七】最后735  一起讨论进步学习



其实说这些不是为了说明大数据有多难,只是告诉你这就是大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/设计/架构、数据分析/挖掘。。这三个方面没有哪个容易学些、哪个薪资高些、哪个发展前景好些。。。





现如今大数据开源框架也是越来越多,举几个常用的例子:

文件存储:Hadoop HDFS、Tachyon、KFS

流式、实时计算:Storm、Spark Streaming、S4、Heron

K-V、NOSQL数据库:HBase、Redis、MongoDB

资源管理:YARN、Mesos

日志收集:Flume、Scribe、Logstash、Kibana

消息系统:Kafka、StormMQ、ZeroMQ、RabbitMQ

查询分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式协调服务:Zookeeper

集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager

数据挖掘、机器学习:Mahout、Spark MLLib

数据同步:Sqoop

任务调度:Oozie

上面有30多种框架了吧,哈哈,是不是有点慌了,虽然有这么多框架,别说全部精通了,就算是全会用的,估计现在也没有几个,就要看你在三个方面往哪个方面发展了。就拿第二个来说(开发/设计、架构),且先听听我的建议:


一、初识hadoop

Hadoop可以算是大数据存储和计算的开山鼻祖,现在大多开源的大数据框架都依赖Hadoop或者与它能很好的兼容。

关于Hadoop,你至少需要搞清楚以下是什么:

  1. Hadoop 1.0、Hadoop 2.0

  2. MapReduce、HDFS

  3. NameNode、DataNode

  4. JobTracker、TaskTracker

  5. Yarn、ResourceManager、NodeManager

自己搭建Hadoop,请使用第一步和第二步,能让它跑起来就行。

建议先使用安装包命令行安装,不要使用管理工具安装。

另外:Hadoop1.0知道它就行了,现在都用Hadoop 2.0.


/v2-


二、更高效的WordCount

首先,你得先学习SQL,访问、查询数据库的基本语言还是要懂的。。然后SQL On Hadoop之Hive,Hive是数据仓库工具,数据仓库是逻辑上的概念,底层使用的是数据库,数据仓库的特点:数据全(海量)、稳定;所谓稳定,比如数据库的数据经常要更新,而数据仓库的数据是不会被更新,只会被查询,所以说Hive适合做数据仓库。最后就是了解hive的工作原理,学会Hive的工作命令。

三、把别处的数据搞到Hadoop上

四、把Hadoop上的数据搞到别处去

五、实例分析

六、实时数据

七、更新查询数据

八、高大上的机器学习

完成了第一、二,说明你已经快步入大数据的行列了。


内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息