您的位置:首页 > 大数据

大数据入门学者的学习的内容及大数据开发学习路线详解

2018-11-04 11:18 746 查看

 

很多人都知道大数据很受欢迎。他们的工作很好,薪水也很高。他们希望朝着大数据的方向发展。但是我们学到了什么技术和路线呢?

大数据的三个发展方向,平台建设/优化/运行/维护/监控,大数据开发/设计/架构,数据分析/挖掘。

首先,说大数据的4V特征:

数据量大,TB-PB

有多种类型的数据,如结构化的、非结构化的文本、日志、视频、图片、地理位置等。

商业价值很高,但是通过数据分析和机器学习需要大量的数据挖掘。

处理时间非常高,对海量数据处理的需求不再局限于离线计算。

现在,为了应对这些大数据的特点,开源大数据框架正变得越来越强大。

文件存储:Hadoop HDFS,Takyon,KFS

离线计算:Hadoop MapReduce,火花

流媒体,实时计算:风暴,火花流,S4,苍鹭

K-V,NoSQL数据库:HBase,ReiIS,MangoDB

资源管理:纱线,Mesos

日志收集:汇,划线,LogSTASH,Kibana

消息系统:卡夫卡,StruMQ,Zrimq,RabByMQ

查询分析:蜂箱,KORAS,猪,出版社,菲尼克斯,SARKSQL,钻机,弗兰克,麒麟,Druid

分布式协调服务:动物园管理员

集群管理和监控:AMBARI,Ganglia,NAGIOS,Cloudera管理器

数据挖掘与机器学习:火花MLLIB

数据同步:Sqoop

任务调度:OZIE

关注作者:需要大数据全套视频资料,关注我

 

它们有30多种。不要说他们精通。它们都被使用了。

第二个方向(开发/设计/架构)进行了详细讨论,这是很容易找到在这个方向。

第一章:Hadoop的第一个熟人

1.1学习百度和谷歌

不管你有什么问题,试着自己去搜索和解决。

谷歌的首选。如果你不能翻转,使用百度。

1.2参考信息优先于公文

特别是对于入境,官方文件总是首选文件。

我相信这个地区的大多数人都是文化人,所以跟上英语是不可能的。请参阅第一步。

1.3让Hadoop前进

Hadoop可以被看作是大数据存储和计算的创始人。大多数开源大数据框架现在依赖于Hadoop或者与它们兼容。

关于Hadoop,你至少应该找出以下几点:

Hadoop 1,Hadoop 2

MapReduce

那扇门,Tan Ode

JobTracker,TaskTracker

纱线,资源管理器

 

要构建自己的Hadoop,请使用第一步和第二步来运行它。

建议先安装安装程序包命令行,而不是使用管理工具。

1.4尝试使用Hadoop

HDFS目录操作命令;

上传和下载文件命令;

提交运行MapReduce示例程序;

打开Hadoop Web界面以查看作业的运行状态并检查作业运行日志。

知道Hadoop的系统日志在哪里。

1.5你应该知道他们的原则。

MapReduce:如何划分和征服

HDFS:数据在哪里,什么是副本;

什么是纱线和它能做什么;

那门在地球干什么?

资源管理者到底在做什么;

1.6编写MapReduce程序

请根据单词计数的例子写一个单词计数程序。

 

该包提交到Hadoop运行。

你不能java?Shell,Python可以,有一个叫做Hadoop流的东西。

如果你已经做了这些步骤,恭喜你,你的一只脚已经进来了。

第二章:更有效的词语

2.1学习点SQL

你知道数据库吗?你能写SQL吗?

如果不是,请学习一些SQL。

2.2 SQL版本号

在1.6,你写了多少行代码(或复制)?

例如:

选择单词,逐字计数(1);

 

这就是SQL的魅力,编程需要几十行,甚至一百行代码,这句话就完成了;使用SQL来分析Hadoop上的数据,方便、高效、容易处理,而且趋势更大。无论是离线计算还是实时计算,越来越多的大数据处理框架正在积极提供SQL接口。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: