您的位置:首页 > 大数据

大数据学习笔记1——大数据相关的基本概念、学习路线

2018-10-20 00:09 846 查看

一、基本概念

1,大数据解决了什么问题?

(1)如何存储大量数据?(HDFS)

(2)如何处理大量数据?(Map-Reduce、storm、spark等)

2,传统数据仓库和OLAP?

(1)hadoop其实就是数据仓库的一种实现方式。

(2)数据仓库其实就是数据库,比如oracle通过dbca工具可以创建一个数据仓库,如果使用oracle的warehouse,就可以建立一个数据仓库。

3,为什么会出现hadoop系列的

其实学过大数据课程都知道,就是互联网公司省钱的本性,造就大家都不想用oracle之类的数据库,还有去IOE之说。用一些列的微机取代成本高昂的服务器。

因此就出现了传统数据分析的替代解决方案(标红部分):

其中sqoop、flume是用来做采集的,即ETL,HDFS、HBase和Hive做数据存储(数据仓库),MapReduce、Spark用来做数据处理(分析),Spark是实时计算的框架,处理完的结果可以放回到HDFS、Hbase或者内存数据库Redis,之后就能给业务部门使用。

3,Google的思想

大数据的基本思想,使用很多的屌丝代替高富帅,总结起来大数据基于三篇论文。

(1)GFS(google file system)            ——>    HDFS(hadoop distributed file system)

这两个都是分布式文件系统,解决大数据的存储问题。

大数据存储有两个问题需要解决:一是硬盘不够大,二是硬盘的安全问题,如果一个硬盘挂掉了,怎么办?

分布式存储系统给出了答案:对硬盘容量问题,多加几个硬盘,节点不够加节点就是了;对硬盘安全问题,采用冗余策略,即数据多存几份。hdfs的默认冗余值为3,一份数据存三份。分布式结构如图所示:

所以部署一个hadoop,至少要有三个节点,1个namenode,2个datanode。学习大数据一定要学习思想和原理,不然一有问题、一有新的技术出现,完全搞不定。

(2)MapReduce                                    ——>    MapReduce计算模型

mapreduce的思想是先拆分,再合并。

以这个例子来看mapreduce,1加到10,我可以分成3个任务,分别计算1加到4、5加到7、8加到10。计算的结果然后再合并到一起。

讲一个任务分成多个任务的过程叫map,将多个任务合并的过程叫reduce。这样有什么好处?能够将原来不能执行的任务,分解成能执行的任务。

完成的mapreduce : job = map  + reduce。当然执行mapreduce任务的时候,一定要习惯看日志!不然执行的过程都不知道它怎么干的、哪里出的问题。

(3)BigTable                                         ——>     HBase

二、大数据的学习路线

先来说一下趋势:2018年是大数据落地的一年,之前很多都是靠炒概念而来的;未来是在云端用人工智能处理大数据。

然后,学习大数据是不需要数据库的知识!

学习路线如下:

 

 

 

 

 

 

 

 

 

 

阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: