您的位置：首页 > 大数据

大数据学习笔记1——大数据相关的基本概念、学习路线

2018-10-20 00:09 846 查看

一、基本概念

（1）如何存储大量数据？（HDFS）

（2）如何处理大量数据？（Map-Reduce、storm、spark等）

（1）hadoop其实就是数据仓库的一种实现方式。

（2）数据仓库其实就是数据库，比如oracle通过dbca工具可以创建一个数据仓库，如果使用oracle的warehouse，就可以建立一个数据仓库。

其实学过大数据课程都知道，就是互联网公司省钱的本性，造就大家都不想用oracle之类的数据库，还有去IOE之说。用一些列的微机取代成本高昂的服务器。

因此就出现了传统数据分析的替代解决方案（标红部分）：

其中sqoop、flume是用来做采集的，即ETL，HDFS、HBase和Hive做数据存储（数据仓库），MapReduce、Spark用来做数据处理（分析），Spark是实时计算的框架，处理完的结果可以放回到HDFS、Hbase或者内存数据库Redis，之后就能给业务部门使用。

大数据的基本思想，使用很多的屌丝代替高富帅，总结起来大数据基于三篇论文。

（1）GFS（google file system） ——> HDFS（hadoop distributed file system）

这两个都是分布式文件系统，解决大数据的存储问题。

大数据存储有两个问题需要解决：一是硬盘不够大，二是硬盘的安全问题，如果一个硬盘挂掉了，怎么办？

分布式存储系统给出了答案：对硬盘容量问题，多加几个硬盘，节点不够加节点就是了；对硬盘安全问题，采用冗余策略，即数据多存几份。hdfs的默认冗余值为3，一份数据存三份。分布式结构如图所示：

所以部署一个hadoop，至少要有三个节点，1个namenode，2个datanode。学习大数据一定要学习思想和原理，不然一有问题、一有新的技术出现，完全搞不定。

（2）MapReduce ——> MapReduce计算模型

mapreduce的思想是先拆分，再合并。

以这个例子来看mapreduce，1加到10，我可以分成3个任务，分别计算1加到4、5加到7、8加到10。计算的结果然后再合并到一起。

讲一个任务分成多个任务的过程叫map，将多个任务合并的过程叫reduce。这样有什么好处？能够将原来不能执行的任务，分解成能执行的任务。

完成的mapreduce ： job = map + reduce。当然执行mapreduce任务的时候，一定要习惯看日志！不然执行的过程都不知道它怎么干的、哪里出的问题。

（3）BigTable ——> HBase

先来说一下趋势：2018年是大数据落地的一年，之前很多都是靠炒概念而来的；未来是在云端用人工智能处理大数据。

然后，学习大数据是不需要数据库的知识！

学习路线如下：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航