大数据学习笔记1——大数据相关的基本概念、学习路线
一、基本概念
1,大数据解决了什么问题?
(1)如何存储大量数据?(HDFS)
(2)如何处理大量数据?(Map-Reduce、storm、spark等)
2,传统数据仓库和OLAP?
(1)hadoop其实就是数据仓库的一种实现方式。
(2)数据仓库其实就是数据库,比如oracle通过dbca工具可以创建一个数据仓库,如果使用oracle的warehouse,就可以建立一个数据仓库。
3,为什么会出现hadoop系列的
其实学过大数据课程都知道,就是互联网公司省钱的本性,造就大家都不想用oracle之类的数据库,还有去IOE之说。用一些列的微机取代成本高昂的服务器。
因此就出现了传统数据分析的替代解决方案(标红部分):
其中sqoop、flume是用来做采集的,即ETL,HDFS、HBase和Hive做数据存储(数据仓库),MapReduce、Spark用来做数据处理(分析),Spark是实时计算的框架,处理完的结果可以放回到HDFS、Hbase或者内存数据库Redis,之后就能给业务部门使用。
3,Google的思想
大数据的基本思想,使用很多的屌丝代替高富帅,总结起来大数据基于三篇论文。
(1)GFS(google file system) ——> HDFS(hadoop distributed file system)
这两个都是分布式文件系统,解决大数据的存储问题。
大数据存储有两个问题需要解决:一是硬盘不够大,二是硬盘的安全问题,如果一个硬盘挂掉了,怎么办?
分布式存储系统给出了答案:对硬盘容量问题,多加几个硬盘,节点不够加节点就是了;对硬盘安全问题,采用冗余策略,即数据多存几份。hdfs的默认冗余值为3,一份数据存三份。分布式结构如图所示:
所以部署一个hadoop,至少要有三个节点,1个namenode,2个datanode。学习大数据一定要学习思想和原理,不然一有问题、一有新的技术出现,完全搞不定。
(2)MapReduce ——> MapReduce计算模型
mapreduce的思想是先拆分,再合并。
以这个例子来看mapreduce,1加到10,我可以分成3个任务,分别计算1加到4、5加到7、8加到10。计算的结果然后再合并到一起。
讲一个任务分成多个任务的过程叫map,将多个任务合并的过程叫reduce。这样有什么好处?能够将原来不能执行的任务,分解成能执行的任务。
完成的mapreduce : job = map + reduce。当然执行mapreduce任务的时候,一定要习惯看日志!不然执行的过程都不知道它怎么干的、哪里出的问题。
(3)BigTable ——> HBase
二、大数据的学习路线
先来说一下趋势:2018年是大数据落地的一年,之前很多都是靠炒概念而来的;未来是在云端用人工智能处理大数据。
然后,学习大数据是不需要数据库的知识!
学习路线如下:
阅读更多
- JAVA学习笔记数据类型及相关概念
- Hadoop学习笔记-大数据开发 入门 初学者 基本概念
- C++ Primer 学习笔记--基本概念和数据类型
- 大数据学习笔记——Hadoop1.x基本概念和安装
- 数据挖掘学习笔记-关于数据的基本概念
- 大数据学习笔记之十九 云存储的相关概念
- JS高级程序设计学习笔记之第三章基本概念(语法,数据类型,流控制语句,函数)——查漏补缺
- Hadoop入门学习笔记_day01(大数据的相关概念 )
- 学习笔记 之 数据结构——基本概念
- 嵌入式开发之C基础学习笔记03--基本数据类型,操作符,修饰符等基本概念
- 【数据挖掘概念与技术】学习笔记6-挖掘频繁模式、关联和相关性:基本概念和方法(编缉中)
- 【Oracle】SQL学习笔记1---基本概念及SELECT语句及提取和排序数据
- 学习笔记之开发相关概念(5)--大数据和人工智能
- C++ Primer 学习笔记--基本概念和数据类型
- Docker 学习笔记【1】Docker 相关概念,基本操作
- java学习笔记(二) ----基本数据类型应用
- [WCF 学习笔记] 1. 基本概念
- MPEG4 & H.264学习笔记之二 ------ 视频编码基本概念及时域模型
- Windows GDI学习笔记(1)——基本概念
- MPEG4 & H.264学习笔记之二 ------ 视频编码基本概念及时域模型