Hadoop入门学习笔记_day01(大数据的相关概念 )
2018-03-11 16:51
323 查看
一、大数据的相关概念:
(一)大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极的资讯。随着技术的不断发展,符合大数据标准的数据集容量也会增长
不同行业使用的软件和数据集可能差别较大
大数据在今天不同行业的范围可以从十几TB到几PB
(二)大数据的四个特点–4Vs
大量:数据量大,从TB级别跃升到PB级别多样:数据类型繁多
非结构化:文本、图形、声音等
半结构化:日志
结构化数据:行列规整的表单数据
多结构化数据:以上三种类型混合的数据
高速:数据即时处理的速度
真实性和准确性:只有真实而准确的数据才能让对数据的管控和治理真的有意义
(三) Hadoop需要解决的问题
海量数据的存储(HDFS)海量数据的分析(MapReduce)
资源管理调度(YARN)
问题:怎样解决海量数据的存储?
分布式文件系统的概念:(HDFS)
Hadoop分布式文件系统是一种适于在廉价硬件上的分布式文件系统
①HDFS是Apache Hadoop核心项目的一部分,例HBase,是在HDFS上构建的
②在HDFS文件系统中,一个文件将被分布在集群中的多台机器上存储
③是一个高度容错性的系统[HDFS的设计目标:硬件故障是常态而非异态,所以他会提供对于硬件故障处理]
④能提供高吞吐量的数据访问
⑤非常适合大规模数据集上的应用
①问题:怎样解决海量数据的计算?
求和:1+5+3+4+9+3+5+6=?
②问题:怎样解决海量数据的存储?
分布式文件系统的描述(HDFS)
相关文章推荐
- Hadoop学习笔记-大数据开发 入门 初学者 基本概念
- 学习笔记之开发相关概念(5)--大数据和人工智能
- JAVA学习笔记数据类型及相关概念
- 大数据学习笔记1--hadoop简介和入门
- Hadoop基础入门学习笔记(基本概念)
- 大数据学习笔记之十九 云存储的相关概念
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
- Hadoop基础入门学习笔记(基本概念)
- Hadoop基础入门学习笔记(基本概念)
- 大数据学习笔记1——大数据相关的基本概念、学习路线
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
- 大数据与Hadoop简单入门[学习笔记]
- hadoop的学习笔记(入门版)(应试版)(hadoop实战精华)和一点hadoop相关资料
- 大数据学习笔记——Hadoop1.x基本概念和安装
- Hadoop学习总结(1)——大数据以及Hadoop相关概念介绍
- Hadoop学习入门笔记
- TCP和http学习笔记(入门概念)
- Linux学习笔记#1_磁盘以及磁盘分区相关的概念
- Hadoop学习笔记(二):从map到reduce的数据流
- Hadoop学习笔记(七):使用distcp并行拷贝大数据文件