您的位置:首页 > 大数据

Hadoop入门学习笔记_day01(大数据的相关概念 )

2018-03-11 16:51 323 查看

一、大数据的相关概念:

(一)大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极的资讯。

随着技术的不断发展,符合大数据标准的数据集容量也会增长

不同行业使用的软件和数据集可能差别较大

大数据在今天不同行业的范围可以从十几TB到几PB

(二)大数据的四个特点–4Vs

大量:数据量大,从TB级别跃升到PB级别

多样:数据类型繁多

非结构化:文本、图形、声音等

半结构化:日志

结构化数据:行列规整的表单数据

多结构化数据:以上三种类型混合的数据

高速:数据即时处理的速度

真实性和准确性:只有真实而准确的数据才能让对数据的管控和治理真的有意义

(三) Hadoop需要解决的问题

海量数据的存储(HDFS)

海量数据的分析(MapReduce)

资源管理调度(YARN)

问题:怎样解决海量数据的存储?

分布式文件系统的概念:(HDFS)

Hadoop分布式文件系统是一种适于在廉价硬件上的分布式文件系统

①HDFS是Apache Hadoop核心项目的一部分,例HBase,是在HDFS上构建的

②在HDFS文件系统中,一个文件将被分布在集群中的多台机器上存储

③是一个高度容错性的系统[HDFS的设计目标:硬件故障是常态而非异态,所以他会提供对于硬件故障处理]

④能提供高吞吐量的数据访问

⑤非常适合大规模数据集上的应用

①问题:怎样解决海量数据的计算?

求和:1+5+3+4+9+3+5+6=?



②问题:怎样解决海量数据的存储?

分布式文件系统的描述(HDFS)

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息