大数据-hdfs的简单概述
2020-07-12 16:58
120 查看
大数据特征
4V特征:
Volume(大数据量):90% 的数据是过去两年产生
Velocity(速度快):数据增长速度快,时效性高
Variety(多样化):数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据
Value(价值密度低):需挖掘获取数据价值
固有特征
时效性
不可变性
HDFS特点
HDFS优点:
支持处理超大文件
可运行在廉价机器上
高容错性
流式文件写入
HDFS缺点:
不适合低延时数据访问场景
不适合小文件存取场景
不适合并发写入,文件随机修改场景
简单的一些l命令
创建存放数据文件的目录:
hdfs dfs -mkdir /hdfs/shell hdfs dfs -ls /hdfs/shell
将通讯数据上传到HDFS并查看
hdfs dfs -put /home/hadoop/data/mobile.txt /hdfs/shell hdfs dfs -text /hdfs/shell/mobile.txt
下载文件到本地
hdfs dfs -get /hdfs/shell/mobile.txt /home/hadoop
统计目录下文件大小
hdfs dfs -du /hdfs/shell
删除移动数据文件和目录
hdfs dfs -rm /hdfs/shell/mobile.txt hdfs dfs -rmr /hdfs---rmr递归删除目录下所有子目录和文件,生产环境中慎用
HDFS角色
Client:客户端
NameNode (NN):元数据节点NNSNN
管理文件系统的Namespace/元数据
一个HDFS集群只有一个Active的NN
DataNode (DN):数据节点
数据存储节点,保存和检索BlockClientDN
一个集群可以有多个数据节点
Secondary NameNode (SNN):从元数据节点
合并NameNode的edit logs到fsimage文件中
辅助NN将内存中元数据信息持久化
HDFS副本机制
Block:数据块
HDFS最基本的存储单元
默认块大小:128M(2.x)
副本机制
作用:避免数据丢失
副本数默认为3
存放机制:
一个在本地机架节点
一个在同一个机架不同节点
一个在不同机架的节点
hdfs读文件:
写文件:
相关文章推荐
- 大数据-Hadoop生态(11)-MapReduce概述和简单实操
- Android Launcher开发(四)Launcher概述及简单添加和删除应用程序的快捷方式
- 概述如何实现一个简单的浏览器端js模块加载器
- HDFS概述(3)————HDFS Federation
- 字符集编码的简单概述
- EF框架的简单概述
- 黑马程序员:IO流概述与FileWriter简单介绍
- HDFS读写流程---大数据分析学习笔记3
- Java单元测试工具:JUnit4(一)——概述及简单例子
- JAVA操作HDFS案例的简单实现
- 大数据概述
- 网站前端_JavaScript-基础入门.0001.JavaScript简单概述
- R语言 堆叠可视化/可视化对比分析简单学习案例(R语言&大数据分析qq群 456726635 欢迎讨论交流)
- 1小时学会:最简单的iOS直播推流(二)代码架构概述
- 一个简单的文件共享工程 -- 功能概述
- 【EJB基础】简单概述
- HDFS 概述(一)
- EL表达式的概述和简单用法
- EL表达式的概述和简单用法
- 大数据hadoop平台搭建之hdfs