您的位置：首页 > 大数据 > Hadoop

大数据-hdfs的简单概述

2020-07-12 16:58 120 查看

大数据特征
4V特征：
Volume(大数据量)：90% 的数据是过去两年产生
Velocity(速度快)：数据增长速度快，时效性高
Variety(多样化)：数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据
Value(价值密度低)：需挖掘获取数据价值
固有特征
时效性
不可变性

HDFS特点
HDFS优点：
支持处理超大文件
可运行在廉价机器上
高容错性
流式文件写入
HDFS缺点：
不适合低延时数据访问场景
不适合小文件存取场景
不适合并发写入，文件随机修改场景

简单的一些l命令

创建存放数据文件的目录：

hdfs dfs -mkdir /hdfs/shell
hdfs dfs -ls /hdfs/shell

将通讯数据上传到HDFS并查看

hdfs dfs -put /home/hadoop/data/mobile.txt /hdfs/shell
hdfs dfs -text /hdfs/shell/mobile.txt

下载文件到本地

hdfs dfs -get /hdfs/shell/mobile.txt /home/hadoop

统计目录下文件大小

hdfs dfs -du /hdfs/shell

删除移动数据文件和目录

hdfs dfs -rm /hdfs/shell/mobile.txt
hdfs dfs -rmr /hdfs---rmr递归删除目录下所有子目录和文件，生产环境中慎用

HDFS角色
Client：客户端
NameNode (NN)：元数据节点NNSNN
管理文件系统的Namespace/元数据
一个HDFS集群只有一个Active的NN
DataNode (DN)：数据节点
数据存储节点，保存和检索BlockClientDN
一个集群可以有多个数据节点
Secondary NameNode (SNN)：从元数据节点
合并NameNode的edit logs到fsimage文件中
辅助NN将内存中元数据信息持久化

HDFS副本机制
Block：数据块
HDFS最基本的存储单元
默认块大小：128M（2.x）
副本机制
作用：避免数据丢失
副本数默认为3
存放机制：
一个在本地机架节点
一个在同一个机架不同节点
一个在不同机架的节点

hdfs读文件：

写文件：

使用Java实现HDFS文件读写等操作

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航