您的位置:首页 > 大数据 > Hadoop

大数据储备知识-Linux下安装Hadoop 了解并启动Hadoop以及Hadoop集群操作 windows下操作HDFS系统 DAY7

2019-07-28 20:39 651 查看
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.csdn.net/qq_41520877/article/details/97610866

大数据官方网站:

hadoop.apache.org:


Hadoop 1.x 0.x 只有三个组件:

  • Hadoop Common
  • Hadoop Distributed File System (HDFS™)
  • Hadoop YARN

Hadoop Common: 为核心组件 用来对其它组件的支持
Hadoop Distributed File System (HDFS™):分布式的文件系统来处理高吞吐量的应用数据
Hadoop YARN:一个用于任务提交和集群资源管理的框架
Hadoop MapReduce:一个基于YARN的并行处理海量数据集的框架

从Hadoop 2.x 版本开始 资源调度被独立出来

HDFS工作原理:

在企业中大数据集群 机器的个数一般是单数

Linux下安装Hadoop:
将Hadoop传输进来 然后进行解压

修改权限:

查看Hadoop目录下的lib文件:

新建立另一个窗口在lib文件夹下解压native:

返回第一个窗口进行查看native:

配置全局变量:

切换到全局变量目录下:


新开窗口:方便知道地址

回到原来第一个窗口:

在第二个窗口里面输入:


回到第一个窗口输入:



启动Hadoop一定要先启动主节点 在启动从节点:

启动主节点:


启动从节点:

Hadoop的监控页面:
网页版集群页面:com.hadoop:50070

可以看到原始文件夹为空:

在集群上创建文件夹:

证明有新的文件夹:

上传文件到集群:

红色框指的是:Linux上的地址和文件
绿色框指的是:集群上的文件

显示如图:

查看集群文件信息和下载机群文件到Linux上:

Windows上操作HDFS文件系统

将Hadoop安装包解压到c盘根目录下 并配置环境变量:


将winutils.exe文件下载后 拖到bin目录下:

关闭集群(先关闭从节点 再关闭主节点):


切换到Hadoop进行编辑:(在第二个窗口进行)


将下列配置写到hdfs-site.xml中:
(目的是:运行其他客户端(Windows)也连接hdfs系统,(默认由于安全考虑是不允许的))
(配置的意思为授权认证关闭(默认是true,改为false))

在eclipse中创建maven工程在pom.xml中添加内容:


保存并等待下载
将集群上的文件下载到对应的文件夹中

  • core-site.xml
  • hdfs-site.xml
  • log4j.properties

查看resources文件夹的路径:src/main/resources->Show in->System Explorer
cmd中下载文件至resources文件夹中

get /opt/modules/hadoop-2.6.0-cdh5.7.6/etc/hadoop/XXXX C:\eclipse\workspace\hdfstest\src\main\resources

创建jar 包(package)和Java执行文件 编写文件并运行:

注意:
集群刚启动的时候 有30秒的安全模式 无法进行任何操作
30秒内 老大在读取元数据 然后找小弟核对信息
如果小弟汇报的信息和老大元数据中有出入 老大就一直待在安全模式(safe mode)无法启动集群
如果汇报和元数据中一直 则集群从安全模式进入active模式

测试

在D盘根目录下新建文件(test.txt)并编辑(使用除Windows的记事本,如Sublime Text)

解除注释并编辑以下

开启进程:

保存并运行程序(稍作等待)

网页版:com.hadoop:50070

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐