您的位置：首页 > 运维架构

Hadoop部署配置笔记

2016-01-14 16:08 281 查看

最近学习了下hadoop的安装。下面详细说明下步骤

一、准备工作：

apache版本： hadoop-2.7.1.tar.gz 下载地址：点击打开链接

jdk版本： 1.8.0_65 因为后期需要装presto 这里使用1.8

二、环境：

192.168.200.70 master

192.168.200.71 node1

192.168.200.72 node2

三、配置主机名称：

sudo hostnamectl --static set-hostname master
sudo hostnamectl --static set-hostname node1
sudo hostnamectl --static set-hostname node2

hosts 文件添加：

192.168.200.70 master
192.168.200.71 node1
192.168.200.72 node2

四、解压缩 jdk 和 hadoop

我jdk是放在根目录下，hadoop 放在home下，根据需要安放

tar zxvf  jdk1.8.0_65.tar.gz
tar zxvf hadoop-2.7.1.tar.gz

配置环境变量，3台机器都需要配置

vim /etc/profile

文件底部添加如下内容，我这还配置了hive ，不需要的可以删除

export JAVA_HOME=/java/jdk1.8.0_65
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_HOME=/home/hadoop/hadoop
export HIVE_HOME=/home/hadoop/hive-1.0.1
export PATH=$PATH:$HADOOP_HOME/bin:$HIVE_HOME/bin

四、配置ssh免登录

在配置免登录之前，我们先创建hadoop组和用户

sudo groupadd hadoop    //设置hadoop用户组
sudo useradd –s /bin/bash –d /home/hadoop –m hadoop –g hadoop –G root   //添加一个jpf用户，此用户属于hadoop用户组，且具有root权限。
sudo passwd hadoop   //设置用户zhm登录密码
su hadoop   //切换到hadoop用户中

我使用的xhell，在下图中，可以看到选择全部会话，在

中输入下面命令同时生成密钥，就不需要每台去操作了，每台机器都可以进行双向免密钥登录。

ssh-keygen

ssh-copy-id 192.168.200.70

ssh-copy-id 192.168.200.71

ssh-copy-id 192.168.200.72

ssh-copy-id localhost 配置localhost 免登陆是为了启动hadoop时，有些进程在localhost下启动，我也不知道在哪个地方配置，所幸全部免登陆，需要注意的是，第一次ssh 是需要输入yes/no的，所以最好在此处全部ssh 一次

在每台机器中测试ssh 免登录

ssh master
ssh localhost
ssh node1
ssh node2

五、配置hadoop文件

在这之前需要：

安装目录下创建数据存放的文件夹，tmp、hdfs、hdfs/data、hdfs/name

mv hadoop-2.7.1 hadoop

mkdir hdfs && mdkir tmp && mkdir hdfs/data && mkdir hdfs/name

core-site.xml
、 yarn-site.xml 、 hdfs-site.xml 、 mapred-site.xml 、slaves、hadoop-env.sh、yarn-env.sh

上面这些文件是这次配置需要修改的配置文件：

core-site.xml

<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
<final>true</final>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/hadoop/tmp</value> //对应刚才之前创建的文件夹
<description>A base for other tempory directories</description>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131702</value>
</property>

hdfs-site.xml

<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/hadoop/hdfs/name</value> //对应刚才之前创建的文件夹
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/hadoop/hdfs/data</value> //对应刚才之前创建的文件夹
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>

mapred-site.xml

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>

<property>
<name>mapred.compress.map.output</name>
<value>true</value>
</property>

yarn-site.xml

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>2048</value>
</property>

配置hadoop-env.sh、yarn-env.sh启动文件的jdk运行目录

yarn-env.sh在开头附近添加或修改

export JAVA_HOME=/java/jdk1.8.0_65

hadoop-env.sh

export JAVA_HOME=/java/jdk1.8.0_65

slaves
配置添加dataNode节点名称或者ip

node1
node2

六、分发hadoop运行目录

cd /home/hadoop
scp -r hadoop hadoop@node1:/home/hadoop
scp -r hadoop hadoop@node2:/home/hadoop

七、格式化文件系统

bin/hdfs namenode -format

注意此处在namenode 也就是master 上执行，格式化的是文件系统，而不是磁盘，并且不要多次格式化，否则hadoop产生的uid 会不一致

八、启动和停止服务

此处我们执行全部执行的命令

sbin/start-all.sh

使用jps查看启动进程，如果是namenode会有

DataNode

SecondaryNameNode

NameNode

ResourceManager

NodeManager

如是为datanode的node1和node2 进程会有

NodeManager

DataNode

看到上面的进程说明启动成功了

我们还可以去看下日志文件，日志文件在hadoop目录下的log文件夹下

在web控制台中查看hadoop的监控情况

http://master:50070/dfshealth.html#tab-overview http://master:8088/cluster[/code] 
以上就是hadoop集群的简单配置

下面是hadoop 的一些配置文件参数及端口说明

2       常用的端口配置2.1  HDFS端口
[align=left]参数[/align]
[align=left]描述[/align]
[align=left]默认[/align]
[align=left]配置文件[/align]
[align=left]例子值[/align]
[align=left]fs.default.name namenode[/align]
[align=left]namenode RPC交互端口[/align]
[align=left]8020[/align]
[align=left]core-site.xml[/align]
[align=left]hdfs://master:8020/[/align]
[align=left]dfs.http.address [/align]
[align=left]NameNode web管理端口[/align]
[align=left]50070[/align]
[align=left]hdfs- site.xml[/align]
[align=left]0.0.0.0:50070[/align]
[align=left]dfs.datanode.address[/align]
[align=left]datanode　控制端口[/align]
[align=left]50010 [/align]
[align=left]hdfs -site.xml [/align]
[align=left]0.0.0.0:50010[/align]
[align=left]dfs.datanode.ipc.address[/align]
[align=left]datanode的RPC服务器地址和端口[/align]
[align=left]50020[/align]
[align=left]hdfs-site.xml[/align]
[align=left]0.0.0.0:50020[/align]
[align=left]dfs.datanode.http.address[/align]
[align=left]datanode的HTTP服务器和端口[/align]
[align=left]50075[/align]
[align=left]hdfs-site.xml [/align]
[align=left]0.0.0.0:50075[/align]
2.2  MR端口
[align=left]参数[/align]
[align=left]描述[/align]
[align=left]默认[/align]
[align=left]配置文件[/align]
[align=left]例子值[/align]
[align=left]mapred.job.tracker[/align]
[align=left]job-tracker交互端口 [/align]
[align=left]8021[/align]
[align=left]mapred-site.xml[/align]
[align=left]hdfs://master:8021/[/align]
[align=left]job[/align]
[align=left]tracker的web管理端口[/align]
[align=left]50030[/align]
[align=left]mapred-site.xml[/align]
[align=left]0.0.0.0:50030[/align]
[align=left]mapred.task.tracker.http.address[/align]
[align=left]task-tracker的HTTP端口[/align]
[align=left]50060[/align]
[align=left]mapred-site.xml[/align]
[align=left]0.0.0.0:50060[/align]
2.3  其它端口
[align=left]参数[/align]
[align=left]描述[/align]
[align=left]默认[/align]
[align=left]配置文件[/align]
[align=left]例子值[/align]
[align=left]dfs.secondary.http.address[/align]
[align=left]secondary NameNode web管理端口[/align]
[align=left]50090[/align]
[align=left]hdfs-site.xml[/align]
[align=left]0.0.0.0:50090[/align]
         
         
3       三个缺省配置参考文件说明3.1  core-default.html
[align=left]序[/align]
[align=left]参数名[/align]
[align=left]参数值[/align]
[align=left]参数说明[/align]
[align=left]1[/align]
[align=left]hadoop.tmp.dir                      [/align]
[align=left]/tmp/hadoop-${user.name}[/align]
[align=left]临时目录设定[/align]
[align=left]2[/align]
[align=left]hadoop.native.lib[/align]
[align=left]true[/align]
[align=left]使用本地hadoop库标识。[/align]
[align=left]3[/align]
[align=left]hadoop.http.filter.initializers    [/align]
  [align=left]http服务器过滤链设置[/align]
[align=left]4[/align]
[align=left]hadoop.security.group.mapping[/align]
[align=left]org.apache.hadoop.security.ShellBasedUnixGroupsMapping[/align]
[align=left]组内用户的列表的类设定[/align]
[align=left]5[/align]
[align=left]hadoop.security.authorization      [/align]
[align=left]false[/align]
[align=left]服务端认证开启[/align]
[align=left]6[/align]
[align=left]hadoop.security.authentication [/align]
[align=left]simple[/align]
[align=left]无认证或认证设置[/align]
[align=left]7[/align]
[align=left]hadoop.security.token.service.use_ip[/align]
[align=left]true[/align]
[align=left]是否开启使用IP地址作为连接的开关[/align]
[align=left]8[/align]
[align=left]hadoop.logfile.size[/align]
[align=left]10000000[/align]
[align=left]日志文件最大为10M[/align]
[align=left]9[/align]
[align=left]hadoop.logfile.count[/align]
[align=left]10[/align]
[align=left]日志文件数量为10个[/align]
[align=left]10[/align]
[align=left]io.file.buffer.size[/align]
[align=left]4096[/align]
[align=left]流文件的缓冲区为4K[/align]
[align=left]11[/align]
[align=left]io.bytes.per.checksum[/align]
[align=left]512 [/align]
[align=left]校验位数为512字节[/align]
[align=left]12[/align]
[align=left]io.skip.checksum.errors[/align]
[align=left]false[/align]
[align=left]校验出错后是抛出异常还是略过标识。True则略过[/align]
[align=left]13[/align]
[align=left]io.compression.codecs[/align]
[align=left]org.apache.hadoop.io.compress.DefaultCodec,[/align]
[align=left]org.apache.hadoop.io.compress.GzipCodec,[/align]
[align=left]org.apache.hadoop.io.compress.BZip2Codec,[/align]
[align=left]org.apache.hadoop.io.compress.SnappyCodec[/align]
[align=left]压缩和解压的方式设置[/align]
[align=left]14[/align]
[align=left]io.serializations[/align]
[align=left]org.apache.hadoop.io.serializer.WritableSerialization[/align]
[align=left]序例化和反序列化的类设定[/align]
[align=left]15[/align]
[align=left]fs.default.name[/align]
[align=left]file:///[/align]
[align=left]缺省的文件URI标识设定。[/align]
[align=left]16[/align]
[align=left]fs.trash.interval[/align]
[align=left]0[/align]
[align=left]文件废弃标识设定，0为禁止此功能[/align]
[align=left]17[/align]
[align=left]fs.file.impl[/align]
[align=left]org.apache.hadoop.fs.LocalFileSystem                [/align]
[align=left]本地文件操作类设置[/align]
[align=left]18[/align]
[align=left]fs.hdfs.impl[/align]
[align=left]org.apache.hadoop.hdfs.DistributedFileSystem        [/align]
[align=left]HDFS文件操作类设置[/align]
[align=left]19[/align]
[align=left]fs.s3.impl[/align]
[align=left]org.apache.hadoop.fs.s3.S3FileSystem[/align]
[align=left]S3文件操作类设置[/align]
[align=left]20[/align]
[align=left]fs.s3n.impl[/align]
[align=left]org.apache.hadoop.fs.s3native.NativeS3FileSystem[/align]
[align=left]S3文件本地操作类设置[/align]
[align=left]21[/align]
[align=left]fs.kfs.impl[/align]
[align=left]org.apache.hadoop.fs.kfs.KosmosFileSystem[/align]
[align=left]KFS文件操作类设置. [/align]
[align=left]22[/align]
[align=left]fs.hftp.impl[/align]
[align=left]org.apache.hadoop.hdfs.HftpFileSystem[/align]
[align=left]HTTP方式操作文件设置[/align]
[align=left]23[/align]
[align=left]fs.hsftp.impl[/align]
[align=left]org.apache.hadoop.hdfs.HsftpFileSystem[/align]
[align=left]HTTPS方式操作文件设置[/align]
[align=left]24[/align]
[align=left]fs.webhdfs.impl[/align]
[align=left]org.apache.hadoop.hdfs.web.WebHdfsFileSystem[/align]
[align=left]WEB方式操作文件类设置[/align]
[align=left]25[/align]
[align=left]fs.ftp.impl[/align]
[align=left]org.apache.hadoop.fs.ftp.FTPFileSystem[/align]
[align=left]FTP文件操作类设置[/align]
[align=left]26[/align]
[align=left]fs.ramfs.impl[/align]
[align=left]org.apache.hadoop.fs.InMemoryFileSystem[/align]
[align=left]内存文件操作类设置[/align]
[align=left]27[/align]
[align=left]fs.har.impl[/align]
[align=left]org.apache.hadoop.fs.HarFileSystem[/align]
[align=left]压缩文件操作类设置.[/align]
[align=left]28[/align]
[align=left]fs.har.impl.disable.cache[/align]
[align=left]true[/align]
[align=left]是否缓存har文件的标识设定[/align]
[align=left]29[/align]
[align=left]fs.checkpoint.dir[/align]
[align=left]${hadoop.tmp.dir}/dfs/namesecondary[/align]
[align=left]备份名称节点的存放目前录设置[/align]
[align=left]30[/align]
[align=left]fs.checkpoint.edits.dir[/align]
[align=left]${fs.checkpoint.dir}[/align]
[align=left]备份名称节点日志文件的存放目前录设置[/align]
[align=left]31[/align]
[align=left]fs.checkpoint.period[/align]
[align=left]3600[/align]
[align=left]动态检查的间隔时间设置[/align]
[align=left]32[/align]
[align=left]fs.checkpoint.size[/align]
[align=left]67108864[/align]
[align=left]日志文件大小为64M[/align]
[align=left]33[/align]
[align=left]fs.s3.block.size[/align]
[align=left]67108864[/align]
[align=left]写S3文件系统的块的大小为64M[/align]
[align=left]34[/align]
[align=left]fs.s3.buffer.dir[/align]
[align=left]${hadoop.tmp.dir}/s3[/align]
[align=left]S3文件数据的本地存放目录[/align]
[align=left]35[/align]
[align=left]fs.s3.maxRetries[/align]
[align=left]4[/align]
[align=left]S3文件数据的偿试读写次数[/align]
[align=left]36[/align]
[align=left]fs.s3.sleepTimeSeconds[/align]
[align=left]10[/align]
[align=left]S3文件偿试的间隔[/align]
[align=left]37[/align]
[align=left]local.cache.size[/align]
[align=left]10737418240[/align]
[align=left]缓存大小设置为10GB[/align]
[align=left]38[/align]
[align=left]io.seqfile.compress.blocksize[/align]
[align=left]1000000[/align]
[align=left]压缩流式文件中的最小块数为100万[/align]
[align=left]39[/align]
[align=left]io.seqfile.lazydecompress[/align]
[align=left]true[/align]
[align=left]块是否需要压缩标识设定[/align]
[align=left]40[/align]
[align=left]io.seqfile.sorter.recordlimit[/align]
[align=left]1000000[/align]
[align=left]内存中排序记录块类最小为100万[/align]
[align=left]41[/align]
[align=left]io.mapfile.bloom.size[/align]
[align=left]1048576[/align]
[align=left]BloomMapFiler过滤量为1M[/align]
[align=left]42[/align]
[align=left]io.mapfile.bloom.error.rate[/align]
[align=left]0.005[/align]
 
[align=left]43[/align]
[align=left]hadoop.util.hash.type[/align]
[align=left]murmur[/align]
[align=left]缺少hash方法为murmur[/align]
[align=left]44[/align]
[align=left]ipc.client.idlethreshold[/align]
[align=left]4000[/align]
[align=left]连接数据最小阀值为4000 [/align]
[align=left]45[/align]
[align=left]ipc.client.kill.max[/align]
[align=left]10[/align]
[align=left]一个客户端连接数最大值为10[/align]
[align=left]46[/align]
[align=left]ipc.client.connection.maxidletime[/align]
[align=left]10000[/align]
[align=left]断开与服务器连接的时间最大为10秒[/align]
[align=left]47[/align]
[align=left]ipc.client.connect.max.retries[/align]
[align=left]10[/align]
[align=left]建立与服务器连接的重试次数为10次[/align]
[align=left]48[/align]
[align=left]ipc.server.listen.queue.size[/align]
[align=left]128[/align]
[align=left]接收客户连接的监听队例的长度为128[/align]
[align=left]49[/align]
[align=left]ipc.server.tcpnodelay[/align]
[align=left]false[/align]
[align=left]开启或关闭服务器端TCP连接算法[/align]
[align=left]50[/align]
[align=left]ipc.client.tcpnodelay[/align]
[align=left]false[/align]
[align=left]开启或关闭客户端TCP连接算法[/align]
[align=left]51[/align]
[align=left]webinterface.private.actions[/align]
[align=left]false[/align]
[align=left]Web交互的行为设定[/align]
[align=left]52[/align]
[align=left]hadoop.rpc.socket.factory.class.default      [/align]
[align=left]org.apache.hadoop.net.StandardSocketFactory[/align]
[align=left]缺省的socket工厂类设置[/align]
[align=left]53[/align]
[align=left]hadoop.rpc.socket.factory.class.ClientProtocol[/align]
  [align=left]与dfs连接时的缺省socket工厂类[/align]
[align=left]54[/align]
[align=left]hadoop.socks.server                          [/align]
  [align=left]服务端的工厂类缺省设置为SocksSocketFactory.[/align]
[align=left]55[/align]
[align=left]topology.node.switch.mapping.impl[/align]
[align=left]org.apache.hadoop.net.ScriptBasedMapping[/align]
 
[align=left]56[/align]
[align=left]topology.script.file.name[/align]
   
[align=left]57[/align]
[align=left]topology.script.number.args[/align]
[align=left]100 [/align]
[align=left]参数数量最多为100[/align]
[align=left]58[/align]
[align=left]hadoop.security.uid.cache.secs[/align]
[align=left]14400[/align]
 
3.2  hdfs-default.html
[align=left]序号[/align]
[align=left]参数名[/align]
[align=left]参数值[/align]
[align=left]参数说明[/align]
[align=left]1[/align]
[align=left]dfs.namenode.logging.level       [/align]
[align=left]info         [/align]
[align=left]输出日志类型[/align]
[align=left]2[/align]
[align=left]dfs.secondary.http.address       [/align]
[align=left]0.0.0.0:50090[/align]
[align=left]备份名称节点的http协议访问地址与端口                                                                                    [/align]
[align=left]3[/align]
[align=left]dfs.datanode.address             [/align]
[align=left]0.0.0.0:50010[/align]
[align=left]数据节点的TCP管理服务地址和端口[/align]
[align=left]4[/align]
[align=left]dfs.datanode.http.address        [/align]
[align=left]0.0.0.0:50075[/align]
[align=left]数据节点的HTTP协议访问地址和端口[/align]
[align=left]5[/align]
[align=left]dfs.datanode.ipc.address         [/align]
[align=left]0.0.0.0:50020[/align]
[align=left]数据节点的IPC服务访问地址和端口[/align]
[align=left]6[/align]
[align=left]dfs.datanode.handler.count       [/align]
[align=left]3             [/align]
[align=left]数据节点的服务连接处理线程数[/align]
[align=left]7[/align]
[align=left]dfs.http.address                 [/align]
[align=left]0.0.0.0:50070[/align]
[align=left]名称节点的http协议访问地址与端口[/align]
[align=left]8[/align]
[align=left]dfs.https.enable                 [/align]
[align=left]false        [/align]
[align=left]支持https访问方式标识[/align]
[align=left]9[/align]
[align=left]dfs.https.need.client.auth       [/align]
[align=left]false        [/align]
[align=left]客户端指定https访问标识[/align]
[align=left]10[/align]
[align=left]dfs.https.server.keystore.resource[/align]
[align=left]ssl-server.xml[/align]
[align=left]Ssl密钥服务端的配置文件[/align]
[align=left]11[/align]
[align=left]dfs.https.client.keystore.resource[/align]
[align=left]ssl-client.xml[/align]
[align=left]Ssl密钥客户端的配置文件[/align]
[align=left]12[/align]
[align=left]dfs.datanode.https.address       [/align]
[align=left]0.0.0.0:50475[/align]
[align=left]数据节点的HTTPS协议访问地址和端口[/align]
[align=left]13[/align]
[align=left]dfs.https.address                [/align]
[align=left]0.0.0.0:50470[/align]
[align=left]名称节点的HTTPS协议访问地址和端口[/align]
[align=left]14[/align]
[align=left]dfs.datanode.dns.interface       [/align]
[align=left]default      [/align]
[align=left]数据节点采用IP地址标识[/align]
[align=left]15[/align]
[align=left]dfs.datanode.dns.nameserver      [/align]
[align=left]default      [/align]
[align=left]指定DNS的IP地址[/align]
[align=left]16[/align]
[align=left]dfs.replication.considerLoad     [/align]
[align=left]true         [/align]
[align=left]加载目标或不加载的标识[/align]
[align=left]17[/align]
[align=left]dfs.default.chunk.view.size      [/align]
[align=left]32768         [/align]
[align=left]浏览时的文件块大小设置为32K[/align]
[align=left]18[/align]
[align=left]dfs.datanode.du.reserved         [/align]
[align=left]0            [/align]
[align=left]每个卷预留的空闲空间数量[/align]
[align=left]19[/align]
[align=left]dfs.name.dir                     [/align]
[align=left]${hadoop.tmp.dir}/dfs/name[/align]
[align=left]存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份[/align]
[align=left]20[/align]
[align=left]dfs.name.edits.dir               [/align]
[align=left]${dfs.name.dir}          [/align]
[align=left]存贮文件操作过程信息的存贮目录[/align]
[align=left]21[/align]
[align=left]dfs.web.ugi                      [/align]
[align=left]webuser,webgroup         [/align]
[align=left]Web接口访问的用户名和组的帐户设定[/align]
[align=left]22[/align]
[align=left]dfs.permissions                  [/align]
[align=left]true                     [/align]
[align=left]文件操作时的权限检查标识。[/align]
[align=left]23[/align]
[align=left]dfs.permissions.supergroup       [/align]
[align=left]supergroup               [/align]
[align=left]超级用户的组名定义[/align]
[align=left]24[/align]
[align=left]dfs.block.access.token.enable    [/align]
[align=left]false                    [/align]
[align=left]数据节点访问令牌标识[/align]
[align=left]25[/align]
[align=left]dfs.block.access.key.update.interval[/align]
[align=left]600                      [/align]
[align=left]升级访问钥时的间隔时间[/align]
[align=left]26[/align]
[align=left]dfs.block.access.token.lifetime    [/align]
[align=left]600                      [/align]
[align=left]访问令牌的有效时间[/align]
[align=left]27[/align]
[align=left]dfs.data.dir                        [/align]
[align=left]${hadoop.tmp.dir}/dfs/data[/align]
[align=left]数据节点的块本地存放目录[/align]
[align=left]28[/align]
[align=left]dfs.datanode.data.dir.perm         [/align]
[align=left]755                      [/align]
[align=left]数据节点的存贮块的目录访问权限设置[/align]
[align=left]29[/align]
[align=left]dfs.replication                    [/align]
[align=left]3                        [/align]
[align=left]缺省的块复制数量[/align]
[align=left]30[/align]
[align=left]dfs.replication.max                 [/align]
[align=left]512                      [/align]
[align=left]块复制的最大数量[/align]
[align=left]31[/align]
[align=left]dfs.replication.min                [/align]
[align=left]1                        [/align]
[align=left]块复制的最小数量 [/align]
[align=left]32[/align]
[align=left]dfs.block.size                     [/align]
[align=left]67108864                 [/align]
[align=left]缺省的文件块大小为64M[/align]
[align=left]33[/align]
[align=left]dfs.df.interval                    [/align]
[align=left]60000                     [/align]
[align=left]磁盘空间统计间隔为6秒[/align]
[align=left]34[/align]
[align=left]dfs.client.block.write.retries     [/align]
[align=left]3                        [/align]
[align=left]块写入出错时的重试次数[/align]
[align=left]35[/align]
[align=left]dfs.blockreport.intervalMsec       [/align]
[align=left]3600000                  [/align]
[align=left]块的报告间隔时为1小时[/align]
[align=left]36[/align]
[align=left]dfs.blockreport.initialDelay       [/align]
[align=left]0                        [/align]
[align=left]块顺序报告的间隔时间[/align]
[align=left]37[/align]
[align=left]dfs.heartbeat.interval             [/align]
[align=left]3                        [/align]
[align=left]数据节点的心跳检测间隔时间[/align]
[align=left]38[/align]
[align=left]dfs.namenode.handler.count         [/align]
[align=left]10                       [/align]
[align=left]名称节点的连接处理的线程数量[/align]
[align=left]39[/align]
[align=left]dfs.safemode.threshold.pct         [/align]
[align=left]0.999f                   [/align]
[align=left]启动安全模式的阀值设定[/align]
[align=left]40[/align]
[align=left]dfs.safemode.extension             [/align]
[align=left]30000                    [/align]
[align=left]当阀值达到量值后扩展的时限[/align]
[align=left]41[/align]
[align=left]dfs.balance.bandwidthPerSec        [/align]
[align=left]1048576                  [/align]
[align=left]启动负载均衡的数据节点可利用带宽最大值为1M[/align]
[align=left]42[/align]
[align=left]dfs.hosts                          [/align]
  [align=left]可与名称节点连接的主机地址文件指定。[/align]
[align=left]43[/align]
[align=left]dfs.hosts.exclude                  [/align]
  [align=left]不充计与名称节点连接的主机地址文件设定[/align]
[align=left]44[/align]
[align=left]dfs.max.objects                    [/align]
[align=left]0[/align]
[align=left]文件数、目录数、块数的最大数量[/align]
[align=left]45[/align]
[align=left]dfs.namenode.decommission.interval [/align]
[align=left]30[/align]
[align=left]名称节点解除命令执行时的监测时间周期[/align]
[align=left]46[/align]
[align=left]dfs.namenode.decommission.nodes.per.interval[/align]
[align=left]5       [/align]
[align=left]名称节点解除命令执行是否完检测次数[/align]
[align=left]47[/align]
[align=left]dfs.replication.interval                   [/align]
[align=left]3       [/align]
[align=left]名称节点计算数据节点的复制工作的周期数.[/align]
[align=left]48[/align]
[align=left]dfs.access.time.precision                  [/align]
[align=left]3600000 [/align]
[align=left]充许访问文件的时间精确到1小时[/align]
[align=left]49[/align]
[align=left]dfs.support.append                         [/align]
[align=left]false   [/align]
[align=left]是否充许链接文件指定[/align]
[align=left]50[/align]
[align=left]dfs.namenode.delegation.key.update-interval[/align]
[align=left]86400000[/align]
[align=left]名称节点上的代理令牌的主key的更新间隔时间为24小时[/align]
[align=left]51[/align]
[align=left]dfs.namenode.delegation.token.max-lifetime [/align]
[align=left]604800000[/align]
[align=left]代理令牌的有效时间最大值为7天[/align]
[align=left]52[/align]
[align=left]dfs.namenode.delegation.token.renew-interval[/align]
[align=left]86400000[/align]
[align=left]代理令牌的更新时间为24小时[/align]
[align=left]53[/align]
[align=left]dfs.datanode.failed.volumes.tolerated      [/align]
[align=left]0       [/align]
[align=left]决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点[/align]
3.3  mapred-default.html
[align=left]序号[/align]
[align=left]参数名[/align]
[align=left]参数值[/align]
[align=left]参数说明[/align]
[align=left]1[/align]
[align=left]hadoop.job.history.location[/align]
  [align=left]作业跟踪管理器的静态历史文件的存放目录。[/align]
[align=left]2[/align]
[align=left]hadoop.job.history.user.location[/align]
  [align=left]可以指定具体某个作业的跟踪管理器的历史文件存放目录[/align]
[align=left]3[/align]
[align=left]mapred.job.tracker.history.completed.location[/align]
  [align=left]已完成作业的历史文件的存放目录[/align]
[align=left]4[/align]
[align=left]io.sort.factor[/align]
[align=left]10         [/align]
[align=left]排完序的文件的合并时的打开文件句柄数[/align]
[align=left]5[/align]
[align=left]io.sort.mb[/align]
[align=left]100        [/align]
[align=left]排序文件的内存缓存大小为100M[/align]
[align=left]6[/align]
[align=left]io.sort.record.percent[/align]
[align=left]0.05       [/align]
[align=left]排序线程阻塞的内存缓存剩余比率[/align]
[align=left]7[/align]
[align=left]io.sort.spill.percent[/align]
[align=left]0.80       [/align]
[align=left]当缓冲占用量为该值时，线程需要将内容先备份到磁盘中。[/align]
[align=left]8[/align]
[align=left]io.map.index.skip[/align]
[align=left]0          [/align]
[align=left]索引条目的间隔设定[/align]
[align=left]9[/align]
[align=left]mapred.job.tracker[/align]
[align=left]local      [/align]
[align=left]作业跟踪管理器是否和MR任务在一个进程中[/align]
[align=left]10[/align]
[align=left]mapred.job.tracker.http.address[/align]
[align=left]0.0.0.0:50030[/align]
[align=left]作业跟踪管理器的HTTP服务器访问端口和地址[/align]
[align=left]11[/align]
[align=left]mapred.job.tracker.handler.count          [/align]
[align=left]10        [/align]
[align=left]作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04[/align]
[align=left]12[/align]
[align=left]mapred.task.tracker.report.address        [/align]
[align=left]127.0.0.1:0[/align]
[align=left]任务管理跟踪器的主机地址和端口地址[/align]
[align=left]13[/align]
[align=left]mapred.local.dir                          [/align]
[align=left]${hadoop.tmp.dir}/mapred/local [/align]
[align=left]MR的中介数据文件存放目录[/align]
[align=left]14[/align]
[align=left]mapred.system.dir                         [/align]
[align=left]${hadoop.tmp.dir}/mapred/system[/align]
[align=left]MR的控制文件存放目录[/align]
[align=left]15[/align]
[align=left]mapreduce.jobtracker.staging.root.dir     [/align]
[align=left]${hadoop.tmp.dir}/mapred/staging[/align]
[align=left]每个正在运行作业文件的存放区[/align]
[align=left]16[/align]
[align=left]mapred.temp.dir                           [/align]
[align=left]${hadoop.tmp.dir}/mapred/temp  [/align]
[align=left]MR临时共享文件存放区   [/align]
[align=left]17[/align]
[align=left]mapred.local.dir.minspacestart            [/align]
[align=left]0                               [/align]
[align=left]MR本地中介文件删除时，不充许有任务执行的数量值。[/align]
[align=left]18[/align]
[align=left]mapred.local.dir.minspacekill             [/align]
[align=left]0                              [/align]
[align=left]MR本地中介文件删除时，除非所有任务都已完成的数量值。[/align]
[align=left]19[/align]
[align=left]mapred.tasktracker.expiry.interval        [/align]
[align=left]600000                         [/align]
[align=left]任务管理跟踪器不发送心跳的累计时间间隔超过600秒，则任务管理跟踪器失效[/align]
[align=left]20[/align]
[align=left]mapred.tasktracker.resourcecalculatorplugin[/align]
  [align=left]指定的一个用户访问资源信息的类实例[/align]
[align=left]21[/align]
[align=left]mapred.tasktracker.taskmemorymanager.monitoring-interval[/align]
[align=left]5000   [/align]
[align=left]监控任务管理跟踪器任务内存使用率的时间间隔[/align]
[align=left]22[/align]
[align=left]mapred.tasktracker.tasks.sleeptime-before-sigkill      [/align]
[align=left]5000   [/align]
[align=left]发出进程终止后，间隔5秒后发出进程消亡信号[/align]
[align=left]23[/align]
[align=left]mapred.map.tasks                                       [/align]
[align=left]2      [/align]
[align=left]每个作业缺省的map任务数为2[/align]
[align=left]24[/align]
[align=left]mapred.reduce.tasks                                    [/align]
[align=left]1      [/align]
[align=left]每个作业缺省的reduce任务数为1[/align]
[align=left]25[/align]
[align=left]mapreduce.tasktracker.outofband.heartbeat              [/align]
[align=left]false  [/align]
[align=left]让在任务结束后发出一个额外的心跳信号[/align]
[align=left]26[/align]
[align=left]mapreduce.tasktracker.outofband.heartbeat.damper       [/align]
[align=left]1000000[/align]
[align=left]当额外心跳信号发出量太多时，则适当阻止[/align]
[align=left]27[/align]
[align=left]mapred.jobtracker.restart.recover                      [/align]
[align=left]false  [/align]
[align=left]充许任务管理器恢复时采用的方式[/align]
[align=left]28[/align]
[align=left]mapred.jobtracker.job.history.block.size               [/align]
[align=left]3145728[/align]
[align=left]作业历史文件块的大小为3M [/align]
[align=left]29[/align]
[align=left]mapreduce.job.split.metainfo.maxsize                   [/align]
[align=left]10000000[/align]
[align=left]分隔元信息文件的最大值是10M以下[/align]
[align=left]30[/align]
[align=left]mapred.jobtracker.taskScheduler                     [/align]
[align=left]org.apache.hadoop.mapred.JobQueueTaskScheduler[/align]
[align=left]设定任务的执行计划实现类[/align]
[align=left]31[/align]
[align=left]mapred.jobtracker.taskScheduler.maxRunningTasksPerJob[/align]
  [align=left]作业同时运行的任务数的最大值[/align]
[align=left]32[/align]
[align=left]mapred.map.max.attempts                             [/align]
[align=left]4    [/align]
[align=left]Map任务的重试次数[/align]
[align=left]33[/align]
[align=left]mapred.reduce.max.attempts                          [/align]
[align=left]4    [/align]
[align=left]Reduce任务的重试次数[/align]
[align=left]34[/align]
[align=left]mapred.reduce.parallel.copies                        [/align]
[align=left]5    [/align]
[align=left]在复制阶段时reduce并行传送的值。[/align]
[align=left]35[/align]
[align=left]mapreduce.reduce.shuffle.maxfetchfailures           [/align]
[align=left]10   [/align]
[align=left]取map输出的最大重试次数[/align]
[align=left]36[/align]
[align=left]mapreduce.reduce.shuffle.connect.timeout            [/align]
[align=left]180000[/align]
[align=left]REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟          [/align]
[align=left]37[/align]
[align=left]mapreduce.reduce.shuffle.read.timeout               [/align]
[align=left]180000[/align]
[align=left]REDUCE任务等待map输出数据的总耗时是3分钟[/align]
[align=left]38[/align]
[align=left]mapred.task.timeout                                 [/align]
[align=left]600000[/align]
[align=left]如果任务无读无写时的时间耗时为10分钟，将被终止[/align]
[align=left]39[/align]
[align=left]mapred.tasktracker.map.tasks.maximum                [/align]
[align=left]2    [/align]
[align=left]任管管理器可同时运行map任务数为2[/align]
[align=left]40[/align]
[align=left]mapred.tasktracker.reduce.tasks.maximum             [/align]
[align=left]2    [/align]
[align=left]任管管理器可同时运行reduce任务数为2[/align]
[align=left]41[/align]
[align=left]mapred.jobtracker.completeuserjobs.maximum [/align]
[align=left]100    [/align]
[align=left]当用户的完成作业数达100个后，将其放入作业历史文件中[/align]
[align=left]42[/align]
[align=left]mapreduce.reduce.input.limit               [/align]
[align=left]-1     [/align]
[align=left]Reduce输入量的限制。[/align]
[align=left]43[/align]
[align=left]mapred.job.tracker.retiredjobs.cache.size  [/align]
[align=left]1000   [/align]
[align=left]作业状态为已不在执行的保留在内存中的量为1000[/align]
[align=left]44[/align]
[align=left]mapred.job.tracker.jobhistory.lru.cache.size[/align]
[align=left]5      [/align]
[align=left]作业历史文件装载到内存的数量[/align]
[align=left]45[/align]
[align=left]mapred.child.java.opts                     [/align]
[align=left]-Xmx200m[/align]
[align=left]启动task管理的子进程时的内存设置[/align]
[align=left]46[/align]
[align=left]mapred.child.env                           [/align]
  [align=left]子进程的参数设置[/align]
[align=left]47[/align]
[align=left]mapred.child.ulimit                        [/align]
  [align=left]虚拟机所需内存的设定。[/align]
[align=left]48[/align]
[align=left]mapred.cluster.map.memory.mb               [/align]
[align=left]-1     [/align]
 
[align=left]49[/align]
[align=left]mapred.cluster.reduce.memory.mb            [/align]
[align=left]-1     [/align]
 
[align=left]50[/align]
[align=left]mapred.cluster.max.map.memory.mb           [/align]
[align=left]-1     [/align]
 
[align=left]51[/align]
[align=left]mapred.cluster.max.reduce.memory.mb        [/align]
[align=left]-1     [/align]
 
[align=left]52[/align]
[align=left]mapred.job.map.memory.mb                   [/align]
[align=left]-1     [/align]
 
[align=left]53[/align]
[align=left]mapred.job.reduce.memory.mb                [/align]
[align=left]-1     [/align]
 
[align=left]54[/align]
[align=left]mapred.child.tmp                           [/align]
[align=left]/tmp   [/align]
[align=left]Mr任务信息的存放目录[/align]
[align=left]55[/align]
[align=left]mapred.inmem.merge.threshold               [/align]
[align=left]1000   [/align]
[align=left]内存中的合并文件数设置[/align]
[align=left]56[/align]
[align=left]mapred.job.shuffle.merge.percent           [/align]
[align=left]0.66   [/align]
 
[align=left]57[/align]
[align=left]mapred.job.shuffle.input.buffer.percent    [/align]
[align=left]0.70   [/align]
 
[align=left]58[/align]
[align=left]mapred.job.reduce.input.buffer.percent     [/align]
[align=left]0.0    [/align]
 
[align=left]59[/align]
[align=left]mapred.map.tasks.speculative.execution     [/align]
[align=left]true   [/align]
[align=left]Map任务的多实例并行运行标识[/align]
[align=left]60[/align]
[align=left]mapred.reduce.tasks.speculative.execution  [/align]
[align=left]true   [/align]
[align=left]Reduce任务的多实例并行运行标识[/align]
[align=left]61[/align]
[align=left]mapred.job.reuse.jvm.num.tasks[/align]
[align=left]1           [/align]
[align=left]每虚拟机运行的任务数[/align]
[align=left]62[/align]
[align=left]mapred.min.split.size[/align]
[align=left]0           [/align]
[align=left]Map的输入数据被分解的块数设置[/align]
[align=left]63[/align]
[align=left]mapred.jobtracker.maxtasks.per.job[/align]
[align=left]-1          [/align]
[align=left]一个单独作业的任务数设置[/align]
[align=left]64[/align]
[align=left]mapred.submit.replication[/align]
[align=left]10          [/align]
[align=left]提交作业文件的复制级别[/align]
[align=left]65[/align]
[align=left]mapred.tasktracker.dns.interface[/align]
[align=left]default     [/align]
[align=left]任务管理跟踪器是否报告IP地址名的开关 [/align]
[align=left]66[/align]
[align=left]mapred.tasktracker.dns.nameserver[/align]
[align=left]default     [/align]
[align=left]作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址[/align]
[align=left]67[/align]
[align=left]tasktracker.http.threads[/align]
[align=left]40          [/align]
[align=left]http服务器的工作线程数量[/align]
[align=left]68[/align]
[align=left]mapred.task.tracker.http.address[/align]
[align=left]0.0.0.0:50060[/align]
[align=left]任务管理跟踪器的http服务器的地址和端口[/align]
[align=left]69[/align]
[align=left]keep.failed.task.files[/align]
[align=left]false       [/align]
[align=left]失败任务是否保存到文件中[/align]
[align=left]70[/align]
[align=left]mapred.output.compress[/align]
[align=left]false       [/align]
[align=left]作业的输出是否压缩[/align]
[align=left]71[/align]
[align=left]mapred.output.compression.type[/align]
[align=left]RECORD      [/align]
[align=left]作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件[/align]
[align=left]72[/align]
[align=left]mapred.output.compression.codec[/align]
[align=left]org.apache.hadoop.io.compress.DefaultCodec[/align]
[align=left]压缩类的设置[/align]
[align=left]73[/align]
[align=left]mapred.compress.map.output[/align]
[align=left]false                                    [/align]
[align=left]Map的输出是否压缩[/align]
[align=left]74[/align]
[align=left]mapred.map.output.compression.codec[/align]
[align=left]org.apache.hadoop.io.compress.DefaultCodec[/align]
[align=left]Map的输出压缩的实现类指定[/align]
[align=left]75[/align]
[align=left]map.sort.class[/align]
[align=left]org.apache.hadoop.util.QuickSort         [/align]
[align=left]排序键的排序类指定[/align]
[align=left]76[/align]
[align=left]mapred.userlog.limit.kb[/align]
[align=left]0                                        [/align]
[align=left]每个任务的用户日志文件大小[/align]
[align=left]77[/align]
[align=left]mapred.userlog.retain.hours[/align]
[align=left]24                                       [/align]
[align=left]作业完成后的用户日志留存时间为24小时[/align]
[align=left]78[/align]
[align=left]mapred.user.jobconf.limit[/align]
[align=left]5242880                                  [/align]
[align=left]Jobconf的大小为5M[/align]
[align=left]79[/align]
[align=left]mapred.hosts[/align]
  [align=left]可与作业管理跟踪器连接的主机名[/align]
[align=left]80[/align]
[align=left]mapred.hosts.exclude[/align]
  [align=left]不可与作业管理跟踪器连接的主机名[/align]
[align=left]81[/align]
[align=left]mapred.heartbeats.in.second                    [/align]
[align=left]100                [/align]
[align=left]作业管理跟踪器的每秒中到达的心跳数量为100[/align]
[align=left]82[/align]
[align=left]mapred.max.tracker.blacklists                  [/align]
[align=left]4                  [/align]
[align=left]任务管理跟踪器的黑名单列表的数量[/align]
[align=left]83[/align]
[align=left]mapred.jobtracker.blacklist.fault-timeout-window[/align]
[align=left]180                [/align]
[align=left]任务管理跟踪器超时180分钟则訪任务将被重启[/align]
[align=left]84[/align]
[align=left]mapred.jobtracker.blacklist.fault-bucket-width [/align]
[align=left]15                 [/align]
 
[align=left]85[/align]
[align=left]mapred.max.tracker.failures                    [/align]
[align=left]4                  [/align]
[align=left]任务管理跟踪器的失败任务数设定[/align]
[align=left]86[/align]
[align=left]jobclient.output.filter                        [/align]
[align=left]FAILED             [/align]
[align=left]控制任务的用户日志输出到作业端时的过滤方式[/align]
[align=left]87[/align]
[align=left]mapred.job.tracker.persist.jobstatus.active    [/align]
[align=left]false              [/align]
[align=left]是否持久化作业管理跟踪器的信息[/align]
[align=left]88[/align]
[align=left]mapred.job.tracker.persist.jobstatus.hours     [/align]
[align=left]0                  [/align]
[align=left]持久化作业管理跟踪器的信息的保存时间[/align]
[align=left]89[/align]
[align=left]mapred.job.tracker.persist.jobstatus.dir       [/align]
[align=left]/jobtracker/jobsInfo[/align]
[align=left]作业管理跟踪器的信息存放目录[/align]
[align=left]90[/align]
[align=left]mapreduce.job.complete.cancel.delegation.tokens[/align]
[align=left]true               [/align]
[align=left]恢复时是否变更领牌   [/align]
[align=left]91[/align]
[align=left]mapred.task.profile                            [/align]
[align=left]false              [/align]
[align=left]任务分析信息是否建设标志[/align]
[align=left]92[/align]
[align=left]mapred.task.profile.maps                       [/align]
[align=left]0-2                [/align]
[align=left]设置map任务的分析范围[/align]
[align=left]93[/align]
[align=left]mapred.task.profile.reduces                    [/align]
[align=left]0-2                [/align]
[align=left]设置reduce任务的分析范围[/align]
[align=left]94[/align]
[align=left]mapred.line.input.format.linespermap           [/align]
[align=left]1                  [/align]
[align=left]每次切分的行数设置[/align]
[align=left]95[/align]
[align=left]mapred.skip.attempts.to.start.skipping         [/align]
[align=left]2                  [/align]
[align=left]在跳转模式未被设定的情况下任务的重试次数                                                                                    [/align]
[align=left]96[/align]
[align=left]mapred.skip.map.auto.incr.proc.count           [/align]
[align=left]true               [/align]
[align=left]MapRunner在调用map功能后的增量处理方式设置[/align]
[align=left]97[/align]
[align=left]mapred.skip.reduce.auto.incr.proc.count        [/align]
[align=left]true               [/align]
[align=left]在调用reduce功能后的增量处理方式设置[/align]
[align=left]98[/align]
[align=left]mapred.skip.out.dir                             [/align]
  [align=left]跳过记录的输出目录[/align]
[align=left]99[/align]
[align=left]mapred.skip.map.max.skip.records               [/align]
[align=left]0                   [/align]
 
[align=left]100[/align]
[align=left]mapred.skip.reduce.max.skip.groups             [/align]
[align=left]0                  [/align]
 
[align=left]101[/align]
[align=left]job.end.retry.attempts                         [/align]
[align=left]0                  [/align]
[align=left]Hadoop偿试连接通知器的次数  [/align]
[align=left]102[/align]
[align=left]job.end.retry.interval                         [/align]
[align=left]30000              [/align]
[align=left]通知偿试回应的间隔操作为30秒[/align]
[align=left]103[/align]
[align=left]hadoop.rpc.socket.factory.class.JobSubmissionProtocol[/align]
  [align=left]指定与作业跟踪管理器的通讯方式，缺省是采用rpc方式[/align]
[align=left]104[/align]
[align=left]mapred.task.cache.levels                            [/align]
[align=left]2     [/align]
[align=left]任务缓存级别设置[/align]
[align=left]105[/align]
[align=left]mapred.queue.names                                  [/align]
[align=left]default[/align]
[align=left]分隔作业队例的分隔符设定[/align]
[align=left]106[/align]
[align=left]mapred.acls.enabled                                 [/align]
[align=left]false [/align]
[align=left]指定ACL访问控制列表[/align]
[align=left]107[/align]
[align=left]mapred.queue.default.state                           [/align]
[align=left]RUNNING[/align]
[align=left]定义队列的状态[/align]
[align=left]108[/align]
[align=left]mapred.job.queue.name                               [/align]
[align=left]default[/align]
[align=left]已提交作业的队列设定[/align]
[align=left]109[/align]
[align=left]mapreduce.job.acl-modify-job                        [/align]
  [align=left]指定可修改作业的ACL列表[/align]
[align=left]110[/align]
[align=left]mapreduce.job.acl-view-job                          [/align]
  [align=left]指定可浏临作业的ACL列表[/align]
[align=left]111[/align]
[align=left]mapred.tasktracker.indexcache.mb                    [/align]
[align=left]10    [/align]
[align=left]任务管理跟踪器的索引内存的最大容器[/align]
[align=left]112[/align]
[align=left]mapred.combine.recordsBeforeProgress                [/align]
[align=left]10000 [/align]
[align=left]在聚合处理时的记录块数[/align]
[align=left]113[/align]
[align=left]mapred.merge.recordsBeforeProgress                  [/align]
[align=left]10000 [/align]
[align=left]在汇总处理时的记录块数[/align]
[align=left]114[/align]
[align=left]mapred.reduce.slowstart.completed.maps              [/align]
[align=left]0.05  [/align]
 
[align=left]115[/align]
[align=left]mapred.task.tracker.task-controller                 [/align]
[align=left]org.apache.hadoop.mapred.DefaultTaskController[/align]
[align=left]任务管理器的设定[/align]
[align=left]116[/align]
[align=left]mapreduce.tasktracker.group                          [/align]
  [align=left]任务管理器的组成员设定[/align]
[align=left]117[/align]
[align=left]mapred.healthChecker.script.path                    [/align]
  [align=left]脚本的绝对路径指定，这些脚本是心跳服务的[/align]
[align=left]118[/align]
[align=left]mapred.healthChecker.interval                       [/align]
[align=left]60000                                        [/align]
[align=left]节点心跳信息的间隔[/align]
[align=left]119[/align]
[align=left]mapred.healthChecker.script.timeout            nbsp;     [/align]
[align=left]600000                                       [/align]
 
[align=left]120[/align]
[align=left]mapred.healthChecker.script.args                    [/align]
  [align=left]参数列表[/align]
[align=left]121[/align]
[align=left]mapreduce.job.counters.limit                         [/align]
[align=left]120                                          [/align]
[align=left]作业计数器的最小值[/align]

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： hadoop

相关文章推荐

新的分享

章节导航

[align=left]参数[/align]	[align=left]描述[/align]	[align=left]默认[/align]	[align=left]配置文件[/align]	[align=left]例子值[/align]
[align=left]fs.default.name namenode[/align]	[align=left]namenode RPC交互端口[/align]	[align=left]8020[/align]	[align=left]core-site.xml[/align]	[align=left]hdfs://master:8020/[/align]
[align=left]dfs.http.address [/align]	[align=left]NameNode web管理端口[/align]	[align=left]50070[/align]	[align=left]hdfs- site.xml[/align]	[align=left]0.0.0.0:50070[/align]
[align=left]dfs.datanode.address[/align]	[align=left]datanode　控制端口[/align]	[align=left]50010 [/align]	[align=left]hdfs -site.xml [/align]	[align=left]0.0.0.0:50010[/align]
[align=left]dfs.datanode.ipc.address[/align]	[align=left]datanode的RPC服务器地址和端口[/align]	[align=left]50020[/align]	[align=left]hdfs-site.xml[/align]	[align=left]0.0.0.0:50020[/align]
[align=left]dfs.datanode.http.address[/align]	[align=left]datanode的HTTP服务器和端口[/align]	[align=left]50075[/align]	[align=left]hdfs-site.xml [/align]	[align=left]0.0.0.0:50075[/align]

[align=left]序[/align]	[align=left]参数名[/align]	[align=left]参数值[/align]	[align=left]参数说明[/align]
[align=left]1[/align]	[align=left]hadoop.tmp.dir [/align]	[align=left]/tmp/hadoop-${user.name}[/align]	[align=left]临时目录设定[/align]
[align=left]2[/align]	[align=left]hadoop.native.lib[/align]	[align=left]true[/align]	[align=left]使用本地hadoop库标识。[/align]
[align=left]3[/align]	[align=left]hadoop.http.filter.initializers [/align]		[align=left]http服务器过滤链设置[/align]
[align=left]4[/align]	[align=left]hadoop.security.group.mapping[/align]	[align=left]org.apache.hadoop.security.ShellBasedUnixGroupsMapping[/align]	[align=left]组内用户的列表的类设定[/align]
[align=left]5[/align]	[align=left]hadoop.security.authorization [/align]	[align=left]false[/align]	[align=left]服务端认证开启[/align]
[align=left]6[/align]	[align=left]hadoop.security.authentication [/align]	[align=left]simple[/align]	[align=left]无认证或认证设置[/align]
[align=left]7[/align]	[align=left]hadoop.security.token.service.use_ip[/align]	[align=left]true[/align]	[align=left]是否开启使用IP地址作为连接的开关[/align]
[align=left]8[/align]	[align=left]hadoop.logfile.size[/align]	[align=left]10000000[/align]	[align=left]日志文件最大为10M[/align]
[align=left]9[/align]	[align=left]hadoop.logfile.count[/align]	[align=left]10[/align]	[align=left]日志文件数量为10个[/align]
[align=left]10[/align]	[align=left]io.file.buffer.size[/align]	[align=left]4096[/align]	[align=left]流文件的缓冲区为4K[/align]
[align=left]11[/align]	[align=left]io.bytes.per.checksum[/align]	[align=left]512 [/align]	[align=left]校验位数为512字节[/align]
[align=left]12[/align]	[align=left]io.skip.checksum.errors[/align]	[align=left]false[/align]	[align=left]校验出错后是抛出异常还是略过标识。True则略过[/align]
[align=left]13[/align]	[align=left]io.compression.codecs[/align]	[align=left]org.apache.hadoop.io.compress.DefaultCodec,[/align] [align=left]org.apache.hadoop.io.compress.GzipCodec,[/align] [align=left]org.apache.hadoop.io.compress.BZip2Codec,[/align] [align=left]org.apache.hadoop.io.compress.SnappyCodec[/align]	[align=left]压缩和解压的方式设置[/align]
[align=left]14[/align]	[align=left]io.serializations[/align]	[align=left]org.apache.hadoop.io.serializer.WritableSerialization[/align]	[align=left]序例化和反序列化的类设定[/align]
[align=left]15[/align]	[align=left]fs.default.name[/align]	[align=left]file:///[/align]	[align=left]缺省的文件URI标识设定。[/align]
[align=left]16[/align]	[align=left]fs.trash.interval[/align]	[align=left]0[/align]	[align=left]文件废弃标识设定，0为禁止此功能[/align]
[align=left]17[/align]	[align=left]fs.file.impl[/align]	[align=left]org.apache.hadoop.fs.LocalFileSystem [/align]	[align=left]本地文件操作类设置[/align]
[align=left]18[/align]	[align=left]fs.hdfs.impl[/align]	[align=left]org.apache.hadoop.hdfs.DistributedFileSystem [/align]	[align=left]HDFS文件操作类设置[/align]
[align=left]19[/align]	[align=left]fs.s3.impl[/align]	[align=left]org.apache.hadoop.fs.s3.S3FileSystem[/align]	[align=left]S3文件操作类设置[/align]
[align=left]20[/align]	[align=left]fs.s3n.impl[/align]	[align=left]org.apache.hadoop.fs.s3native.NativeS3FileSystem[/align]	[align=left]S3文件本地操作类设置[/align]
[align=left]21[/align]	[align=left]fs.kfs.impl[/align]	[align=left]org.apache.hadoop.fs.kfs.KosmosFileSystem[/align]	[align=left]KFS文件操作类设置. [/align]
[align=left]22[/align]	[align=left]fs.hftp.impl[/align]	[align=left]org.apache.hadoop.hdfs.HftpFileSystem[/align]	[align=left]HTTP方式操作文件设置[/align]
[align=left]23[/align]	[align=left]fs.hsftp.impl[/align]	[align=left]org.apache.hadoop.hdfs.HsftpFileSystem[/align]	[align=left]HTTPS方式操作文件设置[/align]
[align=left]24[/align]	[align=left]fs.webhdfs.impl[/align]	[align=left]org.apache.hadoop.hdfs.web.WebHdfsFileSystem[/align]	[align=left]WEB方式操作文件类设置[/align]
[align=left]25[/align]	[align=left]fs.ftp.impl[/align]	[align=left]org.apache.hadoop.fs.ftp.FTPFileSystem[/align]	[align=left]FTP文件操作类设置[/align]
[align=left]26[/align]	[align=left]fs.ramfs.impl[/align]	[align=left]org.apache.hadoop.fs.InMemoryFileSystem[/align]	[align=left]内存文件操作类设置[/align]
[align=left]27[/align]	[align=left]fs.har.impl[/align]	[align=left]org.apache.hadoop.fs.HarFileSystem[/align]	[align=left]压缩文件操作类设置.[/align]
[align=left]28[/align]	[align=left]fs.har.impl.disable.cache[/align]	[align=left]true[/align]	[align=left]是否缓存har文件的标识设定[/align]
[align=left]29[/align]	[align=left]fs.checkpoint.dir[/align]	[align=left]${hadoop.tmp.dir}/dfs/namesecondary[/align]	[align=left]备份名称节点的存放目前录设置[/align]
[align=left]30[/align]	[align=left]fs.checkpoint.edits.dir[/align]	[align=left]${fs.checkpoint.dir}[/align]	[align=left]备份名称节点日志文件的存放目前录设置[/align]
[align=left]31[/align]	[align=left]fs.checkpoint.period[/align]	[align=left]3600[/align]	[align=left]动态检查的间隔时间设置[/align]
[align=left]32[/align]	[align=left]fs.checkpoint.size[/align]	[align=left]67108864[/align]	[align=left]日志文件大小为64M[/align]
[align=left]33[/align]	[align=left]fs.s3.block.size[/align]	[align=left]67108864[/align]	[align=left]写S3文件系统的块的大小为64M[/align]
[align=left]34[/align]	[align=left]fs.s3.buffer.dir[/align]	[align=left]${hadoop.tmp.dir}/s3[/align]	[align=left]S3文件数据的本地存放目录[/align]
[align=left]35[/align]	[align=left]fs.s3.maxRetries[/align]	[align=left]4[/align]	[align=left]S3文件数据的偿试读写次数[/align]
[align=left]36[/align]	[align=left]fs.s3.sleepTimeSeconds[/align]	[align=left]10[/align]	[align=left]S3文件偿试的间隔[/align]
[align=left]37[/align]	[align=left]local.cache.size[/align]	[align=left]10737418240[/align]	[align=left]缓存大小设置为10GB[/align]
[align=left]38[/align]	[align=left]io.seqfile.compress.blocksize[/align]	[align=left]1000000[/align]	[align=left]压缩流式文件中的最小块数为100万[/align]
[align=left]39[/align]	[align=left]io.seqfile.lazydecompress[/align]	[align=left]true[/align]	[align=left]块是否需要压缩标识设定[/align]
[align=left]40[/align]	[align=left]io.seqfile.sorter.recordlimit[/align]	[align=left]1000000[/align]	[align=left]内存中排序记录块类最小为100万[/align]
[align=left]41[/align]	[align=left]io.mapfile.bloom.size[/align]	[align=left]1048576[/align]	[align=left]BloomMapFiler过滤量为1M[/align]
[align=left]42[/align]	[align=left]io.mapfile.bloom.error.rate[/align]	[align=left]0.005[/align]
[align=left]43[/align]	[align=left]hadoop.util.hash.type[/align]	[align=left]murmur[/align]	[align=left]缺少hash方法为murmur[/align]
[align=left]44[/align]	[align=left]ipc.client.idlethreshold[/align]	[align=left]4000[/align]	[align=left]连接数据最小阀值为4000 [/align]
[align=left]45[/align]	[align=left]ipc.client.kill.max[/align]	[align=left]10[/align]	[align=left]一个客户端连接数最大值为10[/align]
[align=left]46[/align]	[align=left]ipc.client.connection.maxidletime[/align]	[align=left]10000[/align]	[align=left]断开与服务器连接的时间最大为10秒[/align]
[align=left]47[/align]	[align=left]ipc.client.connect.max.retries[/align]	[align=left]10[/align]	[align=left]建立与服务器连接的重试次数为10次[/align]
[align=left]48[/align]	[align=left]ipc.server.listen.queue.size[/align]	[align=left]128[/align]	[align=left]接收客户连接的监听队例的长度为128[/align]
[align=left]49[/align]	[align=left]ipc.server.tcpnodelay[/align]	[align=left]false[/align]	[align=left]开启或关闭服务器端TCP连接算法[/align]
[align=left]50[/align]	[align=left]ipc.client.tcpnodelay[/align]	[align=left]false[/align]	[align=left]开启或关闭客户端TCP连接算法[/align]
[align=left]51[/align]	[align=left]webinterface.private.actions[/align]	[align=left]false[/align]	[align=left]Web交互的行为设定[/align]
[align=left]52[/align]	[align=left]hadoop.rpc.socket.factory.class.default [/align]	[align=left]org.apache.hadoop.net.StandardSocketFactory[/align]	[align=left]缺省的socket工厂类设置[/align]
[align=left]53[/align]	[align=left]hadoop.rpc.socket.factory.class.ClientProtocol[/align]		[align=left]与dfs连接时的缺省socket工厂类[/align]
[align=left]54[/align]	[align=left]hadoop.socks.server [/align]		[align=left]服务端的工厂类缺省设置为SocksSocketFactory.[/align]
[align=left]55[/align]	[align=left]topology.node.switch.mapping.impl[/align]	[align=left]org.apache.hadoop.net.ScriptBasedMapping[/align]
[align=left]56[/align]	[align=left]topology.script.file.name[/align]
[align=left]57[/align]	[align=left]topology.script.number.args[/align]	[align=left]100 [/align]	[align=left]参数数量最多为100[/align]
[align=left]58[/align]	[align=left]hadoop.security.uid.cache.secs[/align]	[align=left]14400[/align]

[align=left]序号[/align]	[align=left]参数名[/align]	[align=left]参数值[/align]	[align=left]参数说明[/align]
[align=left]1[/align]	[align=left]dfs.namenode.logging.level [/align]	[align=left]info [/align]	[align=left]输出日志类型[/align]
[align=left]2[/align]	[align=left]dfs.secondary.http.address [/align]	[align=left]0.0.0.0:50090[/align]	[align=left]备份名称节点的http协议访问地址与端口 [/align]
[align=left]3[/align]	[align=left]dfs.datanode.address [/align]	[align=left]0.0.0.0:50010[/align]	[align=left]数据节点的TCP管理服务地址和端口[/align]
[align=left]4[/align]	[align=left]dfs.datanode.http.address [/align]	[align=left]0.0.0.0:50075[/align]	[align=left]数据节点的HTTP协议访问地址和端口[/align]
[align=left]5[/align]	[align=left]dfs.datanode.ipc.address [/align]	[align=left]0.0.0.0:50020[/align]	[align=left]数据节点的IPC服务访问地址和端口[/align]
[align=left]6[/align]	[align=left]dfs.datanode.handler.count [/align]	[align=left]3 [/align]	[align=left]数据节点的服务连接处理线程数[/align]
[align=left]7[/align]	[align=left]dfs.http.address [/align]	[align=left]0.0.0.0:50070[/align]	[align=left]名称节点的http协议访问地址与端口[/align]
[align=left]8[/align]	[align=left]dfs.https.enable [/align]	[align=left]false [/align]	[align=left]支持https访问方式标识[/align]
[align=left]9[/align]	[align=left]dfs.https.need.client.auth [/align]	[align=left]false [/align]	[align=left]客户端指定https访问标识[/align]
[align=left]10[/align]	[align=left]dfs.https.server.keystore.resource[/align]	[align=left]ssl-server.xml[/align]	[align=left]Ssl密钥服务端的配置文件[/align]
[align=left]11[/align]	[align=left]dfs.https.client.keystore.resource[/align]	[align=left]ssl-client.xml[/align]	[align=left]Ssl密钥客户端的配置文件[/align]
[align=left]12[/align]	[align=left]dfs.datanode.https.address [/align]	[align=left]0.0.0.0:50475[/align]	[align=left]数据节点的HTTPS协议访问地址和端口[/align]
[align=left]13[/align]	[align=left]dfs.https.address [/align]	[align=left]0.0.0.0:50470[/align]	[align=left]名称节点的HTTPS协议访问地址和端口[/align]
[align=left]14[/align]	[align=left]dfs.datanode.dns.interface [/align]	[align=left]default [/align]	[align=left]数据节点采用IP地址标识[/align]
[align=left]15[/align]	[align=left]dfs.datanode.dns.nameserver [/align]	[align=left]default [/align]	[align=left]指定DNS的IP地址[/align]
[align=left]16[/align]	[align=left]dfs.replication.considerLoad [/align]	[align=left]true [/align]	[align=left]加载目标或不加载的标识[/align]
[align=left]17[/align]	[align=left]dfs.default.chunk.view.size [/align]	[align=left]32768 [/align]	[align=left]浏览时的文件块大小设置为32K[/align]
[align=left]18[/align]	[align=left]dfs.datanode.du.reserved [/align]	[align=left]0 [/align]	[align=left]每个卷预留的空闲空间数量[/align]
[align=left]19[/align]	[align=left]dfs.name.dir [/align]	[align=left]${hadoop.tmp.dir}/dfs/name[/align]	[align=left]存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份[/align]
[align=left]20[/align]	[align=left]dfs.name.edits.dir [/align]	[align=left]${dfs.name.dir} [/align]	[align=left]存贮文件操作过程信息的存贮目录[/align]
[align=left]21[/align]	[align=left]dfs.web.ugi [/align]	[align=left]webuser,webgroup [/align]	[align=left]Web接口访问的用户名和组的帐户设定[/align]
[align=left]22[/align]	[align=left]dfs.permissions [/align]	[align=left]true [/align]	[align=left]文件操作时的权限检查标识。[/align]
[align=left]23[/align]	[align=left]dfs.permissions.supergroup [/align]	[align=left]supergroup [/align]	[align=left]超级用户的组名定义[/align]
[align=left]24[/align]	[align=left]dfs.block.access.token.enable [/align]	[align=left]false [/align]	[align=left]数据节点访问令牌标识[/align]
[align=left]25[/align]	[align=left]dfs.block.access.key.update.interval[/align]	[align=left]600 [/align]	[align=left]升级访问钥时的间隔时间[/align]
[align=left]26[/align]	[align=left]dfs.block.access.token.lifetime [/align]	[align=left]600 [/align]	[align=left]访问令牌的有效时间[/align]
[align=left]27[/align]	[align=left]dfs.data.dir [/align]	[align=left]${hadoop.tmp.dir}/dfs/data[/align]	[align=left]数据节点的块本地存放目录[/align]
[align=left]28[/align]	[align=left]dfs.datanode.data.dir.perm [/align]	[align=left]755 [/align]	[align=left]数据节点的存贮块的目录访问权限设置[/align]
[align=left]29[/align]	[align=left]dfs.replication [/align]	[align=left]3 [/align]	[align=left]缺省的块复制数量[/align]
[align=left]30[/align]	[align=left]dfs.replication.max [/align]	[align=left]512 [/align]	[align=left]块复制的最大数量[/align]
[align=left]31[/align]	[align=left]dfs.replication.min [/align]	[align=left]1 [/align]	[align=left]块复制的最小数量 [/align]
[align=left]32[/align]	[align=left]dfs.block.size [/align]	[align=left]67108864 [/align]	[align=left]缺省的文件块大小为64M[/align]
[align=left]33[/align]	[align=left]dfs.df.interval [/align]	[align=left]60000 [/align]	[align=left]磁盘空间统计间隔为6秒[/align]
[align=left]34[/align]	[align=left]dfs.client.block.write.retries [/align]	[align=left]3 [/align]	[align=left]块写入出错时的重试次数[/align]
[align=left]35[/align]	[align=left]dfs.blockreport.intervalMsec [/align]	[align=left]3600000 [/align]	[align=left]块的报告间隔时为1小时[/align]
[align=left]36[/align]	[align=left]dfs.blockreport.initialDelay [/align]	[align=left]0 [/align]	[align=left]块顺序报告的间隔时间[/align]
[align=left]37[/align]	[align=left]dfs.heartbeat.interval [/align]	[align=left]3 [/align]	[align=left]数据节点的心跳检测间隔时间[/align]
[align=left]38[/align]	[align=left]dfs.namenode.handler.count [/align]	[align=left]10 [/align]	[align=left]名称节点的连接处理的线程数量[/align]
[align=left]39[/align]	[align=left]dfs.safemode.threshold.pct [/align]	[align=left]0.999f [/align]	[align=left]启动安全模式的阀值设定[/align]
[align=left]40[/align]	[align=left]dfs.safemode.extension [/align]	[align=left]30000 [/align]	[align=left]当阀值达到量值后扩展的时限[/align]
[align=left]41[/align]	[align=left]dfs.balance.bandwidthPerSec [/align]	[align=left]1048576 [/align]	[align=left]启动负载均衡的数据节点可利用带宽最大值为1M[/align]
[align=left]42[/align]	[align=left]dfs.hosts [/align]		[align=left]可与名称节点连接的主机地址文件指定。[/align]
[align=left]43[/align]	[align=left]dfs.hosts.exclude [/align]		[align=left]不充计与名称节点连接的主机地址文件设定[/align]
[align=left]44[/align]	[align=left]dfs.max.objects [/align]	[align=left]0[/align]	[align=left]文件数、目录数、块数的最大数量[/align]
[align=left]45[/align]	[align=left]dfs.namenode.decommission.interval [/align]	[align=left]30[/align]	[align=left]名称节点解除命令执行时的监测时间周期[/align]
[align=left]46[/align]	[align=left]dfs.namenode.decommission.nodes.per.interval[/align]	[align=left]5 [/align]	[align=left]名称节点解除命令执行是否完检测次数[/align]
[align=left]47[/align]	[align=left]dfs.replication.interval [/align]	[align=left]3 [/align]	[align=left]名称节点计算数据节点的复制工作的周期数.[/align]
[align=left]48[/align]	[align=left]dfs.access.time.precision [/align]	[align=left]3600000 [/align]	[align=left]充许访问文件的时间精确到1小时[/align]
[align=left]49[/align]	[align=left]dfs.support.append [/align]	[align=left]false [/align]	[align=left]是否充许链接文件指定[/align]
[align=left]50[/align]	[align=left]dfs.namenode.delegation.key.update-interval[/align]	[align=left]86400000[/align]	[align=left]名称节点上的代理令牌的主key的更新间隔时间为24小时[/align]
[align=left]51[/align]	[align=left]dfs.namenode.delegation.token.max-lifetime [/align]	[align=left]604800000[/align]	[align=left]代理令牌的有效时间最大值为7天[/align]
[align=left]52[/align]	[align=left]dfs.namenode.delegation.token.renew-interval[/align]	[align=left]86400000[/align]	[align=left]代理令牌的更新时间为24小时[/align]
[align=left]53[/align]	[align=left]dfs.datanode.failed.volumes.tolerated [/align]	[align=left]0 [/align]	[align=left]决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点[/align]