您的位置:首页 > 运维架构

hadoop三个配置文件的参数含义说明core-site.xml,hdfs-site.xml,mapred-site.xml

2015-09-15 21:58 821 查看
[align=left]配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:[/align]
[align=left]1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。[/align]
[align=left]2.浏览apache官网,三个配置文件链接如下:[/align]
[align=left] http://hadoop.apache.org/common/docs/current/core-default.html[/align]
[align=left] http://hadoop.apache.org/common/docs/current/hdfs-default.html[/align]
[align=left] http://hadoop.apache.org/common/docs/current/mapred-default.html[/align]
[align=left] 这里是浏览hadoop当前版本号的默认配置文件,其他版本号,要另外去官网找。其中第一个方法找到默认的配置是最好的,因为每个属性都有说明,可以直接使用。另外,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。[/align]
2 常用的端口配置2.1 HDFS端口

[align=left]参数[/align]

[align=left]描述[/align]

[align=left]默认[/align]

[align=left]配置文件[/align]

[align=left]例子值[/align]

[align=left]fs.default.name namenode[/align]

[align=left]namenode RPC交互端口[/align]

[align=left]8020[/align]

[align=left]core-site.xml[/align]

[align=left]hdfs://master:8020/[/align]

[align=left]dfs.http.address[/align]

[align=left]NameNode web管理端口[/align]

[align=left]50070[/align]

[align=left]hdfs- site.xml[/align]

[align=left]0.0.0.0:50070[/align]

[align=left]dfs.datanode.address[/align]

[align=left]datanode 控制端口[/align]

[align=left]50010[/align]

[align=left]hdfs -site.xml[/align]

[align=left]0.0.0.0:50010[/align]

[align=left]dfs.datanode.ipc.address[/align]

[align=left]datanode的RPC服务器地址和端口[/align]

[align=left]50020[/align]

[align=left]hdfs-site.xml[/align]

[align=left]0.0.0.0:50020[/align]

[align=left]dfs.datanode.http.address[/align]

[align=left]datanode的HTTP服务器和端口[/align]

[align=left]50075[/align]

[align=left]hdfs-site.xml[/align]

[align=left]0.0.0.0:50075[/align]

2.2 MR端口

[align=left]参数[/align]

[align=left]描述[/align]

[align=left]默认[/align]

[align=left]配置文件[/align]

[align=left]例子值[/align]

[align=left]mapred.job.tracker[/align]

[align=left]job-tracker交互端口[/align]

[align=left]8021[/align]

[align=left]mapred-site.xml[/align]

[align=left]hdfs://master:8021/[/align]

[align=left]job[/align]

[align=left]tracker的web管理端口[/align]

[align=left]50030[/align]

[align=left]mapred-site.xml[/align]

[align=left]0.0.0.0:50030[/align]

[align=left]mapred.task.tracker.http.address[/align]

[align=left]task-tracker的HTTP端口[/align]

[align=left]50060[/align]

[align=left]mapred-site.xml[/align]

[align=left]0.0.0.0:50060[/align]

2.3 其它端口

[align=left]参数[/align]

[align=left]描述[/align]

[align=left]默认[/align]

[align=left]配置文件[/align]

[align=left]例子值[/align]

[align=left]dfs.secondary.http.address[/align]

[align=left]secondary NameNode web管理端口[/align]

[align=left]50090[/align]

[align=left]hdfs-site.xml[/align]

[align=left]0.0.0.0:50090[/align]

3 三个缺省配置参考文件说明3.1 core-default.html

[align=left]序号[/align]

[align=left]参数名[/align]

[align=left]参数值[/align]

[align=left]参数说明[/align]

[align=left]1[/align]

[align=left]hadoop.tmp.dir [/align]

[align=left]/tmp/hadoop-${user.name} [/align]

[align=left]临时目录设定[/align]

[align=left]2[/align]

[align=left]hadoop.native.lib [/align]

[align=left]true [/align]

[align=left]使用本地hadoop库标识。[/align]

[align=left]3[/align]

[align=left]hadoop.http.filter.initializers [/align]

[align=left]http服务器过滤链设置 [/align]

[align=left]4[/align]

[align=left]hadoop.security.group.mapping [/align]

[align=left]org.apache.hadoop.security.ShellBasedUnixGroupsMapping[/align]

[align=left]组内用户的列表的类设定[/align]

[align=left]5[/align]

[align=left]hadoop.security.authorization [/align]

[align=left]false [/align]

[align=left]服务端认证开启[/align]

[align=left]6[/align]

[align=left]hadoop.security.authentication [/align]

[align=left]simple [/align]

[align=left]无认证或认证设置[/align]

[align=left]7[/align]

[align=left]hadoop.security.token.service.use_ip[/align]

[align=left]true [/align]

[align=left]是否开启使用IP地址作为连接的开关[/align]

[align=left]8[/align]

[align=left]hadoop.logfile.size [/align]

[align=left]10000000 [/align]

[align=left]日志文件最大为10M[/align]

[align=left]9[/align]

[align=left]hadoop.logfile.count[/align]

[align=left]10 [/align]

[align=left]日志文件数量为10个[/align]

[align=left]10[/align]

[align=left]io.file.buffer.size[/align]

[align=left]4096[/align]

[align=left]流文件的缓冲区为4K[/align]

[align=left]11[/align]

[align=left]io.bytes.per.checksum[/align]

[align=left]512[/align]

[align=left]校验位数为512字节[/align]

[align=left]12[/align]

[align=left]io.skip.checksum.errors[/align]

[align=left]false[/align]

[align=left]校验出错后是抛出异常还是略过标识。True则略过。[/align]

[align=left]13[/align]

[align=left]io.compression.codecs[/align]

[align=left]org.apache.hadoop.io.compress.DefaultCodec,[/align]
[align=left]org.apache.hadoop.io.compress.GzipCodec,[/align]
[align=left]org.apache.hadoop.io.compress.BZip2Codec,[/align]
[align=left]org.apache.hadoop.io.compress.SnappyCodec[/align]

[align=left]压缩和解压的方式设置[/align]

[align=left]14[/align]

[align=left]io.serializations[/align]

[align=left]org.apache.hadoop.io.serializer.WritableSerialization[/align]

[align=left]序例化和反序列化的类设定[/align]

[align=left]15[/align]

[align=left]fs.default.name[/align]

[align=left]file:/// [/align]

[align=left]缺省的文件URI标识设定。[/align]

[align=left]16[/align]

[align=left]fs.trash.interval[/align]

[align=left]0 [/align]

[align=left]文件废弃标识设定,0为禁止此功能[/align]

[align=left]17[/align]

[align=left]fs.file.impl[/align]

[align=left]org.apache.hadoop.fs.LocalFileSystem [/align]

[align=left]本地文件操作类设置[/align]

[align=left]18[/align]

[align=left]fs.hdfs.impl[/align]

[align=left]org.apache.hadoop.hdfs.DistributedFileSystem [/align]

[align=left]HDFS文件操作类设置[/align]

[align=left]19[/align]

[align=left]fs.s3.impl[/align]

[align=left]org.apache.hadoop.fs.s3.S3FileSystem [/align]

[align=left]S3文件操作类设置[/align]

[align=left]20[/align]

[align=left]fs.s3n.impl [/align]

[align=left]org.apache.hadoop.fs.s3native.NativeS3FileSystem[/align]

[align=left]S3文件本地操作类设置[/align]

[align=left]21[/align]

[align=left]fs.kfs.impl [/align]

[align=left]org.apache.hadoop.fs.kfs.KosmosFileSystem[/align]

[align=left]KFS文件操作类设置.[/align]

[align=left]22[/align]

[align=left]fs.hftp.impl [/align]

[align=left]org.apache.hadoop.hdfs.HftpFileSystem[/align]

[align=left]HTTP方式操作文件设置[/align]

[align=left]23[/align]

[align=left]fs.hsftp.impl [/align]

[align=left]org.apache.hadoop.hdfs.HsftpFileSystem[/align]

[align=left]HTTPS方式操作文件设置[/align]

[align=left]24[/align]

[align=left]fs.webhdfs.impl [/align]

[align=left]org.apache.hadoop.hdfs.web.WebHdfsFileSystem[/align]

[align=left]WEB方式操作文件类设置[/align]

[align=left]25[/align]

[align=left]fs.ftp.impl [/align]

[align=left]org.apache.hadoop.fs.ftp.FTPFileSystem[/align]

[align=left]FTP文件操作类设置[/align]

[align=left]26[/align]

[align=left]fs.ramfs.impl [/align]

[align=left]org.apache.hadoop.fs.InMemoryFileSystem[/align]

[align=left]内存文件操作类设置[/align]

[align=left]27[/align]

[align=left]fs.har.impl [/align]

[align=left]org.apache.hadoop.fs.HarFileSystem[/align]

[align=left]压缩文件操作类设置.[/align]

[align=left]28[/align]

[align=left]fs.har.impl.disable.cache[/align]

[align=left]true[/align]

[align=left]是否缓存har文件的标识设定[/align]

[align=left]29[/align]

[align=left]fs.checkpoint.dir [/align]

[align=left]${hadoop.tmp.dir}/dfs/namesecondary[/align]

[align=left]备份名称节点的存放目前录设置[/align]

[align=left]30[/align]

[align=left]fs.checkpoint.edits.dir [/align]

[align=left]${fs.checkpoint.dir}[/align]

[align=left]备份名称节点日志文件的存放目前录设置[/align]

[align=left]31[/align]

[align=left]fs.checkpoint.period [/align]

[align=left]3600[/align]

[align=left]动态检查的间隔时间设置[/align]

[align=left]32[/align]

[align=left]fs.checkpoint.size [/align]

[align=left]67108864[/align]

[align=left]日志文件大小为64M[/align]

[align=left]33[/align]

[align=left]fs.s3.block.size [/align]

[align=left]67108864[/align]

[align=left]写S3文件系统的块的大小为64M[/align]

[align=left]34[/align]

[align=left]fs.s3.buffer.dir [/align]

[align=left]${hadoop.tmp.dir}/s3[/align]

[align=left]S3文件数据的本地存放目录[/align]

[align=left]35[/align]

[align=left]fs.s3.maxRetries [/align]

[align=left]4[/align]

[align=left]S3文件数据的偿试读写次数[/align]

[align=left]36[/align]

[align=left]fs.s3.sleepTimeSeconds [/align]

[align=left]10[/align]

[align=left]S3文件偿试的间隔[/align]

[align=left]37[/align]

[align=left]local.cache.size [/align]

[align=left]10737418240[/align]

[align=left]缓存大小设置为10GB[/align]

[align=left]38[/align]

[align=left]io.seqfile.compress.blocksize[/align]

[align=left]1000000[/align]

[align=left]压缩流式文件中的最小块数为100万[/align]

[align=left]39[/align]

[align=left]io.seqfile.lazydecompress [/align]

[align=left]true[/align]

[align=left]块是否需要压缩标识设定[/align]

[align=left]40[/align]

[align=left]io.seqfile.sorter.recordlimit[/align]

[align=left]1000000[/align]

[align=left]内存中排序记录块类最小为100万[/align]

[align=left]41[/align]

[align=left]io.mapfile.bloom.size[/align]

[align=left]1048576[/align]

[align=left]BloomMapFiler过滤量为1M[/align]

[align=left]42[/align]

[align=left]io.mapfile.bloom.error.rate[/align]

[align=left]0.005[/align]

[align=left]43[/align]

[align=left]hadoop.util.hash.type[/align]

[align=left]murmur[/align]

[align=left]缺少hash方法为murmur[/align]

[align=left]44[/align]

[align=left]ipc.client.idlethreshold[/align]

[align=left]4000[/align]

[align=left]连接数据最小阀值为4000[/align]

[align=left]45[/align]

[align=left]ipc.client.kill.max[/align]

[align=left]10[/align]

[align=left]一个客户端连接数最大值为10[/align]

[align=left]46[/align]

[align=left]ipc.client.connection.maxidletime[/align]

[align=left]10000[/align]

[align=left]断开与服务器连接的时间最大为10秒[/align]

[align=left]47[/align]

[align=left]ipc.client.connect.max.retries[/align]

[align=left]10[/align]

[align=left]建立与服务器连接的重试次数为10次[/align]

[align=left]48[/align]

[align=left]ipc.server.listen.queue.size[/align]

[align=left]128[/align]

[align=left]接收客户连接的监听队例的长度为128[/align]

[align=left]49[/align]

[align=left]ipc.server.tcpnodelay[/align]

[align=left]false[/align]

[align=left]开启或关闭服务器端TCP连接算法[/align]

[align=left]50[/align]

[align=left]ipc.client.tcpnodelay[/align]

[align=left]false[/align]

[align=left]开启或关闭客户端TCP连接算法[/align]

[align=left]51[/align]

[align=left]webinterface.private.actions[/align]

[align=left]false[/align]

[align=left]Web交互的行为设定[/align]

[align=left]52[/align]

[align=left]hadoop.rpc.socket.factory.class.default [/align]

[align=left]org.apache.hadoop.net.StandardSocketFactory[/align]

[align=left]缺省的socket工厂类设置[/align]

[align=left]53[/align]

[align=left]hadoop.rpc.socket.factory.class.ClientProtocol[/align]

[align=left]与dfs连接时的缺省socket工厂类[/align]

[align=left]54[/align]

[align=left]hadoop.socks.server [/align]

[align=left]服务端的工厂类缺省设置为SocksSocketFactory.[/align]

[align=left]55[/align]

[align=left]topology.node.switch.mapping.impl [/align]

[align=left]org.apache.hadoop.net.ScriptBasedMapping[/align]

[align=left]56[/align]

[align=left]topology.script.file.name [/align]

[align=left]57[/align]

[align=left]topology.script.number.args [/align]

[align=left]100[/align]

[align=left]参数数量最多为100[/align]

[align=left]58[/align]

[align=left]hadoop.security.uid.cache.secs [/align]

[align=left]14400[/align]

3.2 hdfs-default.html

[align=left]序号[/align]

[align=left]参数名[/align]

[align=left]参数值[/align]

[align=left]参数说明[/align]

[align=left]1[/align]

[align=left]dfs.namenode.logging.level [/align]

[align=left]info [/align]

[align=left]输出日志类型[/align]

[align=left]2[/align]

[align=left]dfs.secondary.http.address [/align]

[align=left]0.0.0.0:50090[/align]

[align=left]备份名称节点的http协议访问地址与端口 [/align]

[align=left]3[/align]

[align=left]dfs.datanode.address [/align]

[align=left]0.0.0.0:50010[/align]

[align=left]数据节点的TCP管理服务地址和端口[/align]

[align=left]4[/align]

[align=left]dfs.datanode.http.address [/align]

[align=left]0.0.0.0:50075[/align]

[align=left]数据节点的HTTP协议访问地址和端口[/align]

[align=left]5[/align]

[align=left]dfs.datanode.ipc.address [/align]

[align=left]0.0.0.0:50020[/align]

[align=left]数据节点的IPC服务访问地址和端口[/align]

[align=left]6[/align]

[align=left]dfs.datanode.handler.count [/align]

[align=left]3 [/align]

[align=left]数据节点的服务连接处理线程数[/align]

[align=left]7[/align]

[align=left]dfs.http.address [/align]

[align=left]0.0.0.0:50070[/align]

[align=left]名称节点的http协议访问地址与端口[/align]

[align=left]8[/align]

[align=left]dfs.https.enable [/align]

[align=left]false [/align]

[align=left]支持https访问方式标识[/align]

[align=left]9[/align]

[align=left]dfs.https.need.client.auth [/align]

[align=left]false [/align]

[align=left]客户端指定https访问标识[/align]

[align=left]10[/align]

[align=left]dfs.https.server.keystore.resource[/align]

[align=left]ssl-server.xml[/align]

[align=left]Ssl密钥服务端的配置文件[/align]

[align=left]11[/align]

[align=left]dfs.https.client.keystore.resource[/align]

[align=left]ssl-client.xml[/align]

[align=left]Ssl密钥客户端的配置文件[/align]

[align=left]12[/align]

[align=left]dfs.datanode.https.address [/align]

[align=left]0.0.0.0:50475[/align]

[align=left]数据节点的HTTPS协议访问地址和端口[/align]

[align=left]13[/align]

[align=left]dfs.https.address [/align]

[align=left]0.0.0.0:50470[/align]

[align=left]名称节点的HTTPS协议访问地址和端口[/align]

[align=left]14[/align]

[align=left]dfs.datanode.dns.interface [/align]

[align=left]default [/align]

[align=left]数据节点采用IP地址标识[/align]

[align=left]15[/align]

[align=left]dfs.datanode.dns.nameserver [/align]

[align=left]default [/align]

[align=left]指定DNS的IP地址[/align]

[align=left]16[/align]

[align=left]dfs.replication.considerLoad [/align]

[align=left]true [/align]

[align=left]加载目标或不加载的标识[/align]

[align=left]17[/align]

[align=left]dfs.default.chunk.view.size [/align]

[align=left]32768 [/align]

[align=left]浏览时的文件块大小设置为32K[/align]

[align=left]18[/align]

[align=left]dfs.datanode.du.reserved [/align]

[align=left]0 [/align]

[align=left]每个卷预留的空闲空间数量[/align]

[align=left]19[/align]

[align=left]dfs.name.dir [/align]

[align=left]${hadoop.tmp.dir}/dfs/name[/align]

[align=left]存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份[/align]

[align=left]20[/align]

[align=left]dfs.name.edits.dir [/align]

[align=left]${dfs.name.dir} [/align]

[align=left]存贮文件操作过程信息的存贮目录[/align]

[align=left]21[/align]

[align=left]dfs.web.ugi [/align]

[align=left]webuser,webgroup [/align]

[align=left]Web接口访问的用户名和组的帐户设定[/align]

[align=left]22[/align]

[align=left]dfs.permissions [/align]

[align=left]true [/align]

[align=left]文件操作时的权限检查标识。[/align]

[align=left]23[/align]

[align=left]dfs.permissions.supergroup [/align]

[align=left]supergroup [/align]

[align=left]超级用户的组名定义[/align]

[align=left]24[/align]

[align=left]dfs.block.access.token.enable [/align]

[align=left]false [/align]

[align=left]数据节点访问令牌标识[/align]

[align=left]25[/align]

[align=left]dfs.block.access.key.update.interval[/align]

[align=left]600 [/align]

[align=left]升级访问钥时的间隔时间[/align]

[align=left]26[/align]

[align=left]dfs.block.access.token.lifetime [/align]

[align=left]600 [/align]

[align=left]访问令牌的有效时间[/align]

[align=left]27[/align]

[align=left]dfs.data.dir [/align]

[align=left]${hadoop.tmp.dir}/dfs/data[/align]

[align=left]数据节点的块本地存放目录[/align]

[align=left]28[/align]

[align=left]dfs.datanode.data.dir.perm [/align]

[align=left]755 [/align]

[align=left]数据节点的存贮块的目录访问权限设置[/align]

[align=left]29[/align]

[align=left]dfs.replication [/align]

[align=left]3 [/align]

[align=left]缺省的块复制数量[/align]

[align=left]30[/align]

[align=left]dfs.replication.max [/align]

[align=left]512 [/align]

[align=left]块复制的最大数量[/align]

[align=left]31[/align]

[align=left]dfs.replication.min [/align]

[align=left]1 [/align]

[align=left]块复制的最小数量[/align]

[align=left]32[/align]

[align=left]dfs.block.size [/align]

[align=left]67108864 [/align]

[align=left]缺省的文件块大小为64M[/align]

[align=left]33[/align]

[align=left]dfs.df.interval [/align]

[align=left]60000 [/align]

[align=left]磁盘空间统计间隔为6秒[/align]

[align=left]34[/align]

[align=left]dfs.client.block.write.retries [/align]

[align=left]3 [/align]

[align=left]块写入出错时的重试次数[/align]

[align=left]35[/align]

[align=left]dfs.blockreport.intervalMsec [/align]

[align=left]3600000 [/align]

[align=left]块的报告间隔时为1小时[/align]

[align=left]36[/align]

[align=left]dfs.blockreport.initialDelay [/align]

[align=left]0 [/align]

[align=left]块顺序报告的间隔时间[/align]

[align=left]37[/align]

[align=left]dfs.heartbeat.interval [/align]

[align=left]3 [/align]

[align=left]数据节点的心跳检测间隔时间[/align]

[align=left]38[/align]

[align=left]dfs.namenode.handler.count [/align]

[align=left]10 [/align]

[align=left]名称节点的连接处理的线程数量[/align]

[align=left]39[/align]

[align=left]dfs.safemode.threshold.pct [/align]

[align=left]0.999f [/align]

[align=left]启动安全模式的阀值设定[/align]

[align=left]40[/align]

[align=left]dfs.safemode.extension [/align]

[align=left]30000 [/align]

[align=left]当阀值达到量值后扩展的时限[/align]

[align=left]41[/align]

[align=left]dfs.balance.bandwidthPerSec [/align]

[align=left]1048576 [/align]

[align=left]启动负载均衡的数据节点可利用带宽最大值为1M[/align]

[align=left]42[/align]

[align=left]dfs.hosts [/align]

[align=left]可与名称节点连接的主机地址文件指定。[/align]

[align=left]43[/align]

[align=left]dfs.hosts.exclude [/align]

[align=left]不充计与名称节点连接的主机地址文件设定[/align]

[align=left]44[/align]

[align=left]dfs.max.objects [/align]

[align=left]0[/align]

[align=left]文件数、目录数、块数的最大数量[/align]

[align=left]45[/align]

[align=left]dfs.namenode.decommission.interval[/align]

[align=left]30[/align]

[align=left]名称节点解除命令执行时的监测时间周期[/align]

[align=left]46[/align]

[align=left]dfs.namenode.decommission.nodes.per.interval[/align]

[align=left]5 [/align]

[align=left]名称节点解除命令执行是否完检测次数[/align]

[align=left]47[/align]

[align=left]dfs.replication.interval [/align]

[align=left]3 [/align]

[align=left]名称节点计算数据节点的复制工作的周期数.[/align]

[align=left]48[/align]

[align=left]dfs.access.time.precision [/align]

[align=left]3600000[/align]

[align=left]充许访问文件的时间精确到1小时[/align]

[align=left]49[/align]

[align=left]dfs.support.append [/align]

[align=left]false [/align]

[align=left]是否充许链接文件指定[/align]

[align=left]50[/align]

[align=left]dfs.namenode.delegation.key.update-interval[/align]

[align=left]86400000[/align]

[align=left]名称节点上的代理令牌的主key的更新间隔时间为24小时[/align]

[align=left]51[/align]

[align=left]dfs.namenode.delegation.token.max-lifetime[/align]

[align=left]604800000[/align]

[align=left]代理令牌的有效时间最大值为7天[/align]

[align=left]52[/align]

[align=left]dfs.namenode.delegation.token.renew-interval[/align]

[align=left]86400000[/align]

[align=left]代理令牌的更新时间为24小时[/align]

[align=left]53[/align]

[align=left]dfs.datanode.failed.volumes.tolerated [/align]

[align=left]0 [/align]

[align=left]决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点[/align]

3.3 mapred-default.html

[align=left]序号[/align]

[align=left]参数名[/align]

[align=left]参数值[/align]

[align=left]参数说明[/align]

[align=left]1[/align]

[align=left]hadoop.job.history.location[/align]

[align=left]作业跟踪管理器的静态历史文件的存放目录。[/align]

[align=left]2[/align]

[align=left]hadoop.job.history.user.location[/align]

[align=left]可以指定具体某个作业的跟踪管理器的历史文件存放目录[/align]

[align=left]3[/align]

[align=left]mapred.job.tracker.history.completed.location[/align]

[align=left]已完成作业的历史文件的存放目录[/align]

[align=left]4[/align]

[align=left]io.sort.factor[/align]

[align=left]10 [/align]

[align=left]排完序的文件的合并时的打开文件句柄数[/align]

[align=left]5[/align]

[align=left]io.sort.mb[/align]

[align=left]100 [/align]

[align=left]排序文件的内存缓存大小为100M[/align]

[align=left]6[/align]

[align=left]io.sort.record.percent[/align]

[align=left]0.05 [/align]

[align=left]排序线程阻塞的内存缓存剩余比率[/align]

[align=left]7[/align]

[align=left]io.sort.spill.percent[/align]

[align=left]0.80 [/align]

[align=left]当缓冲占用量为该值时,线程需要将内容先备份到磁盘中。[/align]

[align=left]8[/align]

[align=left]io.map.index.skip[/align]

[align=left]0 [/align]

[align=left]索引条目的间隔设定[/align]

[align=left]9[/align]

[align=left]mapred.job.tracker[/align]

[align=left]local [/align]

[align=left]作业跟踪管理器是否和MR任务在一个进程中[/align]

[align=left]10[/align]

[align=left]mapred.job.tracker.http.address[/align]

[align=left]0.0.0.0:50030[/align]

[align=left]作业跟踪管理器的HTTP服务器访问端口和地址[/align]

[align=left]11[/align]

[align=left]mapred.job.tracker.handler.count [/align]

[align=left]10 [/align]

[align=left]作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04[/align]

[align=left]12[/align]

[align=left]mapred.task.tracker.report.address [/align]

[align=left]127.0.0.1:0[/align]

[align=left]任务管理跟踪器的主机地址和端口地址[/align]

[align=left]13[/align]

[align=left]mapred.local.dir [/align]

[align=left]${hadoop.tmp.dir}/mapred/local[/align]

[align=left]MR的中介数据文件存放目录[/align]

[align=left]14[/align]

[align=left]mapred.system.dir [/align]

[align=left]${hadoop.tmp.dir}/mapred/system[/align]

[align=left]MR的控制文件存放目录[/align]

[align=left]15[/align]

[align=left]mapreduce.jobtracker.staging.root.dir [/align]

[align=left]${hadoop.tmp.dir}/mapred/staging[/align]

[align=left]每个正在运行作业文件的存放区[/align]

[align=left]16[/align]

[align=left]mapred.temp.dir [/align]

[align=left]${hadoop.tmp.dir}/mapred/temp [/align]

[align=left]MR临时共享文件存放区 [/align]

[align=left]17[/align]

[align=left]mapred.local.dir.minspacestart [/align]

[align=left]0 [/align]

[align=left]MR本地中介文件删除时,不充许有任务执行的数量值。[/align]

[align=left]18[/align]

[align=left]mapred.local.dir.minspacekill [/align]

[align=left]0 [/align]

[align=left]MR本地中介文件删除时,除非所有任务都已完成的数量值。[/align]

[align=left]19[/align]

[align=left]mapred.tasktracker.expiry.interval [/align]

[align=left]600000 [/align]

[align=left]任务管理跟踪器不发送心跳的累计时间间隔超过600秒,则任务管理跟踪器失效[/align]

[align=left]20[/align]

[align=left]mapred.tasktracker.resourcecalculatorplugin[/align]

[align=left]指定的一个用户访问资源信息的类实例[/align]

[align=left]21[/align]

[align=left]mapred.tasktracker.taskmemorymanager.monitoring-interval[/align]

[align=left]5000 [/align]

[align=left]监控任务管理跟踪器任务内存使用率的时间间隔[/align]

[align=left]22[/align]

[align=left]mapred.tasktracker.tasks.sleeptime-before-sigkill [/align]

[align=left]5000 [/align]

[align=left]发出进程终止后,间隔5秒后发出进程消亡信号[/align]

[align=left]23[/align]

[align=left]mapred.map.tasks [/align]

[align=left]2 [/align]

[align=left]每个作业缺省的map任务数为2[/align]

[align=left]24[/align]

[align=left]mapred.reduce.tasks [/align]

[align=left]1 [/align]

[align=left]每个作业缺省的reduce任务数为1[/align]

[align=left]25[/align]

[align=left]mapreduce.tasktracker.outofband.heartbeat [/align]

[align=left]false [/align]

[align=left]让在任务结束后发出一个额外的心跳信号[/align]

[align=left]26[/align]

[align=left]mapreduce.tasktracker.outofband.heartbeat.damper [/align]

[align=left]1000000[/align]

[align=left]当额外心跳信号发出量太多时,则适当阻止[/align]

[align=left]27[/align]

[align=left]mapred.jobtracker.restart.recover [/align]

[align=left]false [/align]

[align=left]充许任务管理器恢复时采用的方式[/align]

[align=left]28[/align]

[align=left]mapred.jobtracker.job.history.block.size [/align]

[align=left]3145728[/align]

[align=left]作业历史文件块的大小为3M[/align]

[align=left]29[/align]

[align=left]mapreduce.job.split.metainfo.maxsize [/align]

[align=left]10000000[/align]

[align=left]分隔元信息文件的最大值是10M以下[/align]

[align=left]30[/align]

[align=left]mapred.jobtracker.taskScheduler [/align]

[align=left]org.apache.hadoop.mapred.JobQueueTaskScheduler[/align]

[align=left]设定任务的执行计划实现类[/align]

[align=left]31[/align]

[align=left]mapred.jobtracker.taskScheduler.maxRunningTasksPerJob[/align]

[align=left]作业同时运行的任务数的最大值[/align]

[align=left]32[/align]

[align=left]mapred.map.max.attempts [/align]

[align=left]4 [/align]

[align=left]Map任务的重试次数[/align]

[align=left]33[/align]

[align=left]mapred.reduce.max.attempts [/align]

[align=left]4 [/align]

[align=left]Reduce任务的重试次数[/align]

[align=left]34[/align]

[align=left]mapred.reduce.parallel.copies [/align]

[align=left]5 [/align]

[align=left]在复制阶段时reduce并行传送的值。[/align]

[align=left]35[/align]

[align=left]mapreduce.reduce.shuffle.maxfetchfailures [/align]

[align=left]10 [/align]

[align=left]取map输出的最大重试次数[/align]

[align=left]36[/align]

[align=left]mapreduce.reduce.shuffle.connect.timeout [/align]

[align=left]180000[/align]

[align=left]REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟 [/align]

[align=left]37[/align]

[align=left]mapreduce.reduce.shuffle.read.timeout [/align]

[align=left]180000[/align]

[align=left]REDUCE任务等待map输出数据的总耗时是3分钟[/align]

[align=left]38[/align]

[align=left]mapred.task.timeout [/align]

[align=left]600000[/align]

[align=left]如果任务无读无写时的时间耗时为10分钟,将被终止[/align]

[align=left]39[/align]

[align=left]mapred.tasktracker.map.tasks.maximum [/align]

[align=left]2 [/align]

[align=left]任管管理器可同时运行map任务数为2[/align]

[align=left]40[/align]

[align=left]mapred.tasktracker.reduce.tasks.maximum [/align]

[align=left]2 [/align]

[align=left]任管管理器可同时运行reduce任务数为2[/align]

[align=left]41[/align]

[align=left]mapred.jobtracker.completeuserjobs.maximum[/align]

[align=left]100 [/align]

[align=left]当用户的完成作业数达100个后,将其放入作业历史文件中[/align]

[align=left]42[/align]

[align=left]mapreduce.reduce.input.limit [/align]

[align=left]-1 [/align]

[align=left]Reduce输入量的限制。[/align]

[align=left]43[/align]

[align=left]mapred.job.tracker.retiredjobs.cache.size [/align]

[align=left]1000 [/align]

[align=left]作业状态为已不在执行的保留在内存中的量为1000[/align]

[align=left]44[/align]

[align=left]mapred.job.tracker.jobhistory.lru.cache.size[/align]

[align=left]5 [/align]

[align=left]作业历史文件装载到内存的数量[/align]

[align=left]45[/align]

[align=left]mapred.child.java.opts [/align]

[align=left]-Xmx200m[/align]

[align=left]启动task管理的子进程时的内存设置[/align]

[align=left]46[/align]

[align=left]mapred.child.env [/align]

[align=left]子进程的参数设置[/align]

[align=left]47[/align]

[align=left]mapred.child.ulimit [/align]

[align=left]虚拟机所需内存的设定。[/align]

[align=left]48[/align]

[align=left]mapred.cluster.map.memory.mb [/align]

[align=left]-1 [/align]

[align=left]49[/align]

[align=left]mapred.cluster.reduce.memory.mb [/align]

[align=left]-1 [/align]

[align=left]50[/align]

[align=left]mapred.cluster.max.map.memory.mb [/align]

[align=left]-1 [/align]

[align=left]51[/align]

[align=left]mapred.cluster.max.reduce.memory.mb [/align]

[align=left]-1 [/align]

[align=left]52[/align]

[align=left]mapred.job.map.memory.mb [/align]

[align=left]-1 [/align]

[align=left]53[/align]

[align=left]mapred.job.reduce.memory.mb [/align]

[align=left]-1 [/align]

[align=left]54[/align]

[align=left]mapred.child.tmp [/align]

[align=left]/tmp [/align]

[align=left]Mr任务信息的存放目录[/align]

[align=left]55[/align]

[align=left]mapred.inmem.merge.threshold [/align]

[align=left]1000 [/align]

[align=left]内存中的合并文件数设置[/align]

[align=left]56[/align]

[align=left]mapred.job.shuffle.merge.percent [/align]

[align=left]0.66 [/align]

[align=left]57[/align]

[align=left]mapred.job.shuffle.input.buffer.percent [/align]

[align=left]0.70 [/align]

[align=left]58[/align]

[align=left]mapred.job.reduce.input.buffer.percent [/align]

[align=left]0.0 [/align]

[align=left]59[/align]

[align=left]mapred.map.tasks.speculative.execution [/align]

[align=left]true [/align]

[align=left]Map任务的多实例并行运行标识[/align]

[align=left]60[/align]

[align=left]mapred.reduce.tasks.speculative.execution [/align]

[align=left]true [/align]

[align=left]Reduce任务的多实例并行运行标识[/align]

[align=left]61[/align]

[align=left]mapred.job.reuse.jvm.num.tasks[/align]

[align=left]1 [/align]

[align=left]每虚拟机运行的任务数[/align]

[align=left]62[/align]

[align=left]mapred.min.split.size[/align]

[align=left]0 [/align]

[align=left]Map的输入数据被分解的块数设置[/align]

[align=left]63[/align]

[align=left]mapred.jobtracker.maxtasks.per.job[/align]

[align=left]-1 [/align]

[align=left]一个单独作业的任务数设置[/align]

[align=left]64[/align]

[align=left]mapred.submit.replication[/align]

[align=left]10 [/align]

[align=left]提交作业文件的复制级别[/align]

[align=left]65[/align]

[align=left]mapred.tasktracker.dns.interface[/align]

[align=left]default [/align]

[align=left]任务管理跟踪器是否报告IP地址名的开关[/align]

[align=left]66[/align]

[align=left]mapred.tasktracker.dns.nameserver[/align]

[align=left]default [/align]

[align=left]作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址[/align]

[align=left]67[/align]

[align=left]tasktracker.http.threads[/align]

[align=left]40 [/align]

[align=left]http服务器的工作线程数量[/align]

[align=left]68[/align]

[align=left]mapred.task.tracker.http.address[/align]

[align=left]0.0.0.0:50060[/align]

[align=left]任务管理跟踪器的http服务器的地址和端口[/align]

[align=left]69[/align]

[align=left]keep.failed.task.files[/align]

[align=left]false [/align]

[align=left]失败任务是否保存到文件中[/align]

[align=left]70[/align]

[align=left]mapred.output.compress[/align]

[align=left]false [/align]

[align=left]作业的输出是否压缩[/align]

[align=left]71[/align]

[align=left]mapred.output.compression.type[/align]

[align=left]RECORD [/align]

[align=left]作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件[/align]

[align=left]72[/align]

[align=left]mapred.output.compression.codec[/align]

[align=left]org.apache.hadoop.io.compress.DefaultCodec[/align]

[align=left]压缩类的设置[/align]

[align=left]73[/align]

[align=left]mapred.compress.map.output[/align]

[align=left]false [/align]

[align=left]Map的输出是否压缩[/align]

[align=left]74[/align]

[align=left]mapred.map.output.compression.codec[/align]

[align=left]org.apache.hadoop.io.compress.DefaultCodec[/align]

[align=left]Map的输出压缩的实现类指定[/align]

[align=left]75[/align]

[align=left]map.sort.class[/align]

[align=left]org.apache.hadoop.util.QuickSort [/align]

[align=left]排序键的排序类指定[/align]

[align=left]76[/align]

[align=left]mapred.userlog.limit.kb[/align]

[align=left]0 [/align]

[align=left]每个任务的用户日志文件大小[/align]

[align=left]77[/align]

[align=left]mapred.userlog.retain.hours[/align]

[align=left]24 [/align]

[align=left]作业完成后的用户日志留存时间为24小时[/align]

[align=left]78[/align]

[align=left]mapred.user.jobconf.limit[/align]

[align=left]5242880 [/align]

[align=left]Jobconf的大小为5M[/align]

[align=left]79[/align]

[align=left]mapred.hosts[/align]

[align=left]可与作业管理跟踪器连接的主机名[/align]

[align=left]80[/align]

[align=left]mapred.hosts.exclude[/align]

[align=left]不可与作业管理跟踪器连接的主机名[/align]

[align=left]81[/align]

[align=left]mapred.heartbeats.in.second [/align]

[align=left]100 [/align]

[align=left]作业管理跟踪器的每秒中到达的心跳数量为100[/align]

[align=left]82[/align]

[align=left]mapred.max.tracker.blacklists [/align]

[align=left]4 [/align]

[align=left]任务管理跟踪器的黑名单列表的数量[/align]

[align=left]83[/align]

[align=left]mapred.jobtracker.blacklist.fault-timeout-window[/align]

[align=left]180 [/align]

[align=left]任务管理跟踪器超时180分钟则訪任务将被重启[/align]

[align=left]84[/align]

[align=left]mapred.jobtracker.blacklist.fault-bucket-width[/align]

[align=left]15 [/align]

[align=left]85[/align]

[align=left]mapred.max.tracker.failures [/align]

[align=left]4 [/align]

[align=left]任务管理跟踪器的失败任务数设定[/align]

[align=left]86[/align]

[align=left]jobclient.output.filter [/align]

[align=left]FAILED [/align]

[align=left]控制任务的用户日志输出到作业端时的过滤方式[/align]

[align=left]87[/align]

[align=left]mapred.job.tracker.persist.jobstatus.active [/align]

[align=left]false [/align]

[align=left]是否持久化作业管理跟踪器的信息[/align]

[align=left]88[/align]

[align=left]mapred.job.tracker.persist.jobstatus.hours [/align]

[align=left]0 [/align]

[align=left]持久化作业管理跟踪器的信息的保存时间[/align]

[align=left]89[/align]

[align=left]mapred.job.tracker.persist.jobstatus.dir [/align]

[align=left]/jobtracker/jobsInfo[/align]

[align=left]作业管理跟踪器的信息存放目录[/align]

[align=left]90[/align]

[align=left]mapreduce.job.complete.cancel.delegation.tokens[/align]

[align=left]true [/align]

[align=left]恢复时是否变更领牌 [/align]

[align=left]91[/align]

[align=left]mapred.task.profile [/align]

[align=left]false [/align]

[align=left]任务分析信息是否建设标志[/align]

[align=left]92[/align]

[align=left]mapred.task.profile.maps [/align]

[align=left]0-2 [/align]

[align=left]设置map任务的分析范围[/align]

[align=left]93[/align]

[align=left]mapred.task.profile.reduces [/align]

[align=left]0-2 [/align]

[align=left]设置reduce任务的分析范围[/align]

[align=left]94[/align]

[align=left]mapred.line.input.format.linespermap [/align]

[align=left]1 [/align]

[align=left]每次切分的行数设置[/align]

[align=left]95[/align]

[align=left]mapred.skip.attempts.to.start.skipping [/align]

[align=left]2 [/align]

[align=left]在跳转模式未被设定的情况下任务的重试次数 [/align]

[align=left]96[/align]

[align=left]mapred.skip.map.auto.incr.proc.count [/align]

[align=left]true [/align]

[align=left]MapRunner在调用map功能后的增量处理方式设置[/align]

[align=left]97[/align]

[align=left]mapred.skip.reduce.auto.incr.proc.count [/align]

[align=left]true [/align]

[align=left]在调用reduce功能后的增量处理方式设置[/align]

[align=left]98[/align]

[align=left]mapred.skip.out.dir [/align]

[align=left]跳过记录的输出目录[/align]

[align=left]99[/align]

[align=left]mapred.skip.map.max.skip.records [/align]

[align=left]0 [/align]

[align=left]100[/align]

[align=left]mapred.skip.reduce.max.skip.groups [/align]

[align=left]0 [/align]

[align=left]101[/align]

[align=left]job.end.retry.attempts [/align]

[align=left]0 [/align]

[align=left]Hadoop偿试连接通知器的次数 [/align]

[align=left]102[/align]

[align=left]job.end.retry.interval [/align]

[align=left]30000 [/align]

[align=left]通知偿试回应的间隔操作为30秒[/align]

[align=left]103[/align]

[align=left]hadoop.rpc.socket.factory.class.JobSubmissionProtocol[/align]

[align=left]指定与作业跟踪管理器的通讯方式,缺省是采用rpc方式[/align]

[align=left]104[/align]

[align=left]mapred.task.cache.levels [/align]

[align=left]2 [/align]

[align=left]任务缓存级别设置[/align]

[align=left]105[/align]

[align=left]mapred.queue.names [/align]

[align=left]default[/align]

[align=left]分隔作业队例的分隔符设定[/align]

[align=left]106[/align]

[align=left]mapred.acls.enabled [/align]

[align=left]false[/align]

[align=left]指定ACL访问控制列表[/align]

[align=left]107[/align]

[align=left]mapred.queue.default.state [/align]

[align=left]RUNNING[/align]

[align=left]定义队列的状态[/align]

[align=left]108[/align]

[align=left]mapred.job.queue.name [/align]

[align=left]default[/align]

[align=left]已提交作业的队列设定[/align]

[align=left]109[/align]

[align=left]mapreduce.job.acl-modify-job [/align]

[align=left]指定可修改作业的ACL列表[/align]

[align=left]110[/align]

[align=left]mapreduce.job.acl-view-job [/align]

[align=left]指定可浏临作业的ACL列表[/align]

[align=left]111[/align]

[align=left]mapred.tasktracker.indexcache.mb [/align]

[align=left]10 [/align]

[align=left]任务管理跟踪器的索引内存的最大容器[/align]

[align=left]112[/align]

[align=left]mapred.combine.recordsBeforeProgress [/align]

[align=left]10000[/align]

[align=left]在聚合处理时的记录块数[/align]

[align=left]113[/align]

[align=left]mapred.merge.recordsBeforeProgress [/align]

[align=left]10000[/align]

[align=left]在汇总处理时的记录块数[/align]

[align=left]114[/align]

[align=left]mapred.reduce.slowstart.completed.maps [/align]

[align=left]0.05 [/align]

[align=left]115[/align]

[align=left]mapred.task.tracker.task-controller [/align]

[align=left]org.apache.hadoop.mapred.DefaultTaskController[/align]

[align=left]任务管理器的设定[/align]

[align=left]116[/align]

[align=left]mapreduce.tasktracker.group [/align]

[align=left]任务管理器的组成员设定[/align]

[align=left]117[/align]

[align=left]mapred.healthChecker.script.path [/align]

[align=left]脚本的绝对路径指定,这些脚本是心跳服务的[/align]

[align=left]118[/align]

[align=left]mapred.healthChecker.interval [/align]

[align=left]60000 [/align]

[align=left]节点心跳信息的间隔[/align]

[align=left]119[/align]

[align=left]mapred.healthChecker.script.timeout [/align]

[align=left]600000 [/align]

[align=left]120[/align]

[align=left]mapred.healthChecker.script.args [/align]

[align=left]参数列表[/align]

[align=left]121[/align]

[align=left]mapreduce.job.counters.limit [/align]

[align=left]120 [/align]

[align=left]作业计数器的最小值[/align]

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: