yarn空队列crash bug
2015-01-11 21:28
253 查看
最近线上的rm crash了一次,查看日志,发现有如下报错:
bug id:https://issues.apache.org/jira/browse/YARN-2863
可以通过如下命令重现:
https://issues.apache.org/jira/browse/YARN-1213
增加一个配置。在queue为空时会使用default的queue。
这个bug在cdh5.2.0已经fix
在5.2.0的yarn中增加了下面两个如下配置
2015-01-05 18:00:11,523 ERROR org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler: Request for appInfo of unknown attemptappattempt_1418702129929_2281200_000001 2015-01-05 18:00:11,524 ERROR org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler: Request for appInfo of unknown attemptappattempt_1418702129929_2281200_000001 2015-01-05 18:00:11,526 ERROR org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler: Request for appInfo of unknown attemptappattempt_1418702129929_2281200_000001 2015-01-05 18:00:11,527 FATAL org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Error in handling event type APP_ADDED to the scheduler org.apache.hadoop.metrics2.MetricsException: Metrics source QueueMetrics,q0=root already exists! at org.apache.hadoop.metrics2.lib.DefaultMetricsSystem.newSourceName(DefaultMetricsSystem.java:126) at org.apache.hadoop.metrics2.lib.DefaultMetricsSystem.sourceName(DefaultMetricsSystem.java:107) at org.apache.hadoop.metrics2.impl.MetricsSystemImpl.register(MetricsSystemImpl.java:217) at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FSQueueMetrics.forQueue(FSQueueMetrics.java:94) at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FSQueue.<init>(FSQueue.java:61) at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FSLeafQueue.<init>(FSLeafQueue.java:59) at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.QueueManager.createLeafQueue(QueueManager.java:199) at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.QueueManager.getLeafQueue(QueueManager.java:144) at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.addApplication(FairScheduler.java:581) at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:998) at org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler.handle(FairScheduler.java:108) at org.apache.hadoop.yarn.server.resourcemanager.ResourceManager$SchedulerEventDispatcher$EventProcessor.run(ResourceManager.java:378) at java.lang.Thread.run(Thread.java:662)这其实是yarn的一个bug,在提交的job queue为空时会触发这个bug,导致rm抛出异常而退出,
bug id:https://issues.apache.org/jira/browse/YARN-2863
可以通过如下命令重现:
yarn jar hadoop-mapreduce-examples-2.0.0-cdh4.6.0.jar pi -Dmapreduce.job.queuename= 20 10在bug 描述中可以看到通过 设置yarn.scheduler.fair.allow-undeclared-pools为false是可以修复这个问题的,但是在cdh4.6.0中是没有这个配置的,可以通过
https://issues.apache.org/jira/browse/YARN-1213
增加一个配置。在queue为空时会使用default的queue。
这个bug在cdh5.2.0已经fix
在5.2.0的yarn中增加了下面两个如下配置
yarn.scheduler.fair.allow-undeclared-pools //是否允许有不存在的queue,默认为true yarn.scheduler.fair.user-as-default-queue //当queue不存在时,是否使用用户名来代替default,默认为true
相关文章推荐
- 四十六、利用yarn多队列实现hadoop资源隔离
- Spark-troubleshooting-YARN队列资源不足导致app失效
- 触发了MySQL一个bug导致进程不断crash重启
- 由“Beeline连接HiveServer2后如何使用指定的队列(Yarn)运行Hive SQL语句”引发的一系列思考
- IOS:必须了解的bug技巧,Crash查看
- Instance Crash & Bug 13846531
- 配置yarn调度器后,自动刷新集群队列
- yarn划分队列示例
- Indy10线程池BUG:Idyarn线程使用Synchronize导致TerminateAllYarns挂死的解决办法
- iOS 捕获Crash 发送Bug邮件
- memcached空指针内存错误与死循环问题分析(memcached dead loop and crash bug! issue #260 and issue #370)
- yarn RM crash问题一例 推荐
- troubleshooting之解决YARN队列资源不足导致的application直接失败
- 基于Yarn的一个项目总结之bug记录
- 混淆后的程序Monkey测试出现crash如何进行改Bug
- [bug小记]System.loadLibrary加载so库时报警告JNI_OnLoad returned bad version(-1)并且crash
- uva658 - It's not a Bug, it's a Feature! 状态压缩+隐式图搜索+优先队列的dijkstra
- 赫夫曼树(二),对生成的队列转化成赫夫曼树,并且设置编码。(这个程序有严重bug)
- vhost device still attached , ovs crash bug fix
- Hadoop 新特性、改进、优化和Bug分析系列5:YARN-3