zabbix value map导致报警失效问题一例 推荐
2014-03-12 22:15
253 查看
今天一台线上的datanode挂了,但是没有zabbix agent unreachable的报警,不过幸好有host update percent的报警。看了下item和trigger的设置,item是zabbix内置的agent.ping,trigger设置是nodata(5m)=1,即5分钟获取不到agent.ping的值就会报警。。 由于zabbix server log翻转的比较快,同时日志大小设置的为1g,所以出问题时候的日志没办法看了。。只能从数据库开始入手了。查看triggers表,可以看到value确实是1,functions表中的functin+parameter也是nodata+1m,证明是可以正确触发报警的。
查看alerts表中相关时间段的记录,可以看到确实有相关的记录,由于是用了zabbix 执行command的方式来实现报警,可以看到在message字段中存储的是当时报警是执行脚本的信息:
再来看zabbix的doc中关于map value的描述,其实是为了返回更易理解的值:For a more “human” representation of received values, you can use value maps that contain the mapping between numeric values and string representations. rc找到了,把show value改成as is就ok了。小结:1.日志+数据库是解决zabbix问题的利器。2.有时候需要设置多种报警方式,比如在这个例子中,由于有zabbix host update percent的报警,发现了这个问题。
select triggerid,expression,description,value,from_unixtime(lastchange ,'%Y%m%d %H:%i:%S') from triggers where triggerid='6347'; +-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+ | triggerid | expression | description | value | from_unixtime(lastchange ,'%Y%m%d %H:%i:%S') | +-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+ | 6347 | {10832}=1 | Zabbix agent on {HOST.NAME} is unreachable for1 minutes | 1 | 20140312 11:47:31 | +-----------+------------+----------------------------------------------------------+-------+----------------------------------------------+ select * from functions where itemid='27731'; +------------+--------+-----------+----------+-----------+ | functionid | itemid | triggerid | function | parameter | +------------+--------+-----------+----------+-----------+ | 10832 | 27731 | 6347 | nodata | 1m | +------------+--------+-----------+----------+-----------+
查看alerts表中相关时间段的记录,可以看到确实有相关的记录,由于是用了zabbix 执行command的方式来实现报警,可以看到在message字段中存储的是当时报警是执行脚本的信息:
select alertid,actionid,eventid,from_unixtime(clock,'%Y%m%d %H:%i:%S'),message from alerts where message like 'hostname%'; | 468566 | 5 | 3256580 | 20140312 09:04:02 | hostname:/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip 23500 "Agent ping" hostname agent.ping Up (1) PROBLEM | | 468567 | 5 | 3256580 | 20140312 09:06:03 | hostname:/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip 23500 "Agent ping" hostname agent.ping Up (1) PROBLEM手动执行脚本,报错:
/apps/svr/zabbix_server/scripts/zabbix_exec_command.py ip 27731 "Agent ping" hostname agent.ping Up (1) PROBLEM -bash: syntax error near unexpected token `('脚本输入参数的顺序:ip,itemid,itemname,hostname,itemkey,itemvalue,triggerstatus,出问题的时itemvalue字段,因为没有用引号,导致脚本运行出错,fix下脚本就可以了。。。不过,rc还没有找到,这个Up (1) 是怎么来的呢?一般情况下数字型的item产生的itemvalue不会有这种值啊?为了验证这个问题,手动stop掉一台机器zabbix_agentd进程,并查看zabbix server端的log:发现在存储agent.ping类的item的值时,有如下操作,把1变成了UP(1)。
5009:20140312:113302.211 In zbx_format_value() 5009:20140312:113302.211 In replace_value_by_map() value:'1' valuemapid:10 5009:20140312:113302.211 query [txnlev:1] [select newvalue from mappings where valuemapid=10 and value='1'] 5009:20140312:113302.211 End of replace_value_by_map() value:'Up (1)'[align=justify]说明还是和item的设置有关,再来看agent.ping的设置,在show value设置中,可以看到并不是as is,而是设置的zabbix agent ping status,这里面就是1->up的map:[/align]
再来看zabbix的doc中关于map value的描述,其实是为了返回更易理解的值:For a more “human” representation of received values, you can use value maps that contain the mapping between numeric values and string representations. rc找到了,把show value改成as is就ok了。小结:1.日志+数据库是解决zabbix问题的利器。2.有时候需要设置多种报警方式,比如在这个例子中,由于有zabbix host update percent的报警,发现了这个问题。
相关文章推荐
- zabbix value type导致的断图一例 推荐
- puppet recurse 导致的性能问题一例 推荐
- sudo bug导致的zabbix断图问题 推荐
- 网页重定向导致防火墙NAT失效问题 推荐
- resin access log导致的锁问题一例 推荐
- zabbix 拓扑问题map image update failed
- zabbix监控不报警的问题检查,添加zabbix分区表
- Zabbix微信企业订阅号报警设置 推荐
- HTML的input类型为hidden导致无法reset改字段的value问题
- yum安装net-snmp引发的libssl.so.10失效导致yum不可用问题
- Apache 关于 mod_rewrite 遇到 %2F或%5C (正反斜杠)等特殊符号导致URL重写失效出现404的问题
- std::map中迭代器失效的问题
- 修改Map中确定key对应的value问题
- map和vector的迭代器失效问题(某公司招聘笔试试题)
- 开发人员异地git clone 导致阿里云报警情况分析 推荐
- Hadoop on Mac with IntelliJ IDEA - 9 解决Type mismatch in value from map问题
- XAF-由于try catch导致的性能问题一例
- Winsock2损坏导致计算机不能加入域问题的解决 推荐
- servlet跳转页面导致css,js等失效的问题
- zabbix监控不报警的问题检查,添加zabbix分区表