您的位置:首页 > 运维架构

如何通过Zabbix获取监控数据?

2014-12-12 17:41 831 查看
##################################

zabbix基本架构

##################################

1.Server

zabbix系统核心进程,轮询并捕获数据、发送通知等。是zabbix agent和zabbix proxy汇报数据的对象。server自身可远程检测网络服务。所有的前后端配置、统计信息、可操作数据存储于此。包含server、前段界面和后端DB几部分。

2.Agent

部署在被监控主机上用于监控本地资源和应用并向zabbix server汇报结果。使用本地系统调用故非常高效。有主动和被动两种检测模式。被动模式下agent根据server或proxy的具体请求来返回数据。主动模式下先主动由server获取监控项列表在检测并返回新的数据。采用主动或被动检测取决于相应监控项的配置。

3.Proxy

可以自由选择部署或者不部署,主要用于分担server的负载。在集中化监控远程位置、分支、网络的场景中是很好的解决方案。可从被监控设备收集数据缓存在proxy本地后传递给其所属的zabbix server。proxy需要单独的数据库。

4.Java gateway

java实现的守护进程用于监控JMX类型的应用程序。

5.Sender

命令行工具zabbix_sender,用于向zabbix server发送性能数据和可用性数据。多用于用户脚本定期向server发送数据。

如:

shell> cd bin

shell> ./zabbix_sender -z zabbix -s "Linux DB3" -k db.connections -o 43

6.Get

命令行工具zabbix_get,用于同agent通信从agent获取数据。可用于zabbix agents的troubleshooting。

如:

shell> cd bin

shell> ./zabbix_get -s 127.0.0.1 -p 10050 -k "system.cpu.load[all,avg1]"

####################################

#zabbix术语表

####################################

host

需要被监控的设备,如交换机、路由器、WEB服务器、DB服务器等

host group

被监控设备的逻辑分组,如DB服务器一组、WEB服务器一组等。可包含主机和模板。用于权限控制

item

需要被监控的项,如CPU空闲率、某一块磁盘的使用率等

trigger

用于评估收到的监控值是否超出设定的阈值的逻辑表达式

event

如trigger状态改变等值得注意的事件

action

预先定义的响应event的一系列operations

escalation

执行action中的operations的定制场景;一连串的发送通知、执行远程命令

media

传递notification的方式

notification

通过media发送给用户的关于某个event的消息

remote command

在被监控机器上触发并自动执行的预定义命令

template

用于简化和加速主机上大规模监控任务的部署。包含一系列项目,如items, triggers, graphs, screens, applications, low-level discovery rules

application

逻辑组中的一组items

web scenario

一个或多个HTTP request用以检查web站点可用性

frontend

zabbix的web界面

zabbix api

允许通过JSON RPC 协议创建、更新和获取zabbix对象如,hosts, items, graphs and others。或者执行其他任务

zabbix server

zabbix核心,履行监控,与zabbix proxies、zabbix client交互、计算trigger、发送notification、存储数据等任务

zabbix agent

部署在被监控主机上用于监控本地资源和应用

zabbix proxy

可代zabbix server收集数据分担处理负载

######################################

#zabbix配置

######################################

可通过WEB界面或者模板进行配置

需配置内容包括users、user groups、hosts、host groups、items、Triggers、Events、notification、templates、visualisation等。

最终配置会被存储在后端database中。

参考:
https://www.zabbix.com/documentation/2.4/manual/config
#####################################

zabbix取数方式

####################################

1.zabbix api

基于WEB的API,通过JSON PRC协议获取或更改zabbix配置,并可用于获取历史监控数据。clients和API间的request和response使用JSON格式。包含一系列可从功能上分为不同组别的方法。

发起HTTP请求的格式类似如下:

POST http://company.com/zabbix/api_jsonrpc.php HTTP/1.1

Content-Type: application/json-rpc

{"jsonrpc":"2.0","method":"apiinfo.version","id":1,"auth":null,"params":{}}

其中http://company.com/zabbix/是zabbix前端的地址;Content-Type必须指明且为application/json-rpc, application/json or application/jsonrequest三者之一。{"jsonrpc":"2.0","method":"apiinfo.version","id":1,"auth":null,"params":{}}是请求的具体内容。

一些实例:

*登录认证

{

"jsonrpc": "2.0",

"method": "user.login",

"params": {

"user": "Admin",

"password": "zabbix"

},

"id": 1,

"auth": null

}

其中:

jsonrpc:指明JSON-RPC协议版本,这里是2.0版本

method:指明调用的API方法,这里是用户登录

params:需要传递给API method的参数,这里是用户名和密码

id:本次请求的标识符

auth:用户认证令牌,目前尚无所以为null

若参数无误response将会包含用户认证令牌,如:

{

"jsonrpc": "2.0",

"result": "0424bd59b807674191e7d77572075f33",

"id": 1

}

*获取hosts信息

{

"jsonrpc": "2.0",

"method": "host.get",

"params": {

"output": [

"hostid",

"host"

],

"selectInterfaces": [

"interfaceid",

"ip"

]

},

"id": 2,

"auth": "0424bd59b807674191e7d77572075f33"

}

本例使用可用的用户认证令牌通过host.get方法获取所配置的主机的ID 、name等信息,返回如下

{

"jsonrpc": "2.0",

"result": [

{

"hostid": "10084",

"host": "Zabbix server",

"interfaces": [

{

"interfaceid": "1",

"ip": "127.0.0.1"

}

]

}

],

"id": 2

}

为了考虑性能影响、尽量仅列出所需项而非返回所有数据

*创建新监控项

例如在上一步获取的host上建立新的监控项、监控/home/joe/目录的剩余空间

{

"jsonrpc": "2.0",

"method": "item.create",

"params": {

"name": "Free disk space on $1",

"key_": "vfs.fs.size[/home/joe/,free]",

"hostid": "10084",

"type": 0,

"value_type": 3,

"interfaceid": "1",

"delay": 30

},

"auth": "0424bd59b807674191e7d77572075f33",

"id": 3

}

其中params参数中的几个关键参数含义如下:

name:监控项的名称,这个可以自己灵活定义,其中的$1代表key_中的第一个参数,此处为/home/joe/

key_:预定义的监控项,zabbix提供了一系列此类监控内容,此处需从其中进行选择。

hostid:即上步获得的hostid

value_type:监控数据值的类型,不同的数字代表不同的类型,此处的3代表整型

delay:zabbix取数时间间隔,此处为30秒取一次

返回结果如下:

{

"jsonrpc": "2.0",

"result": {

"itemids": [

"24759"

]

},

"id": 3

}

itemid为生成的监控项的id

*获取历史数据:

从历史记录表获取itemids为23296的按clock降序排列的十条记录

history参数可能的取值

0 - float;

1 - string;

2 - log;

3 - integer;

4 - text.

{

"jsonrpc": "2.0",

"method": "history.get",

"params": {

"output": "extend",

"history": 0,

"itemids": "23296",

"sortfield": "clock",

"sortorder": "DESC",

"limit": 10

},

"auth": "038e1d7b1735c6a5436ee9eae095879e",

"id": 1

}

返回结果:

{

"jsonrpc": "2.0",

"result": [

{

"itemid": "23296",

"clock": "1351090996",

"value": "0.0850",

"ns": "563157632"

},

{

"itemid": "23296",

"clock": "1351090936",

"value": "0.1600",

"ns": "549216402"

},

...]

}

*错误处理

下例忘记了groups这个参数

{

"jsonrpc": "2.0",

"method": "host.create",

"params": {

"host": "Linux server",

"interfaces": [

{

"type": 1,

"main": 1,

"useip": 1,

"ip": "192.168.3.1",

"dns": "",

"port": "10050"

}

]

},

"id": 3,

"auth": "0424bd59b807674191e7d77572075f33"

}

返回结果如下,包含的不是result属性而是error属性

{

"jsonrpc": "2.0",

"error": {

"code": -32602,

"message": "Invalid params.",

"data": "No groups for host \"Linux server\"."

},

"id": 3

}

对于获取监控数据来说,比较关心的应该是history.get这个方法。这种方式实际上最终还是由后台数据库获取的。方法提供了丰富的参数,使用非常灵活。但对于一次性大规模的取出大量主机大量监控项的大批数据不太适合。

参考:
https://www.zabbix.com/documentation/2.4/manual/api
2.zabbix_get:

命令行工具,可从远程的zabbix agent获取数据

zabbix_get [-hV] [-s <host name or IP>] [-p <port number>] [-I <IP address>] [-k <item key>]

-s, --host <host name or IP>

-p, --port <port number>

-I, --source-address <IP address>

-k, --key <item key>

-h, --help

-V, --version.

如:zabbix_get -s 127.0.0.1 -p 10050 -k system.cpu.load[all,avg1]

zabbix api获取到的是数据库中的历史数据,zabbix_get可获得实时的数据。可根据工具的特点选择适合的场景。

参考:
https://www.zabbix.com/documentation/2.4/manpages/zabbix_get
3.zabbix databases:

直接由zabbix后台数据库获取历史数据。适用于一次性大规模的取出大量主机大量监控项的大批数据。

*相关表

history系列表分别存储不同数据类型的历史数据

表中数据以update interval为时间间隔

zabbix.history -numeric(float)

zabbix.history_log -log

zabbix.history_str -character(up to 255 bytes)

zabbix.history_text -text

zabbix.history_unit -numeric(unsigned intergers)

trends_系列表存储不同类型的历史数据统计结果

表中数据以小时为时间间隔,存储每小时的最小、最大和平均值

zabbix.trends -numeric(float)

zabbix.trends_unit -numeric(unsigned intergers)

character\log\text\类型无历史统计结果

history系列的表只包含itemid、clock、value等数据

trends系列的表只包含itemid、clock、value_min、value_avg、value_max等数据

history、trends需与items、hosts、hosts_groups、groups表关联来获取item名称、host名称、组别等。

*表及重要的表字段

hosts

hosts.hostid 主机id

hosts.host 主机名

hosts.status 主机状态 0为正常监控,1为关闭,3表示是个Template,5尚不不清楚。

hosts_group

hosts_group.hostid 主机id

hosts_group.groupid 所属组id

groups

groups.groupid 组id

groups.name 组名

items

items.itemid 监控项id

items.hostid 监控项所在主机id

items.name 监控项别名

items.key_ 监控项标准名称

items.value_type值类型

items.delay 取数时间间隔

items.history 历史表数据保留天数

items.trends 历史统计表数据保留天数

item.units 数据单位

items表中value_type与history的对应关系

(主要为了存取效率将不同值类型存在不同的history表中)

value_type history表

0 history

1 history_str

2 history_log

3 history_uint

4 history_text

history

hisrtory.itemid 监控项id

trends

trends.itemid 监控项id

zabbix后台系统的涉及到大量的表,取历史数据的话关心这几个即可

*监控项规则解读

zabbix.items表中存在类似于如下的配置项(如网络网卡监控、磁盘监控等):

name key_

Free disk space on $1 vfs.fs.size[/,free]

Free disk space on / (percentage) vfs.fs.size[/,pfree]

Free disk space on $1 vfs.fs.size[/boot,free]

Free disk space on /boot (percentage) vfs.fs.size[/boot,pfree]

Free disk space on $1 vfs.fs.size[/data,free]

Free disk space on /data (percentage) vfs.fs.size[/data,pfree]

Free disk space on $1 vfs.fs.size[{#FSNAME},free]

Free disk space on {#FSNAME} (percentage) vfs.fs.size[{#FSNAME},pfree]

其中类似于如下的配置是zabbix提供的low level discovery配置方式,用于自动创建监控项适用于有多块磁盘、多个目录、多块网卡等类型情形下监控项的自动发现

可以把{#FSNAME}看做是模板可以匹配配置好的所有的相关项比如:

Free disk space on {#FSNAME} (percentage) vfs.fs.size[{#FSNAME},pfree]

Free disk space on /data (percentage) vfs.fs.size[/data,pfree]

Free disk space on /boot (percentage) vfs.fs.size[/boot,pfree]

Free disk space on / (percentage) vfs.fs.size[/,pfree]

类似的还有:

Incoming network traffic on $1 net.if.in[{#IFNAME}]

Outgoing network traffic on $1 net.if.out[{#IFNAME}]

IO.util.{#DISK_NAME} IO.util[{#DISK_NAME}]

等等

而上边例子中的$1、$2等对应key_的参数位置,例如

Free disk space on $1 vfs.fs.size[/,free]

中$1就代表/ ,Free disk space on $1相当于Free disk space on /依次类推
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: