您的位置:首页 > 运维架构 > Linux

linux系统cpu、内存、磁盘IO异常查询方式汇总

2017-04-27 11:47 519 查看
对linux系统中cpu、内存、磁盘IO异常定位的方式进行梳理总结如下:

1、先记录下基本的cpu信息查询方式:

# 总核数 = 物理CPU个数 X 每颗物理CPU的核数

# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数

# 查看物理CPU个数

cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l

# 查看每个物理CPU中core的个数(即核数)

cat /proc/cpuinfo| grep "cpu cores"| uniq

# 查看逻辑CPU的个数

cat /proc/cpuinfo| grep "processor"| wc -l

#查看CPU信息(型号)

cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c

2、cpu使用情况以及高使用率进程查询:

2.1、整体查看cpu的负载情况,load average数不要超过超过逻辑cpu的个数太高

uptime

 11:14:13 up 246 days,  6:00,  4 users,  load average: 0.07, 0.14, 0.09

2.2、vmstat查看cpu的us、sy、id、wa 使用情况 也可查询内存使用情况

vmstat 2 5

procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----

 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st

 0  0      0 597864  43364 1183452    0    0     6    27    1    0  1  2 97  0  0 

 0  0      0 597336  43376 1183476    0    0     0    76 2155 7076  2  3 87  8  0 

 0  0      0 597336  43376 1183476    0    0     0    84 2128 7223  2  2 97  0  0 

 0  0      0 594160  43384 1183804    0    0     0    44 2086 6940  4  3 94  0  0 

 0  0      0 595788  43392 1183932    0    0     0    28 2308 7650  1  3 91  5  0 

2.3、top 查询cpu的详细使用情况和占cpu较高的进程

 top

top - 11:15:37 up 246 days,  6:01,  4 users,  load average: 0.05, 0.12, 0.09

Tasks: 194 total,   1 running, 193 sleeping,   0 stopped,   0 zombie

Cpu(s):  1.4%us,  1.8%sy,  0.0%ni, 96.7%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st

Mem:   3786980k total,  3191104k used,   595876k free,    43280k buffers

Swap:  6291452k total,        0k used,  6291452k free,  1182756k cached

   PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND                                                                                                                                                                                                       

  2186 root      20   0  466m  39m 3808 S  5.9  1.1  16911:21 hekad                                                                                                                                                                                                          

     1 root      20   0 19356  804  496 S  0.0  0.0   0:03.77 init                                                                                                                                                                                                           

     2 root      20   0     0    0    0 S  0.0  0.0   0:00.13 kthreadd                                                                                                                                                                                                        

   通过此处可以找到使用cpu最高的进程pid。

3.4、top -Hp pid查看使用cpu最高的线程数,然后打印对应java进程的threaddump,找出对应线程的执行代码。需要将tid准换成16进制的线程号

3、查询内存使用

3.1、free -m查询内存使用情况

 total       used       free     shared    buffers     cached

Mem:          3698       3133        564          0         43       1170

-/+ buffers/cache:       1919       1779

Swap:         6143          0       6143

第一部分Mem行:

total 内存总数: 1002M

used 已经使用的内存数: 769M

free 空闲的内存数: 232M

shared 当前已经废弃不用,总是0

buffers Buffer 缓存内存数: 62M

cached Page 缓存内存数:421M

关系:total(1002M) = used(769M) + free(232M)

第二部分(-/+ buffers/cache):

(-buffers/cache) used内存数:286M (指的第一部分Mem行中的used – buffers – cached)

(+buffers/cache) free内存数: 715M (指的第一部分Mem行中的free + buffers + cached)

可见-buffers/cache反映的是被程序实实在在吃掉的内存,而+buffers/cache反映的是可以挪用的内存总数.

第三部分是指交换分区,当used为0时说明内存不紧张,数字较小时内存有点紧张,较大时说明内存已不够用。

3.2、vmstat 2 5也可查看内存使用情况。

3.3、top命令进入后输入M按内存使用排序,可以找到占用内存较高进程。

4、IO使用情况定位

4.1、top查询wa的使用情况,查看io占用cpu是否较高。

4.2、iostat -x 2 5查看各磁盘的%util情况,越高说明磁盘对应的io越高。

[serviceop@SZA-L0016461 ~]$ iostat -x 2 5

Linux 2.6.32-573.el6.x86_64 (SZA-L0016461)  2017年04月27日  _x86_64_ (2 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle

           1.38    0.00    1.85    0.05    0.00   96.72

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util

sda               0.05     6.58    0.12    3.43     8.17    80.10    24.84     0.00    1.39   0.59   0.21

dm-0              0.00     0.00    0.14    7.67     7.66    61.39     8.84     0.04    4.54   0.15   0.12

dm-1              0.00     0.00    0.00    0.00     0.00     0.00     8.00     0.00    0.46   0.42   0.00

dm-2              0.00     0.00    0.03    0.56     0.35     4.51     8.24     0.00    7.06   0.11   0.01

dm-3              0.00     0.00    0.00    0.52     0.15     4.15     8.22     0.00    1.91   0.43   0.02

dm-4              0.00     0.00    0.00    0.00     0.00     0.00     2.57     0.00    1.89   1.45   0.00

dm-5              0.00     0.00    0.00    1.26     0.00    10.05     8.00     0.00    1.16   0.56   0.07

sdb               0.00     2.55    0.10    0.66    16.00    25.79    55.24     0.00    3.06   1.19   0.09

dm-6              0.00     0.00    0.10    3.22    16.00    25.79    12.62     0.08   22.76   0.27   0.09

4.3、iotop直接查看IO较高的进程号,当iotop命令不可以用时使用for x in `seq 1 1 10`; do ps -eo state,pid,cmd | grep "^D"; echo "----"; sleep 5; done查询IO等待的对应进程

 # for x in `seq 1 1 10`; do ps -eo state,pid,cmd | grep "^D"; echo "----"; sleep 5; done

D 248 [jbd2/dm-0-8]

D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478
-f -b -d /tmp

4.4、cat /proc/pid/io查看对应进程使用的io情况

# cat /proc/16528/io
rchar: 48752567
wchar: 549961789
syscr: 5967
syscw: 67138
read_bytes:
49020928
write_bytes: 549961728
cancelled_write_bytes: 0

4.5、lsof -p pid 或 ls /proc/pid/fd查看对应的应用目录

# lsof -p 16528

COMMANDPIDUSERFDTYPEDEVICESIZE/OFFNODENAME

bonnie++ 16528 rootcwdDIR 252,0 4096 130597 /tmp
<truncated>

bonnie++ 16528 root 8u REG 252,0 501219328 131869 /tmp/Bonnie.16528

bonnie++ 16528 root 9u REG 252,0 501219328 131869 /tmp/Bonnie.16528

bonnie++ 16528 root 10u REG 252,0 501219328 131869 /tmp/Bonnie.16528

bonnie++ 16528 root 11u REG 252,0 501219328 131869 /tmp/Bonnie.16528

bonnie++ 16528 root 12u REG 252,0 501219328 131869 <strong>/tmp/Bonnie.16528</strong>

4.5、fd /tmp查看对应的卷名

# df /tmp

Filesystem 1K-blocksUsedAvailableUse% Mountedon
/dev/mapper/workstation-root 7667140 2628608 4653920 37% /

4.6、是fdisk -l 或pvdisplay 查看对应的磁盘,来确认是否与io高的磁盘一致。

业务级IO监控

    ioprofile

    ioprofile 命令本质上是 lsof + strace, 具体下载可见 http://code.google.com/p/maatkit/
    ioprofile 可以回答你以下三个问题:

    1  当前进程某时间内,在业务层面读写了哪些文件(read, write)?

    2  读写次数是多少?(read, write的调用次数)

    3  读写数据量多少?(read, write的byte数)

    假设某个行为会触发程序一次IO动作,例如: "一个页面点击,导致后台读取A,B,C文件"

============================================

    ./io_event   # 假设模拟一次IO行为,读取A文件一次, B文件500次, C文件500次

    ioprofile  -p  `pidof  io_event` -c count   # 读写次数



    ioprofile  -p  `pidof  io_event` -c times   # 读写耗时



    ioprofile  -p  `pidof  io_event` -c sizes    # 读写大小



iotop 和 pidstat (仅rhel6u系列)

iotop    顾名思义, io版的top
pidstat 顾名思义, 统计进程(pid)的stat,进程的stat自然包括进程的IO状况
这两个命令,都可以按进程统计IO状况,因此可以回答你以下二个问题

 当前系统哪些进程在占用IO,百分比是多少?
 占用IO的进程是在读?还是在写?读写量是多少?

pidstat 参数很多,仅给出几个个人习惯
       pidstat -d  1                  #只显示IO



       pidstat -u -r -d -t 1        # -d IO 信息,
                                           # -r 缺页及内存信息

                                           # -u CPU使用率

                                           # -t 以线程为统计单位

                                           # 1  1秒统计一次

  block_dump, iodump

iotop   和 pidstat 用着很爽,但两者都依赖于/proc/pid/io文件导出的统计信息, 这个对于老一些的内核是没有的,比如rhel5u2
因此只好用以上2个穷人版命令来替代:
echo 1 > /proc/sys/vm/block_dump     # 开启block_dump,此时会把io信息输入到dmesg中
                                                        # 源码: submit_bio@ll_rw_blk.c:3213
watch -n 1 "dmesg -c | grep -oP \"\w+\(\d+\): (WRITE|READ)\" | sort | uniq -c"
                                                         # 不停的dmesg -c
echo 0 > /proc/sys/vm/block_dump      # 不用时关闭
 
也可以使用现成的脚本 iodump, 具体参见 http://code.google.com/p/maatkit/source/browse/trunk/util/iodump?r=5389
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: