您的位置：首页 > 运维架构 > Linux

Linux上性能异常定位以及性能监控

2016-11-11 15:02 260 查看

引言:大多数的服务都是跑在Linux上的，Linux现在也已经到了一个很广泛的应用,但是仍然会有很多问题出现，我们就来讨论下我们性能监控的指标，性能监控无非就是从I/O，内存，CPU，TCP连接数，网络，进程或者线程来出发，使用到的命令有iostat,vmstat,sar,mpstat,netstat,ss,iftop,free,pstree/ps,pidstat,top,(uptime)下面来进一步深入下吧. 一,磁盘I/O(iostat) 我们的机器上有很多的数据是存储在磁盘上的，我们读取的很多数据都是要和磁盘交互的，但是磁盘同时又是一个低速设备，很多时候会发生阻塞，所以磁盘I/O的监控很重要。我们使用iostat来诊断磁盘的情况。使用的机器是腾讯云主机。

tps：该设备每秒的传输次数，表示每秒多少个I/O请求Blk_read/s：每秒从设备读取到的数据量Blk_wrtn/s：每秒向设备写入的数据量
Blk_read：读取的总数据量
Blk_wrtn：写入的总数据量%user：代表用户态进程使用CPU的负载%nice：代表优先级进程使用的CPU负载%system：代表内核态进程使用的CPU负载%iowait：代表CPU等待I/O时，CPU的负载%steal：代表被偷走的CPU负载情况，这个在虚拟化技术中会用到%idle：代表空闲的所占用的CPU负载情况iostat还有一个常用的参数选项-x，表示扩展的信息

rrqm/s：每秒这个设备相关的读取请求有多少被Merge(多个I/O合并的操作)了
wrqm/s：每秒这个设备相关的写入请求有多少被Merge了r/s：每秒发送到设备的读请求数w/s：每秒发送到设备的写请求数
rsec/s：每秒读取设备扇区的次数wsec/s：每秒写入设备扇区的次数avgrq-sz：平均请求扇区的大小avgqu-sz：平均请求队列的长度await：每一个I/O请求的处理的平均时间(等待时间)r_await：每一个读I/O请求的处理的平均时间w_await：每一个写I/O请求的处理的平均时间svctm：表示平均每次I/O操作的服务时间。如果svctm值和await值很接近，则表示I/O几乎没有等待，如果await的值远高于svctm的值，则表示I/O队列等待太长%util：在统计的时间内总共有多少的时间用于处理I/O操作,即被消耗的CPU的百分比。例如统计时间间隔是1s，那么这个设备有0.65s在处理I/O，有0.35s处于空闲。那么这个设备的%util=0.65/1=65%，一般地，如果该参数是100%表示设备已经接近满负荷运行了（当然如果是多磁盘，即使%util是100%，因为磁盘的并发能力，所以磁盘使用未必就到了瓶颈）
二,内存(free) 在Linux系统中我们查看内存使用情况。使用free命令来查看

第一行的信息（我们可以认为从操作系统层面看待）
total：总物理内存大小used：已经分配的大小free：没有被分配的大小
shared：共享内存的大小，主要用于IPC通信buffers：用于块设备的缓冲cached：用于文件内容缓冲，也就是缓存"缓存"就是在内存中划分一块区域，作为进程和硬盘之间的缓冲区，进程将数据写入缓存中，当那些数据需要读取的时候，就直接去"高速路"缓存中读取，而不会去"土路"硬盘中读取，这样大大的加快性能
这里buffer实际上是存储了我们数据的元数据(包括目录名字，文件大小，文件存储块，修改时间，权限等)，而cache则存放了我们最近读取过的文件。第三行信息（我们可以认为从应用程序层面看待）这里的-/+ buffers/cache分别为 -buffers/cache 和 +buffers/cache 两部分
-buffers/cache = used(第一行)-buffers-cached 实际上是当前程序上"真实使用"的"物理内存"
+buffers/cache = buffers+cached 意思就是暂时"借给"系统作为"缓冲区"使用的内存大小used=(+buffers/cached)+(-buffers/cached)所以从应用程序层面看,可用内存=free memory+buffers+cached详细信息我们可以通过下面这种方式查看. ~ cat /proc/meminfo MemTotal: 1020128 kBMemFree: 670772 kBBuffers: 97780 kBCached: 100980 kBSwapCached: 0 kBActive: 164988 kBInactive: 117296 kBActive(anon): 83536 kBInactive(anon): 160 kBActive(file): 81452 kBInactive(file): 117136 kBUnevictable: 0 kBMlocked: 0 kBSwapTotal: 0 kBSwapFree: 0 kBDirty: 92 kBWriteback: 0 kBAnonPages: 83504 kBMapped: 17500 kBShmem: 172 kBSlab: 46696 kBSReclaimable: 28652 kBSUnreclaim: 18044 kBKernelStack: 1744 kBPageTables: 2636 kBNFS_Unstable: 0 kBBounce: 0 kBWritebackTmp: 0 kBCommitLimit: 510064 kBCommitted_AS: 343800 kBVmallocTotal: 34359738367 kBVmallocUsed: 7112 kBVmallocChunk: 34359727304 kBHardwareCorrupted: 0 kBAnonHugePages: 36864 kBHugePages_Total: 0HugePages_Free: 0HugePages_Rsvd: 0HugePages_Surp: 0Hugepagesize: 2048 kBDirectMap4k: 8184 kBDirectMap2M: 1040384 kB
三,CPU(dstat,mpstat) 首先我们使用dstat命令来查看下我们的CPU情况，他能够实时的输出我们的信息,

每2秒输出一次，一共输出10次
cpu：hiq、siq分别为硬中断和软中断次数system：int、csw分别为系统的中断次数（interrupt）和上下文切换次数（context switch）。
-c：表示只显示我们的CPU信息
-m：表示只显示我们的内存信息
-p：表示只显示我们的进程信息-n：表示只显示我们的网络信息我们想以什么为什么优先顺序查看，可以在后面加下列参数

mpstat

%user      在internal时间段里，用户态的CPU时间(%)，不包含nice值为负进程  (usr/total)*100
%nice      在internal时间段里，nice值为负进程的CPU时间(%)   (nice/total)*100
%sys       在internal时间段里，内核时间(%)       (system/total)*100
%iowait    在internal时间段里，硬盘IO等待时间(%) (iowait/total)*100
%irq       在internal时间段里，硬中断时间(%)     (irq/total)*100
%soft      在internal时间段里，软中断时间(%)     (softirq/total)*100
%idle      在internal时间段里，CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间(%) (idle/total)*100

四,TCP连接数(ss,netstat) ss是Socket Statistics的缩写，顾名思义ss命令就是用来获取sockets的信息，他可以显示和netstat类似的内容，但是他比netstat更快更高效，而且显示更为详细的有关TCP连接信息。当我们的sockets连接数非常大的时候，无论是我们使用netstat命令还是在内核中查看连接数cat /proc/net/tcp的时候都会很缓慢。 ss快速的原因就是他利用了TCP协议中的tcp_diag,tcp_diag是一个用于分析和统计的模块，他可以获取到Linux内核中的第一手信息，这个就确保了ss的高效性。我们可以对netstat和ss做个对比，有图有真相嘛