您的位置：首页 > 运维架构 > Linux

输出Linux内核信息工具：SystemTap及其应用

2011-08-04 17:35 681 查看

原文地址：http://linux.chinaunix.net/docs/2006-12-15/3479.shtml

应用地址：http://blog.yufeng.info/archives/688

SystemTap 是一种新颖的 Linux 内核诊断工具，提供了一种从运行中的 Linux 内核快速和安全地获取信息的能力。SystemTap 是内核开发人员和系统管理员的福音，因为这使得他们可以通过编写或者重用简单的脚本来收集内核的实时数据，而不需要再忍受修改源码、编译内核、重启系统的漫长煎熬。本文介绍了 SystemTap 的安装、使用和基本原理，并用一些有趣的例子揭示了 SystemTap 提供的强大能力。
在 SystemTap 出现之前，对于 Linux 程序员或者系统管理员而言，调试内核往往是一场噩梦。例如，你怀疑传递给系统调用 read 的参数 fd 出了问题，想把它打印出来，你需要做的是：首先得到一份内核源码，找到 sys_read() 的函数体中插入 printk() 语句，接下来重新编译内核，然后用新的内核重新启动系统。谢天谢地，你总算看到了你想要看到的东西，不过你马上会发现遇到了一个新的麻烦：除非重新启动系统到原来的内核，printk() 会无休止地打印下去。

SystemTap 的目的就是要把人们从这种泥潭中解救出来。SystemTap 提供了一个简单的命令行接口和强大的脚本语言，同时预定义了丰富的脚本库。基于内核中的 kprobe，SystemTap允许你自由地从运行中的内核无害地收集调试信息和性能数据，来用于之后的分析和处理。你可以随时开始或者停止这种收集过程，而无需漫长的修改代码、编译内核和重启系统的悲惨循环。SystemTap 使得上面的问题变得简单了，简单得只需要一条命令就可以做到：

stap -e 'probe syscall.read { printf("fd = %d\n",fd) }'

SystemTap的功能和Sun的DTrace和IBM的dprobe工具相似。但是和它们不同的是， SystemTap是遵循GPL的开源软件项目。它的出现使得Linux社区也拥有了功能强大而且易于使用的动态内核调试工具。目前，SystemTap 的主要开发成员来自于RedHat、IBM、Intel和Hitachi，其中还包括来自IBM中国开发中心的工程师。

安装SystemTap

在安装SystemTap之前，需要确保系统中已经安装了其它两个软件包：

kernel-debuginfo RPM：SystemTap需要通过内核调试信息来定位内核函数和变量的位置。对于通常的发行版，并没有安装kernel-debuginfo RPM，我们可以到发行版的下载站点下载。对于我的ThinkPad上的Fedora Core 6，这个地址是：http://download.fedora.redhat.com/pub/fedora/linux/core/6/i386/debug/
elfutils RPM：SystemTap需要elfutils软件包提供的库函数来分析调试信息。目前的SystemTap要求安装elfutils-0.123以上版本。目前最新的版本是0.124-0.1。如果需要，我们可以从SystemTap的站点下载RPM或者源码来升级。下载地址是：ftp://sources.redhat.com/pub/SystemTap/elfutils/i386/

接下来就可以安装SystemTap了，这有通过RPM或者源码安装两种方式：

1．通过RPM安装 Fedora Core 6缺省情况下已经安装了systemtap。如果没有，也可以从如下的地址下载： http://download.fedora.redhat.com/pub/fedora/linux/
core/updates/testing/6/i386/SystemTap-0.5.10-1.fc6.i386.rpm

2．通过源码安装：

从SystemTap的FTP站点下载最新的源码

ftp://sources.redhat.com/pub/SystemTap/snapshots/SystemTap-20061104.tar.bz2

然后安装如下：

/root > tar -jxf SystemTap-20061104.tar.bz2
/root > cd src
/root/src> ./configure
/root/src> make
/root/src> make install

运行SystemTap

运行SystemTap首先需要root权限。

运行SystemTap有三种形式：

1．从文件(通常以.stp作为文件名后缀)中读入并运行脚本：stap [选项] 文件名

2．从标准输入中读入并运行脚本： stap [选项] -

3．运行命令行中的脚本：stap [选项] -e 脚本

4．直接运行脚本文件(需要可执行属性并且第一行加上#!/usr/bin/stap)：./脚本文件名使用"Ctrl+C"中止SystemTap的运行。

systemtap的选项还在不断的扩展和更新中，其中最常用的选项包括：

-v -- 打印中间信息

-p NUM -- 运行完Pass Num后停止(缺省是运行到Pass 5)

-k -- 运行结束后保留临时文件不删除

-b -- 使用RelayFS文件系统来将数据从内核空间传输到用户空间

-M -- 仅当使用-b选项时有效，运行结束时不合并每个CPU的单独数据文件

-o FILE -- 输出到文件，而不是输出到标准输出

-c CMD -- 启动探测后，运行CMD命令，直到命令结束后退出

-g -- 采用guru模式，允许脚本中嵌入C语句

其它更多选项请参看stap的手册。

SystemTap的语法

我们利用一个简单的systemtap脚本来介绍一下SystemTap的语法：

#!/usr/local/bin/stap
global count
function report(stat) {
printf("stat=%d\n", stat)
}
probe kernel.function("sys_read") {
++count
}
probe end {
report()
}

探测点(probe)：每个systemtap脚本中至少需要定义一个探测点，也就是指定了在内核的什么位置进行探测。探测点名称后面紧跟的一组大括号内定义了每次内核运行到该探测点时需要运行的操作，这些操作完成后再返回探测点，继续下面的指令。这里给出了systemtap目前支持的所有探测点类型。
全局变量(global)：用来定义全局变量。单个探测点函数体中使用的局部变量不需要预先定义，但是如果一个变量需要在多个探测点函数体中使用，则需要定义为全局变量。
函数(function)：用来定义探测点函数体中需要用到的函数。除了可以用脚本语言定义函数以外，还可以用C语言来定义函数，只是这时函数名后面的大括号对需要换成%{ %}。例如，前面的report()函数可以写成：

function report(stat) %{
_stp_printf("stat=%d\n", THIS->stat);
%}

SystemTap的例子

了解了SystemTap的基本用法，下面让我们来看几个有趣的例子。

统计当前系统中调用最多的前10个系统调用

在进行性能分析的时候，我们常常需要知道那些函数调用次数最多，才能有的放矢地展开分析。下面这个简单的例子可以打印出在过去的5秒钟里调用次数最多的那些系统调用。

#!/usr/bin/env stap
#
# display the top 10 syscalls called in last 5 seconds
#
global syscalls
function print_top () {
cnt=0
log ("SYSCALL\t\t\t\tCOUNT")
foreach ([name] in syscalls-) {
printf("%-20s\t\t%5d\n",name, syscalls[name])
if (cnt++ == 10)
break
}
printf("--------------------------------------\n")
delete syscalls
}
probe syscall.* {
syscalls[probefunc()]++
}
probe timer.ms(5000) {
print_top ()
}

它的输出结果一目了然：

看看是谁在偷偷动我的文件

有时候，我们如果中了恶意的病毒软件，会发现某些文件莫名其妙的被修改，下面这个例子可以帮你监视谁在修改你的文件。

#!/usr/bin/env stap
#
# monitor who is messing my file of secrets
#
probe generic.fop.open {
if(filename == "secrets")
printf("%s is opening my file: %s\n", execname(), filename)
}

我们运行这个脚本，在另外一个窗口做一些操作，来看看它的输出结果：

打印ANSI字符串

SystemTap不仅仅是一个简单的调试工具，强大的脚本语言能力让它同样能做一些有趣的事情，下面这个例子就可以对输出的字符进行美化：

#!/usr/bin/env stap
#
# print colorful ANSI strings
#
probe begin {
printf("a \\ b |");
for (c = 40; c < 48; c++)
printf("   %d   ", c);
printf("\12");
for (l = 0; l < 71; l++)
printf("-");
printf("\12");

for (r = 30; r < 38; r++)
for (t = 0; t < 2; t++) {
printf("%d    |", r);
for (c = 40; c < 48; c++)
printf("\033[%d;%d%s %s \033[0;0m",
r, c, !t ? "m" : ";1m", !t ? "Normal" : "Bold  ");
printf("\12");
}
exit();
}

来看看它的输出：

SystemTap的基本原理

现在，大家已经熟悉了SystemTap的基本用法。在结束之前，让我们再来了解一下SystemTap的基本原理和工作流程以加深理解。

可以看出，SystemTap运行的过程依次分为五个阶段，通常称为Pass 1 - Pass 5。就像前面介绍用法的时候提到的，在命令行中加上-p NUM选项可以使得SystemTap在运行完Pass NUM之后停止，而不是运行到Pass 5。这允许你分析SystemTap在每一个阶段的输出，对于调试脚本尤其有用。

下面来介绍每一个阶段的主要功能：

Pass 1 - parse：这个阶段主要是检查输入脚本是否存在语法错误，例如大括号是否匹配，变量定义是否规范等
Pass 2 - elaborate：这个阶段主要是对输入脚本中定义的探测点或者用到的函数展开，不但需要综合SystemTap的预定义脚本库，还需要分析内核或者内核模块的调试信息
Pass 3 - translate: 在这个阶段，将展开后的脚本转换成C文件。前三个阶段的功能类似于编译器，将.stp文件编译成为完整的.c文件，因此又被合起来称为转换器(translator)
Pass 4 - build：在这个阶段，将C源文件编译成内核模块，在这过程中还会用到SystemTap的运行时库函数。
Pass 5 - run：这个阶段，将编译好的内核模块插入内核，开始进行数据收集和传输。

小结

SystemTap是一个全新的工具，但已经表现出了强大的功能和广泛的适用性。SystemTap使得动态收集Linux内核信息和性能数据变得轻而易举，这就使人可以从繁琐的数据采集中解放出来，而专注于数据的处理和分析，这无疑是内核开发人员和系统管理人员的福音。随着越来越多用户的体验，越来越多的bug会被报告和修正，越来越多的新功能会被添加，SystemTap也会变得越来越稳定和完善。

原文链接：http://www-128.ibm.com/developerworks/cn/linux/l-systemtap/index.html

有了伟大的systemtap, 我们可以用stap脚本来了解谁在消耗我们的cache了：

#这个命令行用来调查谁在加数据入page_cache

[root@my031045
~]

#
stap -e 'probe vfs.add_to_page_cache {printf("dev=%d, devname=%s, ino=%d, index=%d, nrpages=%d\n", dev, devname, ino, index, nrpages )}'

...

dev=2,
devname=N/A, ino=0, index=2975, nrpages=1777

dev=2,
devname=N/A, ino=0, index=3399, nrpages=2594

dev=2,
devname=N/A, ino=0, index=3034, nrpages=1778

dev=2,
devname=N/A, ino=0, index=3618, nrpages=2595

dev=2,
devname=N/A, ino=0, index=1694, nrpages=106

dev=2,
devname=N/A, ino=0, index=1703, nrpages=107

dev=2,
devname=N/A, ino=0, index=1810, nrpages=210

dev=2,
devname=N/A, ino=0, index=1812, nrpages=211

...

这时候我们拷贝个大文件：

[chuba@my031045
~]$

cp

huge_foo.

file

bar

#这时候我们可以看到文件的内容被猛的添加到cache去：

...

dev=8388614,
devname=sda6, ino=2399271, index=39393, nrpages=39393

dev=8388614,
devname=sda6, ino=2399271, index=39394, nrpages=39394

dev=8388614,
devname=sda6, ino=2399271, index=39395, nrpages=39395

dev=8388614,
devname=sda6, ino=2399271, index=39396, nrpages=39396

dev=8388614,
devname=sda6, ino=2399271, index=39397, nrpages=39397

dev=8388614,
devname=sda6, ino=2399271, index=39398, nrpages=39398

dev=8388614,
devname=sda6, ino=2399271, index=39399, nrpages=39399

dev=8388614,
devname=sda6, ino=2399271, index=39400, nrpages=39400

dev=8388614,
devname=sda6, ino=2399271, index=39401, nrpages=39401

dev=8388614,
devname=sda6, ino=2399271, index=39402, nrpages=39402

dev=8388614,
devname=sda6, ino=2399271, index=39403, nrpages=39403

dev=8388614,
devname=sda6, ino=2399271, index=39404, nrpages=39404

dev=8388614,
devname=sda6, ino=2399271, index=39405, nrpages=39405

dev=8388614,
devname=sda6, ino=2399271, index=39406, nrpages=39406

dev=8388614,
devname=sda6, ino=2399271, index=39407, nrpages=39407

dev=8388614,
devname=sda6, ino=2399271, index=39408, nrpages=39408

dev=8388614,
devname=sda6, ino=2399271, index=39409, nrpages=39409

dev=8388614,
devname=sda6, ino=2399271, index=39410, nrpages=39410

dev=8388614,
devname=sda6, ino=2399271, index=39411, nrpages=39411

...

此外加入我们想了解下系统的cache都谁在用呢, 那个文件用到多少页了呢？

我们有个脚本可以做到，这里非常谢谢子团让我使用他的代码。

[chuba@my031045
~]

#
stap -g viewcache.stp

在另外的shell里面

[chuba@my031045
~]

#
dmesg

...

inode:
116397109, num: 5

inode:
116397111, num: 2

inode:
116397112, num: 1

inode:
116397149, num: 2

inode:
116397152, num: 1

inode:
116397336, num: 2

inode:
116397343, num: 1

inode:
116397371, num: 4

inode:
116397372, num: 2

...

非常清楚的看出来每个inode占用了多少页，用工具转换下就知道哪个文件耗费了多少内存。

点击下载viewcache.stp

另外小TIPS：

从inode到文件名的转换

find / -inum your_inode

从文件名到inode的转换

stat -c “%i” your_filename

或者 ls -i your_filename

我们套用了下就马上知道那个文件占用的cache很多。

[chuba@my031045
~]$

sudo

find

/
-inum 2399248

/home/chuba/kernel-debuginfo-2.6.18-164.el5.x86_64.rpm

玩的开心。

参考资料:

page cache和buffer cache的区别:

这篇文章总结的最靠谱: http://blog.chinaunix.net/u/1595/showart.php?id=2209511

后记:

linux下有个这样的系统调用可以知道页面的状态:mincore – determine whether pages are resident in memory

同时有人作个脚本fincore更方便大家的使用, 点击下载fincore

后来子团告诉我还有这个工具: https://code.google.com/p/linux-ftools/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航