linux磁盘写操作实时跟踪
2013-03-19 14:38
197 查看
事实上,我总是对linux开源社区的无名英雄们怀着无限的敬意,因此除了完成工作中需要的功能以外,首先想到的是分享,本篇文章以
GPL发布,在你转发的时候,请遵循GPL协议的规定,在此首先贴出GPL公共许可证,或许你会觉得这过于啰嗦,事实上这是必要的。请谅
解。为了不妨碍大家的阅读,在此我给出GPLv3的连接地址。 (GPLv3)
下面进入正题,我打算分几个步骤来说明:
第一磁盘写操作的过程分析;
第二模块导出符号的利用;
第三jprobe和kprobe介绍;
第四磁盘写操作跟踪;
最后还将给出一个简单的示例程序。
第一 磁盘写操作过程分析
在linux内核中,发生一次写操作,从调用write函数到数据发起一个写数据到具体块设备请求之间,大致需要以下几个过程。
1.如果用户态调用了一个write函数,内核执行blkdev_file_write函数,如果不是direct io操作方式,那么执行buffered write操作
过程,直接调用generic_file_buffered_write函数。Buffered write操作方法会将数据直接写入Cache,并进行Cache的替换操
作,在替换操作过程中需要对实际的快设备进行操作,address_space->a_ops提供了块设备操作的方法。当数据被写入到Cache之
后,write函数就可以返回了,后继异步写入的任务绝大部分交给了pdflush daemon(有一部分在替换的时候做了)。
2.读操作在没有命中Cache的情况下通过address_space_operations方法中的readpage函数发起块设备读请求;写操作在替换
Cache或者Pdflush唤醒时发起块设备请求。发起块设备请求的过程都一样,首先根据需求构建bio结构,bio结构中包含了读写地址、
长度、目的设备、回调函数等信息。构造完bio之后,通过简单的submit_bio函数将请求转发给具体的块设备。从这里可以看出,块设
备接口很简单,接口方法为submit_bio(更底层函数为generic_make_request),数据结构为struct bio。
3.submit_bio函数通过generic_make_request转发bio,generic_make_request是一个循环,其通过每个块设备下注册的
q->make_request_fn函数与块设备进行交互。如果访问的块设备是一个有queue的设备,那么会将系统的__make_request函数
注册到q->make_request_fn中;否则块设备会注册一个私有的方法。在私有的方法中,由于不存在queue队列,所以不会处理具体
的请求,而是通过修改bio中的方法实现bio的转发,在私有make_request方法中,往往会返回1,告诉generic_make_request继
续转发比bio。generic_make_request的执行上下文可能有两种,一种是用户上下文,另一种为pdflush所在的内核线程上下文。
4.接下来generic_make_request再往下发就该到驱动层了。这里不属于我们讨论的范畴了
我们需要监控所有要经过generic_make_request发起到驱动的bio,因此只有在bio被产生或者submit_bio的位置去拦截,读到这里,你能够想明白这个事情就足够了。
第二 模块导出符号的利用
模块函数是可以用EXPORT_SYMBOL宏导出的,其本来的目的是导出之后便于模块与模块之间的代码重用,已经模块间通讯。在这里我
们要讨论其另外一个用法,模块函数被导出之后,我们可以根据模块名称获取到模块函数对应的位置偏移量。这个值也就是这个模块函数的
首地址。如果我们要想利用submit_bio,那首先就要保证submit_bio函数的符号是被导出来了的。事实上我们查看linux内核源代码(blk-core.c:Line1620):
[cpp] view
plaincopy
/**
* submit_bio - submit a bio to the block device layer for I/O
* @rw: whether to %READ or %WRITE, or maybe to %READA (read ahead)
* @bio: The &struct bio which describes the I/O
*
* submit_bio() is very similar in purpose to generic_make_request(), and
* uses that function to do most of the work. Both are fairly rough
* interfaces; @bio must be presetup and ready for I/O.
*
*/
void submit_bio(int rw, struct bio *bio)
{
int count = bio_sectors(bio);
bio->bi_rw |= rw;
/*
* If it's a regular read/write or a barrier with data attached,
* go through the normal accounting stuff before submission.
*/
if (bio_has_data(bio) && !(rw & REQ_DISCARD)) {
if (rw & WRITE) {
count_vm_events(PGPGOUT, count);
} else {
task_io_account_read(bio->bi_size);
count_vm_events(PGPGIN, count);
}
if (unlikely(block_dump)) {
char b[BDEVNAME_SIZE];
printk(KERN_DEBUG "%s(%d): %s block %Lu on %s (%u sectors)/n",
current->comm, task_pid_nr(current),
(rw & WRITE) ? "WRITE" : "READ",
(unsigned long long)bio->bi_sector,
bdevname(bio->bi_bdev, b),
count);
}
}
generic_make_request(bio);
}
EXPORT_SYMBOL(submit_bio);
确实这个submit_bio函数是被导出了符号的,EXPORT_SYMBOL(submit_bio);或许你觉得这来的太轻松了,事实上要分析到这一步真的需要很多耐心的,所有磁盘读写操作最终要真正的往磁盘上写文件,所有真实要到达磁盘的数据bio都必将经过这个函数。虽然是导出来符合,我们能直接调用,可是直接调用似乎不能达到我们想要的效果获取到这个bio结构。反而要我们传给它一个bio结构。对这个函数如何处理呢?
正如你所想的那样,我们如果能在这个函数执行的时候插入一个函数到这里拦截就对了,就像c语言的setjmp和longjmp那样工作。可是在编译过了的linux内核中能实现吗?答案是肯定的。这就是下一节所讲的kprobe机制。
第三 jprobe和kprobe介绍
顾名思义probe就是探头的意思,即是说在函数f1调用的时候,设置一个探头f2到这个函数f1的位置,并且获取到f1的参数,抛给f2,然
后,跳到f2的位置执行,完了之后再回到到f1执行。
更多关于kprobe的介绍请自行google查找,在linux内核的sample目录下也有一个使用的例子。这里只做简单的介绍,其功能简单说,
就是在函数被调用的时候,能拿到这个函数的参数,做一些处理。而如果我们设置一个jprobe到submit_bio这个函数上,那么我们就可以
获取到bio结构的信息了。jprobe结构定义如下:
[cpp] view
plaincopy
struct jprobe {
struct kprobe kp;
void *entry;
}
那么总结一下设计思路,一句话,构建一个jprobe探头插入到submit_bio处。事实上要得出这句话的结论要经历很多伤感的事情。哈
哈。
kprobe结构中有两个重要的成员symbol_name, addr,symbol_name就是那个函数的符号,这里就应该是submit_bio的符号。
addr就是这个函数的地址,就是内核函数kallsyms_lookup_name("submit_bio")返回的值。需要注意的是在jprobe结构中的kprobe
只能是addr或是symbol_name其中一个填入了值,如果两个都填入,在注册这个探头的时候就会出现错误-21非法符号。举例说明,如果
addr为0x1000000,那么symbol_name就该是NULL;如果symbol_name为"submit_bio"那么addr就该为NULL;不能是两个都是有
效的数据。具体设置哪一个值,根据内核版本而定。(很多发型版本并没有导出kallsyms_lookup_name).
jprobe的另一个成员是entry,这就是我们自己定义的那个探头程序。
有一点必须说明,就是注册进去的探头程序应该和被注册的函数的参数列表一致,比如void submit_bio(int rw, struct bio * bio)
那么注册进去的探头程序也该是 void submit_bio_probe(int rw, struct bio * bio).
因此对于submit_bio这个函数,要想注册一个jprobe探头函数给它,那么这个jprobe结构就应该类似于下面这个样子。
[cpp] view
plaincopy
struct jprobe submit_bio_jprobe {
.entry = (kprobe_opcode_t *) submit_bio_jprobe,
kp = {
.addr = NULL, .symbol_name = "submit_bio"
}
};
第四 磁盘写操作跟踪
磁盘操作的跟踪,逻辑已经很清楚了。那么具体如何去做?
首先这是linux内核编程,因此我们需要写一个模块,当然你也可以傻到去修改内核,实现一个系统调用。这里我们按照正常人的思维去
做。在实现的模块中,初始化的时候把这个探头程序注册进去,然后在模块释放的时候卸载这个探头程序。注册探头程序用
register_jprobe,卸载用unresister_jprobe仅此而已。似乎讲到了这里的时候,你会发现这是一件特别简单的事情了。内核调用也不会
超过10个。也实在没有必要再详细的说下去了,这里给出一个简单的实例程序,其功能是打印出,哪个设备的那一个扇区之后的多少个扇区
发生了写操作。打印的格式为:
device: dm-0, command: write, start: 10240, count: 8
其中device为对应的设备名,command为动作,是读还是写, start为动作发生的起始扇区, count是start这个位置之后的多少个扇
会发生command类型的操作。
下面给出源代码和makefile文件
dwm_mod.c
[cpp] view
plaincopy
#include <linux/kernel.h>
#include <linux/module.h>
#include <linux/kprobes.h>
#include <linux/bio.h>
static void submit_bio_probe(int rw, struct bio * bio) {
if(bio && bio->bi_io_vec != NULL) {
char b[BDEVNAME_SIZE];
printk(KERN_INFO "device: %s, command: %s, start: %10lld, count: %d /n",
bdevname(bio->bi_bdev, b), rw & WRITE ? "write" : "read",
bio->bi_sector, bio_sectors(bio));
}
jprobe_return();
}
static struct jprobe my_jprobe = {
.entry = (kprobe_opcode_t *) submit_bio_probe,
.kp = {
// can not set both addr and symbo_name
// either set addr or symbol_name
// if not -21 while retured
.addr = NULL, //(kprobe_opcode_t *) 0xc04e6e4,
.symbol_name = "submit_bio",
},
};
static int __init my_init(void) {
int ret = 0;
printk(KERN_INFO "submit_bio jprobe module install.../n");
ret = register_jprobe(&my_jprobe);
if(ret < 0) {
printk(KERN_INFO "register_jprobe failed, returned %d/n", ret);
return ret;
}
printk(KERN_INFO "Planted jprobe at %p, handler addr %p/n",
my_jprobe.kp.addr, my_jprobe.entry);
return ret;
}
static void __exit my_exit(void) {
printk(KERN_INFO "submit_bio jprobe module uninstall.../n");
unregister_jprobe(&my_jprobe);
printk(KERN_INFO "jprobe at %p unregistered/n", my_jprobe.kp.addr);
}
module_init(my_init);
module_exit(my_exit);
MODULE_LICENSE("GPL");
Makefile:
[cpp] view
plaincopy
ifneq ($(KERNELRELEASE),)
obj-m := dwm_mod.o
else
KDIR := /lib/modules/$(shell uname -r)/build
PWD := $(shell pwd)
default:
$(MAKE) -C $(KDIR) M=$(PWD) modules
endif
大家可以编译运行,看看运行结果。编译的时候,如果你的linux系统没有安装内核开发环境,请先安装。
我的测试系统是CentOS 5.1,内核版本是2.6.18-238.9.1.el5
【注】:第一磁盘写操作的过程分析,我是在chinaunix bloghttp://blogold.chinaunix.net/u3/103428/showart_2471002.html
博主吴栓的博客中看到的,在此感谢博主分析了磁盘读写的整个过程。事实上我发现很多地方都有这一篇文章,我无法确定真正发这篇博客的作者是谁,也无法与你联系。原作者发现我有侵权行为,请至邮件到ak@oceanbackup.com.我将第一间与你取得联系。
原文地址:http://blog.csdn.net/zhanleewo/article/details/6368405
相关文章推荐
- linux磁盘写操作实时跟踪
- linux磁盘写操作实时跟踪
- Linux磁盘、目录、文件操作命令
- linux磁盘操作命令详解
- 远程操作linux网络设置(三)-查看实时网速
- chapter8:Linux磁盘与文件系统管理之(2)文件系统的简单操作
- Linux新增磁盘与LVM逻辑卷操作
- linux 关于磁盘的操作(二)
- python linux 磁盘操作
- Linux工具---系统资源实时监测(网络,磁盘,内存,CPU等)
- mysql访问日志满造成linux磁盘空间不足问题系列跟踪解决
- linux常用disk磁盘操作命令(2013最新整理)
- [转]java取得Linuxcpu,内存,磁盘实时信息
- linux磁盘操作
- Linux中VMware虚拟机增加磁盘空间的扩容操作[图文]
- Linux下磁盘操作
- linux 磁盘挂载操作
- vm虚拟机linux磁盘空间不足,手动扩大(本人操作可行) .
- linux iostat命令详解 磁盘操作监控工具
- Linux下磁盘相关操作命令