您的位置：首页 > 运维架构 > Linux

破解Linux操作系统的工作奥秘

2013-06-27 16:01 274 查看

破解Linux操作系统的工作奥秘
张颜（SA***111）

总结

Linux操作系统能够正常工作是建立在：存储程序计算机、函数调用堆栈机制和中断机制这三个基础之上的。而对操作系统的讨论可以归结到对进程运行情况的讨论，Linux操作系统中进程主要分为：内核线程和普通进程。其中内核线程只工作在内核态，主要负责操作系统的初始化和一些周期性管理任务，常见的有0号进程（idle进程）和1号进程（init进程）；而普通进程既可以运行在内核态，也可以运行在用户态。

程序运行的过程中其实就是顺序从存储器里读取指令，然后利用函数调用堆栈机制不断入栈出栈（详见这里）。当一个进程在执行的过程中，可能会遇到各种事件，使其被挂起，内核调度CPU资源给进程队列中其他的进程，使其执行。Linux操作系统在宏观上来看，基本上就是这样：进程执行——>中断——>进程切换——>进程执行，这样循环往复进行工作。

从微观上来看，相对复杂:进程队列中的某个进程A正在执行，由于某种事件（系统调用、时间片用完等）产生中断，从用户态转向内核态，在内核态中，首先进行SAVE_ALL，然后执行中断处理程序，在中断处理过程中或其结束后，由于某种原因（比如时间片用完等），内核可能会进行进程调度，将当前进程切换为进程队列中的另一个进程B，然后RESTORE_ALL、iret，再由内核态转向用户态。若发生了进程切换，则必然会用到switch_to宏，将涉及到内核堆栈状态的变化，详见附录。

附录

存储程序计算机

存储程序和程序控制原理的要点是，程序输入到计算机中，存储在内存储器中（存储原理），在运行时，控制器按地址顺序取出存放在内存储器中的指令（按地址顺序访问指令），然后分析指令，执行指令的功能，遇到转移指令时，则转移到转移地址，再按地址顺序访问指令（程序控制）。

函数调用堆栈机制

详见实验一：计算机是怎样工作的

中断机制

操作系统之所以具备如此强大的功能，很重要的一个原因是其具备中断处理这个机制。中断提供了一种特殊的方式，使处理器转而去运行正常控制流之外的代码。当一个中断信号到达时，CPU必须停止它当前正在做的事情，并且切换到一个新的活动。为了做到这一点，就要在内核态堆栈保存程序计数器的当前值（即eip和cs寄存器的内容），并把与中断类型相关的一个地址放进程序计数器中。

进程切换

为了控制进程的执行，内核必须有能力挂起正在CPU上执行的进程，并恢复以前挂起的某个进程的执行，这叫做进程切换。进程切换可能只发生在精心定义的点：schedule()函数；从本质上说，每个进程切换由两步组成：

1.切换页全局目录以安装一个新的地址空间；

2.切换内核态堆栈和硬件上下文，因为硬件上下文提供了内核执行新进程所需要的所有信息，包含CPU和寄存器。

每个进程可以拥有属于自己的地址空间，但所有进程必须共享CPU寄存器。因此，恢复一个进程的执行之前，内核必须确保每个寄存器装入了挂起进程时的值。

进程切换的第二步由switch_to宏执行，该宏有三个参数，它们是prev，next，和last，其中，prev指向被替换进程的描述符，而next指向被激活进程的描述符，last则用来记录该进程是由哪个进程切换过来的。

贴出switch_to宏的内核代码（linux-3.2.1/arch/x86/include/asm/system.h），以便更好的分析：

/*
* Saving eflags is important. It switches not only IOPL between tasks,
* it also protects other tasks from NT leaking through sysenter etc.
*/
#define switch_to(prev, next, last)					\
do {									\
/*								\
* Context-switching clobbers all registers, so we clobber	\
* them explicitly, via unused output variables.		\
* (EAX and EBP is not listed because EBP is saved/restored	\
* explicitly for wchan access and EAX is the return value of	\
* __switch_to())						\
*/								\
unsigned long ebx, ecx, edx, esi, edi;				\
\
asm volatile("pushfl\n\t"		/* save    flags */	\
"pushl %%ebp\n\t"		/* save    EBP   */	\
"movl %%esp,%[prev_sp]\n\t"	/* save    ESP   */ \
"movl %[next_sp],%%esp\n\t"	/* restore ESP   */ \
"movl $1f,%[prev_ip]\n\t"	/* save    EIP   */	\
"pushl %[next_ip]\n\t"	/* restore EIP   */	\
__switch_canary					\
"jmp __switch_to\n"	/* regparm call  */	\
"1:\t"						\
"popl %%ebp\n\t"		/* restore EBP   */	\
"popfl\n"			/* restore flags */	\
\
/* output parameters */				\
: [prev_sp] "=m" (prev->thread.sp),		\
[prev_ip] "=m" (prev->thread.ip),		\
"=a" (last),					\
\
/* clobbered output registers: */		\
"=b" (ebx), "=c" (ecx), "=d" (edx),		\
"=S" (esi), "=D" (edi)				\
\
__switch_canary_oparam				\
\
/* input parameters: */				\
: [next_sp]  "m" (next->thread.sp),		\
[next_ip]  "m" (next->thread.ip),		\
\
/* regparm parameters for __switch_to(): */	\
[prev]     "a" (prev),				\
[next]     "d" (next)				\
\
__switch_canary_iparam				\
\
: /* reloaded segment registers */			\
"memory");					\
} while (0)

上面代码没看懂？木有关系，看下面的具体分析，你就会豁然开朗了O(∩_∩)O~

switch_to从A进程切换到B进程的步骤：

step1:复制两个变量到寄存器：

[prev] "a" (prev)

[next] "d" (next)

即:

eax <== prev_A 或 eax <==%p(%ebp_A)

edx <== next_A 或 edx <==%n(%ebp_A)

这里prev和next都是A进程的局部变量。

step2:保存进程A的ebp和eflags

pushfl

pushl %ebp

注意，因为现在esp还在A的堆栈中，所以这两个东西被保存到A进程的内核堆栈中。

step3:保存当前esp到A进程内核描述符中：

"movl %%esp,%[prev_sp]\n\t" /* save ESP */

它可以表示成： prev_A->thread.sp <== esp_A

在调用switch_to时，prev是指向A进程自己的进程描述符的。

step4:从next（进程B）的描述符中取出之前从B切换出去时保存的esp_B。

"movl %[next_sp],%%esp\n\t" /* restore ESP */

它可以表示成：esp_B <== next_A->thread.sp

注意，在A进程中的next是指向B的进程描述符的。

从这个时候开始，CPU当前执行的进程已经是B进程了，因为esp已经指向B的内核堆栈。但是，现在的ebp仍然指向A进程的内核堆栈，所以所有局部变量仍然是A中的局部变量，比如next实质上是%n(%ebp_A)，也就是next_A，即指向B的进程描述符。

step5:把标号为1的指令地址保存到A进程描述符的ip域：

"movl $1f,%[prev_ip]\n\t" /* save EIP */

它可以表示成：prev_A->thread.ip <== %1f，当A进程下次被switch_to回来时，会从这条指令开始执行。具体方法看后面被切换回来的B的下一条指令。

step6:将返回地址保存到堆栈，然后调用__switch_to()函数，__switch_to()函数完成硬件上下文切换。

"pushl %[next_ip]\n\t" /* restore EIP */

"jmp __switch_to\n" /* regparm call */

这里，如果之前B也被switch_to出去过，那么[next_ip]里存的就是下面这个1f的标号，但如果进程B刚刚被创建，之前没有被switch_to出去过，那么[next_ip]里存的将是ret_ftom_fork（参看copy_thread()函数）。这就是这里为什么不用call __switch_to而用jmp，因为call会导致自动把下面这句话的地址(也就是1:)压栈，然后__switch_to()就必然只能ret到这里，而无法根据需要ret到ret_from_fork。

另外请注意，这里__switch_to()返回时，将返回值prev_A又写入了%eax，这就使得在switch_to宏里面eax寄存器始终保存的是prev_A的内容，或者，更准确的说，是指向A进程描述符的“指针”。这是有用的，下面step8中将会看到。

step7:从__switch_to()返回后继续从1:标号后面开始执行，修改ebp到B的内核堆栈，恢复B的eflags：

"popl %%ebp\n\t" /* restore EBP */

"popfl\n" /* restore flags */

如果从__switch_to()返回后从这里继续运行，那么说明在此之前B肯定被switch_to调出过，因此此前肯定备份了ebp_B和flags_B，这里执行恢复操作。

注意，这时候ebp已经指向了B的内核堆栈，所以上面的prev,next等局部变量已经不是A进程堆栈中的了，而是B进程堆栈中的(B上次被切换出去之前也有这两个变量，所以代表着B堆栈中prev、next的值了)，因为prev == %p(%ebp_B)，而在B上次被切换出去之前，该位置保存的是B进程的描述符地址。如果这个时候就结束switch_to的话，在后面的代码中（即 context_switch()函数中switch_to之后的代码）的prev变量是指向B进程的，因此，进程B就不知道是从哪个进程切换回来。而从context_switch()中switch_to之后的代码中，我们看到finish_task_switch(this_rq(),
prev)中需要知道之前是从哪个进程切换过来的，因此，我们必须想办法保存A进程的描述符到B的堆栈中，这就是last的作用。

step8:将eax写入last，以在B的堆栈中保存正确的prev信息。

"=a" (last) 即 last_B <== %eax

而从context_switch()中看到的调用switch_to的方法是：

switch_to(prev, next, prev);

所以，这里面的last实质上就是prev，因此在switch_to宏执行完之后，prev_B就是正确的A的进程描述符了。

这里，last的作用相当于把进程A堆栈中的A进程描述符地址复制到了进程B的堆栈中。

至此，switch_to已经执行完成，A停止运行，而开始了B。在以后，可能在某一次调度中，进程A得到调度，就会出现switch_to(C, A)这样的调用，这时，A再次得到调度，得到调度后，A进程从context_switch()中switch_to后面的代码开始执行，这时候，它看到的prev_A将指向C的进程描述符。

参考链接：

1.http://baike.baidu.com/view/2083958.htm

2.http://wenku.baidu.com/view/e3296fda50e2524de5187e3d.html

3.深入理解Linux内核

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航