您的位置:首页 > 运维架构 > Linux

linux调度器(四)——主调度器与CFS

2015-09-09 09:44 627 查看
当内核从系统调用返回,或者从中断处理程序返回,内核都会检查当前进程是否设置了TIF_NEED_RESCHED标志;或者进程主动放弃CPU时(sched_yield,sleep或者收到SIGSTOP,SIGTTOP信号)都会进入主调度器。同样的我们先看一下主调度的框架部分,该部分就是sched.c:schedule(void):

关闭内核抢占

如果进程之前是不可运行并且被内核抢占了,那么如果它现在有非阻塞信号,则将它的状态改为TASK_RUNNING而且不移出就绪队列,否则该进程(不可运行)从就绪队列中取出deactivate_task

判断是否要进行负载均衡(当前运行队列为空)

通知调度器类将当前(活动)进程将被其它进程替换掉(put_prev_task)

选择下一个将要被执行的进程(pick_next_task),并清除前一个进程的TIF_NEED_RESCHED

进行上下文切换(context_switch)

重新计算新进程所在的cpu及rq,即为当前cpu(因为新的进程之前可能在不同的cpu上运行了,同样老的进程唤醒时也是所这里开始)

如果新的进程也被设置了TIF_NEED_RESCHED,则再次调度

大体过程如下图:





图 schedule与CFS的交互
下面我们主要来分析下CFS的相关的三个操作:

deactivate_task:该函数最终调用CFS的dequeue_task_fair,并且将进程的p->se.on_rq置0,表示该进程不在运行队列里。dequeue_task_fair对于非组调度的话就是调用dequeue_entity更新执行进程的信息update_curr,把该se从buddies中去掉(clear_buddies,见后面的分析),如果这个se不是正在运行的进程则把该se从运行队列的红黑树上删除掉(运行的进程已经不存在红黑树里),置se->on_rq
= 0,并且减少运行列队的相应load(update_cfs_load:这里更新的是统计值的load,account_entity_dequeue这个才是真正更新跟进程调度相关的cfs_rq->load)及se的weight(update_cfs_shares)其它统计信息(注意:当se出队时如果它不是DEQUEUE_SLEEP必须把vruntime标准化se->vruntime -= cfs_rq->min_vruntime,否则就不需要标准化,这里不是很明白?)。对于组调度,它从当前进程开始dequeue_entity,如果它的父group
load为0,那么说明这个父group也应该被dequeue_entity,直到不为0(该group有其它进程就绪)的祖先group为止,到这里就把从叶子(当前进程)到该进程向上递归load为空的父group都出队了;然后再更新从这个非空的父group到根的其余group
se的load(这里只是更新统计的load update_cfs_load,而cfs_rq的load因为只记录它本层的se的load之和不递归,所以不需要再更新该load),shares及h_nr_running统计,因为它们下层的se已经被出队列了。另外,所有被dequeue的se的on_rq被置为0

put_prev_task_fair:该过程是与上一个函数不一样的,上一个把不可运行的进程从运行队列中删除掉,而put_prev_task_fair主要是通知CFS当前进程将会被调度出去了,如果当前进程已经不是可运行进程(on_rq=0),那么这个函数只会把当前cfs_rq->curr置为NULL,表示当前cfs_rq没有进程正在运行,否则如果当前进程还是可运行的那么还需要对它的状态进行更新:update_curr更新它的实质物理运行时间,虚拟时间及它从现在开始就是进入等待的时间,并且再次将该进程重新入队列(__enqueue_entity当前进程还是可运行状态)。对于组调度同样的需要更新从该进程到它的根group的所有se,包括每个se的执行时间(这里的执行时间并不是代表它在cpu的执行时间,而是由它的下级执行时间的一个反映),至于每个层次的se都把它的cfs_rq->curr置为NULL是因为:在一个CPU上某一时刻只有一个进程在运行,当当前运行要被调度出去的时候,也代表了它的所有上层group在这个CPU上将被调度出去(对于group这只是一个理论概论,它并不会真正在CPU上运行,只是为了与真正task统一起来才有这个标志,表示当它的叶子task在CPU上运行;同样的,当某group的叶子被调度[运行]时,它的所有上层group在它所在的运行队列里也被表示为运行的)。

pick_next_task:挑选一个最需要运行的进程来运行。如果当前队列的等待运行的进程总数等于cfs等待的数目,那么就直接从cfs中挑选一个,否则从高优先策略的调度类中挑选一个进程来运行。这里我们直接看CFS的pick_next_task_fair(这里从根的cgroup开始一层一层往左边找):通过pick_next_entity从当前层的cfs_rq判断哪个se将被取出,它采用这样的优先级(从高到低)——已经被要求运行的se(cfs_rq->next,即next要求抢占),上一个运行的se(cfs_rq->last),不是被skip的se,而且这三个优先级都还需要满足——它们比起cfs_rq最左边的se更需要先被运行(wakeup_preempt_entity,它们的虚拟运行时间小于最左边的虚拟运行时间,或者比最左边再运行最小运行时间后的新的虚拟时间还小,减少不必要的切换);这样就能选出一个合适的se;然后调用set_next_entity将该se设置为当前cfs_rq上正在运行的进程:如果这个se还在运行队列里则更新它的等待结束时间,及出队列(运行进程不应该放在就绪队列里,注这里调用的是__dequeue_entity而不是dequeue_entity,后者是把这可运行的se出队列并需要更新nr_running--,on_rq=0等,而前者是不需要的,即运行的进程虽然不在红黑树里,但是se->nr_rq还是等于1,cfs_rq->nr_running还是包括这个运行的进程);更新开始执行的时钟,将cfs_rq->curr置为该se。对于非组调度这样就能把该se的task返回;而对于组调度其实也很简单,如果pick_next_entity取得的是一个group的话,那么再从它的运行队列里se->my_q里选出一个合适的se出来,直到该se是非group,而且这些group的se所在的cfs_rq也会把curr置为当前递归的group
se(这也是我们上面说的put_prev_entity的反操作)。

总之,schedule是为了完成从prev进程切换到next进程的过程,如果prev是不可运行的并且没收到信号那么应该先把它从运行队列里去掉(deactivate_task),注意此时还是它占用的CPU所以还需要更新它的执行时间(update_curr);然后告诉CFS该prev将要被调度出去了,此时也是需要考虑它是否是可运行的状态,还是不可运行状态,如果是不可运行状态,那么上面它已经被从运行队列中去掉,并且on_rq的标志也被清0,所以只需要把cfs_rq->curr置为NULL就可以了,否则就是它是可运行的,那么首先也是先更新它的执行时间update_curr,然后把它重新放到运行队列里(当前运行的进程是不在运行队列里的),最后同样把cfs_rq->curr置为NULL;接着从CFS里挑选一个合适的进程来执行,一些比较优先考虑的进程被保存在buddies(next,last),所以它先从这些里及最左筛选,筛选后把该se从运行队列中出队,相应的最后需要把cfs_rq->curr置为当前被筛选出来的se,表示该se是当前cfs_rq上运行的se。

这样我们就把调度器两个主要部件介绍完了,下面介绍到task创建时的调度器对新任务的初始化过程。我们估且把该过程称为进程调度初始化,下面我们就来分析该过程。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: