您的位置:首页 > 运维架构 > Linux

Android系统启动流程 三--linux内核启动

2016-11-30 14:23 351 查看
当内核与体系架构相关的汇编代码执行完毕,即跳入start_kernel。这个函数在kernel/init/main.c中。由于这部分涉及linux众多的初始化,包括设置中断、内核命令行解析,内存缓冲区建立初始化,页面分配和初始化,虚拟文件系统建立,根文件系统挂载,驱动文件挂载,调用kernel_thread创建init进程,并在kernel_init中进行启动那个。最后,启动IDLE进程并在进程中调用cpu_idle将控制权交给调度器。

具体代码:

asmlinkage void __init start_kernel(void)

{

    char * command_line;

    extern const struct kernel_param __start___param[], __stop___param[];

    /*这两个变量为地址指针,指向内核启动参数处理相关结构体段在内存中的位置(虚拟地址)。 

    声明传入参数的外部参数对于ARM平台,位于 include\asm-generic\vmlinux.lds.h*/  

      

/* 

     * Need to run as early as possible, to initialize the 

     * lockdep hash: 

        lockdep是一个内核调试模块,用来检查内核互斥机制(尤其是自旋锁)潜在的死锁问题。 

     */ 

    lockdep_init();//初始化内核依赖的关系表,初始化hash表  

    smp_setup_processor_id();//获取当前CPU,单处理器为空 

    debug_objects_early_init();//对调试对象进行早期的初始化,其实就是HASH锁和静态对象池进行初始化  

        /* 

              * Set up the the initial canary ASAP: 

               初始化栈canary值 

               canary值的是用于防止栈溢出攻击的堆栈的保护字 。 

            */ 

    boot_init_stack_canary();

     /*1.cgroup: 它的全称为control group.即一组进程的行为控制.  

           2.该函数主要是做数据结构和其中链表的初始化  

           3.参考资料: Linux cgroup机制分析之框架分析 

         */      

cgroup_init_early();

    local_irq_disable();//关闭系统总中断(底层调用汇编指令)

    early_boot_irqs_disabled = true;

/*

 * Interrupts are still disabled. Do necessary setups, then

 * enable them

 */

     boot_cpu_init();//1.激活当前CPU(在内核全局变量中将当前CPU的状态设为激活状态)  

        page_address_init();//高端内存相关,未定义高端内存的话为空函数  

        pr_notice("%s", linux_banner); 

        /*1.内核构架相关初始化函数,可以说是非常重要的一个初始化步骤。 

        其中包含了处理器相关参数的初始化、内核启动参数(tagged list)的获取和前期处理、 

        内存子系统的早期的初始化(bootmem分配器)。 主要完成了4个方面的工作,一个就是取得MACHINE和PROCESSOR的信息然或将他们赋值 

        给kernel相应的全局变量,然后呢是对boot_command_line和tags接行解析,再然后呢就是 

        memory、cach的初始化,最后是为kernel的后续运行请求资源″**/  

        setup_arch(&command_line);  

        /*1.初始化代表内核本身内 

        存使用的管理结构体init_mm。  

        2.ps:每一个任务都有一个mm_struct结构以管理内存空间,init_mm是内核的mm_struct,其中:  

        3.设置成员变量* mmap指向自己,意味着内核只有一个内存管理结构;  

        4.设置* pgd=swapper_pg_dir,swapper_pg_dir是内核的页目录(在arm体系结构有16k, 所以init_mm定义了整个kernel的内存空间)。  

        5.这些内容涉及到内存管理子系统*/  

        mm_init_owner(&init_mm, &init_task);  

        mm_init_cpumask(&init_mm);//初始化CPU屏蔽字  

        /*1.对cmdline进行备份和保存:保存未改变的comand_line到字符数组static_command_line[] 中。保存  boot_command_line到字符数组saved_command_line[]中 

    */  

        setup_command_line(command_line); 

//在多CPU架构下,第一个启动的cpu启动到一定阶段后,开始启动其它的cpu,它会为每个后来启动的cpu创建一个0号进程,而这些0号进程的堆栈的thread_info结构中的cpu成员变量则依次被分配出来(利用alloc_cpu_id()函数)并设置好,这样当这些cpu开始运行的时候就有了自己的逻辑cpu号。

        /*如果没有定义CONFIG_SMP宏,则这个函数为空函数。如果定义了CONFIG_SMP宏,则这个setup_per_cpu_areas()函数给每个CPU分配内存,并拷贝.data.percpu段的数据。为系统中的每个CPU的per_cpu变量申请空间。 

        */  

        /*下面三段1.针对SMP处理器的内存初始化函数,如果不是SMP系统则都为空函数。 (arm为空)  

        2.他们的目的是给每个CPU分配内存,并拷贝.data.percpu段的数据。为系统中的每个CPU的per_cpu变量申请空间并为boot CPU设置一些数据。  

        3.在SMP系统中,在引导过程中使用的CPU称为boot CPU*/ 

    setup_nr_cpu_ids();

    setup_per_cpu_areas();

    smp_prepare_boot_cpu();    /* arch-specific boot-cpu hooks ,设置启动的CPU为在线状态*/

    build_all_zonelists(NULL, NULL);//  建立系统内存页区(zone)链表 

    page_alloc_init();//内存页初始化 

    pr_notice("Kernel command line: %s\n", boot_command_line);

    parse_early_param();//  解析早期格式的内核参数  

        /*函数对Linux启动命令行参数进行在分析和处理, 

        当不能够识别前面的命令时,所调用的函数。*/  

    parse_args("Booting kernel", static_command_line, __start___param,

           __stop___param - __start___param,

           -1, -1, &unknown_bootoption);

    jump_label_init();

    /*

     * These use large bootmem allocations and must precede

     * kmem_cache_init()

     */

    setup_log_buf(0);

     /*初始化hash表,以便于从进程的PID获得对应的进程描述指针,按照开发办上的物理内存初始化pid hash表 

        */ 

    pidhash_init();

    vfs_caches_init_early();//建立节点哈希表和数据缓冲哈希表 

    sort_main_extable();//对异常处理函数进行排序

    trap_init();//初始化硬件中断 

    mm_init();//建立了内核的内存分配器   

    /*

     * Set up the scheduler prior starting any interrupts (such as the

     * timer interrupt). Full topology setup happens at smp_init()

     * time - but meanwhile we still have a functioning scheduler.

     */

    sched_init();//核心进程调度器初始化

    /*

     * Disable preemption - early bootup scheduling is extremely

     * fragile until we cpu_idle() for the first time.

     */

    preempt_disable();//禁止调度

     //  先检查中断是否已经打开,若打开,输出信息后则关闭中断。

    if (WARN(!irqs_disabled(), "Interrupts were enabled *very* early, fixing it\n"))

        local_irq_disable();

    idr_init_cache();//创建idr缓冲区  

    rcu_init();//互斥访问机制 

    tick_nohz_init();

    context_tracking_init();

    radix_tree_init();//初始化radix树算法

    /* init some links before init_ISA_irqs() */

    early_irq_init();

    init_IRQ();//使用alpha_mv结构和entry.S入口初始化系统IRQ

    tick_init();

    init_timers();//定时器初始化

    hrtimers_init();//高精度时钟初始化

    softirq_init();//软中断初始化

    timekeeping_init();//   初始化资源和普通计时器 

    time_init();//时间、定时器初始化(包括读取CMOS时钟、估测主频、初始化定时器中断等)

    sched_clock_postinit();

    perf_event_init();

    profile_init();//   对内核的一个性能测试工具profile进行初始化。

    call_function_init();

    WARN(!irqs_disabled(), "Interrupts were enabled early\n");

    early_boot_irqs_disabled = false;

    local_irq_enable();//使能中断 

    kmem_cache_init_late();//kmem_cache_init_late的目的就在于完善slab分配器的缓存机制.

    /*

     * HACK ALERT! This is early. We're enabling the console before

     * we've done PCI setups etc, and console_init() must be aware of

     * this. But we do want output early, in case something goes wrong.

     */

    console_init();//初始化控制台以显示printk的内容  

    if (panic_later)

        panic("Too many boot %s vars at `%s'", panic_later,

              panic_param);

    lockdep_info();//   如果定义了CONFIG_LOCKDEP宏,那么就打印锁依赖信息,否则什么也不做 

    /*

     * Need to run this when irqs are enabled, because it wants

     * to self-test [hard/soft]-irqs on/off lock inversion bugs

     * too:

     */

    locking_selftest();

#ifdef CONFIG_BLK_DEV_INITRD

    if (initrd_start && !initrd_below_start_ok &&

        page_to_pfn(virt_to_page((void *)initrd_start)) < min_low_pfn) {

        pr_crit("initrd overwritten (0x%08lx < 0x%08lx) - disabling it.\n",

            page_to_pfn(virt_to_page((void *)initrd_start)),

            min_low_pfn);

        initrd_start = 0;

    }

#endif

    page_cgroup_init();

    debug_objects_mem_init();

    kmemleak_init();

    setup_per_cpu_pageset();

    numa_policy_init();

    if (late_time_init)

        late_time_init();

    sched_clock_init();

    calibrate_delay();//校准延时函数的精确度,实际上是校准loops_per_jiffy全局变量,即每个时钟滴答内CPU执行的指令数

    pidmap_init();//进程号位图初始化,一般用一个錺age来表示所有进程的錺id占用情况  

    anon_vma_init();//  匿名虚拟内存域( anonymous VMA)初始化  

    acpi_early_init();

#ifdef CONFIG_X86

    if (efi_enabled(EFI_RUNTIME_SERVICES))

        efi_enter_virtual_mode();

#endif

#ifdef CONFIG_X86_ESPFIX64

    /* Should be run before the first non-init thread is created */

    init_espfix_bsp();

#endif

    thread_info_cache_init();//获取thread_info缓存空间,大部分构架为空函数(包括ARM  

    cred_init();//任务信用系统初始化。详见:Documentation/credentials.txt  

    fork_init(totalram_pages);//进程创建机制初始化。为内核"task_struct"分配空间,计算最大任务数。  

    proc_caches_init();//初始化进程创建机制所需的其他数据结构,为其申请空间。 

    buffer_init();//块设备读写缓冲区初始化(同时创建"buffer_head"cache用户加速访问)

    key_init();//内核密钥管理系统初始化 

    security_init();//内核安全框架初始化

    dbg_late_init();

    vfs_caches_init(totalram_pages);//虚拟文件系统(VFS)缓存初始化
 

    signals_init();//信号管理系统初始化 

    /* rootfs populating might need page-writeback */

    page_writeback_init();//CPU在内存中开辟高速缓存,CPU直接访问高速缓存提以高速度。当cpu更新了高速缓存的数据后,需要定期将高速缓存的数据写回到存储介质中,比如磁盘和flash等。这个函数初始化写回的周期

#ifdef CONFIG_PROC_FS

    proc_root_init();//如果配置了proc文件系统,则需初始化并加载proc文件系统。在根目录的proc文件夹就是proc文件系统,这个文件系统是ram类型的,记录系统的临时数据,系统关机后不会写回到flash中

#endif

    cgroup_init();//control group正式初始化  

    cpuset_init();//CPUSET初始化。 参考资料:《多核心計算環境—NUMA與CPUSET簡介》

    taskstats_init_early();//任务状态早期初始化函数:为结构体获取高速缓存,并初始化互斥机制。

    delayacct_init();//任务延迟初始化 

    check_bugs();//检查CPU BUG的函数,通过软件规避BUG 

    sfi_init_late();//功能跟踪调试机制初始化,ftrace 是 function trace 的简称 

    if (efi_enabled(EFI_RUNTIME_SERVICES)) {

        efi_late_init();

        efi_free_boot_services();

    }

    ftrace_init();

    /* Do the rest non-__init'ed, we're now alive */

   rest_init();// 虽然从名字上来说是剩余的初始化。但是这个函数中的初始化包含了很多的内容,init进程就在这里启动  

}

start_kernel在其最后一个函数rest_init的调用中,会通过kernel_thread来生成一个内核进程,后者则会在新进程环境下调 用kernel_init函数,kernel_init一个让人感兴趣的地方在于它会调用run_init_process来执行根文件系统下的 /sbin/init等程序: 
static int __ref kernel_init(void *unused)
{
        ...
        run_init_process("/sbin/init");
        run_init_process("/etc/init");
        run_init_process("/bin/init");
        run_init_process("/bin/sh");
        panic("No init found. Try passing init= option to kernel. "
              "See Linux Documentation/init.txt for guidance.");
}

run_init_process的核心调用就是do_execve,后者调用do_execve_common来干执行一个新程序的活,在我们这个例子中要执 行的新程序来自/sbin/init,如果用file命令看一下会发现它其实是个ELF格式的动态链接库,而不是那种普通的可执行文件,所以 do_execve_common会负责打开、解析这个文件并找到其可执行入口点,这个过程相当繁琐,我们不妨直接看那些跟我们问题密切相关的代 码,do_execve_common会调用search_binary_handler去查找所谓的binary
formats handler,ELF显然是最常见的一种格式:
int search_binary_handler(struct linux_binprm *bprm,struct pt_regs *regs)
{
       ...
       for (try=0; try<2; try++) {
                read_lock(&binfmt_lock);
                list_for_each_entry(fmt, &formats, lh) {
                        int (*fn)(struct
linux_binprm *, struct pt_regs *) = fmt->load_binary;
                        ...
                        retval = fn(bprm, regs);
                        ...
               }
               ...
       }
}

代码中针对ELF格式的 fmt->load_binary即为load_elf_binary, 所以fn=load_elf_binary, 后续对fn的调用即是调用load_elf_binary,这是个非常长的函数,直到其最后,我们才找到所需要的答案:
static int load_elf_binary(struct linux_binprm *bprm, struct pt_regs *regs)
{
        ...
        start_thread(regs, elf_entry, bprm->p);
        ...
}

上述代码中的elf_entry即为/sbin/init中的执行入口点, bprm->p为应用程序新栈(应该已经在用户空间了),start_thread的实现为:
void
start_thread(struct pt_regs *regs, unsigned
long new_ip, unsigned long new_sp)
{
        set_user_gs(regs, 0);
        regs->fs = 0;
        regs->ds = __USER_DS;
        regs->es = __USER_DS;
        regs->ss = __USER_DS;
        regs->cs = __USER_CS;
        regs->ip = new_ip;
        regs->sp = new_sp;
        /*
         * Free the old FP and other
extended state
         */
        free_thread_xstate(current);
}

在这里,我们看到了__USER_CS的身影,在x86 64位系统架构下,该值为0x33. start_thread函数最关键的地方在于修改了regs->cs= __USER_CS, regs->ip= new_ip,其实就是人为地改变了系统调用int $0x80指令压入堆栈的下条指令的地址,这样当系统调用结束通过iret指令返回时,代码将从这里的__USER_CS:elf_entry处开始执 行,也就是/sbin/init中的入口点。start_thread的代码与kernel_thread非常神似,不过它不需要象
kernel_thread那样在最后调用do_fork来产生一个task_struct实例出来了,因为目前只需要在当前进程上下文中执行代码,而不是创建一个新进程。关于kernel_thread,我在本版曾有一篇帖子分析过,当时基于的是ARM架构。

所以我们看到,start_kernel在最后调用rest_init,而后者通过对kernel_thread的调用产生一个新进程(pid=1),新进程在其kernel_init()-->init_post()调用链中将通过run_init_process来执行用户空间的/sbin /init,run_init_process的核心是个系统调用,当系统调用返回时代码将从/sbin/init的入口点处开始执行,所以虽然我们知道 post_init中有如下几个run_init_process的调用:
run_init_process("/sbin/init");
run_init_process("/etc/init");
run_init_process("/bin/init");
run_init_process("/bin/sh");

但是只要比如/sbin/init被成功调用,run_init_process中的kernel_execve函数将无法返回,因为它执行int $0x80时压入堆栈中回家的路径被后续的C函数调用链给改写了,这样4个run_init_process只会有一个有机会被成功执行,如果这4个函数都失败 了,那么内核将会panic. 所以内核设计时必须确保用来改写int $0x80压入栈中的cs和ip的start_thread函数之后不会再有其他额外的代码导致整个调用链的失败,否则代码将执行非预期的指令,内核进入不稳定状态。

至此,init进程成功启动。

参考资料:

理解start_kernel中函数语句的作用
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: