您的位置:首页 > 移动开发 > Android开发

Android Linker学习笔记

2016-01-23 09:57 211 查看
原文地址: http://drops.wooyun.org/tips/12122


0x00 知识预备

Linker是Android系统动态库so的加载器/链接器,要想轻松地理解Android linker的运行机制,我们需要先熟悉ELF的文件结构,再了解ELF文件的装入/启动,最后学习Linker的加载和启动原理。

鉴于ELF文件结构网上有很多资料,这里就不做累述了。


0x01 so的加载和启动

我们知道如果一个APP需要使用某一共享库so的话,它会在JAVA层声明代码:

此代码完成library的加载工作。翻看system.loadLibrary的源代码,可以发现:

System.loadLibrary也是一个native方法,它的调用的过程是:

打开函数dvmLoadNativeCode,可以找到以下代码:

从上面的代码可以看出Android系统加载共享库的关键代码为dlopen函数。这个dlopen函数的代码在bionic/linker/dlfcn.c中:

此函数主要通过调用
do_dlopen
函数来返回一个动态链接库的句柄,该句柄为一个soinfo结构体。Soinfo结构体的具体定义在
bionic/linker/linker.h
中。

继续查看
do_dlopen
函数,代码在linker.cpp中:

显然,重点在
find_library
函数。此函数代码如下:

继续往下深入:

先不去关心那些错误处理信息,我们假设各个函数的返回值均在预期范围内,这个函数的执行流程为:

使用find_loaded_library函数在已经加载的动态链接库链表里面查找该动态库。如果找到了,就返回该动态库的soinfo,否则执行第②步;
此时,说明指定的动态链接库还没有被加载,就使用load_library函数来加载该动态库。

load_library
函数是整个so加载过程的重中之重!它创建了动态链接库的句柄,代码如下:

load_library
函数的执行过程可以概括如下:

使用open_library函数打开指定so文件;
创建ElfReader类对象,并通过该对象的load方法,读取Elf文件头,然后通过分析Elf文件来加载各个segments;
使用soinfo_alloc函数分配一个soinfo结构体,并为这个结构体中的各个成员赋值。

下面对
步骤二
加以详细介绍。


1.1 SO文件的读取与加载工作

Linker使用ElfRead类的load函数完成so文件的分析工作。该类的源代码在
linker_phdr.cpp
中。Load函数代码如下:

显然此函数依次调用ReadElfHeader、ReadProgramHeader等函数。

首先,我们需要知道Android系统加载segments的机制:

一个ELF文件的程序头表包含一个或多个
PT_LOAD segments
,这些segments标志ELF文件中需要被映射到进程空间的区域。每一个可以加载的segment都含有如下重要属性:

p_offset
: 段在文件的偏移地址
p_filesz
:段的大小
p_memsz
:段在内存中占据的大小(通常大于p_filesz)。
p_vaddr
: 段的虚拟地址
p_flags
:段的标记(可读,可写,可执行)

当前,我们忽略
p_paddr
p_align
成员。

可以加载的segments能在虚拟地址范围
[p_vaddr…p_vaddr+p_memsz)
以列表的形式展现。其中有如下几个规则:

各个segments的虚拟地址范围不可重叠;
如果一个segment的
p_filesz
小于
p_memsz
,那么两者之间的额外数据将被初始化为0;
segment的虚拟地址范围的起、始地址不是必须在某一页的边界。两个不同的segments的起、始地址可以在同一页,在这种情况,该页继承后一segment的映射标记(mapping flags)
每一个segment实际加载的地址并非p
_vaddr
。而是由加载器决定将第一个segment加载到内存中的哪个位置,然后剩下的segments就以第一个segment为参照物,进行加载。比如:

下面是两个loadable segments的信息:

相当于这两个segments的虚拟地址范围分别为:

如果加载器决定将第一个segment加载到0xa0000000的话(通过后面的分析会知道,这个加载地址是在加载程序头部表的时候由系统确定的),那么它们的实际虚拟地址范围就是:

换句话说,所有的segments的实际加载开始地址与其vaddr的偏差值是固定的(0xa0030000 – 0x30000 = 0xa0040000 – 0x40000)。

但是,在实际情况下,segments的地址并不是在每一页的边界出开始的。考虑到我们只能在页面边界进行内存映射,因此,这就意味着加载地址的偏差bias应当按照如下方法进行计算:

所以第一个segment的
load_bias
= 0xa0030000 – 0x30000&0xfffff000 = 0xa00000000。

这里
phdr0_load_address
必须以某一页的边界为起始地址,所以该segments的真正内容的开始地址为:

注意:ELF要求如下条件,以满足mmap正常工作:

每一个loadable segments的
p_vaddr
都必须加上
load_bias
,其和就是该segments在内存中的实际开始地址。

1.1.1 ReadProgramHeader

理清了Android加载segments的机制,我们就来看linker中的实际代码,先看ReadProgramHeader:

首先读取elf文件的程序头部表项数目
phdr_num
;
然后分别获取程序头部表在页边界对齐后的起始地址
page_min
、结束地址
page_max
和偏移地址
page_offset
。并根据
page_max
page_start
计算出程序头部表占据的页面大小
phdr_size

再以只读模式建立一个私有映射,该映射将elf文件中偏移值为
page_min
,大小为
phdr_size
的区域映射到内存中。将映射后的内存地址赋给
phdr_mmap_
,简单一句话:将程序头部表映射到内存中,并将内存地址赋值;
reinterpret_cast<new_type>(expression)
,这是c++中的强制类型转换符,类似于
(new_type*)(expression)
。这里我们对上面红色部分代码加以解释:

(注:红色代码为倒数第三句)

首先
reinterpret_cast<char*>(mmap_result)
:经
void*
型指针
mmap_result
强制转换成
char*
型;

然后
reinterpret_cast<char*>(mmap_result) + page_offset
char*
型指针+
page_offset
,表示指向程序头部表真正开始的地方;

最后再将其转换成
ElfW(Phdr)*
型指针,显然
phdr_table_
指向程序头部表开始地址。

1.1.2 ReserveAddressSpace

再来看ReserveAddressSpace:

这里有一个关键函数
phdr_table_get_load_siz


通俗点讲,此函数就是返回ELF文件中包含的可加载segments总共需要占用的空间大小,并设置其最小虚拟地址的值(是页对齐的)。值得注意的是,原函数有4个参数,但是在ReserveAddressSpace中调用该函数时却只传递了3个参数,忽略了
out_max_vaddr
。在我个人看来是因为已知了
out_min_vaddr
及两者的差值
load_size
,所以可以通过
out_min_vaddr
+ load_size
来求得
out_max_vaddr


现在回到ReserveAddressSpace函数。求得
load_size
之后,就需要为这些segments分配足够的内存空间。这里需要注意的是mmap的第一个参数并非为Null,而是addr。这就表示将映射区间的开始地址放在进程的addr地址处(一般不会成功,而是由系统自动分配,所以可以看作是Null),mmap返回实际映射后的内存开始地址start。显然
load_bias_
= start – addr
就是实际映射内存地址同linker期望的映射地址的误差值。后面的操作中,linker就可以通过
p_vaddr + load_bias_
来获取某一segments在内存中的开始地址了。

1.1.3 LoadSegments

现在就开始加载ELF文件中的可加载segments了:

此部分功能很简单:就是将ELF中的可加载segments依次映射到内存中,并进行一些辅助扫尾工作。

1.1.4 FindPhdr

返回程序头部表在内存中地址。这与
phdr_table_
是不同的,后者是一个临时的、在so被重定位之前会为释放的变量:

要理解这段代码,我们需要知道段类型PT_PHDR所表示的意义:指定程序头表在文件及程序内存映像中的位置和大小。此段类型不能在一个文件中多次出现。此外,仅当程序头表是程序内存映像的一部分时,才可以出现此段。此类型(如果存在)必须位于任何可装入段的各项的前面。有关详细信息,请参见程序的解释程序

至此so文件的读取、加载工作就分析完毕了。我们可以发现,Android对so的加载操作只是以段为单位,跟section完全没有关系。另外,通过查看VerifyElfHeader的代码,我们还可以发现,Android系统仅仅对ELF文件头的
e_ident
e_type
e_version
e_machine
进行验证(当然,
e_phnum
也是不能错的),所以,这就解释了为什么有些加壳so文件头的section相关字段可以任意修改,系统也不会报错了。


1.2 so的链接机制

在1.1我们详细分析了Android so的加载机制,现在就开始分析so的链接机制。在分析linker的关于链接的源代码之前,我们需要学习ELF文件关于动态链接方面的知识。

1.2.1 动态节区

如果一个目标文件参与动态链接,它的程序头部表将包含类型为
PT_DYNAMIC
的元素。此“段”包含
.dynamic
节区(这个节区是一个数组)。该节区采用一个特殊符号
_DYNAMIC
来标记,其中包含如下结构的数组:

Elf32_Dyn
数组就是soinfo结构体中的dynamic成员,我们在第2节介绍的
load_library
函数中发现,
si->dynamic
被赋值为null,这就说明,在加载阶段是不需要此值的,只有在链接阶段才需要。Android的动态库的链接工作还是由linker完成,主要代码就是在linker.cpp的
soinfo_link_image
(
find_library_internal
方法中调用)中,此函数的代码相当多,我们来分块分析:

首先,我们需要从程序头部表中获取dynamic节区信息:

此函数很简单:

成功获取了dynamic节区信息,我们就可以根据该节区中的
Elf32_Dyn
数组来进行so链接操作了。我们需要从dynamic节区中抽取有用的信息,linker采用遍历dynamic数组的方式,根据每个元素的flags()进行相应的处理:

完成dynamic数组的遍历后,就说明我们已经获取了其中的有用信息了,那么现在就需要根据这些信息进行处理:


0x02 开始执行so文件

上面的
find_library_internal
函数中的
soinfo_link_image
函数执行完后就返回到上层函数
find_library
中,然后进一步返回到
do_dlopen
函数:

如果获取的si不为空,就说明so的加载和链接操作正确完成,那么就可以执行so的初始化构造函数了:

由于我们只分析so库,所以只需要关心
CallArray("DT_INIT_ARRAY", init_array, init_array_count, false)
函数即可:

这里需要对
init_array
节区的结构和作用加以说明。

首先是
init_array
节区的数据结构。该节中包含指针,这些指针指向了一些初始化代码。这些初始化代码一般是在main函数之前执行的。在C++程序中,这些代码用来运行静态构造函数。另外一个用途就是有时候用来初始化C库中的一些IO系统。使用IDA查看具有
init_array
节区的so库文件就可以找到如下数据:



这里共三个函数指针,每个指针指向一个函数地址。值得注意的是,上图中每个函数指针的值都加了1,这是因为地址的最后1位置1表明需要使得处理器由ARM转为Thumb状态来处理Thumb指令。将目标地址处的代码解释为Thumb代码来执行。

然后再来看CallFunction的具体实现:

至此,整个Android so的linker机制就分析完毕了!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: