@qidiandasheng 2020-07-20T02:18:40.000000Z 字数 5926 阅读 2512

可执行文件（链接、装载与库）

技术

编译语言和解释语言

编译语言
可产生包含机器码的可执行文件的语言
解释语言
不可产生可执行文件的语言
Java
是一种介于编译语言和解释语言两者之间的语言。它需要经过编译，但编译的结果不是机器码，而是Java字节码（Java byte codes）。Java字节码与机器码在结构上很相似，但Java字节码可以在一种虚拟的计算机下被解释，即Java虚拟机（Java Virtual Machine，JVM）上。被编译的Java程序产生Java字节码，之后计算机模拟JVM对其进行解释。Java程序的运行可以不受限于机器与图形操作系统的类型，所以它具有平台无关性（platform-independent）。

源代码到可执行文件的步骤

预编译->编译->汇编->链接

什么是目标文件

目标文件从结构上讲就是编译后的可执行文件格式，只是还没有经过链接的过程。其实它本身就是按照可执行文件格式存储的，只是跟真正的可执行文件在结构上稍有不同。

目标文件就是源代码编译后但未进行链接的那些中间文件（Windows的.obj和Linux下的.o）

生成目标文件

以下流程是生成可执行文件的过程（可执行文件也是目标文件）。由多个目标文件链接而成。

编写多个文件

Boy.h：

#import <Foundation/Foundation.h>
@interface Boy : NSObject
- (void)say;
@end

Boy.m

#import “Boy.h”
@implementation Boy
- (void)say
{
    NSLog(@“hi there again!\n”);
}
@end

main.m

#import "Boy.h"
int main(int argc, char * argv[]) {
    @autoreleasepool {
        Boy *boy = [[Boy alloc] init];
        [boy say];
        return 0;
    }
}

编译多个文件

xcrun clang -c Boy.m
xcrun clang -c main.m

链接生成可执行文件

将编译后的文件链接起来，这样就可以生成 a.out 可执行文件了。

xcrun clang main.o Boy.o -Wl,`xcrun --show-sdk-path`/System/Library/Frameworks/Foundation.framework/Foundation

目标文件的内容

机器指令代码、数据。

屏幕快照 2019-11-29 下午2.44.58.png-381kB

从上图可以看出可执行文件在存储时（没有调入到内存前）分为头部（Header）、代码区（text）、数据区（data）和未初始化数据区（bss）四个部分。这是基本上的可执行文件的格式，但不同平台下的可执行文件格式会略有不同，下面列出了Linux下的ELF格式可执行文件和Mac/iOS下的Mach-O格式可执行文件。

段（section）

一个可执行文件包含多个段，也就是多个 section。可执行文件不同的部分将加载进不同的 section，并且每个 section 会转换进某个 segment 里。这个概念对于所有的可执行文件都是成立的。

指明了 CPU 架构、大小端序、文件类型、Load Commands 个数等一些基本信息，Headers 能帮助校验目标文件合法性和定位文件的运行环境

我们可以使用 otool 来观察可执行文件的头部 -- 规定了这个文件是什么，以及文件是如何被加载的。通过 -h 可以打印出头信息：

% otool -v -h a.out
Mach header
      magic cputype cpusubtype  caps    filetype ncmds sizeofcmds      flags
MH_MAGIC_64  X86_64        ALL  0x00     EXECUTE    19       2424   NOUNDEFS DYLDLINK TWOLEVEL PIE

截屏2020-07-14 下午5.21.54.png-454.7kB

magic：64 位还是 32 位
cputype：CPU 类型，比如 arm 或 X86
cpusubtype: CPU 子类型，比如 armv8
filetype：表明了目标文件的类型（当前 Mach-O 属于哪种类型）
- OBJECT，指的是 .o 文件或者 .a 文件；
- EXECUTE，指的是 IPA 拆包后的文件，上面的a.out也是；
- DYLIB，指的是 .dylib 或 .framework 文件；
- DYLINKER，指的是动态链接器；
- DSYM，指的是保存有符号信息用于分析闪退信息的文件；
ncmds：Load command(加载命令)的数量
sizeofcmds：Load command的size
flags：标签

代码段（text）

存放 CPU 执行的机器指令。通常代码区是可共享的（即另外的执行程序可以调用它），使其可共享的目的是对于频繁被执行的程序，只需要在内存中有一份代码即可。代码区通常是只读的，使其只读的原因是防止程序意外地修改了它的指令。另外，代码区还规划了局部变量的相关信息。

代码区的指令包括操作码和操作对象（或对象地址引用）。如果是立即数（即是具体的数值），将直接包含在代码中，如果是局部数据，将在运行时在栈区分配空间，然后再引用该数据的地址，如果是未初始化数据区和数据区，在代码中同样将引用该数据的地址。

数据段（data）

该区包含了在程序中明确被初始化的全局变量、已经初始化的静态变量（包括全局静态变量和局部静态变量）和常量数据（如字符串常量）。

例如：一个不在任何函数内声明（全局变量）。如下使得变量 count 根据其初始值被存储初始化数据区中：

int count = 100;

例如：在任意位置定义静态变量方式，这声明了一个静态数据并初始化，如果在任意函数体外声明，则表示其为一个静态全局变量，如果在函数体内（局部），则表示其为一个局部静态变量。另外，如果在一个函数名前加上 static，则表示此函数只能再当前文件中被调用：

static int num = 200;

未初始化数据段（bss）

存入的是全局未初始化变量和未初始化静态变量。未初始化数据区的数据在程序开始执行之前被内核初始化为 0 或者空（NULL）。

例如，一个不在任何函数内声明的未初始化变量，将 sum 存储到未初始化数据区：

long sum[1000];

ELF可执行文件

.text .data .rodata comment

屏幕快照 2019-11-29 下午4.08.03.png-397.8kB

Mach-O 可执行文件

格式

Mach-O是 mac 以及 iOS 上目标文件的格式。

header、Load command、.text、data_const、data

截屏2020-07-15 上午8.42.57.png-315.8kB

加载命令（load command）

加载命令规定了文件的逻辑结构和文件在虚拟内存中的布局。可以通过 -l 来查看加载命令。

otool -v -l a.out | open -f

输出(截取部分)：

a.out:
Load command 0
      cmd LC_SEGMENT_64
  cmdsize 72
  segname __PAGEZERO
   vmaddr 0x0000000000000000
   vmsize 0x0000000100000000
  fileoff 0
 filesize 0
  maxprot ---
 initprot ---
   nsects 0
    flags (none)
Load command 1
      cmd LC_SEGMENT_64
  cmdsize 712
  segname __TEXT
   vmaddr 0x0000000100000000
   vmsize 0x0000000000001000
  fileoff 0
 filesize 4096
  maxprot r-x
 initprot r-x
   nsects 8
    flags (none)
Section
  sectname __text
   segname __TEXT
      addr 0x0000000100000eb0
      size 0x0000000000000087
    offset 3760
     align 2^4 (16)
    reloff 0
    nreloc 0
      type S_REGULAR
attributes PURE_INSTRUCTIONS SOME_INSTRUCTIONS
 reserved1 0
 reserved2 0
Section
  sectname __stubs
   segname __TEXT
      addr 0x0000000100000f38
      size 0x0000000000000018
    offset 3896
     align 2^1 (2)
    reloff 0
    nreloc 0
      type S_SYMBOL_STUBS
attributes PURE_INSTRUCTIONS SOME_INSTRUCTIONS
 reserved1 0 (index into indirect symbol table)
 reserved2 6 (size of stubs)

截屏2020-07-14 下午5.27.26.png-360.2kB

vmaddr：虚拟内存中的地址
vmsize：虚拟内存中的大小
initprot：保护方式，r-x：只读和可执行、rw-：可读可写和不可执行

Load command 0

加载的segment是__PAGEZERO，它的大小为 4GB。这 4GB 并不是文件的真实大小，但是规定了进程地址空间的前4GB被映射为不可执行、不可写和不可读。
0x0000000100000000转十进制=4294967296=4GB

Load command 1

加载的segment是__TEXT，里面存在多个Section，Section中的offset表明它在文件中的偏移量。

数据段

Mach-O的数据段部分稍微有点不同。

基本的可执行文件：

数据段：初始化的全局变量、已经初始化的静态变量和常量
未初始化数据段：全局未初始化变量和未初始化静态变量

Mach-O的可执行文件：

常量段：常量（比如字符串常量）
全局段／静态段：包括两个部分：未初始化过、初始化过。也就是说，（全局区／静态区）在内存中是放在一起的，初始化的全局变量和静态变量在一块区域，未初始化的全局变量和未初始化的静态变量在相邻的另一块区域；

内存中数据的存储结构

目标文件存储结构和内存存储结构对照

内存中的数据其实就是从目标文件中读入的，相比于目标文件主要少了Header区，Header的作用就是为了告诉系统怎么把目标文件载入到内存中。

而内存中多的堆区和栈区主要是运行时产生的数据所分配的内存区块，目标文件是编译时产生的当然就不存在堆区和栈区了。

注：在可执行文件中存放的一般叫段（segment）对应内存中的区。

一般可执行文件对应的内存结构：
导出图片Sun Jul 05 2020 16_40_17 GMT+0800 (中国标准时间).png-159.2kB

Mach-O可执行文件对应的内存结构：
7271477-6826f45e95473767.png-24.8kB

栈

编译器自动分配释放，存放函数的参数值，局部变量的值，非OC对象（基础数据类型）等。其操作方式类似于数据结构中的栈,内存地址连续向下增长。

堆

OC对象，一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式倒是类似于链表，内存地址向上增长。

堆是用于存放进程运行中被动态分配的内存段,它的大小并不固定,可动态扩张或缩减。当进程调用malloc等函数分配内存时,新分配的内存就被动态添加到堆上(堆被扩张); 当利用free等函数释放内存时,被释放的内存从堆中被剔除(堆被缩减)
堆向高地址扩展的数据结构，是不连续的内存区域。程序员负责在何时释放内存（如用free或delete），在iOS的ARC程序中，系统自动管理计数器，计数器为0的时候，在当次的runloop结束后，释放掉内存。堆中的所有东西都是匿名的，这样不能按名字访问，而只能通过指针访问。
对于堆来讲,频繁的new/delete势必会造成内存空间的不连续性，从而造成大量的碎片 ,使程序效率降低。

一般可执行文件数据区

未初始化数据区（bss segment）

bss段通常是指用来存放程序中未初始化的全局变量和静态变量的一块内存区域。
通常来说如果不初始化全局变量和静态变量，编译器也会对它们进行一个隐式初始化（直接赋值就是显示初始化），赋给它们一个缺省值，是我们这里所说的未初始化。
BSS段在程序执行之前会清0，所以未初始化的全局变量（静态变量）已经是0了。所以这种情况还是存放在BSS段，一旦初始化就会从BSS段中回收掉，转存到data段(数据段)中。
bss区-Block Started by Symbol（未初始化数据段）：并不给该段的数据分配空间，仅仅是记录了数据所需空间的大小。

数据区（data segment）

数据段分为只读数据段（常量区）和读写数据段
通常是指用来存放程序中已经初始化的全局变量和静态变量的一块内存区域。数据段属于静态内存分配,可以分为只读数据段和读写数据段。字符串常量等,是放在只读数据段中，结束程序时才会被收回。

Mach-O可执行文件数据区

全局区／静态区（data segment）

包括两个部分：未初始化过、初始化过。也就是说，（全局区／静态区）在内存中是放在一起的，初始化的全局变量和静态变量在一块区域，未初始化的全局变量和未初始化的静态变量在相邻的另一块区域；

常量区（data_const segment）

常量（比如字符串常量）；

代码段(code segment/text segment)

存放函数的二进制代码,代码区的内存是由系统控制。

编译过程

源代码->预编译->词法分析->语法分析->语义分析->中间语言生成->目标代码生成与优化->目标代码

具体过程可参考：iOS 编译 LLVM/Clang

链接器的作用

链接器的主要作用是为了给编译器生成的目标代码分配空间，确定他们的地址。比如目标代码中有变量定义在其他模块，那就需要在最终链接的时候才能确定运行时的绝对地址。

加载Mach-O文件

iOS 系统架构

iOS 系统是基于 ARM 架构的，大致可以分为四层：

最上层是用户体验层，主要是提供用户界面。这一层包含了 SpringBoard、Spotlight、Accessibility。
第二层是应用框架层，是开发者会用到的。这一层包含了开发框架 Cocoa Touch。
第三层是核心框架层，是系统核心功能的框架层。这一层包含了各种图形和媒体核心框架、Metal 等。
第四层是 Darwin 层，是操作系统的核心，属于操作系统的内核态。这一层包含了系统内核 XNU、驱动等。

下载.png-116.8kB

其中，用户体验层、应用框架层和核心框架层，属于用户态，是上层 App 的活动空间。Darwin 是用户态的下层支撑，是 iOS 系统的核心。

Darwin 的内核是 XNU，而 XNU 是在 UNIX 的基础上做了很多改进以及创新。

内核加载流程

可执行文件是由iOS 系统的内核 XNU加载的。

总体来说，XNU 加载就是为 Mach-O 创建一个新进程，建立虚拟内存空间，解析 Mach-O 文件，最后映射到内存空间。流程可以概括为：

内核XNU fork 新进程；
为 Mach-O 分配内存；
解析 Mach-O；
读取 Mach-O 头信息；
遍历 load command 信息，将 Mach-O 映射到内存；
启动 dyld。

上面流程是内核的处理流程，最后用户态 dyld 会对 Mach-O 文件做库加载和符号解析。

参考

程序员的自我修养—链接、装载与库