高级语言和机器码
编译过程
一个传统的 C 程序从源代码到可执行二进制程序的过程中,需要经历 预处理(Preprocess)、 编译(Compile)、 汇编(Assemble)、 链接(Link)四个步骤,这四个步骤分别由 预处理器(Preprocessor)、 编译器(Compiler)、 汇编器(Assembler)、 链接器(Linker)完成。
预处理
预处理(Preprocess)阶段负责对 源代码(source code)进行文本的转换和处理,将其转化为 扩展代码(expanded code)。具体而言,预处理阶段包含如下工作:
- 头文件包含:将
#include指令包含的头文件内容插入到源文件中。 - 宏替换:将源代码中定义的宏
#define进行替换。 - 删除注释:将代码中的注释删除。
编译
编译(Compile)阶段将 预处理后源代码(extended code)翻译成 汇编代码(assembly code)。编译阶段包含 词法分析、语法分析、语义分析、中间代码优化 和 汇编代码生成 等子过程。
注意 编译(compilation)这个词一般的含义是将高级语言代码转化为二进制程序,但是如果在整个编译流程中谈到这个词,则需要将其与 汇编(assemble)进行区分:
- 编译是将高级语言代码转化为 汇编代码
- 汇编是将 汇编代码转化为二进制代码
汇编
汇编(Assemble)阶段负责将 汇编代码(assembly code)转换为 目标文件(object file)。汇编器(assembler)解析 汇编指令,将其翻译为对应的 机器码。
链接
如上图所示,链接器(linker)的作用是将由编译器生成的一个或多个 目标代码文件(object file,通常是汇编器生成的机器代码)合并为一个单一的 可执行文件。在这个过程中,链接器主要完成如下任务:
- 符号解析:查找所有未定义的符号(如函数调用、全局变量)并找到对应的定义。
- 重定位:确定 目标文件中的符号地址,并更新相关指令或数据。
- 合并代码和数据段:将不同 目标文件的代码和数据合并,形成最终的 可执行文件。
链接分为 静态链接 和 动态链接 两种方式。
- 静态链接:静态链接是在编译时将所有依赖的库代码拷贝到最终的 可执行文件 中,生成一个 完全独立的二进制文件。
- 动态链接:动态链接不会在编译时将库代码合并,而是在运行时加载外部共享库(.so / .dll)。可执行文件 只包含对库的引用,而不包含库的代码。
汇编代码
高级语言程序对应的 汇编代码 常常与 存储系统 在大题中进行综合考察,这里需要重点掌握 选择、循环、函数调用 语句对应的汇编代码。
选择结构语句
选择结构 在汇编中通过 条件比较指令(如 cmp)设置标志位,再利用 条件跳转指令(如 jle, jne 等)决定程序流程是否进入某个分支,同时通过 无条件跳转(jmp)跳过不应执行的分支,最终形成“判断 ➝ 跳转 ➝ 执行 ➝ 合流”的控制流图结构。
if (a > b) {
max = a;
} else {
max = b;
}
; 假设 a, b 的值分别存放在寄存器 eax 和 ebx 中
; 比较 a 和 b
cmp eax, ebx
; 如果 a <= b, 跳转到 else_label
jle else_label
; a > b 的分支,无需跳转
mov max, eax ; max = a
jmp endif_label ; 跳转到 endif_label
; a <= b 的分支
else_label:
mov max, ebx ; max = b
; 执行结束
endif_label:
上述的汇编代码可以通过以下图示辅助理解:
循环结构语句
循环结构在 汇编中以一个入口标签开始,通过 cmp 或类似指令判断循环条件,结合 条件跳转(如 jge, jl)决定是否继续执行循环体,然后在循环末尾使用 无条件跳转(jmp)返回判断处,形成“判断 ➝ 执行 ➝ 跳回 ➝ 再判断”的闭环结构,直到条件不满足跳出循环。
C 语言中循环语句有 while、do-while 和 for 三种,三者执行流程稍有差别,但核心都在于都使用 条件跳转 控制循环流程:
while 语句
while 循环在汇编中实现的关键是 “先判断、后执行”,即编译器会先生成一个条件判断的跳转逻辑,如果条件不满足则跳出循环,否则进入循环体执行,再跳回判断位置重复该过程。
while (count < 10) {
count++;
}
; 假设 count 的值存放在寄存器 ecx 中
start:
cmp ecx, 10 ; 比较 count 和 10
jge end ; 如果 count >= 10, 跳出循环
inc ecx ; count 增加
jmp start ; 无条件跳回循环开始
end:
上述的汇编代码可以通过以下图示辅助理解:
do-while 语句
do-while 循环的核心在于 “先执行一次,再判断”,因此汇编中先直接执行循环体,然后再进行条件判断,根据比较结果决定是否跳回继续执行。这种结构通过将判断逻辑放在循环体之后,确保循环体至少执行一次。
do {
count++;
} while (count < 10);
; 假设 count 存放在 ecx 中
start:
inc ecx ; count++
cmp ecx, 10 ; 比较 count 和 10
jl start ; 若 count < 10,继续循环
end:
上述的汇编代码可以通过以下图示辅助理解:
for 语句
for 循环在汇编中的实现是将 初始化、判断、更新三个阶段明确拆分:先初始化循环变量,再判断是否进入循环体;执行完循环体后进行变量更新,并跳回判断位置。它的本质是 while 循环的结构化变体,但语义更集中,便于生成高效指令序列。
for (int i = 0; i < 10; i++) {
sum += i;
}
; 假设 i 存在 ecx 中,sum 存在 eax 中
mov ecx, 0 ; 初始化 i = 0
mov eax, 0 ; 初始化 sum = 0
loop_start:
cmp ecx, 10 ; 判断 i < 10
jge loop_end ; 如果 i >= 10,跳出循环
add eax, ecx ; sum += i
inc ecx ; i++
jmp loop_start ; 回到判断
loop_end:
上述的汇编代码可以通过以下图示辅助理解:
函数定义和调用
在 C 语言中,每一次函数调用,最终都会被编译器翻译成一系列汇编指令。为了完成 参数传递、局部变量管理、返回值传递 以及 函数返回 等工作,CPU 需要借助 栈(Stack)、寄存器(Register) 以及 调用指令(call/ret) 共同完成整个调用过程。
对于 408 考试而言,重点掌握函数调用时栈帧(Stack Frame)的组织方式即可。
本节采用 32 位 x86(cdecl 调用约定) 作为示例进行讲解,这也是 408 中最常见的模型。
实际程序生成的汇编并没有统一标准,不同 ISA(如 x86、ARM、RISC-V)、不同编译器以及不同优化等级都会影响最终的汇编实现,因此本节示例仅用于理解函数调用的基本原理。
在理解函数对应的汇编时,首先需要区分两个概念:
- caller(调用者):发起函数调用的函数。
- callee(被调用者):当前正在执行的函数。
例如:
void func() {
add(1, 2);
}
此时:func 是 caller,add 是 callee
函数调用通常可以分为四个阶段:
- 入栈 callee 的参数
- 从 caller 中调用 callee 时,需要将 callee 的参数入栈
- 建立 callee 栈帧(函数入口)
- 保存调用者(caller)的返回地址和 ebp(caller 的函数栈底)。
- 建立当前函数(callee)的栈帧。
- 为局部变量预留栈空间。
- 执行 callee 函数
- 访问函数参数。
- 读写局部变量。
- 执行具体业务逻辑。
- 销毁 callee 栈帧(函数返回)
- 将返回值保存到规定的寄存器(32 位 x86 通常为
eax)。 - 恢复调用者的栈帧和寄存器。
- 返回到调用点继续执行。
- 将返回值保存到规定的寄存器(32 位 x86 通常为
这一节可以结合 函数调用时内存结构 共同理解,下面通过几个简单的例子说明下 函数定义 和 调用 的汇编代码。
函数定义
本节以一个非常简单的加法函数 add 进行说明:
int add(int x, int y) {
return x + y;
}
.globl _add
_add:
; 保存 caller 的 ebp
push ebp
; 设置 callee 的 ebp
mov ebp, esp
; x + y 的汇编表示
mov eax, [ebp+8]
add eax, [ebp+12]
; 恢复 caller 的 ebp, esp
mov esp, ebp
pop ebp
ret
说明
add函数的两个参数x和y是通过栈传递的。[ebp+8]和[ebp+12]分别代表第一个和第二个参数。- 函数返回值被保存在 eax 寄存器中。
push ebp / mov ebp, esp是标准做法,用于设置新函数的栈帧,确保不同函数调用之间互不干扰。
函数调用
再看一个稍复杂的例子,func 函数调用了 add 函数。
void func() {
int sum = add(3, 5);
int var = sum * 2;
}
.globl _func
_func:
push ebp
mov ebp, esp
; 为 sum 和 var 变量分配内存空间
sub esp, 8 ; sum、var
; 调用函数 add
push 5
push 3
call _add
add esp, 8
; 保存返回值
mov [ebp-4], eax
; 将eax左移1位,相当于乘以2
mov eax, [ebp-4]
shl eax, 1
; 将结果存储到 'var'
mov [ebp-8], eax
; 函数完成,清理堆栈,并恢复ebp
mov esp, ebp
pop ebp
ret
函数 func 的栈结构如下图所示:
高地址
+-----------------------------+
| caller 的参数 |
+-----------------------------+
| 参数2 [ebp+12] |
+-----------------------------+
| 参数1 [ebp+8] |
+-----------------------------+
| 返回地址 [ebp+4] |
+-----------------------------+ ← EBP
| caller 的 EBP [ebp] |
+-----------------------------+
| 局部变量1 [ebp-4] |
+-----------------------------+
| 局部变量2 [ebp-8] |
+-----------------------------+
| ... |
低地址
以下三个知识点可以放在一起学习: