从汇编看函数

909 阅读6分钟

一、简介

CPU 中央处理器,内部主要包括寄存器、运算器、控制器。

  • 寄存器:存储数据
  • 运算器:处理数据
  • 控制器:控制硬件IO口的高低电平

常用寄存器

  • pc:程序计数器,确定指令位置
  • sp:在任意时刻都会保存栈顶的地址,调用函数就会开辟栈空间(通过操作sp寄存器来开辟栈空间)
  • fp:也称为x29寄存器属于通用寄存器,在某些时刻利用它来保存栈底的地址
  • x0、x1:存放参数的寄存器
  • w0、w1:是寄存器x0、x1的低32位,使用中w0=x0、w1=x1

x30寄存器

  • x30寄存器存放当前调用函数的返回地址
  • ret指令执行时,会找到x30寄存器保存的地址值,继续向下执行

常用指令

  • str:读取寄存器值,存入内存中
  • ldr:读内存中的值,存入到寄存器
  • stp:入栈指令 stp x0, x1, [sp] 存入两个值
  • ldp:出栈指令 ldp x0, x1, [sp] 取出两个值
  • bl:将下一条指令的地址放入lr(x30)寄存器,跳转到标号处执行指令
  • ret:默认使用lr(x30)寄存器的值,通过底层指令提示CPU此处作为下条指令的地址
  • orrorr{条件}{S}  目的寄存器,操作数1,操作数2,把结果放置到目的寄存器

函数参数和返回值 ARM64下,函数存放在x0~x7(w0~w7)8个寄存器中,超过8个参数,就会入栈。函数返回值是放在x0寄存器中的。通用寄存器32个。

二、汇编函数嵌套

1、demo1-汇编函数嵌套

.text
.global _A, B
_A:
    mov x0, #0xaaaa
    bl _B
    mov x0,#0xaaaa
    ret
_B:
    mov x0, #0xbbbb
    ret

执行顺序:

demo`A:
    0x102c0a0c4 <+0>:  mov    x0, #0xaaaa
    0x102c0a0c8 <+4>:  bl     0x102c0a0d4               ; B0x102c0a0cc <+8>:  mov    x0, #0xaaaa->  0x102c0a0d0 <+12>: ret    

继续执行,①和②会来回执行,①->②->①->…。 原因:在A函数中调用了B函数,这里x30的值将被置为B函数的结束地址,继续执行到retret会读取了x30的地址(B函数的结束地址)①处,继续往下执行到②,因此就①->②->①->…。

下面看系统是如何处理嵌套函数的调用的:

2、demo2-c函数嵌套

int A(void);
void b() {
    return;
}
void c() {
    b();
}
int main(int argc, char * argv[]) {
    c();
//    A();
}

断点单步执行打印如下:

demo`c:
    0x102f9a318 <+0>:  stp    x29, x30, [sp, #-0x10]!
    0x102f9a31c <+4>:  mov    x29, sp
    0x102f9a320 <+8>:  bl     0x102f9a314               ; b at main.m:14:5
    0x102f9a324 <+12>: ldp    x29, x30, [sp], #0x10
->  0x102f9a328 <+16>: ret    
  • stp:写入,将x29、x30写入到栈空间
  • stp x29, x30, [sp, #-0x10]!:等价于sp = sp-0x10(16字节)并赋值所在地址,拉伸栈空间,拉伸栈空间的大小为16字节的倍数
  • 执行c函数
  • ldp x29, x30, [sp], #0x10:将用sp所在地址值给x29、x30赋值,sp+0x10释放空间,保持栈平衡

在每一步打印x30的值:

asm1.png

从上面的运行结果可以看出,x30寄存器在调起内嵌函数前,存储x30寄存器的值到 [sp, #-0x10]的地址中,内嵌函数调用完成后,重新设置当前x30 = spsp存储了当前函数的地址),执行到retret读取到的地址即当前函数的结束地址,继续执行则跳出该函数。

3、demo3-完善demo1 在函数内调用函数,保存当前函数A结束地址x30sp-0x10(16个字节)位置,函数B结束后重新设置x30的值为sp(函数A的结束地址),这样就完成嵌套函数调用。

.text
.global _A, B
_A:
    mov x0, #0xaaaa
    str x30,[sp, #-0x10]!
    bl _B
    mov x0,#0xaaaa
    ldr x30, [sp], #0x10
    ret
_B:
    mov x0, #0xbbbb
    ret

如下:

asm2.png

三、函数

上面了解了汇编函数嵌套的处理方法,下面看一下在汇编层对参数是怎么处理的。

int sum(int a, int b) {
    return a+b;
}

int main(int argc, char * argv[]) {
    Int res = sum(5,7);
}

断点查看主函数汇编代码:

main.png

  • sub sp, sp, #0x30sp-0x30申请48个字节的栈空间(sp指向可用栈空间的栈顶),sub减指令
  • x29、x30保存栈底栈顶,做为嵌套函数的中间变量
  • 上面可以看到变量值#0x5、#0x7,存入到w0、w1寄存器中

进入sum函数内查看,汇编指令:

sum.png

  • sum函数内拉伸栈空间
  • str指令将w0、w1寄存器中的值入栈,再取出计算,为什么不直接计算呢?这是编译规则(编译->汇编),防止存在内嵌函数,在内嵌函数内使用了w0、w1寄存器(参数),会影响外层函数的参数值,因此为了方便编译器操作设定了这样一条逻辑:所有参数要入栈。当然编译器也可以优化,优化后的指令就直接走add sp, sp, #0x10
  • sp, sp, #0x10:数据处理完成回收栈空间
  • ret:有参数函数返回值是x0寄存器的值不是x30寄存器的值,w0x0寄存器的低32位,因此x0=w0ret=w0=0x12=12

编译器优化:  fast.png

优化后的汇编指令:

fast2.png

  • 优化掉了参数的存储,取值,直接将寄存器值相加
  • 没有拉伸栈空间

掉了两根头发!!!

多参数demo

int sum(int a,int b,int c,int d,int e,int f,int g,int h,int i,int j,int k,int l) {
    return a+b+b+c+d+e+f+g+h+i+j+k+l;
}

int main(int argc, char * argv[]) {
    int res = sum(5,7);
}

main函数汇编指令如下:

more.png

初始化寄存器的值,这里使用w0~w8、x9,这里w0=x0,w9=x9,不用纠结为什么没有都使用wxwx的低32位,同属于一个寄存器,在系统级别怎么用都行。过!

进入函数内部:

add.png

拉伸栈空间,存寄存器值,取值,相加,指令太多,每一条指令耗时1/主频,复合指令耗时2/主频,这么多指令,太烧了。

局部变量

demo1-函数多参数

int funcC() {
    int a = 1;
    int b = 2;
    int c = 3;
    return a+b+c;
}

int main(int argc, char * argv[]) {
    int res = funcC();
}

函数汇编指令如下:

func.png

  • 开辟栈空间0x10
  • 将值存入到w8寄存器中(任意w)
  • 将寄存器值入栈,出栈,计算

再看一段代码:

int funcC() {
    return 1+2+3;
}

int main(int argc, char * argv[]) {
    int res = funcC();
}

汇编指令:

less.png

这里就执行了一条指令,其实内部有做add相关指令,这里做了优化,但相比上面声明的局部变量,这里没有开辟栈空间,省去了很多指令,每一条指令耗时1/主频,复合指令耗时2/主频,每条指令都要放电一次,耗电,局部变量悠着点用,当然真正开发中编译器是会优化掉这些多余代码。

…… ……