深入理解JVM内存区域

708

不诗意的女程序媛不是好厨师~

转载请注明出处,From李诗雨---[blog.csdn.net/cjm24848365…]

在这里插入图片描述

前言:Jvm是啥

图可以大致理解为:

  • JDK - 类库 = JRE
  • JRE - API --> JVM(翻译)

【JVM是啥】

  • 其实 JVM 就是 翻译 .

    字节码  --> JVM(翻译) --->  机器码(让电脑的CPU可以直接读取)
    
  • JVM不单单只支持Java语言,也支持其他语言(Scala、Kotlin、Groovy等等)

【虚拟机历史】

  • 目前使用范围最广的Java虚拟机---HotSpot VM

    Hotspot什么意思:热点代码探测技术,及时编译器(发现最有价值的代码,如果代码用得非常多,就会把这些代码编译成本地代码)。

  • 谷歌(谷歌主要开发语言也是Java):Google Android Dalivk VM

1.运行时数据区

一个Class文件经过类加载了,然后它就会被放到运行时数据区里面。

  • 那运行时数据区 是什么呢?

    Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域

    注意:JVM所有的东西都是放在内存的

  • 运行时数据区 按照线程私有 和 线程共享 进行划分(如下图所示)。

    线程私有---即:你单独起一个线程这里就会单独有一块东西
    
    线程共享---即:无论你起多少个线程,这个区域就一份
    

2.站在线程角度来看

2.1 线程私有

2.1.1程序计数器

【定义】:指向当前线程正在执行的字节码指令(Class)的地址(行号)

注意:jvm是运行class的,不是运行java的

【举个栗子】

比如大家都有上过公开课的经历,

老师在上课我们可以看做线程1;

老师有时候会与我们互动,解决我们的疑问,我们看做线程2.

那老师暂停讲课,和我们互动的时候,他要记住自己讲到哪里了,以便后面继续讲课,而不是从头再来讲。

☞ 而程序计数器就是起到了记录的作用,以保证2个线程在切换过程中,程序仍然能正常执行。

  • 程序计数器占用的内存非常非常的小,因为它就记一个数。

    是当前线程执行的字节码的行号指示器

    各线程之间独立存储,互不影响

  • (面试)为什么需要程序计数器

    Ø Java是多线程的,意味着线程切换

    Ø 确保多线程情况下的程序正常执行

在说虚拟机栈之前,我们先来提一下栈~

穿插提一下→栈

  • 栈(Stack):数据结构

    入口和出口只有一个

    入栈

    出栈

  • 特点

    先进后出(FIL0)

  • 为什么JVM要使用栈?

    非常符合JAVA中方法间的调用

来看个例子你就明白了:

在这里插入图片描述
输出结果:

先入栈的方法,最后出来。

好下面我们来看看虚拟机栈:

2.1.2虚拟机栈

  • 虚拟机栈:

    每个线程私有的,线程在运行时,在执行每个方法的时候都会打包成一个栈帧,

    栈帧中 存储了局部变量表操作数栈动态链接方法出口等信息,然后放入栈。

    每个时刻正在执行的当前方法就是虚拟机栈顶的栈桢。

    方法的执行就对应着栈帧在虚拟机栈中入栈和出栈的过程。

  • 栈的大小缺省为1M,

  • 改虚拟栈的大小:可用参数 –Xss调整大小,例如-Xss256k

下面我们来一一讲解栈帧的内部:

(1) 局部变量表
  • 定义:顾名思义就是局部变量的表,用于存放我们的局部变量的。

    首先它是一个32位的长度,主要存放我们的Java的八大基础数据类型,一般32位就可以存放下,如果是64位的就使用高低位占用两个也可以存放下,如果是局部的一些对象,比如我们的Object对象,我们只需要存放它的一个引用地址即可。

局部变量表的第0个位置始终放的都是this这个对象,放的是引用。

(2)操作数栈
  • 定义:存放我们方法执行的操作数的,它就是一个栈,先进后出的栈结构。

    操作数栈,就是用来操作的,操作的的元素可以是任意的java数据类型。

    我们知道一个方法刚刚开始的时候,这个方法的操作数栈就是空的,操作数栈运行方法是会一直进行入栈/出栈的操作

(3)返回地址

正常返回(调用程序计数器中的地址作为返回)、异常的话(通过异常处理器表<非栈帧中的>来确定)

(4)动态链接

动态链接: Java语言特性多态(需要类加载、运行时才能确定具体的方法),动态特性(Groovy、JS、动态代理)

2.1.3本地方法栈

  • 本地方法栈保存的是native方法的信息

  • 各虚拟机自由实现。

  • 当一个JVM创建的线程调用native方法后,JVM不再为其在虚拟机栈中创建栈帧,JVM只是简单地动态链接并直接调用native方法

2.2线程共享

2.2.1方法区

方法区中都存储了哪些信息呢?

  • 类信息 (即class)

  • 常量 ("lsy","123"等)

  • 静态变量 (static变量)

  • 即时编译期编译后的代码

    这个指的是动态即使编译,我在运行的时候才进行编译。编译完之后也是放方法区。

2.2.2Java堆

哪些东西都在方法堆中呢?

  • 对象实例(几乎所有)

    为什么说是几乎所有对象?→ 后面会讲 栈分配对象

  • 数组

Java堆也是垃圾回收发生的主要区域,

Java堆的大小参数设置

-Xmx 堆区内存可被分配的最大上限

-Xms 堆区内存初始内存分配的大小

3.直接内存(了解即可)

直接内存不是虚拟机运行时数据区的一部分,也不是java虚拟机规范中定义的内存区域;

如果使用了NIO,这块区域会被频繁使用,在java堆内可以用directByteBuffer对象直接引用并操作;

这块内存不受java堆大小限制,但受本机总内存的限制,

可以通过-XX:MaxDirectMemorySize来设置(默认与堆内存最大值一样),所以也会出现OOM异常。

4.深入辨析堆和栈

功能

▷ 以栈帧的方式存储方法调用的过程,并存储方法调用过程中基本数据类型的变量(int、short、long、byte、float、double、boolean、char等)以及对象的引用变量,其内存分配在栈上,变量出了作用域就会自动释放;

▷ 而堆内存用来存储Java中的对象。无论是成员变量,局部变量,还是类变量,它们指向的对象都存储在堆内存中;

线程独享还是共享

▷ 栈内存归属于单个线程,每个线程都会有一个栈内存,其存储的变量只能在其所属线程中可见,即栈内存 可以理解成线程的私有内存。

▷ 堆内存中的对象对所有线程可见。堆内存中的对象可以被所有线程访问

空间大小

▷ 栈的内存要远远小于堆内存,栈的深度是有限制的,可能发生StackOverFlowError问题。

(虚拟机栈可以理解为最大为1M,那100个线程-->100M)

5.深入理解对象

5.1虚拟机角度来看,一个对象的诞生

当虚拟机遇到一条new指令时,会经历如下过程:

1.检查加载

先执行相应的类加载过程。

2.分配内存

接下来虚拟机将为新生对象分配内存。为对象分配空间的任务等同于把一块确定大小的内存从Java堆中划分出来。

  • 指针碰撞 、空闲列表

如果Java堆中内存是绝对规整的,所有用过的内存都放在一边,空闲的内存放在另一边,中间放着一个指针作为分界点的指示器,那所分配内存就仅仅是把那个指针向空闲空间那边挪动一段与对象大小相等的距离,这种分配方式称为“指针碰撞”。

如果Java堆中的内存并不是规整的,已使用的内存和空闲的内存相互交错,那就没有办法简单地进行指针碰撞了,虚拟机就必须维护一个列表,记录上哪些内存块是可用的,在分配的时候从列表中找到一块足够大的空间划分给对象实例,并更新列表上的记录,这种分配方式称为“空闲列表”。

选择哪种分配方式由Java堆是否规整决定,而Java堆是否规整又由所采用的垃圾收集器是否带有压缩整理功能决定。

空闲列表的产生和垃圾回收有一定关系,因为只有发生垃圾回收才会出现这种空的不连续。

  • 并发安全

    除如何划分可用空间之外,还有另外一个需要考虑的问题是对象创建在虚拟机中是非常频繁的行为,即使是仅仅修改一个指针所指向的位置,在并发情况下也并不是线程安全的,可能出现正在给对象A分配内存,指针还没来得及修改,对象B又同时使用了原来的指针来分配内存的情况。

    CAS机制:

    解决这个问题有两种方案,一种是对分配内存空间的动作进行同步处理——实际上虚拟机采用CAS配上失败重试的方式保证更新操作的原子性;

注意一下:A-B-A 即不关心中间过程,最终还是你的就行。

❉ **分配缓冲**

另一种是把内存分配的动作按照线程划分在不同的空间之中进行,即每个线程在Java堆中预先分配一小块私有内存,也就是本地线程分配缓冲(Thread Local Allocation Buffer,TLAB),如果设置了虚拟机参数 -XX:UseTLAB,在线程初始化时,同时也会申请一块指定大小的内存,只给当前线程使用,这样每个线程都单独拥有一个Buffer,如果需要分配内存,就在自己的Buffer上分配,这样就不存在竞争的情况,可以大大提升分配效率,当Buffer容量不够的时候,再重新从Eden区域申请一块继续使用。

TLAB的目的是在为新对象分配内存空间时,让每个Java应用线程能在使用自己专属的分配指针来分配空间,减少同步开销。

TLAB只是让每个线程有私有的分配指针,但底下存对象的内存空间还是给所有线程访问的,只是其它线程无法在这个区域分配而已。当一个TLAB用满(分配指针top撞上分配极限end了),就新申请一个TLAB。

3.内存空间初始化

(注意不是构造方法)内存分配完成后,虚拟机需要将分配到的内存空间都初始化为零值(如int值为0,boolean值为false等等)。这一步操作保证了对象的实例字段在Java代码中可以不赋初始值就直接使用,程序能访问到这些字段的数据类型所对应的零值。

4.设置

接下来,虚拟机要对对象进行必要的设置,例如这个对象是哪个类的实例、如何才能找到类的元数据信息、对象的哈希码、对象的GC分代年龄等信息。这些信息存放在对象的对象头之中。

5.对象初始化

在上面工作都完成之后,从虚拟机的视角来看,一个新的对象已经产生了,但从Java程序的视角来看,对象创建才刚刚开始,所有的字段都还为零值。所以,一般来说,执行new指令之后会接着把对象按照程序员的意愿进行初始化,这样一个真正可用的对象才算完全产生出来。

5.2对象的内存布局

在HotSpot虚拟机中,对象在内存中存储的布局可以分为3块区域:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。

对象头包括两部分信息,第一部分用于存储对象自身的运行时数据,如哈希码(HashCode)、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等。

对象头的另外一部分是类型指针,即对象指向它的类元数据的指针,虚拟机通过这个指针来确定这个对象是哪个类的实例。

第三部分对齐填充并不是必然存在的,也没有特别的含义,它仅仅起着占位符的作用。由于HotSpot VM的自动内存管理系统要求对对象的大小必须是8字节的整数倍。当对象其他数据部分没有对齐时,就需要通过对齐填充来补全。

5.3对象的访问定位

  • 句柄

    如果使用句柄访问的话,那么Java堆中将会划分出一块内存来作为句柄池,reference中存储的就是对象的句柄地址,而句柄中包含了对象实例数据与类型数据各自的具体地址信息。

  • 直接指针

    如果使用直接指针访问, reference中存储的直接就是对象地址。

    这两种对象访问方式各有优势,使用句柄来访问的最大好处就是reference中存储的是稳定的句柄地址,在对象被移动(垃圾收集时移动对象是非常普遍的行为)时只会改变句柄中的实例数据指针,而reference本身不需要修改。

    使用直接指针访问方式的最大好处就是速度更快,它节省了一次指针定位的时间开销,由于对象的访问在Java中非常频繁,因此这类开销积少成多后也是一项非常可观的执行成本。

    对Sun HotSpot而言,它是使用直接指针访问方式进行对象访问的。

6.虚拟机优化技术(后期)——逃逸分析

定义:逃逸分析是目前JVM中比较前沿的优化技术,它不是直接的优化手段而是为其他优化手段提供依据的分析技术。逃逸分析的基本行为就是分析对象动态作用域。

栈上分配:

虚拟机提供的一种优化技术,基本思想是,对于线程私有的对象,将它打散分配在栈上,而不分配在堆上。好处是对象跟着方法调用自行销毁,不需要进行垃圾回收,可以提高性能。

栈上分配需要的技术基础,逃逸分析。逃逸分析的目的是判断对象的作用域是否会逃逸出方法体。

注意,任何可以在多个线程之间共享的对象,一定都属于逃逸对象。

虚拟机有一个逃逸技术,默认是开启的。

  • 牵涉到的JVM参数:

-XX:+DoEscapeAnalysis:启用逃逸分析(默认打开) -XX:-DoEscapeAnalysis:关闭逃逸分析

-XX:+UseTLAB 本地线程分配缓冲(默认打开) 开启了逃逸分析技术,这个也要开。否则对象是没有地方分配的。

-XX:+EliminateAllocations:标量替换(默认打开),即一个标准

这三个都要打开,逃逸技术才起作用

其他一个可记: -XX:+PrintGC 打印垃圾回收的过程

使用堆和栈的好处是不同的:

使用栈,它就可以跟着线程来跑。

使用堆呢,你就必须要涉及到垃圾回收。使用栈的话,线程关闭了,它就没有了。

7.面试会问那哪些呢?

  • 这些概念 注意内存
  • 程序计数器的问题
  • 会问到栈,栈的特点 。JVM中为什么用栈,可以从方法和方法之间的调用去解释。
  • 虚拟栈的大小设置,比如虚拟机栈很有可能出现异常
  • 写递归一定要注意及时跳出。
  • 是不是所有对象都在堆上面分配? ----不是的,因为有例外,在栈上面分配