您的位置:首页 > 编程语言 > Java开发

Java内存区域、内存溢出异常和对象创建、布局、访问全过程

2015-09-11 11:36 831 查看
这是第二次阅读《深入理解Java虚拟机:JVM高级特性与最佳实践》这本书,之前只能知晓大概,很多细节都记不清了。为了强化理解,融会贯通,在这记录下应该记住的东西和总结。

运行时数据区域

Java虚拟机在执行Java程序过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域有自各的用途,以及创建及销毁时间,有的区域随着虚拟机进程的启动而存在,有些区域则是依赖用户线程的启动和结束而建立和销毁。

Java虚拟机规范将JVM所管理的内存分为以下几个运行时数据区域:程序计数器、Java虚拟机栈、本地方法栈、Java堆、方法区。如图:



程序计数器(Program Counter Register)

程序计数器是一块较小的内存空间,它的作用可以看做是当前线程所执行的字节码的行号指示器。字节码解释器工作时就是通过改为这个计数器的值来选取下一条需要执行的字节码指令,分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。

由于Java虚拟机的多线程是通过线程轮流切换CPU时间片的方式来实现的,所以在任何一个时刻,一个处理器(对于多核处理器来说是一个内核)只会行一条线程中的指令。因此为了线各切换后能够恢复到正确的执行位置,每条线程都需要一个独立的程序计数器,为线程所私有。

如果当前线程执行的是一个Java方法,这个计数器是下在执行的虚拟机字节码的地址;如果执行的是一个Native方法,这个计数器的值为空(UndefinedD),计算器必须要能容纳方法的返回地址或者具体平台的本地指针。此区域是唯一一个在Java虚拟机器中没有规定任何OutOfMemoryError的区域。

Java虚拟机栈(Java Virtual Machine Stacks)

与程序计数器一样,Java虚拟机栈(Java Virtual Machine Stacks)也是线程私有的,它的生命周期与线程相同。虚拟机栈描述的是Java方法执行的内存模型;每个方法被执行时都会在虚拟机栈中创建一个栈桢(Stack Frame)用于存储操作数栈、动态链接、局部变量表等信息。每一个方法被调用直至其执行完成就对象了一个栈桢在虚拟机栈中入栈与出栈的过程。

虚拟机规范中说明了,Java虚拟机栈可以被实现为固定大小,也可以实现为根据计算动态扩展与收缩。如果被实现为固定大小,那么它需要被独立创建。Java虚拟机实现可能被给程序员与用户提供控制Java虚拟机栈的初始大小,当然,如果是动态扩展与收缩的实现,还可以控制虚拟机栈的最大与最小大小。

虚拟机规范在这个区域规定了两种异常状况:如果线程请求栈深度超过虚拟机允许的深度,虚拟机将会抛出一个StackOverflowError错误;如果虚拟机栈可以动态扩展(当前大部分虚拟机都可以动态扩展,只不过Java虚拟机规范允许固定长度的虚拟机栈),当扩展时无法申请到足够的内存或者在创建一条新的线程时没有足够的内存创建一个初始大小的虚拟机栈时,Java虚拟机将抛出OutOfMemoryError错误。

本地方法栈(Native Method Stacks)

本地方法栈与java虚拟机栈作用非常类似,其区别是:java虚拟机栈是为虚拟机执行java方法服务,而本地方法栈是为虚拟机调用的操作系统本地方法服务。

Java虚拟机规范没有对本地方法栈的实现和数据结构做强制规定,Sun HotSpot虚拟机直接把java虚拟机栈和本地方法栈合二为一。

与java虚拟机栈类似,本地方法栈也会抛出StackOverflowError异常和OutOfMemoryError异常。

Java堆(Java Heap)

对于大多数应用来说,Java堆(Java Heap)是Java虚拟机所管理的内在中最大的一块。Java堆是被所有线程共享的一块内在区域,在虚拟机启动时创建。此内存区域的唯一目的就是存放对象实例,几乎所有的对象实例都在这里分配内存。虚拟机规范中的描述是:所有类的实例与数组对象都要在堆中分配。

Java堆是垃圾收集器作用的主要区域,因此很多时候也被称为GC堆(Garbage Collected Heap)。如果从内存回收的角度看,由于现在的收集器基本都是采用分代收集算法,所以Java堆中还可以细分为:新生代和老年代;再细致一点,新生代还可为分为Eden空间、From Survivor空间、To Survivor空间。如果从内存分配的角度看,线程共享的Java堆中可能划分出多个线程私有的分配缓冲区(Thread Local Allocation Buffer, TLAB)。不过无论如何划分,都与存放内容无关,无论哪个区域,存储的仍然是对象实例,进一步划分其目的只是为了更好的回收内存或者更快的分配内存。

根据Java虚拟机规范的规定,Java堆可以处于物理上不连续的内存空间,只要是逻辑上连续的即可。即可以实现成固定大小的,也可以实现成动态扩展与收缩的,不过当前主流的虚拟机都是可以进行动态扩展与收缩的(通过-Xmx与-Xms控制)。如果在堆中没有足够的内存完成实例分配,并且堆也无法再扩展时,将会抛出OutOfMemory错误。

方法区(Method Area)

方法区也是各个线程共享的内存区域,它用于存储已经被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。方法区域又被称为“永久代”,但这仅仅对于Sun HotSpot来讲,JRockit和IBM J9虚拟机中并不存在永久代的概念。Java虚拟机规范把方法区描述为Java堆的一个逻辑部分,而且它和Java Heap一样不需要连续的内存,可以选择固定大小或可扩展,另外,虚拟机规范允许该区域可以选择不实现垃圾回收。相对而言,垃圾收集行为在这个区域比较少出现。该区域的内存回收目标主要针是对废弃常量的和无用类的回收。运行时常量池是方法区的一部分,Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池(Class文件常量池),用于存放编译器生成的各种字面量和符号引用,这部分内容将在类加载后存放到方法区的运行时常量池中。运行时常量池相对于Class文件常量池的另一个重要特征是具备动态性,Java语言并不要求常量一定只能在编译期产生,也就是并非预置入Class文件中的常量池的内容才能进入方法区的运行时常量池,运行期间也可能将新的常量放入池中,这种特性被开发人员利用比较多的是String类的intern()方法。

根据Java虚拟机规范的规定,当方法区无法满足内存分配需求时,将抛出OutOfMemoryError异常。

运行时常量池(Runtime Contant Pool)

运行时常量池(Runtime Contant Pool)是方法区的一部分。class方法中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量表(Constant Pool Table),用于存储编译期生成的各种字面量和符号引用,这部分内容将在类加载后存放到方法区的运行时常量池中。

运行时常量池相对于class文件常量池的一个重要特征就是具备动态性,Java语言并不要求常量一定只能在编译期产生,也就是并非预置入class方法中的常量池中的内容才能进入到方法区的运行时常量池,程序运行期间也可以将新的常量放入常量池中,例如String类的intern()方法。

运行时常量时是方法区的一部分,自然也会受到方法区内存大小的限制,当常量池无法再申请到内存时会抛出OutOfMemory异常。

直接内存(Direct Memory)

直接内存并不是虚拟机运行时数据区的一部分,可以简单地说是除了虚拟机内存外的其他本地物理内存。这些内存在Java中也有可能会被频繁地使用。如NIO引入的基于通道(Channel)与缓冲区(Buffer)的I/O方式,它可以使用Native函数库直接分配堆外内存,然后通过一个存储在Java堆里的DirectByteBuffer对象作为这块内存的的引用进行操作。

内存溢出

来自兰亭风雨

下面给出个内存区域内存溢出的简单测试方法




这里有一点要重点说明,在多线程情况下,给每个线程的栈分配的内存越大,反而越容易产生内存溢出异常。操作系统为每个进程分配的内存是有限制的,虚拟机提供了参数来控制Java堆和方法区这两部分内存的最大值,忽略掉程序计数器消耗的内存(很小),以及进程本身消耗的内存,剩下的内存便给了虚拟机栈和本地方法栈,每个线程分配到的栈容量越大,可以建立的线程数量自然就越少。因此,如果是建立过多的线程导致的内存溢出,在不能减少线程数的情况下,就只能通过减少最大堆和每个线程的栈容量来换取更多的线程。

另外,由于Java堆内也可能发生内存泄露(Memory Leak),这里简要说明一下内存泄露和内存溢出的区别:

内存泄露是指分配出去的内存没有被回收回来,由于失去了对该内存区域的控制,因而造成了资源的浪费。Java中一般不会产生内存泄露,因为有垃圾回收器自动回收垃圾,但这也不绝对,当我们new了对象,并保存了其引用,但是后面一直没用它,而垃圾回收器又不会去回收它,这边会造成内存泄露,

内存溢出是指程序所需要的内存超出了系统所能分配的内存(包括动态扩展)的上限。

Java堆中对象创建、布局、访问全过程

一、对象的创建

类加载检查:

检查这个指令的参数是否能在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已被加载、解析和初始化过。如果没有,那必须先执行相应的类的加载过程。

为对象分配内存

对象所需内存的大小在类加载完成后便完全确定,为对象分配空间的任务等同于把一块确定大小的内存从Java堆中划分出来。

2.1 根据Java堆中是否规整有两种内存的分配方式:

(Java堆是否规整由所采用的垃圾收集器是否带有压缩整理功能决定)

指针碰撞(Bump the pointer):

Java堆中的内存是规整的,所有用过的内存都放在一边,空闲的内存放在另一边,中间放着一个指针作为分界点的指示器,分配内存也就是把指针向空闲空间那边移动一段与内存大小相等的距离。例如:Serial、ParNew等收集器。

空闲列表(Free List):

Java堆中的内存不是规整的,已使用的内存和空闲的内存相互交错,就没有办法简单的进行指针碰撞了。虚拟机必须维护一张列表,记录哪些内存块是可用的,在分配的时候从列表中找到一块足够大的空间划分给对象实例,并更新列表上的记录。例如:CMS这种基于Mark-Sweep算法的收集器。

2.2 分配内存时解决并发问题的两种方案:

对象创建在虚拟机中时非常频繁的行为,即使是仅仅修改一个指针指向的位置,在并发情况下也并不是线程安全的,可能出现正在给对象A分配内存,指针还没来得及修改,对象B又同时使用了原来的指针来分配内存的情况。

对分配内存空间的动作进行同步处理—实际上虚拟机采用CAS配上失败重试的方式保证更新操作的原子性;

把内存分配的动作按照线程划分为在不同的空间之中进行,即每个线程在Java堆中预先分配一小块内存,称为本地线程分配缓冲(TLAB)。哪个线程要分配内存,就在哪个线程的TLAB上分配。只有TLAB用完并分配新的TLAB时,才需要同步锁定。

3. 内存空间初始化

虚拟机将分配到的内存空间都初始化为零值(不包括对象头),如果使用了TLAB,这一工作过程也可以提前至TLAB分配时进行。

内存空间初始化保证了对象的实例字段在Java代码中可以不赋初始值就直接使用,程序能访问到这些字段的数据类型所对应的零值。

4. 对象设置

虚拟机对对象进行必要的设置,例如这个对象是哪个类的实例、如何才能找到类的元数据信息、对象的哈希码、对象的GC分代年龄等信息。这些信息存放在对象的对象头之中。

5. init

在上面的工作都完成之后,从虚拟机的角度看,一个新的对象已经产生了。

但是从Java程序的角度看,对象的创建才刚刚开始方法还没有执行,所有的字段都还是零。

所以,一般来说(由字节码中是否跟随invokespecial指令所决定),执行new指令之后会接着执行方法,把对象按照程序员的意愿进行初始化,这样一个真正可用的对象才算产生出来。

对象的内存布局

在HotSpot虚拟机中,对象在内存中存储的布局可以分为3块区域:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。

1. 对象头:

HotSpot虚拟机的对象头包括两部分信息。

1.1 第一部分用于存储对象自身的运行时数据,如哈希码(HashCode)、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等。




1.2 另外一个部分是类型指针,即对象指向它的类元数据的指针,虚拟机通过这个指针来确定这个对象是哪个类的实例。

如果对象是一个Java数组,那在对象头中还必须有一块用于记录数组长度的数据,因为虚拟机可以通过普通Java对象的元数据信息确定Java对象的大小,但是从数组的元数据中无法确定数组的大小。

(并不是所有的虚拟机实现都必须在对象数据上保留类型指针,换句话说,查找对象的元数据并不一定要经过对象本身,可参考 三对象的访问定位)

2. 实例数据:

实例数据部分是对象真正存储的有效信息,也是在程序代码中所定义的各种类型的字段内容。无论是从父类

中继承下来的,还是在子类中定义的,都需要记录下来。

HotSpot虚拟机默认的分配策略为longs/doubles、ints、shorts/chars、bytes/booleans、oop,从分配策略中可以看出,相同宽度的字段总是分配到一起。

对齐填充:

对齐填充并不是必然存在的,也没有特定的含义,仅仅起着占位符的作用。

由于HotSpot虚拟机的自动内存管理系统要求对象的起始地址必须是8字节的整数倍,也就是对象的大小必须是8字节的整数倍。而对象头部分正好是8字节的倍数(1倍或者2倍),因此,当对象实例数据部分没有对齐的时候,就需要通过对齐填充来补全。

对象的访问定位

建立对象是为了使用对象,我们的Java程序需要通过栈上的引用数据来操作堆上的具体对象。

对象的访问方式取决于虚拟机实现,目前主流的访问方式有使用句柄和直接指针两种。

1. 使用句柄:

如果使用句柄的话,那么Java堆中将会划分出一块内存来作为句柄池,引用中存储的就是对象的句柄地址,而句柄中包含了对象实例数据与类型数据各自的具体地址信息。




优势:引用中存储的是稳定的句柄地址,在对象被移动(垃圾收集时移动对象是非常普遍的行为)时只会改变句柄中的实例数据指针,而引用本身不需要修改。

2. 直接指针:

如果使用直接指针访问,那么Java堆对象的布局中就必须考虑如何放置访问类型数据的相关信息,而引用中存储的直接就是对象地址。




优势:速度更快,节省了一次指针定位的时间开销。由于对象的访问在Java中非常频繁,因此这类开销积少成多后也是非常可观的执行成本。(例如HotSpot)

参考:

http://www.jianshu.com/p/ac162726d7de

http://blog.csdn.net/column/details/java-vm.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: