首页 > temp > python入门教程 >
-
JVM-内存区域与OOM
运行时数据区
Java虚拟机运行时数据区:
程序计数器(Program Counter Register)是一块较小的内存空间,它可以看作是当前线程所执行的字节码的行号指示器。线程私有
如果线程正在执行的是一个Java方法,这个计数器记录的是正在执行的虚拟机字节码指令的地址;如果正在执行的是本地(Native)方法,这个计数器值则应为空(Undefined)。此内存区域是唯一一个在《Java虚拟机规范》中没有规定任何OutOfMemoryError情况的区域。
JAVA方法 是由JAVA编写的,编译成字节码,存储在class文件中。本地方法 是由其它语言编写的,编译成和处理器相关的机器代码,与平台高度相关。
本地方法保存在动态链接库中,即.dll(windows系统)文件中,格式是各个平台专有的
运行中的JAVA方法调用本地方法时,虚拟机装载包含这个本地方法的动态库的,并调用这个方法。通过本地方法,JAVA程序可以直接访问底层操作系统的资源,如果你这样用,你的程序就变成平台相关了,因为本地方法的动态库是与平台相关的,此外使用本地方法还可能把程序变得和特定的JAVA平台实现相关。一个本地方法接口——JAVA本地接口JNI——使得本地方法可以在特定主机系统的任何一个JAVA平台实现上运行
JAVA虚拟机栈与程序计数器一样,Java虚拟机栈(Java Virtual Machine Stack)也是线程私有的,它的生命周期与线程相同。虚拟机栈描述的是Java方法执行的线程内存模型:每个方法被执行的时候,Java虚拟机都会同步创建一个栈帧(Stack Frame)用于存储局部变量表、操作数栈、动态连接、方法出口等信息。每一个方法被调用直至执行完毕的过程,就对应着一个栈帧在虚拟机栈中从入栈到出栈的过程。
局部变量表里存放各种基本数据类型,对象引用和returnAddress类型。其中,这些数据类型在局部变量表中的存储空间以局部变量槽(Slot)表示。long和double会占两个局部变量槽,其余数据类型只占一个。局部变量表所需的内存空间在编译期间完成分配,当进入一个方法时,这个方法需要在栈帧中分配多大的局部变量空间是完全确定的,在方法运行期间不会改变局部变量表的大小。请读者注意,这里说的“大小”是指变量槽的数量,虚拟机真正使用多大的内存空间(譬如按照1个变量槽占用32个比特、64个比特,或者更多)来实现一个变量槽,这是完全由具体的虚拟机实现自行决定的事情。
本地方法栈与虚拟机栈所发挥的作用是非常相似的,其区别只是虚拟机栈为虚拟机执行Java方法(也就是字节码)服务,而本地方法栈则是为虚拟机使用到的本地(Native)方法服务。
Java堆,对于Java应用程序来说,Java堆(Java Heap)是虚拟机所管理的内存中最大的一块。Java堆是被所有线程共享的一块内存区域,在虚拟机启动时创建。此内存区域的唯一目的就是存放对象实例,Java世界里“几乎”所有的对象实例都在这里分配内存。
Java堆是垃圾收集器管理的内存区域,因此有时候它也被称为“GC堆”。
从分配内存的角度看,所有线程共享的Java堆中可以划分出多个线程私有的分配缓冲区(Thread Local Allocation Buffer,TLAB),以提升对象分配时的效率。不过无论从什么角度,无论如何划分,都不会改变Java堆中存储内容的共性,无论是哪个区域,存储的都只能是对象的实例,将Java堆细分的目的只是为了更好地回收内存,或者更快地分配内存。
方法区与Java堆一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载的类型信息、常量、静态变量、即时编译器编译后的代码缓存等数据。虽然《Java虚拟机规范》中把方法区描述为堆的一个逻辑部分,但是它却有一个别名叫作“非堆”(Non-Heap),目的是与Java堆区分开来。
运行时常量池(Runtime Constant Pool)是方法区的一部分。Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池表(Constant Pool Table),用于存放编译期生成的各种字面量与符号引用,这部分内容将在类加载后存放到方法区的运行时常量池中。
对象
对象的创建
一个对象的创建,首先当JVM遇到一条字节码指令new时,首先检查这条指令的参数能否定位到一个符号引用,定位到之后,检查这个符号引用是否已被加载、解析和初始化过。如果没有,则先执行相应的类加载过程。经历了类加载后,对象所需的内存大小即可确定,接下来是为对象分配内存空间。
为对象分配内存空间实际上等同于将一块确定大小的内存空间从Java堆中划分出来。
划分方式有两种:1. 如果内存是规整的,则可以使用“指针碰撞”的方式进行内存分配。 2. 如果内存不规整,虚拟机则需要维护一个列表,记录那些内存块是可用的,在分配的时候从列表中找到一块足够大的空间划分给对象实例,并更新列表上的记录,这种分配方式称为“空闲列表”(Free List)。
内存是否规整由垃圾收集器是否具有“空间压缩整理”的能力。
另外需要考虑的一个问题:修改指针所指向的位置,在并发情况下并不是线程安全的。可能出现正在给对象A分配内存,指针还没来得及修改,对象B又同时使用了原来的指针来分配内存的情况。解决这个问题有两种可选方案:一种是对分配内存空间的动作进行同步处理——实际上虚拟机是采用CAS配上失败重试的方式保证更新操作的原子性;另外一种是把内存分配的动作按照线程划分在不同的空间之中进行,即每个线程在Java堆中预先分配一小块内存,称为本地线程分配缓冲(Thread Local AllocationBuffer,TLAB),哪个线程要分配内存,就在哪个线程的本地缓冲区中分配,只有本地缓冲区用完了,分配新的缓存区时才需要同步锁定。
内存分配完成后,JVM必须将分配到的内存空间(不包括对象头)都初始化为零值。
此外,JVM还需要对对象进行必要的设置,例如这个对象是哪个类的实例,如何找到类的元数据信息等等一些信息。这些都完成之后,JVM的视角中,对象已经创建完毕。但从程序角度看,还有构造函数,(.class文件中的<init>()),一般来说(由字节码流中new指令后面是否跟随invokespecial
指令所决定,Java编译器会在遇到new关键字的地方同时生成这两条字节码指令,但如果直接通过其他方式产生的则不一定如此),new指令之后会接着执行<init>()方法,,按照coder的想法进行初始化,对象构造完成。
对象的内存布局
HotSpot虚拟机中,对象在堆内存的存储布局可以分为三个部分:对象头(Header)、实例数据(Instance Data)和对齐填充(Padding)。
HotSpot虚拟机对象的对象头部分包括两类信息。第一类是用于存储对象自身的运行时数据,如哈希码(HashCode)、GC分代年龄、锁状态标志、线程持有的锁、偏向线程ID、偏向时间戳等,这部分数据的长度在32位和64位的虚拟机(未开启压缩指针)中分别为32个比特和64个比特,官方称它为“Mark Word”。对象需要存储的运行时数据很多,其实已经超出了32、64位Bitmap结构所能记录的最大限度,但对象头里的信息是与对象自身定义的数据无关的额外存储成本,考虑到虚拟机的空间效率,Mark Word被设计成一个有着动态定义的数据结构,以便在极小的空间内存储尽量多的数据,根据对象的状态复用自己的存储空间。
对象头的另外一部分是类型指针,即对象指向它的类型元数据的指针,Java虚拟机通过这个指针来确定该对象是哪个类的实例。并不是所有的虚拟机实现都必须在对象数据上保留类型指针,换句话说,查找对象的元数据信息并不一定要经过对象本身,这点我们会在下一节具体讨论。此外,如果对象是一个Java数组,那在对象头中还必须有一块用于记录数组长度的数据,因为虚拟机可以通过普通Java对象的元数据信息确定Java对象的大小,但是如果数组的长度是不确定的,将无法通过元数据中的信息推断出数组的大小。
总结下来,对象头存储了对象自身的运行时数据(各种状态信息),以及类型指针(指向类型元数据)。
实例数据部分存储着对象的有效信息,即在代码中定义的各种类型的字段内容,无论是从父类继承下来的,还是子类中定义的字段都需要记录下来。这部分存储顺序受虚拟机分配策略参数(-XX: FieldsAllocationStyle参数)和字段在Java源码中定义顺序的影响。
HotSpot虚拟机默认的分配顺序为longs/doubles、ints、shorts/chars、bytes/booleans、oops(Ordinary Object Pointers,OOPs),从以上默认的分配策略中可以看到,相同宽度的字段总是被分配到一起存放,在满足这个前提条件的情况下,在父类中定义的变量会出现在子类之前。如果HotSpot虚拟机的+XX:CompactFields参数值为true(默认就为true),那子类之中较窄的变量也允许插入父类变量的空隙之中,以节省出一点点空间。
对齐填充部分:HotSpot内存自动管理系统要求对象起始地址必须是8Bytes的整数倍,实际上任何对象的大小都必须是8字节的整数倍,对象头部分已被设计为该格式,如果实例数据部分没有对齐的话,就需要通过该机制补全。
对象的访问定位
Java程序会通过栈上的reference
数据来操作堆上的具体对象。在Java虚拟机规范
里只规定了reference
类型是一个指向对象的引用,并没有定义这个引用应该通过什么方式去定位、访问到堆中对象的具体位置,所以对象访问方式也是由虚拟机实现而定的,主流的访问方式主要有使用句柄和直接指针两种:
- 如果使用句柄访问的话,Java堆中将可能会划分出一块内存来作为句柄池,reference中存储的就是对象的句柄地址,而句柄中包含了对象实例数据与类型数据各自具体的地址信息,其结构如图2-2所示。
- 如果使用直接指针访问的话,Java堆中对象的内存布局就必须考虑如何放置访问类型数据的相关信息,reference中存储的直接就是对象地址,如果只是访问对象本身的话,就不需要多一次间接访问的开销。
使用直接指针的话,reference可以直接访问到对象,节省了一次指针定位的时间开销,速度更快。HotSpot就主要使用这种方式进行对象访问。
使用句柄访问,好处在于reference中存储的是稳定句柄地址,在对象被移动时只需要改变句柄中的实例数据指针,reference本身不需要更改。
OOM(OutOfMemoryError)
Java堆溢出
假设限制Java堆的大小,通过最小值参数-Xms和最大值参数-Xmx设置一致以避免堆自动扩展,如果保证GC Roots到对象之间有可达路径来避免垃圾回收机制清楚对象,则会出现OOM。-XX: +HeapDumpOnOutOf-MemoryError 可以让虚拟机在出现内存溢出异常的时候Dump出当前的内存堆转储快照以便进行事后分析。
虚拟机栈和本地方法栈溢出
HotSpot虚拟机并不区分虚拟机栈和本地方法栈。因此对于HotSpot来说,-Xoss参数(设置本地方法栈大小)是无效的,栈容量只能由-Xss参数来确定,《Java虚拟机规范》描述了两种异常:
- 如果线程请求的栈深度大于虚拟机所允许的最大深度,将抛出StackOverflowError异常。
- 如果虚拟机的栈内存允许动态扩展,当扩展栈容量无法申请到足够的内存时,将抛出OutOfMemoryError异常。
《Java虚拟机规范》明确允许Java虚拟机实现自行选择是否支持栈的动态扩展,而HotSpot虚拟机的选择是不支持扩展,所以除非在创建线程申请内存时就因无法获得足够内存而出现OutOfMemoryError异常,否则在线程运行时是不会因为扩展而导致内存溢出的,只会因为栈容量无法容纳新的栈帧而导致StackOverflowError异常。
在单线程的情况下,例如HotSpot不支持扩展,当栈帧过大(局部变量定义过多)或者栈容量过小装不下,都是StackOverFlowError。而多线程情况下,每个线程都会私有栈,当栈容量很大的时候,开过多线程将会导致OOM,操作系统内存不足。
在Windows平台的虚拟机中,Java的线程是映射到操作系统的内核线程
方法区和运行时常量池溢出
JDK6及之前的HotSpot虚拟机中,运行时常量池分配在永久代中,所以当通过-XX:PermSize和-XX:MaxPermSize限制永久代的大小即可间接限制永久代的大小。
如果利用String.intern()然后建立一个HashSet<Stinrg>进行字符串常量的无限增加,则很快在6的版本中会出现OOM。这里可以说明运行时常量池的确是属于方法区。
而在JDK7之后,字符串常量池放在了堆中,限制上面说的永久代大小并不会导致OOM,相反,通过-Xmx参数限制堆的大小将会出现OOM。
对下列代码进行分析:
String str1 = new StringBuilder("计算机").append("软件").toString();
System.out.println(str1.intern() == str1);
String str2 = new StringBuilder("ja").append("va").toString();
System.out.println(str2.intern() == str2);
这段代码在JDK 6中运行,会得到两个false,而在JDK 7中运行,会得到一个true和一个false。产生差异的原因是,在JDK 6中,intern()方法会把首次遇到的字符串实例复制到永久代的字符串常量池中存储,返回的也是永久代里面这个字符串实例的引用,而由StringBuilder创建的字符串对象实例在Java堆上,所以必然不可能是同一个引用,结果将返回false。
而JDK 7(以及部分其他虚拟机,例如JRockit)的intern()方法实现就不需要再拷贝字符串的实例到永久代了,既然字符串常量池已经移到Java堆中,那只需要在常量池里记录一下首次出现的实例引用即可,因此intern()返回的引用和由StringBuilder创建的那个字符串实例就是同一个。而对str2比较返回false,这是因为“java”[2]这个字符串在执行String-Builder.toString()之前就已经出现过了,字符串常量池中已经有它的引用,不符合intern()方法要求“首次遇到”的原则,“计算机软件”这个字符串则是首次出现的,因此结果返回true。
"java" 是在加载sun.misc.Version这个类的时候进入常量池的。
方法区的内容除了运行时常量池外,还需要用来存放类型的相关信息:类名,访问修饰符,常量池,字段描述,方法描述等。动态代理CGLib可以直接生成大量的动态类,在这种情况下如果方法区比较小的时候,将会OOM。(JDK7测试时仍是限制永久代大小)
在JDK8以后,永久代便退出了,元空间登场。在默认设置下,那些正常的动态创建新类型的测试用例已经很难再迫使虚拟机产生方法区的溢出异常了。元空间的一些相关参数:
- -XX:MaxMetaspaceSize:设置元空间最大值,默认是-1,即不限制,或者说只受限于本地内存大小。
- -XX:MetaspaceSize:指定元空间的初始空间大小,以字节为单位,达到该值就会触发垃圾收集进行类型卸载,同时收集器会对该值进行调整:如果释放了大量的空间,就适当降低该值;如果释放了很少的空间,那么在不超过-XX:MaxMetaspaceSize(如果设置了的话)的情况下,适当提高该值。
- -XX:MinMetaspaceFreeRatio:作用是在垃圾收集之后控制最小的元空间剩余容量的百分比,可减少因为元空间不足导致的垃圾收集的频率。类似的还有-XX:Max-MetaspaceFreeRatio,用于控制最大的元空间剩余容量的百分比。
本机直接内存溢出
直接内存不是运行时数据区的一部分,也不是《Java虚拟机规范》中定义的内存区域。JDK1.4中引入了NIO类,基于Channel和Buffer的IO方式,它可以使用本地函数库直接分配堆外内存,然后通过一个存在Java堆中的DirectByteBuffer对象作为这块内存的引用进行操作。这样避免了在Java堆和Native堆中来回复制数据。
直接内存(Direct Memory)的容量大小可通过-XX:MaxDirectMemorySize参数来指定,如果不去指定,则默认与Java堆最大值(由-Xmx指定)一致。
ByteBuffer堆外内存使用:
- 从nio时代开始,可以使用ByteBuffer等类来操纵堆外内存了,使用ByteBuffer分配本地内存则非常简单,ByteBuffer buffer = ByteBuffer.allocateDirect(10 * 1024 * 1024);
- 可以通过指定JVM参数来确定堆外内存大小限制:-XX:MaxDirectMemorySize=512m
- 对于这种direct buffer内存不够的时候会抛出错误: java.lang.OutOfMemoryError: Direct buffer memory
虽然使用DirectByteBuffer分配内存也会抛出内存溢出异常,但它抛出异常时并没有真正向操作系统申请分配内存,而是通过计算得知内存无法分配就会在代码里手动抛出溢出异常,真正申请分配内存的方法是Unsafe::allocateMemory()。
JDK10,Unsafe的部分功能通过VarHandle开放给外部使用。
由直接内存导致的内存溢出,一个明显的特征是在Heap Dump文件中不会看见有什么明显的异常情况,如果读者发现内存溢出之后产生的Dump文件很小,而程序中又直接或间接使用了 DirectMemory(堆外内存,典型的间接使用就是NIO),那就可以考虑重点检查一下直接内存方面的原因了。
__EOF__