您的位置:首页 > 其它

线程Dump

2013-10-18 22:42 169 查看

1.1
什么是Java线程Dump

线程Dump是非常有用的诊断Java应用问题的工具,每一个Java虚拟机都有及时生成显示所有线程在某一点状态的线程Dump的能力。虽然各个Java虚拟机线程dump打印输出格式上略微有一些不同,但是线程dump出来的信息包含线程基本信息;线程的运行状态、标识和调用的堆栈;调用的堆栈包含完整的类名,所执行的方法,如果可能的话还有源代码的行数。

JVM(java虚拟机)中的许多问题都可以使用线程Dump文件来进行诊断,其中比较典型的包括线程阻塞,CPU
使用率过高,JVM Crash,堆内存不足,和类装载等问题。

1.2
如何生成

在不同的操作系统下,产生线程 DUMP的方式是不同的:

1)
在 windows环境中

在启动程序的控制台里敲: Ctrl - Break,线程的 dump会产生在标准输出中(缺省标准输出就是控制台,如果对输出进行了重定向,则要查看输出文件)。

2)
在 unix, linux和 MacOS
环境中

在控制台中敲: Ctrl-\,或者,用“kill -3 <pid>”,或者“kill
–QUIT <pid>”。 Pid是用所关注的 JAVA进程号,您可以用“ps -ef | grep java”找到,或者使用
JDK 5.0中的“jps -v”命令获得。

3)
在各个操作系统平台,都可以用 JDK 5.0工具包中的 jstack <pid>

这里要注意的是:

1.
不同的 JAVA虚机的线程 DUMP的创建方法和文件格式是不一样的,不同的 JVM版本, dump信息也有差别。本文中,只以
SUN的 hotspot JVM 5.0_06 为例。

在实际运行中,往往一次 dump的信息,还不足以确认问题。建议产生三次 dump信息,如果每次 dump都指向同一个问题,我们才确定问题的典型性。

第2章
线程Dump分析

2.1
JVM线程

在线程中,有一些 JVM内部的后台线程,来执行譬如垃圾回收,或者低内存的检测等任务,这些线程往往在 JVM初始化的时候就存在,如下所示:

"Low Memory Detector"
daemon prio=10 tid=0x081465f8 nid=0x7 runnable [0x00000000..0x00000000]

如有红色标注的daemon字样,表明是后台线程。

实际分析中观察的更多的是用户线程,如下所示:

"Thread-1" prio=10 tid=0x08223860 nid=0xa waiting on condition [0xef47a000..0xef47ac38]

at java.lang.Thread.sleep(Native Method)

at testthread.MySleepingThread.method2(MySleepingThread.java:53)

- locked <0xef63d600> (a testthread.MySleepingThread)

at testthread.MySleepingThread.run(MySleepingThread.java:35)

at java.lang.Thread.run(Thread.java:595)

其中包括:

1.
线程的一些基本信息:名称、优先级及id

2.
线程状态:waiting on condition

3.
线程的调用栈

4.
线程锁住的资源:locked <0x3f63d600>

2.2
线程状态分析

正如我们刚看到的那样,线程的状态是一个重要的指标,它会显示在线程 Stacktrace的头一行结尾的地方。

2.2.1
Runnable

该状态表示线程具备所有运行条件,在运行队列中准备操作系统的调度,或者正在运行。

2.2.2
Waiting on condition

该状态出现在线程等待某个条件的发生。具体是什么原因,可以结合 stacktrace来分析。最常见的情况是线程在等待网络的读写,比如当网络数据没有准备好读时,线程处于这种等待状态,而一旦有数据准备好读之后,线程会重新激活,读取并处理数据。在 Java引入
NewIO之前,对于每个网络连接,都有一个对应的线程来处理网络的读写操作,即使没有可读写的数据,线程仍然阻塞在读写操作上,这样有可能造成资源浪费,而且给操作系统的线程调度也带来压力。在 NewIO里采用了新的机制,编写的服务器程序的性能和可扩展性都得到提高。

如果发现有大量的线程都在处在 Wait on condition,从线程 stack看,正等待网络读写,这可能是一个网络瓶颈的征兆。因为网络阻塞导致线程无法执行。一种情况是网络非常忙,几乎消耗了所有的带宽,仍然有大量数据等待网络读写;另一种情况也可能是网络空闲,但由于路由等问题,导致包无法正常的到达。所以要结合系统的一些性能观察工具来综合分析,比如
netstat统计单位时间的发送包的数目,如果很明显超过了所在网络带宽的限制 ;
观察 cpu的利用率,如果系统态的 CPU时间,相对于用户态的 CPU时间比例较高,这些都指向由于网络带宽所限导致的网络瓶颈。

另外一种出现 Wait on condition的常见情况是该线程在 sleep,等待 sleep的时间到了时候,将被唤醒。

2.2.3
Waiting for monitor entry
和 in Object.wait()

在多线程的 JAVA程序中,实现线程之间的同步,就要说说 Monitor。 Monitor是
Java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者 Class的锁。每一个对象都有,也仅有一个 monitor。下面这个图,描述了线程和 Monitor之间关系,以及线程的状态转换图:

从图中可以看出,每个 Monitor在某个时刻,只能被一个线程拥有,该线程就是“Active Thread”,而其它线程都是“Waiting
Thread”,分别在两个队列“ Entry Set”和“Wait Set”里面等候。在“Entry Set”中等待的线程状态是“Waiting
for monitor entry”,而在“Wait Set”中等待的线程状态是“in Object.wait()”。

先看“Entry Set”里面的线程。我们称被 synchronized保护起来的代码段为临界区。当一个线程申请进入临界区时,它就进入了“Entry
Set”队列。对应的代码就像:

synchronized(obj) {

.........

}

这时有两种可能性:

l
该 monitor不被其它线程拥有, Entry Set里面也没有其它等待线程。本线程即成为相应类或者对象的 Monitor的 Owner,执行临界区的代码(也就是请求的资源没有被锁住)

l
该 monitor被其它线程拥有,本线程在 Entry Set队列中等待。(也就是请求的资源正在被其它线程处理,也就是锁住了,要等待锁的解除)

在第一种情况下,线程将处于“Runnable”的状态,而第二种情况下,线程 DUMP会显示处于“waiting for monitor entry”。如下所示:

"Thread-0" prio=10 tid=0x08222eb0 nid=0x9 waiting for monitor entry [0xf927b000..0xf927bdb8]

at testthread.WaitThread.run(WaitThread.java:39)

- waiting to lock <0xef63bf08> (a java.lang.Object)

- locked <0xef63beb8> (a java.util.ArrayList)

at java.lang.Thread.run(Thread.java:595)

临界区的设置,是为了保证其内部的代码执行的原子性和完整性。但是因为临界区在任何时间只允许线程串行通过,这和我们多线程的程序的初衷是相反的。如果在多线程的程序中,大量使用 synchronized,或者不适当的使用了它,会造成大量线程在临界区的入口等待,造成系统的性能大幅下降。如果在线程
DUMP中发现了这个情况,应该审查源码,改进程序。

现在再来看现在线程为什么会进入“Wait Set”。当线程获得了 Monitor,进入了临界区之后,如果发现线程继续运行的条件没有满足,它则调用对象(一般就是被
synchronized 的对象)的 wait()
方法,放弃了 Monitor,进入“Wait Set”队列。只有当别的线程在该对象上调用了 notify()
或者 notifyAll() ,“ Wait Set”队列中线程才得到机会去竞争,但是只有一个线程获得对象的 Monitor,恢复到运行态。在“Wait
Set”中的线程, DUMP中表现为: in Object.wait(),类似于:

"Thread-1" prio=10 tid=0x08223250 nid=0xa in Object.wait() [0xef47a000..0xef47aa38]

at java.lang.Object.wait(Native Method)

- waiting on <0xef63beb8> (a java.util.ArrayList)

at java.lang.Object.wait(Object.java:474)

at testthread.MyWaitThread.run(MyWaitThread.java:40)

- locked <0xef63beb8> (a java.util.ArrayList)

at java.lang.Thread.run(Thread.java:595)

仔细观察上面的 DUMP信息,你会发现它有以下两行:

- locked <0xef63beb8> (a java.util.ArrayList)

- waiting on <0xef63beb8> (a java.util.ArrayList)

这里需要解释一下,为什么先 lock了这个对象,然后又 waiting on同一个对象呢?让我们看看这个线程对应的代码:

synchronized(obj) {

.........

obj.wait();

.........

}

线程的执行中,先用 synchronized
获得了这个对象的 Monitor(对应于 locked <0xef63beb8>
)。当执行到 obj.wait(), 线程即放弃了 Monitor的所有权,进入“wait set”队列(对应于 waiting
on <0xef63beb8> )。

往往在程序中,会出现多个类似的线程,他们都有相似的 DUMP信息。这也可能是正常的。比如,在程序中,有多个服务线程,设计成从一个队列里面读取请求数据。这个队列就是 lock以及
waiting on的对象。当队列为空的时候,这些线程都会在这个队列上等待,直到队列有了数据,这些线程被 Notify,当然只有一个线程获得了 lock,继续执行,而其它线程继续等待。

2.3
JDK5.0的lock

上面提到如果 synchronized和monitor机制运用不当,可能会造成多线程程序的性能问题。在 JDK 5.0中,引入了Lock机制,从而使开发者能更灵活的开发高性能的并发多线程程序,可以替代以往
JDK中的 synchronized和 Monitor的机制。但是,要注意的是,因为 Lock类只是一个普通类, JVM无从得知
Lock对象的占用情况,所以在线程 DUMP中,也不会包含关于 Lock的信息,关于死锁等问题,就不如用 synchronized的编程方式容易识别。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: