1.使用 top 定位到占用CPU高的进程 PID 然后按 shift+p 按照 CPU 排序
top 命令是 Linux 下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于 Windows 的任务管理器
第一行,任务队列信息,同 uptime 命令的执行结果
系统时间:07:27:05 运行时间:up 1:57 min, 当前登录用户: 3 user 负载均衡(uptime) load average: 0.00, 0.00, 0.00 average 后面的三个数分别是 1 分钟、5 分钟、15 分钟的负载情况。 load average 数据是每隔 5 秒钟检查一次活跃的进程数,然后按特定算法计算出的数值。如果这个数除以逻辑 CPU 的数量,结果高于 5 的时候就表明系统在超负荷运转了
第二行,Tasks — 任务(进程)
总进程:150 total, 运行:1 running, 休眠:149 sleeping, 停止: 0 stopped, 僵尸进程: 0 zombie
第三行,cpu 状态信息
0.0%us【user space】— 用户空间占用 CPU 的百分比。 0.3%sy【sysctl】— 内核空间占用 CPU 的百分比。 0.0%ni【】— 改变过优先级的进程占用 CPU 的百分比 99.7%id【idolt】— 空闲 CPU 百分比 0.0%wa【wait】— IO 等待占用 CPU 的百分比 0.0%hi【Hardware IRQ】— 硬中断占用 CPU 的百分比 0.0%si【Software Interrupts】— 软中断占用 CPU 的百分比
第四行,内存状态
1003020k total, 234464k used, 777824k free, 24084k buffers【缓存的内存量】
第五行,swap 交换分区信息
2031612k total, 536k used, 2031076k free, 505864k cached【缓冲的交换区总量】
可用内存=free + buffer + cached 对于内存监控,在 top 里我们要时刻监控第五行 swap 交换分区的 used,如果这个数值在不断的变化,说明内核在不断进行内存和 swap 的数据交换,这是真正的内存不够用了。 第四行中使用中的内存总量(used)指的是现在系统内核控制的内存数, 第四行中空闲内存总量(free)是内核还未纳入其管控范围的数量。 纳入内核管理的内存不见得都在使用中,还包括过去使用过的现在可以被重复利用的内存,内核并不把这些可被重新使用的内存交还到 free 中去,因此在 linux 上 free 内存会越来越少,但不用为此担心。
更多 Linux 内核视频资料免费·领取后台私信【
内核
】自行获取。第六行,空行
第七行以下:各进程(任务)的状态监控
PID — 进程 idUSER — 进程所有者 PR — 进程优先级 NI — nice 值。负值表示高优先级,正值表示低优先级 VIRT — 进程使用的虚拟内存总量,单位 kb。VIRT=SWAP+RESRES — 进程使用的、未被换出的物理内存大小,单位 kb。RES=CODE+DATASHR — 共享内存大小,单位 kbS —进程状态。D=不可中断的睡眠状态 R=运行 S=睡眠 T=跟踪/停止 Z=僵尸进程%CPU — 上次更新到现在的 CPU 时间占用百分比%MEM — 进程使用的物理内存百分比 TIME+ — 进程使用的 CPU 时间总计,单位 1/100 秒 COMMAND — 进程名称(命令名/命令行)
详解
VIRT:virtual memory usage 虚拟内存 1、进程“需要的”虚拟内存大小,包括进程使用的库、代码、数据等 2、假如进程申请 100m 的内存,但实际只使用了 10m,那么它会增长 100m,而不是实际的使用量 RES:resident memory usage 常驻内存 1、进程当前使用的内存大小,但不包括 swap out2、包含其他进程的共享 3、如果申请 100m 的内存,实际使用 10m,它只增长 10m,与 VIRT 相反 4、关于库占用内存的情况,它只统计加载的库文件所占内存大小 SHR:shared memory 共享内存 1、除了自身进程的共享内存,也包括其他进程的共享内存 2、虽然进程只使用了几个共享库的函数,但它包含了整个共享库的大小 3、计算某个进程所占的物理内存大小公式:RES – SHR4、swap out 后,它将会降下来 DATA1、数据占用的内存。如果 top 没有显示,按 f 键可以显示出来。2、真正的该程序要求的数据空间,是真正在运行中要使用的。 top 运行中可以通过 top 的内部命令对进程的显示方式进行控制。内部命令如下:s – 改变画面更新频率 l – 关闭或开启第一部分第一行 top 信息的表示 t – 关闭或开启第一部分第二行 Tasks 和第三行 Cpus 信息的表示 m – 关闭或开启第一部分第四行 Mem 和 第五行 Swap 信息的表示 N – 以 PID 的大小的顺序排列表示进程列表 P – 以 CPU 占用率大小的顺序排列进程列表 M – 以内存占用率大小的顺序排列进程列表 h – 显示帮助 n – 设置在进程列表所显示进程的数量 q – 退出 tops – 改变画面更新周期
top 使用方法:
使用格式: top [-] [d] [p] [q] [c] [C] [S] [s] [n]参数说明: d:指定每两次屏幕信息刷新之间的时间间隔。当然用户可以使用 s 交互命令来改变之。 p:通过指定监控进程 ID 来仅仅监控某个进程的状态。 q:该选项将使 top 没有任何延迟的进行刷新。如果调用程序有超级用户权限,那么 top 将以尽可能高的优先级运行。 S:指定累计模式。 s:使 top 命令在安全模式中运行。这将去除交互命令所带来的潜在危险。 i:使 top 不显示任何闲置或者僵死进程。 c:显示整个命令行而不只是显示命令名。
此时发现如果是 Java 的进程占用过高,并且一直下不来,则排查是什么线程导致占比过高。以图中进程举例,假如发现 PID 为 31357 的 Java 进程占 CPU 比一直很高,则记录下它的 PID
2.查看 Java 进程里面的线程的占用情况
top -H -p 31357 然后按 shift+p 按照 CPU 排序
说明:-H 指显示线程,-p 是指定进程
可以看到 CPU 占用较高的线程,记下他们的 PID,假设这里 31357 的 CPU 占比一直是 50%
或者是再用 ps -mp pid -o THREAD,tid,time 查询进程中,那个线程的 cpu 占用率高 记住 TID将查找到的 线程占用最高的 tid 上图中 29108 转成 16 进制 — 71b4
3.通过 jstack 命令获取占用资源异常的线程栈,可暂时保存到一个文件中查看jstack 31357 > jstack.31357.log
以上能看到指定线程的堆栈信息。如果想看到关于线程中的
锁的附加信息
,可以加一个-l 参数4.上面方法用于进程正常情况下的堆栈打印
用 jstack -l 命令没有响应,估计是 CPU 一直站着不能执行正常的命令,根据提示[The -F option can be used when the target process is not responding]只能放大招了。
jstack -F “PID” > jstack.“PID”.txt
吐出的实际日志结果如下:
发现一大坨线程阻塞了,有用的结果在这里:
显然一直在跑的是 19576 这个线程,一直在执行 EXCEL 导出的相关方法,问题就出在这里,下面的任务就是排查这个地方的代码逻辑了。
jstack 命令格式:
jstack [ option ] pid
参数说明:
-F jstack [-l] pid 无法响应时,强制打印堆栈-l l 长列表. 打印关于锁的附加信息,例如属于 java.util.concurrent 的 ownable synchronizers 列表.-m 混合模式输出(包括 java 和本地 c/c++片段)堆栈。pid: java 应用程序的进程号5jps 命令查看 java 进程的 pid 更实用命令格式
jps [ options ] [ hostid ]
参数说明:
-m 输出传递给 main 方法的参数,如果是内嵌的 JVM 则输出为 null。-l 输出应用程序主类的完整包名,或者是应用程序 JAR 文件的完整路径。-v 输出传给 JVM 的参数。三个参数加在一起显示更详细的信息:
发现这些 Java 进程的启动参数中开放了 JMX 的远程端口,正常情况下可以通过 jconsole 远程连接过去看到 JVM 的日常参数。比如本地访问上图中的 pay.war 进程: